Manual de Pruebas de Inteligencia y Aptitudes

MANUAL DE
PRUEBAS
DE INTELIGENCIA
Y APTITUDES
Kathia Maria Costa Neiva

MANUAL DE
PRUEBAS
DE INTELIGENCIA
Y APTITUDES

Diseño de portada: Fernando A. Colmenero
Primera edición: junio de 1996
MANUAL DE PRUEBAS DE
INTELIGENCIA Y APTITUDES
© Universidad Iberoamericana
© Kathia Maria Costa Neiva
© Plaza y Valdés, S.A. de C.V.
Derechos exclusivos de edición reservados para

todos los países de habla española. Prohibida la
reproducción total o parcial por cualquier medio, sin
autorización escrita por los editores.
Este libro es una coedición entre

la Editorial Plaza y Valdés y la
Universidad Iberoamericana
Editado en México por Plaza y Valdés editores

Manuel María Contreras No. 73 Col. San Rafael
México D.F. Tel. 705-00-30
ISBN: 968-856-466-4
HECHO EN MEXICO
A mi padre
de quien heredé el gusto por leer y escribir
A mi madre
de quien heredé el ser emprendedora y
perseverante
A Edi, Tais y Tiago
quienes siempre me han apoyado en mis
proyectos profesionales
ÍNDICE GENERAL
Prólogo 9
Introducción 11
Agradecimientos 13
PRIMERA PARTE: Aspectos métricos de las

pruebas psicológicas 15
Capítulo I Las pruebas psicológicas 17
Capítulo II Construcción y evaluación de las
pruebas psicológicas 27
Capítulo III Unidades de calificación de las pruebas
psicológicas 47
SEGUNDA PARTE: Inteligencia 59

Capítulo IV La inteligencia 61
Capítulo V Escala de Inteligencia Stanford-Binet 67
Capítulo VI Escala de Inteligencia para adultos
de Wechsler (WAIS) 75
Capítulo VII Escala de Inteligencia para el nivel
escolar de Wechsler (WISC) 105
Capítulo VIII Escala de Inteligencia para los niveles
preescolar y primario de Wechsler (WPPSI) 127
Capítulo IX Beta II-R 137
Capítulo X Test de Matrices Progresivas (Raven) 145
Capítulo XI Test de Dominós 153
Capítulo XII Test de Goodenough 159
TERCERA PARTE: Aptitudes 171

Capítulo XIII Las Aptitudes 173
Capítulo XIV Pruebas de Aptitud Diferencial (DAT) 177
7
Capítulo XV Prueba de Clasificación de Aptitudes
de Flanagan (FACT) 195
BIBLIOGRAFÍA 203
PROLOGO
Con el propósito de que los estudiantes de psicología pongan en
práctica los conocimientos teóricos adquiridos previamente sin
ambigüedades ni contradicciones, el presente manual de pruebas
de inteligencia y aptitudes, pretende organizar y aclarar dos de
las variables más investigadas dentro de la psicología.
Cabe señalar que los tests psicólogicos son de las

herramientas más utilizadas en el quehacer profesional, por lo
que resulta imprescindible conocer el orden y desarrollo de las
pruebas, aplicar los aspectos metodológicos implicados en la
medida, aplicar, interpretar e integrar a una batería de pruebas y
desarrollar una posición ética con respecto a su utilización.
Deseo felicitar a la Dra. Kathia Ma. Costa Neiva, ya que ha

podido transmitirnos su experiencia acumulada como profesora
de psicometría por 4 años y medio en esta Universidad.
Estoy seguro que el presente manual facilitará la

comunicación entre maestros y alumnos y promoverá un
aprendizaje significativo a todo aquel que lo consulte.
Antonio Tena Suck
9
INTRODUCCIÓN
La idea de construir un manual sobre pruebas psicológicas
surgió de mi experiencia como profesora de Psicometría de la
Universidad Iberoamericana - México D.F. La necesidad de
textos claros, organizados y resumidos que facilitaran la tarea de
los profesores me llevó a la elaboración de este primer manual
sobre Pruebas de Inteligencia y Aptitudes. Mi interés es que éste
sea el primer manual de una serie sobre Pruebas Psicológicas.
Los tests psicológicos constituyen uno de los instrumentos

básicos de trabajo del Psicólogo. Son utilizados en las distintas
áreas de la Psicología: Clínica, Educativa, Industrial,
Comunitaria. Son necesarios en tareas como: psicodiagnóstico,
orientación vocacional, selección de personal, investigación,
entre otras. Por ello, conocerlos, saber aplicarlos, evaluarlos,
interpretarlos, y criticarlos es imprescindible.
El objetivo del presente manual es proveer a los Psicólogos y
alumnos de Psicología una fuente de consulta, clara, sucinta y
organizada sobre algunas de las pruebas de inteligencia y aptitudes
más utilizadas. No se pretende, de manera alguna, que éste sustituya
a los manuales de las pruebas. La intención es que sirva como una
primera aproximación al conocimiento de éstas y que facilite la tarea
de los psicólogos, en los momentos en que necesiten decidir sobre la
utilización de una u otra prueba psicológica, proporcionando la
información esencial para la toma de una decisión.
Este manual está dividido en tres partes. La primera parte
—Aspectos métricos de las pruebas psicológicas— tiene como
objetivo introducir al tema proveyendo la información básica
sobre los tipos de pruebas y los procedimientos de construcción,
evaluación y calificación de las mismas. Estas
11
informaciones son de gran importancia para la comprensión y

análisis de las distintas pruebas que serán presentadas en las dos
otras partes del manual.
La segunda parte —Inteligencia — provee una introducción al
concepto de inteligencia y la información básica sobre varias de
las pruebas de inteligencia frecuentemente utilizadas por los
psicólogos.
La tercera parte —Aptitudes — esclarece sobre el concepto de
aptitud y proporciona la información básica sobre algunas de las
baterías de aptitudes múltiples más utilizadas.
Se espera que la presente obra, sea de gran utilidad a todos los
profesionistas interesados en el campo de la Psicometría y que
facilite su quehacer profesional.

Noviembre 1995
12
AGRADECIMIENTOS
Deseo manifestar mi agradecimiento a la Universidad
Iberoamericana y en especial al Dr. José Gómez del
Campo, director del Departamento de Psicología, por
apoyar la publicación de este manual; al Mtro. Antonio
Tena Suck, coordinador del Departamento de Psicología,
por animarme a escribirlo, por revisar cuidadosamente el
manuscrito origi-nal y aportar sugerencias interesantes y al
Arq. Alejandro Robles Oyarzun, subdirector de Difusión
Universitaria, por agilizar la publicación del mismo.
Deseo también agradecer a la Dirección General de
Orientación Vocacional de la UNAM y muy especialmente
a su director, Dr. Ramón Alberto Ruiz Tapia, por permitir
el acceso al material sobre la Prueba Diferencial de Apti-
tudes "PROUNAM" y autorizar la mención de dicha
prueba en este manual. Asimismo, agradezco al Dr. Lucio
Cárdenas, Jefe del Proyecto del PROUNAM, por su
disponibilidad en proveerme la información necesaria y
revisar la parte del manuscrito relacionada a esta prueba.
Por último, quisiera manifestar mi profundo
agradecimiento a todos mis alumnos de Psicometría que
con sus comentarios, dudas y cuestionamientos me
motivaron e incentivaron a escribir este manual.
13
PRIMERA PARTE
ASPECTOS METRICOS DE
LAS PRUEBAS
PSICOLOGICAS
CAPITULO I
LAS PRUEBAS PSICOLÓGICAS
Son muchas las definiciones propuestas para el término "prueba
psicológica". Sintetizándolas, puede considerarse que una
prueba psicológica es un instrumento de medición psicológica
que posee tres características fundamentales:
1. Sirve de estímulo para extraer un segmento de la conducta
de un sujeto.
2. Es rigurosamente estandarizado, o sea se construye, se
administra y se califica según reglas preestablecidas.
3. Permite comparar estadísticamente la conducta de un
sujeto con un grupo de sujetos de una población definida y
clasificarla cuantitativa, cualitativa y/o tipológicamente.
Así, la medición de una conducta implica "la utilización de
determinados procedimientos (operaciones), según reglas
especificadas, para obtener como resultado la asignación de
valores numéricos a la ejecución de una persona" (Brown, 1980,
p.8)
La función básica de las pruebas psicológicas es medir diferencias
de conducta entre los individuos o diferencias en la conducta de un
mismo individuo en distintos momentos (Anastasi, 1978).
A. ORÍGENES
Aunque puede considerarse que Platón y Aristóteles fueron los

pioneros de la medición psicológica, ésta adquirió
importancia en el siglo XIX, con el aumento de la preocupación
por la identificación y clasificación de retrasados mentales. La
obra publicada en 183 8, por el médico francés Esquirol,
17
sobre retraso mental, sus procedimientos para constituir algún

sistema de clasificación de los diferentes grados de retraso y las
técnicas de adiestramiento muscular y de los sentidos propuestos
por Seguin en 1866, constituyeron los primeros pasos para la
elaboración de una medida de la inteligencia.
Sin embargo, fue Galton, en Inglaterra, quién, interesado en

estudiar la herencia humana, ideó las primeras pruebas, para que
fueran utilizadas en el laboratorio antropométrico que estableció
en la Exposición Internacional de 1884. Estas, eran pruebas
sensomotoras que medían básicamente agudeza visual y auditiva,
energía muscular, tiempo de reacción, etc. El creía que las
mismas podían servir para medir la capacidad intelectual. Galton
contribuyó aun al desarrollo de métodos estadísticos para análisis
de datos sobre las diferencias individuales y estuvo entre los
primeros a aplicar las escalas de estimación (rating scales), los
métodos de cuestionario y la técnica de asociación libre. En sus
libros El genio Heredado e Investigación del desarrollo de las
facultades humanas relató sus ideas sobre las diferencias
individuales y sus primeros intentos por medirlas.
La expresión test mental apareció por primera vez en un

artículo escrito por el psicólogo americano Cattell en 1890,
donde describía las pruebas aplicadas a estudiantes universitarios
para evaluar su nivel intelectual. Estas pruebas medían
capacidades sensoriales y otras funciones simples como:
velocidad de movimiento, sensibilidad al dolor, energía
muscular, agudeza de la vista y del oído, discriminación de
pesos, tiempo de reacción, memoria, etc.
En este mismo período, el psicólogo experimental Alfred
Binet, investigó activamente, junto con sus colaboradores,
métodos de evaluación de la capacidad intelectual. Pero fue en
1905 que, comisionado por la Secretaria de Educación Pública
del gobierno francés para estudiar la educación de
18
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
niños retrasados mentales, elaboró junto con Simon la primera

escala Binet-Simon. Esta escala contenía 30 problemas en orden
creciente de dificultad que medían, entre otras, funciones como:
razonamiento, juicio y comprensión. En la segunda escala
(1908), se aumentó el número de tests, aunque se eliminaron
algunos de la primera versión considerados no satisfactorios.
Además, se agruparon los tests en niveles de edad, lo que
permitió que la puntuación obtenida por un niño pudiera ser
expresada como una edad mental (edad de los niños normales
a
cuya ejecución se igualaba). La 3 versión (1911) presentó
cambios menores: se añadieron tests en varios niveles de edad y
la escala se extendió hasta el nivel adulto. El Binet-Simon
obtuvo gran éxito, habiendo sido traducido y adaptado a varios
idiomas. La revisión más conocida fue realizada en E. U. A. por
Terman en la Universidad de Stanford y se llamó Stanford-Binet
(1916). En esta última fue utilizada por primera vez la noción de
cociente de inteligencia (C.I.) obtenido por la fórmula: C.I.=
Edad Mental/ Edad cronológica x 100. Otra revisión fue hecha
en 1912 por Kuhlmann, quién extendió la escala hasta el nivel de
edad de 3 meses.
Con el desarrollo de los tests surgieron las primeras oficinas

de Orientación Vocacional: Munich (1902), Francia (1906),
E.U.A. (1908), Bélgica (1914), España (1916), Inglaterra
(1920), etc.
Los tests colectivos de inteligencia aparecieron en 1917,
cuando los E. U. A. decidieron participar en la primera guerra
mundial y necesitaron clasificar intelectualmente millón y
medio de reclutas. Los más utilizados fueron el Alfa y Beta, el
primero se destinaba a la población general y el segundo era
empleado con analfabetos y extranjeros que no dominaban el
inglés. La segunda revisión del Beta (Beta II-R) es utilizada
actualmente.
A partir de la primera guerra las pruebas psicológicas
19
experimentaron un gran avance. Además de los tests de

inteligencia, que eran principalmente verbales, se desarrollaron
tests de aptitudes específicas, de rendimiento y de personalidad.
Los tests de aptitudes específicas fueron construidos sobre

todo para la orientación y selección profesional. Los más
utilizados medían aptitudes mecánicas, burocráticas, musicales
y artísticas. Los avances metodológicos, principalmente el
análisis factorial, aportaron mucho a la elaboración de tests y en
especial al desarrollo de las baterías de aptitud múltiple, que
aparecieron a partir de 1945. Otra vez la labor de los psicólogos
militares en la segunda guerra mundial fue determinante para la
evolución de las pruebas psicológicas.
B. TIPOS DE PRUEBAS
Las pruebas psicológicas pueden clasificarse desde diversos

puntos de vista. Compilando las ideas de algunos autores
(Morales, 1973; Anastasi, 1978; Brown, 1980) se proponen las
siguientes dimensiones de clasificación:
1) Según la conducta que miden:

• Pruebas de inteligencia
• Pruebas de aptitudes/habilidades
• Pruebas de personalidad/temperamento
• Pruebas de intereses/preferencias
• Pruebas de valores
• Pruebas de actitudes
• Pruebas de rendimiento
• Pruebas psicomotoras
• Pruebas situacionales
2) Según el objetivo:
. Pruebas de potencia o ejecución máxima - Exigen del
20
examinado su máximo rendimiento en las distintas tareas que

componen la prueba. Este es el caso de las pruebas de
inteligencia, habilidades, aptitudes específicas o múltiples y de
rendimiento.
- Pruebas de ejecución o rasgos (ejecución típica) - Estas
también son llamadas pruebas de clasificación tipológica o
cualitativa. En esta clasificación se sitúan las escalas o
inventarios de personalidad, tests de ajuste, de temperamento,
de intereses o preferencias, de valores, de actitudes, técnicas
proyectivas, pruebas situacionales, etc.
3) Según la forma o el tipo de respuesta exigida:

• Pruebas objetivas - Son aquellas en que el examinado
elige una respuesta entre varias alternativas (reactivos de
comparación, verdadero/falso o elección múltiple). Este es
el caso de las pruebas de inteligencia y aptitudes.
- Pruebas subjetivas - Son aquellas en que el sujeto
proporciona libremente la respuesta, como en las pruebas de
personalidad, especialmente en las proyectivas como Rorschach,
TAT (Prueba de Apercepción Temática), Frases Incompletas de
Sacks, etc.
4) Según la forma de administración:

• Pruebas de aplicación individual
• Pruebas de aplicación colectiva
• Pruebas autoadministrables
5) Según la libertad de ejecución:

• Pruebas de poder - Son aquellas que exigen que el sujeto
emplee toda su capacidad, realice lo más que pueda. El tiempo
límite a veces es controlado, pero cuando esto sucede, se
considera que éste es suficiente para que el sujeto demuestre su
máxima capacidad.
. Pruebas de velocidad - Son las que exigen que el sujeto
21
ejecute la tarea asignada, lo más rápido posible. La duración de la

prueba es rigurosamente controlada, existe un tiempo límite
estricto.
6) Según el material utilizado en la prueba:

• Prueba de lápiz-papel
• Prueba completamente verbal
• Prueba de ejecución (material visomotor)
• Pruebas mixtas (combinación de diferentes materiales)
7) Según la forma de dar las instrucciones:

• Orales
• Escritas
8) Según la forma de calificación:

• Manual
• Informatizada
9) Según la población a la que se destina:

• Pruebas para bebés (baby-tests)
• Pruebas para niños preescolares
• Pruebas para niños escolares
• Pruebas para adolescentes
• Pruebas para adultos
• Pruebas que se aplican a dos o más etapas del desarrollo
Una prueba psicológica combina varias de estas dimensiones (de

inteligencia, para adultos, de poder, verbal, etc.) o diferentes
aspectos de una misma dimensión (prueba verbal y de ejecución,
para adolescentes y adultos, etc.)
C. USOS DE LAS PRUEBAS
Una pruebapsicológica puede ser empleada con diferentes finalidades:
22
• Evaluación: por ejemplo en el caso de evaluarse el

rendimiento académico de alumnos.
• Clasificación: cuando, por ejemplo, se clasifica
intelectualmente a los niños de un determinado grado escolar.
• Selección: cuando se seleccionan candidatos para un
puesto o alumnos para la universidad.
• Diagnóstico: cuando se busca estudiar áreas del
comportamiento de un sujeto para detectar o no dificultades
específicas.
• Investigación: cuando se busca verificar hipótesis,
como por ejemplo, si el nivel de ansiedad de jóvenes
drogadictos es más alto que el de jóvenes no drogadictos.
Se constata pues, que las pruebas psicológicas pueden
ser utilizadas en las distintas áreas de la Psicología: clínica,
educacional, industrial y social. Algunas son específicas de
una sola área, otras pueden servir a cualquiera de ellas.
En el área clínica, las pruebas no solo son utilizadas
bási-camente para diagnosticar aspectos del
comportamiento normal y patológico, sino también para
evaluar intervenciones terapéuticas.
En el área escolar, son muchos los empleos:
clasificación de alumnos (nivel intelectual, rendimiento
escolar), homogeneidad de los grupos, detección de
problemas de aprendizaje, orientación vocacional,
evaluación psicomotora, etc.
En el área industrial son utilizadas para selección,
clasificación y promoción de personal, evaluación de
capacitación, evaluación de productividad y calidad del
trabajo, evaluación de la propia organización, etc.
En el área social son empleadas sobre todo para comprender y
evaluar los procesos grupales y los patrones culturales y sociales.
Finalmente, en cualquiera de estas áreas las pruebas
psicológicas pueden ser utilizadas con fines de
investigación científica.
23
D. ASPECTOS ÉTICOS
Son muchas las medidas adoptadas para controlar el uso

inadecuado de las pruebas psicológicas. El Código de Etica
Profesional del Psicólogo Ethical Principles of Psycholo-gists
and Code of Conduct y el Standards for Educational and
Psychological Testing, ambos editados por la A.P.A. (American
Psychological Association), contienen varios principios que
reglamentan la publicación, distribución y utilización de las
pruebas psicológicas. Todo psicólogo debe tener conocimiento de
estos principios y cuidar que los mismos sean rigurosamente
cumplidos, puesto que, son éstos los que permiten conservar la
credibilidad en las pruebas. En seguida se mencionan algunos
puntos éticos importantes apuntados por Anastasi (1978):
• La venta, distribución y utilización de los tests debe

restringirse a personas calificadas para ello.
• No debe venderse un test en el mercado sin que éste esté
suficientemente validado a través de investigaciones.
• No deben publicarse en periódico, revista o libro popular,
ni tests ni parte de ellos.
• No deben realizarse tests por correo, ni tampoco enviar
resultados de los mismos.
• La aplicación, calificación, interpretación y comunicación
de los resultados de tests debe ser realizada por persona
debidamente calificada y entrenada.
• Todo test debe disponer de un manual que contenga
informaciones detalladas sobre su aplicación, calificación e
interpretación, datos precisos de confiabilidad y validez, además
de tablas de normas con información sobre el número y
naturaleza de los sujetos a partir de los cuales las mismas se
establecieron. El manual debe ser una exposición objetiva sobre
el test y no un instrumento de publicidad que busque presentarlo
de manera más favorable.
24
• Es imprescindible aclarar al examinado sobre el objetivo

del test y la forma en que serán utilizados sus resultados.
• Los resultados obtenidos en un test solo pueden ponerse a
disposición de terceros bajo dos condiciones: a) el examinado
debe consentir que se proporcione la información; b) la persona
a la que se transmite debe tener una necesidad legítima de la
información (por ejemplo, profesores o futuros patrones). Sin
embargo, hay algunos casos especiales, como:
a) en circunstancias que puedan implicar peligro para un
individuo o sociedad, el psicólogo tiene obligación de revelar la
información a profesionales o autoridades públicas; b) el
psicólogo está obligado a revelar la información de un test a los
padres o guardianes de un menor o a las autoridades de su
escuela.
Los puntos arriba mencionados no agotan las medidas
propuestas en el Código de Etica Profesional del Psicólogo.
Además, cada uno de ellos implica discusiones éticas
importantes y debe ser sujeto de reflexión por parte de todo
psicólogo o estudiante de Psicología. Proteger la intimidad de
sus clientes y la credibilidad de su material de trabajo es parte
del quehacer profesional del psicólogo.
Referencias bibliográficas
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)

Madrid: Editorial Aguilar.
Brown, F.G. (1980). Principios de medición en Psicología y
Educación. México D.F.: Editorial El Manual Moderno.
a a
Morales, M.L. (1993). Psicometría Aplicada (2 ed., 2 reimpre-
sión) México D.F.: Editorial Trillas.
25
CAPITULO II
CONSTRUCCIÓN Y EVALUACIÓN DE LAS

PRUEBAS PSICOLÓGICAS
Toda prueba psicológica es construida de tal manera que
represente o pueda predecir una determinada conducta. Según
Brown (1980) una prueba psicológica es una representación
cuando sus reactivos son similares a la conducta que desea
medir y es predictiva cuando sus reactivos, aunque no son
similares a la conducta, pueden predecirla.
Por lo tanto, la construcción de los reactivos de una prueba es
fundamental, así como su análisis y comprobación. Conocer
exactamente lo que se quiere medir es muy importante para la
construcción de "buenos reactivos". Al elaborarse una prueba, se
proponen inicialmente una buena cantidad de reactivos, de los cuales
solo se quedan aquellos que realmente miden lo que se pretende
medir. Bacher (1981) advierte sobre los errores sistemáticos
queocurren en la construcción de reactivos y hace varias sugerencias,
entre ellas: (a) el vocabulario debe ser simple, accesible a todos,
(b) se deben evitar los términos técnicos y palabras cuyo sentido
varíe según la región o el grupo social, (c) se deben evitar formulaciones
muy abstractas pues pueden ser mal comprendidas, (d) se deben evitar
reactivos muy largos, sobre todo cuando son formulados en
la forma interrogativa o cuando contengan negaciones, (d) en la
formulación de los reactivos, se debe evitar favorecer
determinadas respuestas volviendo las demás menos probables,
(e) no debe figurar en la formulación de un reactivo más de una
idea pues, es imposible saber a cuál de ellas contesta el sujeto.
27
No es el propósito de este manual proveer mayores detalles

sobre la construcción de las pruebas sino informar sobre los
diferentes procedimientos de evaluación y comprobación de las
mismas, para que se puedan analizar los límites de éstas.
A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS
El primer procedimiento para analizar los reactivos de una prueba

consiste en aplicársela a una muestra de personas, similares a las
que se pretenden examinar con la misma, para verificar la
reacción de éstas ante el instrumento. Con esta aplicación puede
verificarse el nivel de dificultad de la prueba, el poder de
discriminación de sus reactivos así como ambigüedades en éstos.
El nivel de dificultad de la prueba depende de sus reactivos y
de su distribución en la prueba (Anastasi, 1978). Este puede ser
verificado a través de la distribución de las puntuaciones totales
de una muestra de sujetos. Un nivel de dificultad normal
proporciona una curva de distribución de las puntuaciones
semejante a la curva normal (figura 2.1), donde hay una
acumulación de sujetos en el centro (puntuaciones medianas) y
una disminución gradual de sujetos al acercarse de los extremos
de la curva (puntuaciones altas o bajas).
Figura 2.1: Curva de distribución normal
Si la prueba es muy difícil, la curva de distribución de las

puntuaciones de los sujetos presenta una acumulación en el extremo
28
inferior o sea gran número de sujetos con puntuaciones bajas (figura

2.2). Esto indica que faltan a la prueba suficientes reactivos fáciles.
Sin embargo, cuando la prueba es muy fácil, la acumulación de
puntuaciones se da en el extremo superior (puntuaciones altas) y por
lo tanto le faltan reactivos difíciles (figura 2.3).
Figura 2.2 Figura 2.3

Distribución desviada Distribución desviada
(a la izquierda) (a la Derecha)
Cuando sucede uno de los dos casos arriba mencionados suele

modificarse el nivel de dificultad de la prueba hasta que la gráfica
de distribución de las puntuaciones se aproxime a la curva normal.
Para tal, se pueden añadir reactivos más fáciles o más difíciles,
cambiar la posición de reactivos, eliminar o modificar reactivos,
revisar pesos o ponderaciones de las puntuaciones asignadas a
determinadas respuestas, etc. (Anastasi, 1978).
La verificación del poder discriminative de los reactivos es
hecha a través de un análisis estadístico que "indica la amplitud con
la que el reactivo mide lo que debe medir" (Brown, 1980, p. 31). El
procedimiento más común es el que, utilizando la calificación de la
prueba como medida de criterio, correlaciona las respuestas a los
reactivos individuales con las calificaciones totales obtenidas en la
prueba. Se supone que las personas que obtuvieron calificaciones
totales altas respondieron a un reactivo en forma correcta con
mayor frecuencia que aquellas que obtuvieron calificaciones totales
bajas. Si esto ocurre, el reactivo es considerado "bueno", o sea que
discrimina relativamente bien lo que se desea medir.
29
Un tercer procedimiento en el que se verifica el porcentaje de

personas que seleccionan cada una de las respuestas alternativas
de un reactivo. Las respuestas que son muy poco o nunca
escogidas deberán ser revisadas, pues indican que no contribuyen
al poder discriminativo del reactivo (Brown, 1980).
Algunos otros procedimientos también son útiles dependiendo del
objetivo y tipo de prueba como: interrelaciones entre reactivos;
interrelaciones entre reactivos y las diferentes subescalas de una
prueba; efectos de diferentes límites de tiempo, etc.
En general, estos procedimientos son realizados en dos
muestras independientes (validación cruzada) para eliminar
variaciones provenientes de errores en el muestreo.
B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA
El análisis de laprueba, como un todo, supone distintos

procedimientos, que objetivan la minimización de los efectos de
variables que pudieron intervenir en la medición. En otras palabras
supone el control de los errores.
1. Estandarización
Este proceso, también llamado por algunos autores tipificación,

implica la utilización del mismo material de prueba (o equivalente)
bajo un procedimiento uniforme de aplicación y puntuación
(Anastasi, 1978). Solo así pueden compararse los resultados
obtenidos por distintos sujetos en una misma ocasión o por un
mismo sujeto en distintas ocasiones.
En primer lugar, el material de la prueba debe ser siempre el
mismo, o comprobadamente equivalente.
En segundo lugar, las condiciones de aplicación deben también
ser, en la medida de lo posible idénticas. Para tal, las instrucciones
de aplicación, las demostraciones previas, los límites de tiempo, las
formas de resolver dudas, la disposición del material, etc. deben
30
ser rigurosamente las mismas para todos los sujetos. Por ello, el
manual de una prueba debe proveer estas informaciones con el
máximo de detalles. Además, el aplicador debe cuidar aspectos
como: tono e inflexión de voz, expresión facial, reacciones
verbales del tipo "sí" o "bien" quepueden dar la connotación de
"correcto", entre otros. El ambiente de la aplicación debe
proporcionar las condiciones físicas adecuadas para que el
resultado del sujeto no se vea afectado por variables extrañas
como: falta o exceso de luz, ruidos, intervenciones, etc.
Finalmente, el procedimiento de calificación debe ser lo más
uniforme posible. Se necesita para tal un alto grado de objetividad
en la puntuación y calificación de las respuestas de los sujetos. En
pruebas que utilizan reactivos de elección múltiple es más fácil
garantizar esta objetividad. Sin embargo, los reactivos que suponen
una respuesta libre del sujeto son más vulnerables. En este caso, es
importante que el manual de la prueba proporcione indicaciones
detalladas para la asignación de calificaciones y que los
calificadores sean debidamente entrenados para esta tarea.
Otro aspecto importante de la estandarización del procedimiento
de puntuación es el establecimiento de normas. "Una norma es
la actuación media o normal" (Anastasi, 1978, p. 24) de un grupo
de personas similar al que se destina la prueba. Al aplicarse la
prueba a este grupo llamado norma de estandarización, muestra
de tipicación o grupo normativo, se obtiene el promedio de actuación
del grupo, así como los grados de desviación por arriba y por abajo
del promedio. La comparación del resultado de un sujeto con la
norma, permite determinar la posición del mismo con respecto a
este grupo. Muchas veces se necesita comparar el resultado de un
sujeto con diferentes grupos (según el sexo, la edad, el nivel de
escolaridad, la ocupación, etc.) y por lo tanto son necesarios varios
grupos normativos. Además, las normas pueden estar expresadas
en diferentes unidades de calificación: CI de desviación,
percentil, estanina, puntuación T, puntuación Z, etc. El próximo
capítulo tratará con detalles las distintas unidades de calificación.
31
2. Validez
La validez de una prueba es el grado en que ésta mide lo que se
quiere medir y solo lo que se quiere medir (Anastasi, 1978). Existen
tres procedimientos que permiten verificar la validez de una prueba.
La utilización de uno u otro depende del objetivo y tipo de prueba.
2.1. Validez de contenido
Este tipo de validez es utilizado sobre todo en pruebas de

rendimiento/ aprovechamiento, aunque también se aplica a otros
tipos de pruebas psicológicas (Brown, 1980). A través de la validez
de contenido se verifica si los reactivos de la prueba realmente
constituyen "una muestra representativa del universo de las
conductas o de los contenidos" (idem, p. 154) que se quiere medir.
El procedimiento utilizado para verificar la validez de contenido de
una prueba consiste en:
1) Precisar las habilidades, conocimientos y comprensiones
que corresponden al contenido enseñado y que ha sido el objetivo
de un curso o entrenamiento.
2) Examinar cuidadosamente la prueba (muestra de tareas) para
ver qué conocimientos, habilidades y comprensiones requiere.
3) Verificar qué tanto contenido de la prueba representa el
contenido y los objetivos del curso o entrenamiento.
Una prueba válida debe estar compuesta de tareas que representen
al máximo los contenidos y metas de la enseñanza. Este
procedimiento no utiliza ningún índice cuantitativo para verificar la
adecuación de la muestra de tareas; la evaluación se da a través de un
examen detallado y cuidadoso de la misma y por lo tanto implica un
proceso de juicio y razonamiento por parte del evaluador. Brown
(1980) presenta algunos de los inconvenientes que puede presentar
este tipo de validez: a) no poder utilizar un índice cuantitativo para
verificar el grado de relación, b) distintos evaluadores pueden no estar
de acuerdo en cuanto a la validez del contenido de la prueba y c) la
falta de claridad en la precisión del dominio dificultará los juicios
32
de validez de contenido. Murphy y Davidshofer (1994) hacen además

hincapié en el hecho de que "los estudios de validez de contenido no
pueden, por ellos mismos, garantizar la validez de la medida"(p. 113).
2.2. Validez de criterio
Este tipo de validez está relacionado con la predicción de un

resultado específico futuro por ejemplo, el éxito en una futura
ocupación o en un futuro programa de capacitación. Por ello, se
aplica a pruebas utilizadas para pronosticar resultados por medidas
de criterios muy claras y definidas (e .g. tests de selección y
clasificación de personal). Se elige así una medida como criterio
(e.g. desempeño en el empleo) y se verifica cuánto la medida en la
prueba (e.g. prueba de habilidad numérica) se relaciona con la
medida del criterio. Existen varios métodos para verificar la validez
de criterio. El más utilizado supone el siguiente procedimiento:
1) Aplicar la prueba a un grupo, antes de iniciar el desempeño en
un trabajo o de ingresar en un programa de capacitación o curso.
2) Definir un criterio que sirva de valoración del éxito en
el empleo, programa de capacitación o curso y obtener más
tarde, junto al mismo grupo, una medida de este criterio.
3) Calcular la correlación entre la calificación en la prueba y la
calificación en el criterio de valoración del éxito. El coeficiente de
correlación puede variar de -1 a +1. Cuando el valor es cercano a 0
indica que no existe correlación entre las dos medidas. Tanto un
coeficiente positivo cuanto un coeficiente negativo indican una
relación entre las medidas. Un coeficiente positivo indica que
ambas medidas varían en la misma dirección (ambas altas o ambas
bajas), mientras que un coeficiente negativo indica que si una
medida es alta, la otra es baja o viceversa. Tanto mayor es esta
correlación, más efectiva será la prueba para predecir este criterio
y consecuentemente más válida.
La gran dificultad de este procedimiento está en la elección de
un criterio adecuado de valoración. Thorndike (1975) propone
cuatro cualidades que debe tener un criterio de valoración:
33
• Adecuación - Un criterio es adecuado cuando la calificación

de éste está determinada por los mismos factores que determinan
el éxito en el trabajo/curso/tarea. No hay ninguna prueba que
permita verificar la adecuación o no del criterio. Hay que confiar
en el juicio del profesional para elegirlo.
• Exención de prejuicios - la medida del criterio debe
proporcionar, a cada persona, la misma oportunidad de obtener
una buena calificación. Por ello, debe ser exenta de prejuicios del
evaluador.
• Conflabilidad - La medida del criterio debe ser estable y
reproducible para que una prueba cualquiera pueda predecirla. Si
la medida del criterio varía de una situación a otra o de tiempo en
tiempo, ésta no podrá relacionarse con otras medidas y por lo
tanto no habrá prueba que la pueda predecir.
• Disponibilidad - En la elección del criterio debe tomarse en
cuenta los problemas prácticos de su utilización: disponibilidad,
tiempo, costo, etc.
Un segundo método para determinar la validez de criterio es '
'ver si las calificaciones predictoras diferencian a los grupos
específicos por su ejecución en el criterio" (Brown, 1980, p. 133).
Por ejemplo, para determinar si una prueba de habilidad numérica
es un buen predictor del éxito de alumnos en un curso de álgebra,
se debe proceder de la siguiente manera:
1) Dividir los alumnos en dos grupos: los aprobados y
reprobados en el curso de álgebra
2) Comparar las calificaciones, de esos dos grupos, en la prueba de
Habilidad Numérica para verificar si hay una diferencia estadísticamente
significativa entre sus calificaciones. El procedimiento generalmente
utilizado para verificar si la diferencia es significativa es la obtención de
la estadística t. Esta estadística "compara la diferencia en las medias con
la medida del error de muestreo" (Brown, 1980,p. 132). Si el
valor/obtenido es significativo (según las tablas), quiere decir que los dos
grupos tienen calificaciones significativamente diferentes en la prueba.
Un valor t no significativo indica que las calificaciones de la prueba no
discriminan entre los
34
grupos definidos según el criterio y consecuentemente, que la

prueba no es válida.
Un tercer método es la utilización de índices de exactitud en
la toma de decisiones (Brown, 1980). El procedimiento, en este
caso, consiste en:
1) Clasificar las calificaciones de la prueba en dos o más
categorías independientes (ejemplo: fracaso VÍ éxito o aceptable
vs inaceptable)
2) Clasificar, según las mismas categorías, las calificaciones
del criterio
3) Comparar el conjunto de datos
4) Obtener la proporción de decisiones correctas (P dc)
Por ejemplo, el cuadro 2.1 indica las predicciones correctas
(aciertos) e incorrectas (fallas). Se consideran en el cuadro cuatro
grupos formados a través de la comparación de dos categorías de
criterio y dos categorías de la prueba predictiva (éxito vs fracaso).
CUADRO 2.1
Predicciones en las decisiones
Ejecución del criterio
Predicción de la Prueba Psicológica ÉXITO FRACASO
ÉXITO Aciertos (A) Falla (B)
FRACASO Falla (C) Aciertos (D)
Cuando los grupos obtienen éxito o fracaso en ambas medidas, la

de la prueba y la del criterio, se considera una predicción o decisión
correcta o sea un acierto (grupos A y D). Los demás casos son
considerados una falla (grupos B y C). Un índice importante en la
toma de decisiones es la proporción de decisiones correctas(P¿.) en
el total de decisiones. Esta proporción se obtiene a través de la
siguiente fórmula:
35
Los valores A, B, C y D corresponden al número de sujetos de

cada uno de los cuatro grupos y N al total de sujetos. La
proporción de decisiones correctas (P dc) indica la exactitud de las
decisiones y puede ser utilizada como índice de validez de la
prueba.
Brown (1980) comenta sobre las variaciones en este
procedimiento, como la que supone la determinación de la
calificación límite óptima, calificación que separa a los grupos
para producir el número máximo de decisiones correctas.
2.3. Validez de construcción (o validez interna o estructural)
Este tipo de validez verifica el grado en que una prueba mide un

constructo o rasgo teórico. En realidad, no existe un índice
cuantitativo único o sólo un procedimiento de validez de
construcción. La validez se evalúa mediante un conjunto de
evidencias y métodos. Brown (1980) agrupa en cinco categorías la
variedad de técnicas y procedimientos utilizados para establecer la
validez de construcción:
a) Métodos intrapruebas
En esta categoría se encuentran las técnicas utilizadas para estudiar la

estructura interna de una prueba: su contenido, los procesos utilizados
para contestar a las preguntas, la relación entre sus reactivos, la
relación entre las subescalas. Se incluyen en esta categoría desde
procedimientos de validez de contenido hasta estudios de
homogeneidad de la prueba (coeficiente alfa, coeficiente Kuder-
Richardson), que serán examinados más adelante. Estos índices
indican si la prueba mide un solo o varios rasgos.
b) Métodos interpruebas
Estos métodos están diseñados para verificar las relaciones entre

varias pruebas o sea, si éstas miden o no el mismo rasgo. Algunos
de los procedimientos utilizados son:
36
• Validez congruente - En este caso se verifica la

correlación entre las calificaciones de una nueva prueba y las
obtenidas en una otra, ya validada, que mida el mismo rasgo.
Si la correlación es alta significa que ambas pruebas miden el
mismo rasgo y que pueden interpretarse los resultados de la
nueva prueba como los de aquella ya validada.
• Validez factorial - Este es considerado uno de los tipos más
importantes de validez. Es verificada a través de un procedimiento
estadístico—el análisis factorial—que permite determinar "cuantos
factores (construcciones) se necesitan para explicar las
intercorrelaciones entre un conjunto de calificaciones de varias
pruebas" (Brown, 1980, p. 165). El análisis factorial permite
obtener: 1) el número de factores que explican las intercorrelaciones
entre las pruebas, 2) los factores que componen cada prueba y 3) la
cantidad de varianza en las calificaciones de las pruebas que
explican los factores. Así, pueden determinarse las pruebas que
comparten una varianza común y que por lo tanto miden el mismo
factor o sea la misma construcción. Además, la proporción de
varianza total en las calificaciones de la prueba que es atribuida al
factor, puede ser utilizada como índice de validez de construcción.
• Validez discriminante - En este caso el objetivo es verificar
que las calificaciones de una nueva prueba no se correlacionen con
las obtenidas en otras pruebas que miden otros rasgos distintos.
Se demuestra así que la medida de esta nueva prueba es
independiente de la medida de otras construcciones o rasgos.
c) Estudios relacionados con criterios
Este método se basa en la predicción acerca de diferencias entre

grupos, naturalmente separados o diseñados experimentalmente.
Por ejemplo, una teoría sugiere que algunas clases de grupos
deben obtener puntuaciones elevadas o bajas respecto al rasgo
medido por una nueva prueba. Al aplicársela se verificará cuanto
las calificaciones en esta prueba separan a estos grupos, o sea
pueden predecir las diferencias entre ellos.
37
d) Manipulación experimental
En este procedimiento se manipula experimentalmente una variable

y se observa sus efectos sobre las calificaciones de la prueba o la
relación de éstas con algún criterio. Por ejemplo, una teoría puede
sugerir que la expresión de un rasgo o conducta se modificará a
consecuencia de algunas condiciones o tratamientos experimentales.
Se aplica entonces la nueva prueba en la condición experimental
para verificar si las modificaciones previstas ocurren. Sería el caso
de aplicarse una prueba de ansiedad a personas que están por
someterse una operación quirúrgica para verificar si esta prueba
puede detectar el nivel de ansiedad que supuestamente debe
encontrarse aumentado por la inminencia de la cirugía.
e) Estudios de capacidad de generalización
Según Brown (1980) se encuentran en esta categoría los estudios que

"analizan sistemáticamente la prueba sobre una gama de condiciones o
dimensiones —por ejemplo— en una variedad de poblaciones
(transferibilidad) o con diferentes condiciones de administración"(p.
167). El explica con detalles el método propuesto por Campbell y
Fiske llamado Matriz de Multirasgo y Multimétodo. Este
procedimiento consiste básicamente en examinar las correlaciones
entre los mismos rasgos medidos por diferentes métodos (validez
convergente) y las correlaciones entre diferentes rasgos, medidos por
un mismo método (validez discriminante).
3. Confiabilidad
La confiabilidad es el "grado de consistencia de las mediciones

"(Brown, 1980, p.80). Es la consistencia de las puntuaciones
obtenidas por los mismos sujetos cuando son examinados con la
misma prueba o una forma paralela de ésta, en diferentes
ocasiones.
38
Toda medida implica un cierto error. El objetivo de una

prueba psicológica es reducir, al mínimo, el error de medición.
Al reducirlo se eleva el nivel de confíabilidad de la prueba.
Thorndike (1975) apunta cuatro fuentes principales de error
que resultan de:
1) Variaciones surgidas dentro del procedimiento mismo de medición,
que pueden estar relacionadas con las condiciones de aplicación de la
prueba, tales como: la situación física, las instrucciones, los errores en el
registro de tiempo, los factores de distracción, etc.
2) Variaciones en el sujeto mismo, a corto plazo (salud, atención,
motivación, ansiedad, experiencia con la prueba, etc.) o a largo
plazo (maduración, aprendizaje, cambios en su ambiente, etc.).
3) Variaciones procedentes de la muestra específica de tareas
(reactivos) elegidas para representar el área de la conducta que
mide la prueba.
4) Variaciones en la velocidad de trabajo del sujeto.
Existen diferentes procedimientos para examinar la cantidad de
error en la medición, o sea, estimar el grado de consistencia de la
misma. Brown (1980) diferencia dos tipos de consistencia, que
aunque están relacionados, considera útil separar para fines
didácticos. La confiabilidad verifica la consistencia de la medida a
través del tiempo (estabilidad) y a lo largo de formas equivalentes de
la prueba (equivalencia). La homogeneidad o consistencia interna
verifica si todos los reactivos de la prueba miden o no el mismo rasgo.
Serán analizados, por separado, los distintos procedimientos.
3.1. Procedimientos para verificar la confiabilidad de una

prueba psicológica
Existen diferentes procedimientos que permiten verificar el nivel

de confiabilidad de una prueba psicológica:
a) Repetición de la misma prueba (Test/Retest)
Este procedimiento consiste en aplicar la misma prueba dos veces.

39
La medida de confiabilidad es la correlación entre las

calificaciones obtenidas en la primera aplicación y en la
reaplicación. Esta medida se denomina coeficiente de estabilidad.
Este procedimiento puede ser realizado de dos maneras distintas:
• Sin intervalo de tiempo entre las dos mediciones, o sea, la
reaplicación es realizada en seguida de la aplicación. En este caso
son controlados dos tipos de errores provenientes de: (a)
variaciones en el procedimiento mismo de medición y (b)
variaciones en la velocidad de trabajo del sujeto.
• Con intervalo de tiempo entre las dos mediciones, o sea, la
reaplicación se hace después de cierto tiempo, que puede ser de días
o de años. Tres errores son controlados en este procedimiento, que
resultan de: (a) variaciones en el procedimiento mismo de medición,
(b) variaciones en el sujeto de una vez a otra y (c) variaciones en la
velocidad de trabajo del sujeto.
Este tipo de procedimiento no debe ser utilizado en el caso de
rasgos que sean, por principio, inestables o cuando se produzca
algún tipo de aprendizaje diferencial entre las dos aplicaciones
(por ejemplo un programa de estudios o entrenamiento). Otro
problema es el del efecto de la práctica, sobre todo cuando la
aplicación y reaplicación son realizadas sin intervalo de tiempo o
con un intervalo muy corto entre las dos. En este caso "algunas
personas pueden recordar sus respuestas o aprender algo sobre la
técnica de pasar una prueba" (Brown, 1980, p. 85).
b) Aplicación de formas paralelas (o equivalentes) de la prueba
Para este procedimiento hay que disponer de formas equivalentes de

la prueba, que sigan la misma especificación pero que sean
compuestas de muestras separadas de la conducta que se pretende
medir. Las formas paralelas deben por tanto cubrir el mismo
contenido, utilizar el mismo número de reactivos y poseer el mismo
grado de dificultad. La medida de confiabilidad es la correlación
entre las puntuaciones obtenidas en las dos formas de la prueba.
40
Este procedimiento también puede ser realizado de dos maneras:

• Sin intervalo de tiempo entre la aplicación de las dos formas
equivalentes de la prueba. En este caso la correlación entre las dos
medidas ofrece un coeficiente de equivalencia. Los tipos de errores
tomados en cuenta son los que provienen de: (a) variaciones en el
procedimiento mismo de medición, (b) variaciones en la velocidad de
trabajo del sujeto y (c) variaciones procedentes de la muestra de tareas.
• Con intervalo de tiempo entre la aplicación de las dos formas
paralelas de la prueba. La correlación entre las dos medidas ofrece,
en este caso, un coeficiente de estabilidad y equivalencia. Con este
procedimiento puede controlarse los cuatro tipo de errores
mencionados anteriormente, que provienen de: (a) variaciones en el
procedimiento mismo de medición, (b) variaciones en el sujeto de
una vez a otra, (c) variaciones en la velocidad de trabajo y (d)
variaciones procedentes de la muestra de tareas.
El procedimiento que utiliza la aplicación de formas paralelas
con intervalo de tiempo es el que proporciona el coeficiente de
confiabilidad más preciso y riguroso pues permite controlar las
distintas fuentes de error. Por esta misma razón el provee el
coeficiente de confiabilidad más bajo. Sin embargo, él plantea
problemas prácticos importantes, puesto que exige que se
disponga de dos formas paralelas de la prueba y del tiempo
necesario para aplicárselas por separado.
c) Confiabilidad por mitades
Este procedimiento, también llamado de test subdivide (split half),

es el más ampliamente utilizado para estimar la confiabilidad a
partir de una sola administración de la prueba (Thorndike, 1975).
Según Murphy y Davidshofer (1994), este procedimiento soluciona
los dos problemas prácticos del método de formas paralelas: la
dificultad de desarrollar formas paralelas y la necesidad de

tiempo para las aplicaciones.
41
Para realizarlo se aplica la prueba y después se divide en dos

mitades supuestamente equivalentes y equilibradas en relación al
contenido y nivel de dificultad. Para la división puede precederse
de distintas maneras. La más común es la que utiliza los reactivos
pares, en una de las formas, y los impares en la otra. Sin embargo,
este tipo de división no puede ser manejada cuando existe alguna
desviación sistemática en la prueba como por ejemplo, los tipos
alternativos de reactivos o reactivos en que la respuesta depende
de la anterior (Brown, 1980).
La correlación entre las calificaciones de las dos mitades de la
prueba proporciona una estimación de la confiabilidad. Mientras
tanto, como cada conjunto de calificaciones está basado en la mitad
de los reactivos de la prueba original completa y la confiabilidad de
una prueba depende de su longitud, la correlación entre las dos
mitades proporciona una estimación de la confiabilidad inferior a la
que podría esperarse de la prueba original. Para estimar la
confiabilidad de la prueba original completa se utiliza la siguiente
fórmula, propuesta por Spearman-Brown:
en d o n d e c o n f i a b i l i d a d de la prueba original completa

correlación entre las mitades de la prueba
Este procedimiento toma en cuenta solamente dos tipos de errores

provenientes de variaciones en el procedimiento mismo de medición
y variaciones procedentes de la muestra de tareas. Además, presenta
algunas limitaciones como: (a) dos medias pruebas pueden ser más
semejantes que dos formas paralelas separadas; por ejemplo, cuando
los reactivos están basados en un mismo material de referencia —
texto, experimento— pueden provocar distorsiones en el coeficiente
de confiabilidad y (b) este tipo de coeficiente no tiene significado en
pruebas de tiempo limitado donde influya la rapidez; el factor
42
velocidad tenderá a inflar el coeficiente de confiabilidad

(Brown, 1980).
Sin embargo, la utilización de este procedimiento presenta ventajas
prácticas importantes relacionadas a la aplicación de un mismo
material de prueba, sólo una vez. Hay que tomarse también en cuenta
que cuanto mayor sea la muestra de conducta de la persona, tanto más
confiable será la medida. Además, entre mayor sea la muestra de
conducta registrada menos dependerá la medida de elementos fortuitos
en la conducta del sujeto o en la muestra específica de tareas. Por ello,
la utilización de un gran número de reactivos es un medio utilizado
para garantizar la confiabilidad de una prueba.
3.2. Interpretación de coeficientes de confiabilidad
Brown (1980) propone tres modos de interpretación de los

coeficientes de confiabilidad:
• Correlación entre calificaciones reales y obtenidas - Se
puede interpretar un coeficiente de confiabilidad tomando como
base que la proporción de la variancia en las calificaciones
obtenidas representa la variación de las calificaciones reales.
Por ejemplo si r = 0.80, entonces 80% de la variabilidad en las
calificaciones obtenidas se debe a diferencias en las
calificaciones reales y 20% se debe a errores de medición.
• Comparación con la confiabilidad de otras pruebas -
Este es un criterio muy utilizado para decidir si la prueba
puede o no ser considerada confiable. En este caso se
compara el coeficiente de confiabilidad de la prueba con el
nivel de confiabilidad de pruebas similares ya existentes.
• Errores en las calificaciones individuales - Puede interpretarse
el coeficiente de confiabilidad evaluando el cambio que podrá pasar
en la calificación de un sujeto al volver a contestar la prueba. Para
eso hay que verificar cuál es el error estándar de la medición.
Thorndike (1975, p. 204) presenta un cuadro del error estándar de
medición para diferentes valores del coeficiente de confiabilidad.
43
Es importante en la interpretación de un coeficiente de confiabilidad

tener en mente que éste es específico de la muestra utilizada, de la
situación de prueba y del método utilizado para su cálculo. Por eso hay
que verificar la confiabilidad de una prueba en una gran variedad de
situaciones y con diferentes muestras y procedimientos.
3.3. Procedimientos para verificar la homogeneidad de una

prueba psicológica
Los procedimientos para verificar la homogeneidad o consistencia

interna de una prueba buscan determinar el grado de las relaciones
recíprocas entre los reactivos que la componen. Brown (1980, p.
102) afirma que "se puede definir la homogeneidad como la
consistencia en la ejecución de todos los reactivos de una prueba
psicológica". Una correlación positiva entre las calificaciones de
los distintos reactivos de una prueba indica que ésta es
homogénea. Si la prueba está compuesta de subpruebas
heterogéneas, se procede al estudio de la homogeneidad de cada
subprueba, cuyos reactivos deben por tanto ser homogéneos.
Los procedimientos más comunes para verificar la
homogeneidad o consistencia interna de una prueba son:
a) Coeficiente alfa
Este coeficiente, propuesto por Cronbach (1951), es utilizado con

bastante frecuencia . Su utilización es limitada a las pruebas cuyos
reactivos no son calificados de forma dicótoma (correcto o
incorrecto). Su fórmula es:
44
en d o n d e : n ú m e r o de reactivos de la prueba
sumatoria
desviación estándar de cada reactivo
desviación estándar de la prueba
b) Fórmula de Kuder - Richardson (KR-20)
Esta fórmula, propuesta por Kuder y Richardson en 1937, es

utilizada cuando se califican los reactivos de la prueba de forma
dicótoma y suele ser considerada como un caso especial del
coeficiente alfa:
en donde:
número de reactivos de la
prueba desviación estándar de
la prueba sumatoria
proporción de individuos que contestan bien un reactivo 1- p=
proporción de individuos que fallan en este reactivo
Esta fórmula no se aplica a pruebas psicológicas de velocidad

pues, para el cálculo del componente Σ pq, es necesario que cada
reactivo sea probado por todas las personas, lo que no siempre
ocurre en las pruebas de velocidad.
Estos mismos autores propusieron una segunda fórmula (KR-
21) que supone que todos los reactivos de la prueba tienen el
mismo grado de dificultad. Esta fórmula es menos utilizada
puesto que tal situación raramente ocurre.
c) Análisis factorial
Este procedimiento es uno de los más utilizados y en general es

considerado como el mejor por varios autores (Brown, 1980).
45
Mientras tanto, es un proceso complejo que supone la utilización

de varios métodos de cálculo. Estos métodos utilizan la matriz de
intercorrelaciones entre los reactivos de la prueba y permiten
verificar si existe un único factor o varios que expliquen estas
intercorrelaciones. Si existe un sólo factor la prueba es
considerada homogénea. Si son varios factores que explican las
intercorrelaciones significa que, aunque la prueba es heterogénea,
existen subpruebas compuestas por conjuntos de reactivos
homogéneos. Este procedimiento permite también detectar los
reactivos que no tienen relación con el factor principal, ni con
ninguno de los factores que componen la prueba.
Finalmente, todos los puntos discutidos en este capítulo deben
ser examinados cuando se pretende utilizar una determinada
prueba psicológica para estar seguro, no sólo de sus cualidades
métricas, sino también de sus límites. Todo manual de prueba
debe proveer información suficiente sobre estos aspectos y todo
psicólogo debe saber cómo interpretarlos.
a a
Anastasi, A. (1978). Tests psicológicos (3 ed., 4 reimpresión)
Bacher, F. (1981). Les etiquetes en Psychologie. Tesis inédita de
Doctorado en Psicología, Université de París V, París Brown,
F.G. (1980). Principios de medición en Psicología y
Cronbach, L.J. (1951). Alpha and the internal structure of tests.
Psychometrika, 16, 297-334.
Murphy, K. R. y Davidshofer, CO. (1994). Psychological Tes-
ting - Principles Applications. New Jersey: Prentice Hall.
Thorndike, L. R. Y Hagen, E. (1973). Tests y técnica de medi-
ción en psicología y educación. México: Editorial Trillas.
46
CAPITULO III
UNIDADES DE CALIFICACIÓN DE
LAS PRUEBAS PSICOLÓGICAS
Las respuestas de un individuo a una prueba psicológica
determinan su calificación bruta, también llamada original o
directa. Esta calificación carece de significado si no es
comparada a una norma, o sea a la ejecución promedio de un
grupo de individuos. Esta comparación permite determinar la
posición exacta del individuo con respecto a este grupo. Para
tal, las calificaciones brutas son transformadas, mediante
diferentes procedimientos estadísticos, en calificaciones
derivadas (o transformadas o ponderadas). Las calificaciones
derivadas tienen como objetivo fundamental propiciar la
comparación de las calificaciones obtenidas en diferentes
pruebas, expresándolas en un mismo tipo de unidad.
Existen varios tipos de puntuaciones derivadas, que
suponen diferentes procedimientos estadísticos para su
obtención. Anastasi (1978) las clasifica en tres tipos
principales: de edad o cronológicas, percentiles y típicas.
Para comprender e interpretar estas calificaciones se requiere
de nociones básicas de estadísticas como: media, mediana, moda,
desviación estándar, curva normal y rango. No es objetivo de
este manual aportar este tipo de información, que puede ser
encontrada en cualquier libro de estadística.
A. PUNTUACIONES DE EDAD
1. Cociente intelectual de razón (CI)
El CI de razón se empleó por primera vez en la forma del

47
Stanford-Binet de 1916, aunque su idea surgió anteriormente con

Stern y Kuhlmann. La fórmula para obtenerlo es:
donde: EM= edad mental

EC= edad cronológica
La edad mental es el nivel de edad que corresponde a la

calificación recibida por el niño en la ejecución de la prueba. Por
ejemplo, un niño de 8 años que obtiene una puntuación que
corresponde a la puntuación promedio de los niños de 10 años,
posee una edad mental de 10 años.
El CI de razón fue muy utilizado en las primeras pruebas de
inteligencia, lo que ya no ocurre actualmente, debido a sus
limitaciones e inconvenientes. Algunos de éstos son: (a) las
normas de edad dejan de tener un significado claro cuando
utilizadas con adultos normales o superiores, (b) la distribución
de los CI proporciona desviaciones estándar variables (de 12 a 20
puntos) según la edad (Terman y Merril, 1937 en Brown, 1980),
lo que no permite comparar, de manera confiable, CI obtenidos a
distintas edades, (c) el CI no es aplicable a las funciones que no
muestran un cambio claro y consistente con la edad.
2. Cociente educacional
Este cociente, aplicado a las pruebas de rendimiento escolar, se

obtiene de manera similar al cociente intelectual, pero en este
caso se utiliza la edad educacional en lugar de la edad mental. Su
fórmula es: CE = EE x 100 / EC.
El cociente educacional posee las mismas limitaciones del CI y
por lo tanto "no se pueden hacer comparaciones entre una materia
y otra, aun cuando las pruebas hayan sido estandarizadas con el
mismo grupo" (Morales, 1993, p. 65).
48
B. RANGOS PERCENTILES
Este tipo de puntuación derivada es una de las más utilizadas por

su facilidad de interpretación. Esta se expresa en función del
porcentaje de personas del grupo normativo, que obtienen
calificaciones más bajas. Así, un percentil de 65 indica que 65%
de los sujetos del grupo normativo obtuvieron calificaciones
inferiores. Es importante no confundir el uso del porcentaje de
personas, en el caso del percentil, con la idea de porcentaje de
respuestas correctas. En otras palabras, un percentil de 65 no
significa que el sujeto respondió correctamente a 65% de los
reactivos, sino que 65% de los sujetos obtuvieron calificaciones
inferiores a la suya. La forma gráfica utilizada para expresar los
rangos percentiles es llamada ojiva.
La obtención de los rangos percentiles supone el siguiente

procedimiento:
1) Ordenar las calificaciones brutas obtenidas por el grupo
normativo de la menor hasta la mayor.
2) Calcular la frecuencia de cada calificación
3) Calcular la frecuencia acumulada (F A) a cada aplicación,
sumando la frecuencia de la calificación más baja con la
frecuencia de la calificación siguiente y así sucesivamente hasta
la calificación más alta.
4) Determinar el punto medio de cada frecuencia acumulada
(FA ). Para la FA más baja, se añade a ésta un cero y se divide
entre dos. El resultado es el punto medio de esta FA. En seguida
se pasa a la FA siguiente, a la cual se suma la FA más baja,
dividiendo el resultado entre dos. Se sigue este procedimiento
hasta la FA más alta.
5) Convertir la frecuencia acumulada a cada punto medio
(FApm) a porcentaje acumulada a cada punto medio (PA pm),
a través de la fórmula: P A p m = 100 x FApm / N, donde N es el
número total de casos.
49
6) Hallar los rangos percentiles, convirtiendo los valores de

los PApm a números enteros, a excepción del 1 para el 0 y del 99
para el 100.
La tabla 3.1. ofrece un ejemplo de este procedimiento,
utilizando los resultados, en una prueba, de una muestra de 100
personas.
Así, puede decirse que un sujeto que obtuvo una calificación
bruta de 34 está situado en el rango percentil 80, lo que significa
que 80% de los sujetos obtuvieron calificaciones inferiores a la
suya en la prueba y 20%, calificaciones superiores.
TABLA 3.1
Obtención de rangos percentilares
21 2 2 1.0 1.0 1
22 2 4 3.0 3.0 3
23 6 10 7.0 7.0 7
24 3 13 115 11.5 11
25 5 18 15.5 15.5 15
26 5 23 20.5 20.5 20
27 7 30 26.5 26.5 26
28 6 36 33.0 33.0 33
29 8 44 40.0 40.0 40
30 13 57 50.5 50.5 50
31 7 64 60.5 60.5 60
32 6 70 67.0 67.0 67
33 7 77 73.5 73.5 73
34 6 83 80.0 80.0 80
35 4 87 85.0 85.0 85
36 3 90 88.5 88.5 88
37 5 95 92.5 92.5 92
38 2 97 96.0 96.0 96
39 2 99 98.0 98.0 98
40 1 100 99.5 99.5 99+
50
La gran ventaja de los percentiles es la facilidad de su cálculo

e interpretación. Además, pueden ser empleados con niños y
adultos y con distintos tipos de tests (aptitud, inteligencia,
personalidad).
Mientras tanto, presentan dos limitaciones importantes
(Brown, 1980). Primero, por ser una escala ordinal, sus valores
no se pueden sumar, restar, multiplicar o dividir, lo que impide la
utilización de ciertos análisis estadísticos. Segundo, presentan
una distribución rectangular, en las que las puntuaciones brutas,
en general, se aproximan de la curva normal, lo que provoca que:
(a) las diferencias de las puntuaciones brutas, próximas al centro
de la distribución, se exageren en la transformación a percentil y
(b) las diferencias de las puntuaciones brutas, cerca de los
extremos de la distribución, se reduzcan considerablemente en la
transformación a percentil. Con eso, los rangos percentilares
pueden, a veces, ser mal interpretados. Anastasi (1978, p.55),
advierte: "los percen-tiles presentan un cuadro correcto de la
posición relativa de cada individuo en el grupo normativo, pero
no de la cuantía de la diferencia entre su puntuación y la de otra
persona". Para resolver esta limitación algunas pruebas como el
D. A.T. (Test de Aptitud Diferencial) utilizan, para presentar los
resultados en percentiles, un papel probabilístico aritmético que
proporciona una representación visual correcta de las diferencias
entre las puntuaciones de las distintas subescalas. Este papel es
"un papel cuadriculado en el cual las líneas verticales se
encuentran espaciadas de la misma forma que los percentiles en
una distribución normal..., mientras que las líneas horizontales se
encuentran uniformemente espaciadas, o viceversa" (ídem, p.55).
C. CALIFICACIONES TÍPICAS (o estándar)
Este tipo de puntuación es muy utilizado en pruebas
51
psicológicas por sus ventajas, principalmente por la de ser una

escala de intervalo y permitir, por lo tanto, la realización de
varios análisis estadísticos.
Las calificaciones típicas expresan, en unidades de desviación
estándar, la distancia del sujeto con respecto al promedio del
grupo.
1. Calificaciones típicas lineales
Estas calificaciones son obtenidas a través de una transformación

lineal de las calificaciones brutas. Por eso, muestran la misma
estructura de la distribución de las calificaciones brutas.
1.1. Calificación z
La calificación típica lineal básica es la calificación z. Su fórmula

es:
z=X-X
S
donde: X= calificación del sujeto

X= promedio de la calificación de la muestra s =
desviación estándar de esta muestra
La calificación z se expresa en una escala que tiene una media

de 0 y una desviación estándar de 1. El valor de z indica la
distancia en que se encuentra la calificación bruta del promedio.
Si z tiene un signo positivo indica que la calificación bruta está
arriba del promedio, mientras que un z negativo indica que la
calificación bruta está abajo del promedio. En una distribución
normal z varia aproximadamente de -3 a +3.
52
Para evitar los valores negativos y decimales proporcionados

por la calificación z, se han diseñado otras calificaciones
estándar lineales, obtenidas a partir de ésta, a través de una nueva
transformación lineal. Para convertir la calificación z a la nueva
escala se multiplica aquélla por la desviación estándar deseada y
a este resultado se añade la media deseada. En seguida serán
presentadas algunos tipos de calificaciones que utilizan este
procedimiento.
1.2. Calificación T
En estas calificaciones se considera una media de 50 y una

desviación estándar de 10, lo que proporciona la siguiente
fórmula:
T = l0z + 50
1.3. Calificaciones AGCT
Estas calificaciones fueron originalmente usadas en la prueba de

inteligencia general ARMY (Army General Classification Test),
de donde proviene su denominación. Esta prueba fue utilizada
para seleccionar soldados para la Primera Guerra Mundial. En
esta situación la media fue de 100 y la desviación estándar de 20.
Por eso su fórmula es:
AGCT = 20z + 100
1.4. Calificaciones CEEB
La sigla utilizada para denominar estas calificaciones proviene

del College Entrance Examination Board, donde éstas fueron
utilizadas por primera vez. En este caso, se considera una media
de 500 y una desviación estándar de 100. Su fórmula es:
53
CEEB = l00z + 500
1.5. CI de desviación estándar (CIs)
Estos CI, muy distintos de los CI originales, basados en la

relación entre edad mental y edad cronológica, son otro tipo de
puntuación típica con una media de 100 y una desviación estándar
próxima a la de la distribución de la prueba de inteligencia
Stanford-Binet (revisión de 1960). En el caso de esta revisión la
desviación estándar obtenida fue de 16 y por lo tanto la fórmula
del CI de desviación proporcionada por esta prueba es:
CIs = 16z + 100
Mientras tanto, se ha observado que la desviación estándar

puede variar de una prueba a otra, aunque se utilice la misma
unidad de medida. Por ejemplo, la desviación estándar de las
pruebas de inteligencia Wechsler (WAIS, WISC, WPPSI) es de
15, y la fórmula del CI obtenido con estas pruebas es:
CIs = 15z + 100
Por eso, hay que tener cuidado al comparar los CI de

desviación de pruebas diferentes. Estos, sólo pueden ser
comparados cuando emplean valores iguales o muy parecidos de
desviación estándar. Por ejemplo, al interpretar los resultados de
un niño que, a los 8 años, obtuvo un CI de desviación de 124 en
una prueba cuya desviación estándar es de 12 y que, a los 10
años, obtuvo un CI de desviación de 136 en una prueba cuya
desviación estándar es de 18, se puede erróneamente pensar que
este niño ha desarrollado su capacidad intelectual en este periodo.
En realidad, los dos CI resultan de una misma calificación z (+2),
como indican las operaciones abajo, representando así la misma
medida de la capacidad intelectual.
54
12 x (+2) + 100 = 124 18 x (+2) + 100 = 136
El inconveniente de las puntuaciones típicas lineales se

presenta cuando se necesita comparar puntuaciones obtenidas en
diferentes pruebas. Estas, solamente podrán ser utilizadas cuando
la forma de la distribución de las puntuaciones de las distintas
pruebas es similar. Para poder comparar puntuaciones obtenidas
en distribuciones de forma distinta, se emplean transformaciones
no lineales, como las calificaciones típicas normalizadas.
2. Calificaciones típicas normalizadas
Estas calificaciones "están expresadas en función de una

distribución que se ha transformado para que se adapte a una
curva normal" (Anastasi, 1978, p. 57) y son calculadas a través
del siguiente procedimiento:
1) Ordenar las calificaciones brutas
2) Hallar la frecuencia de cada calificación
3) Calcular la frecuencia acumulada a cada calificación (FA)
4) Determinar el punto medio de la frecuencia acumulada de
cada calificación (FApm)
5) Convertir la frecuencia acumulada a cada punto medio a
porcentaje acumulada (PApm)
6) En el cuadro de zonas de la curva normal 1, hallar la
calificación z correspondiente a cada porcentaje acumulado.
Las cinco primeras etapas de este procedimiento son idénticas
a las utilizadas en el cálculo de rangos percentiles (ver tabla 3.1).
Las calificaciones típicas normalizadas también pueden ser
transformadas a otras escalas, utilizando cualquier media y
cualquier desviación estándar arbitraria.
1
Este cuadro puede ser encontrado en diversos manuales de estadística.
55
2.1. Calificaciones T escaladas

Se utilizan los mismos valores usados en la calificación T, media
de 50 y desviación estándar de 10, entonces, T = l0z + 50
2.2. CI de desviación
La media utilizada es de 100 y la desviación estándar puede

ser establecida por el autor de la prueba, siendo, en general,
cercana de 16. Por ejemplo: CI = 16z + 100.
2.3. Calificaciones estaninas
La escala estanina es una calificación estándar de 9

intervalos, con una media de 5 y una desviación estándar de
2. Para convertir las puntuaciones brutas en estaninas debe
procederse de la siguiente manera:
1) Disponer las puntuaciones brutas por orden de tamaño.
2) Calcular el número de casos correspondientes a cada
estanina, de acuerdo con los porcentajes de la curva normal,
como indica la tabla 3.2. Por ejemplo, si el grupo es de 100
personas, a las cuatro de puntuaciones más bajas se atribuye
la estanina 1, a las siete siguientes, la estanina 2 y así
sucesivamente.
TABLA 3.2
Porcentaje de la curva normal utilizada para la conversión a estaninas
Porcentaje 4 7 12 17 20 17 12 7 4
Estanina 1 2 3 4 5 6 7 8 9
2.4. Calificaciones estén
Son similares a las anteriores, siendo que en este caso son

diez unidades estándar (1-10). "Tienen cinco unidades
56
normalizadas de cada lado de la media y poseen media

desviación estándar de amplitud, excepto en los extremos 1 y 10
que son abiertos" (Morales, 1993, p. 62). El procedimiento de
obtención es análogo al de las estaninas, aunque los porcentajes
asignados son diferentes.
2.5. Calificaciones C escaladas
También similares a las dos últimas, pero tienen once unidades

estándar, con valores de 0 a 10. Son obtenidas de modo similar,
pero los porcentajes se distribuyen diferente.
Las calificaciones típicas normalizadas son las que mejor se
aplican a la mayoría de los casos. Mientras tanto, Anastasi
(1978) hace énfasis en las objeciones técnicas provenientes de la
normalización de distribuciones. Según ella, este tipo de
calificaciones debe ser solamente utilizado cuando la muestra es
grande y representativa y cuando existen motivos para creer que
la desviación de la normalidad proviene de defectos en la prueba
y no de la muestra o de otros factores que afecten la conducta
medida.
D. TABLAS DE NORMAS DE CALIFICACIÓN
Los manuales de pruebas deben ser siempre acompañados de

tablas de normas de calificación que permiten ubicar la ejecución
de un individuo dentro de un grupo o de diferentes grupos ( por
sexo, por edad, por grado, etc.). Estas tablas pueden ser
construidas a partir de diferentes tipos de calificaciones: normas
de edad, normas percentilares, normas de calificaciones típicas,
etc.
Una tabla de normas deberá contener las calificaciones brutas
y sus correspondientes calificaciones derivadas y ser
acompañada de la descripción de la muestra de sujetos a partir de
la cual fue elaborada.
57
a a
Anastasi, A. (1978). Tests psicológicos (3 ed., 4 reimpresión).

a a
Morales, M.L. (1993). Psicometría Aplicada (2 ed., 2 reimpresión).
SEGUNDA PARTE
INTELIGENCIA
II I I.1 II11
CAPITULO IV
LA INTELIGENCIA
A. LA DEFINICIÓN DE INTELIGENCIA
lVluchos teóricos como Binet, Spearman, Thurstone, Guilford,

Piaget, Wechsler, entre otros, propusieron definiciones para el
concepto de inteligencia. Dorsch (1976), en su Diccionario de
Psicología, señala que la mayoría de las definiciones apunta
como característica principal de la inteligencia ''la capacidad de
orientarse en situaciones nuevas a base de comprensiones, o de
resolver tareas con la ayuda del pensamiento, no siendo la
experiencia lo decisivo, sino mas bien la comprensión de lo
planteado y de sus relaciones" (p. 506).
Pueden distinguirse tres enfoques teóricos en la medida de la
inteligencia (Aubret y col., 1991):
1. El enfoque empírico
Se basa en una definición amplia de la inteligencia, próxima a la

del sentido común. Está representado en las primeras pruebas de
inteligencia (Binet-Simon), que fueron construidas a partir de la
experiencia práctica, sobre todo con el objetivo de diagnóstico o
de resolver dificultades escolares (ver capítulo I).
2. El enfoque factorial
El método estadístico de análisis factorial, introducido por

Spearman en 1904, ha permitido grandes avances en la
investigación y medición de la inteligencia.
61
La Teoría de los Dos Factores o Teoría Bifactorial, formulada

por Spearman, fue el primero de los modelos que representaran al
enfoque factorial. Esta teoría señala que todas las habilidades del
hombre tienen un factor común (factor g) y uno específico a cada
una de ellas (factor e). El factor g, de inteligencia general, es
intraindividualmente constante e interindividualmente variable. El
factor e, es variable intra e interindividualmente, por lo tanto es
específico de cada habilidad particular (Raven, 1987). Varias
pruebas fueron pues construidas para medir, lo mejor posible el
factor g, como es el caso de la Prueba de Matrices Progresivas de
Raven y del Test de Dominós de Anstey.
Otro modelo, el multifactorial, defendido principalmente por

Thurstone, considera que la inteligencia es compuesta por un
número limitado de habilidades primarias llamadas factores de
grupo, sin que resulte necesaria la existencia de un factor común.
Sin embargo, la verificación de que estos factores de grupo son
sólo relativamente independientes llevó a la idea de que la
correlación entre dos de estos factores implica la existencia de un
factor general, que la correlación entre dos factores generales
implica otro factor más general, etc. La inteligencia, en este caso,
es concebida como un conjunto de factores distribuidos
jerárquicamente de la siguiente manera: uno o más generales,
algunos de grupo y varios específicos.
El modelo tridimensional de Guilford (1956, 1967, 1970)
considera que la estructura intelectual es compuesta de
habilidades que son clasificadas de tres maneras: (a) en términos
de operaciones: cognición, memoria, pensamiento divergente,
pensamiento convergente o evaluación; (b) en término de
contenidos de estas operaciones: figurativo, simbólico semántico
o conductual; (c) en término de producto: unidades, clases,
relaciones, sistemas, transformaciones o implicaciones. Cuando se
combinan las tres clasificaciones se obtiene un modelo cúbico,
con 120 celdillas (5 operaciones X 4 contenidos X 6 productos),
cada una de las cuales representa una habilidad.
62
La mayoría de estas habilidades ya ha sido demostrada en

investigaciones (Guilford y Hoepfner, 1971).
3) El enfoque genético
Este enfoque tiene origen en la teoría de Jean Piaget. Según este

autor "la inteligencia constituye el estado de equilibrio hacia el
cual tienden todas las adaptaciones sucesivas de orden
sensomotor y cognoscitivo, así como todos los intercambios
asimiladores y acomodadores entre el organismo y el medio"
(Piaget, 1972, p.23). Según Ginsburg y Opper (1977) el concepto
de inteligencia propuesto por Piaget supone "una serie de
adaptaciones biológicas, un equilibrio entre el individuo y el
medio ambiente, una evolución gradual y una actividad
mental"(p. 13). Piaget no se preocupa en describir las diferencias
individuales, ni el nivel medio de funcionamiento cognoscitivo,
pero sí el nivel óptimo en una determinada etapa del desarrollo.
Piaget (1972) toma en cuenta tres aspectos en su concepción

de la inteligencia: el contenido, la función y la estructura. El
contenido, uno de los aspectos más sencillos del pensamiento, es
el que el individuo expresa en un determinado momento. La
estructura está representada, de un lado, por los factores
biológicos hereditarios, las estructuras físicas (ejemplo: el
sistema nervioso) y las reacciones conductuales automáticas
(ejemplo: los reflejos) y del otro, por las estructuras psicológicas,
estructuras organizadas de conducta que no pueden ser
explicadas completamente por lo hereditario pues se basan en
alguna experiencia (ejemplo: esquema de chupar el dedo). La
función se refiere a los principios generales de funcionamiento
que afectan la inteligencia: la organización y la adaptación. La
organización es "la tendencia que tienen todas las especies a
sistematizar u organizar sus procesos en sistemas coherentes que
pueden ser físicos o psicológicos
63
(p. 16). La adaptación, que implica la interacción del individuo

con su medio ambiente, es descrita en función de dos procesos
complementarios: la asimilación y la acomodación. En el
primero, el individuo utiliza sus estructuras para incorporar,
asimilar, elementos del medio ambiente. En el segundo, el
individuo modifica o acomoda su estructura para enfrentarse a las
exigencias del medio.
Finalmente, el individuo tiende a buscar un equilibrio con el
medio ambiente, utilizando para este fin las funciones de
organización y adaptación. A lo largo de las diferentes etapas del
desarrollo intelectual, son utilizadas distintas estructuras
psicológicas, con el objetivo de alcanzar una mayor eficacia en la
interacción con la realidad.
Piaget nunca se preocupó en estandarizar las pruebas que
construyó para estudiar las estructuras lógicas del pensamiento.
Un investigador francés del I.N.E.T.O.P. (Instituí National du
Travail et de I´Orientation Professionnelle), F. Longeot,
interesado en la teoría de Piaget, desarrolló la escala E.P.L.
(Echelle du Développement de la Pensée Logique), presentada en
1965 (Aubret y col., 1991).
B. LA MEDICIÓN DE LA INTELIGENCIA
Son muchas las pruebas de inteligencia construidas hasta el

presente momento. Algunas de fácil aplicación y calificación,
otras más complicadas que requieren un examinador
suficientemente entrenado y con amplia experiencia. Algunas que
sólo pueden ser aplicadas en forma individual y otras que pueden
también ser aplicadas colectivamente. Unas para niños y adultos,
otras construidas específicamente para niños o para adultos. Unas
estandarizadas en una única muestra y otras estandarizadas en
distintas muestras. Unas más válidas y confiables que otras. De
cualquier manera, toda prueba tiene sus ventajas y desventajas
que dependen también del uso que
64
el psicólogo va a hacer de ella. Lo importante es disponer de la

información básica sobre las distintas pruebas para que uno pueda
decidir cuál de ellas es la que conviene más a un determinado fin.
Este manual tiene como objetivo principal proporcionar el

conocimiento básico con respecto a las pruebas de inteligencia
más comúnmente utilizadas, facilitando así la elección de un
instrumento de medida adecuado, cuando se hace necesario la
evaluación de la capacidad intelectual. Es importante señalar que
la información aportada por el presente manual no sustituye, en
hipótesis alguna, la información proporcionada por los manuales
de las pruebas. La información presentada en este manual sirve
como una primera aproximación al conocimiento de algunas de
las pruebas de inteligencia. La utilización de una prueba requiere
de la consulta de su manual.
Los capítulos de esta segunda parte serán dedicados a la

presentación, sucinta y organizada, de distintas pruebas de
inteligencia. Serán analizados, en cada prueba, los siguientes
aspectos: aspectos históricos, descripción de la prueba, material,
población con la que se utiliza, forma de administración, tiempo
de administración, procedimiento de administración,
procedimiento de calificación, normas, confiabilidad y validez.
Además, se incluirá un apartado de "Comentarios", cuyo objetivo
es aportar opiniones expresadas por distintos teóricos, así como
observaciones del propio autor, provenientes de su experiencia
en la utilización de la prueba.
Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., Francequin-

Chartier, G., Huetau, M., Porlier, J - C, Rozencwajg,
P. y Vrignaud, P. (1991). Evaluer I'intelligence.
Manuscrito no publicado, I.N.E.T.O.P., París, Francia.
65
Dorsch, F.(1976). Diccionario de Psicología. Barcelona:

Editorial Herder.
Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del
desarrollo intelectual. Madrid: Editorial Paidós.
Guilforf, J.P. (1956). The structure of intellect. Psychologi-cal
Bulletin, 53, 267-293.
,(1967). The nature of human intelligence. Nueva York:
McGraw Hill.
, (1970). Creativity: Retrospect and Prospect. Journal of
Creative Behavior, 4(3), 149-168.
, y Hoepfner, R. (1971). The analysis of intelligence. Nueva
York: McGraw Hill.
Piaget, J. (1972). Psicología de la inteligencia. Buenos Aires:
Editorial Psique.
Rapaport, D. (1965). Test de diagnóstico psicológico. Buenos
Aires: Editorial Paidós.
Raven, J. C. (1987). Test de Matrices Progresivas. Buenos Aires:
Paidós
66
CAPITULO V
ESCALA DE INTELIGENCIA
STANFORD-BINET
1. ASPECTOS HISTORICOS
Esta escala es derivada de la Escala de Inteligencia Binet-

Simon, creada en 1905 y revisada en 1908 y 1911. La primera
versión del Stanford-Binet fue publicada por Terman en 1916 y
obtuvo gran éxito sobre todo por introducir el concepto de CI
(Cociente Intelectual), por proporcionar instrucciones detalladas
de aplicación y calificación y por utilizar una muestra
representativa de la población americana de cerca de 1,400
sujetos para su estandarización (Terman y Merrill, 1973).
En 1937 fue publicada la segunda revisión. En ésta, se

construyeron dos formas paralelas, L y M, que cubrían rangos de
edades de los 2 años hasta la edad adulta y que fueron
estandarizadas en una muestra de más de 3,000 sujetos.
La tercera revisión, realizada en 1960, presentaba una única
forma LM, que incluía los mejores reactivos de las formas L y M
publicadas anteriormente. En esta revisión no se utilizó una
nueva muestra de estandarización, sino que se aprovecharon las
respuestas de 4,498 personas, entre 2½
y 18 años, que habían contestado una de las dos formas, L o M,
entre 1950 y 1954. La selección de los mejores reactivos fue
realizada a través de varios procedimientos. Las modificaciones
realizadas consistieron en la eliminación de algunos reactivos y
reubicación de otros, proporcionando
67
una nueva distribución de éstos en los diferentes niveles de edad.

No se introdujo nuevos materiales, aunque en algunos reactivos
se actualizaron los dibujos. Un aspecto importante de esta
revisión fue el inicio de la utilización del CI de desviación para
eliminar los inconvenientes estadísticos del CI de razón (Terman
y Merrill, 1973).
En 1972, se llevó a cabo una reestandarización sistemática de
la forma LM. El material se mantuvo prácticamente el mismo,
fueron cambiados un diseño de una tarjeta (muñeca) y una
palabra de la subprueba Semejanzas. Los procedimientos de
administración y calificación no fueron alterados. Se utilizó una
muestra representativa de la población americana de cerca de 100
sujetos para cada nivel de edad.
2. DESCRIPCIÓN DE LA PRUEBA
La prueba Stanford-Binet es compuesta de varias subpruebas

agrupadas según niveles de edad. La prueba considera 20 niveles
de edad, desde la edad de 2 años hasta la adulta superior. Entre 2
y 5 años las subpruebas se agrupan por intervalos de medio año y
entre 5 y 14 años, se agrupan por intervalos anuales. Hay además
un nivel adulto promedio y tres niveles adulto superiores (I, II y
III). Para cada nivel de edad existen seis subpruebas, excepto
para el nivel adulto promedio que tiene ocho. La dificultad de las
subpruebas es uniforme en cada nivel. Para cada nivel, existe una
subprueba extra que puede ser utilizada en caso de anulación de
una de las subpruebas originales. Sin embargo, la subprueba
extra no debe sustituir una subprueba original en la cual fracasa
el sujeto.
Una determinada subprueba puede aparecer sólo en un nivel

de edad o en varios. Las subpruebas utilizadas en los niveles de
edad más bajos hacen hincapié en las capacidades sensoriales y
motoras. Algunas de éstas son: identificación
68
de partes del cuerpo u objetos, torre de cubos de construcción,

vocabulario de imágenes, comparación de barras, copia de
círculo, combinación de palabras, etc. Para niños mayores, las
subpruebas empiezan a exigir capacidades verbales y conceptos
numéricos. En este caso las subpruebas son del tipo: vocabulario,
palabras abstractas, repetición de dígitos, orientación, memoria
(palabras y dibujos), cuenta de cubos, juicio práctico, etc. Para
los adultos, son utilizadas sobre todo subpruebas de contenido
verbal, simbólico y abstracto, como: vocabulario, analogías,
interpretación de proverbios, frases desordenadas, entre otras.
3. MATERIAL
La prueba es compuesta de distintos materiales que son

utilizados en las diferentes subpruebas. Se encuentran juguetes,
tarjetas impresas, cubos, objetos de diferentes tipos (coches,
muñecos, animales) que están acondicionados en una maleta,
junto con el manual de la prueba y el cuaderno de respuestas.
4. POBLACIÓN CON LA QUE SE UTILIZA
La prueba puede ser utilizada desde dos años de edad hasta la

edad adulta.
5. FORMA DE ADMINISTRACIÓN
La administración debe ser individual. Se exige un examinador

entrenado y con amplia experiencia, puesto que la aplicación y
la puntuación de la mayoría de las subpruebas son relativamente
complejas. Un problema adicional está en el hecho de que cada
subprueba debe ser calificada inmediatamente después de su
aplicación, pues la realización
69
subsecuente depende de la actuación del sujeto en la subprueba

anterior.
6. TIEMPO DE ADMINISTRACIÓN
En niños pequeños, la aplicación completa requiere no más que 30

o 40 minutos y en niños mayores y adultos cerca de hora y media.
En casos excepcionales, la administración requiere demasiado
tiempo y es conveniente dividirla en dos sesiones.
7. PROCEDIMIENTO DE ADMINISTRACIÓN
El primer paso es llenar los datos personales del examinado en el

cuaderno de respuestas. Nadie contesta todas las subpruebas del
Stanford-Binet, solamente las que correspondan a una amplitud de
niveles de edad adecuados a su nivel intelectual. Se inicia la
aplicación por un nivel de edad ligeramente inferior al de la edad
mental que se espera tenga el sujeto. Si el sujeto fracasa en alguna
de las subpruebas de este nivel, se le aplica el nivel
inmediatamente inferior. La aplicación sigue hasta llegar a un
nivel en que todas las subpruebas sean resueltas con éxito. Este
nivel es denominado edad basal. En seguida, se continúa la
aplicación hasta el nivel en que ninguna de las subpruebas es
contestada correctamente. Este nivel es llamado edad tope. Aquí
se suspende la aplicación.
Es importante mencionar la existencia de una escala abreviada.

En cada nivel de edad, fueron elegidas cuatro subpruebas para
constituir la escala abreviada, tomando en cuenta la validez y
representatividad. Estas subpruebas están marcadas con un
asterisco en el cuaderno de respuestas. La escala reducida
solamente debe ser utilizada cuando no hay tiempo suficiente para
una aplicación completa.
70
8. PROCEDIMIENTO DE CALIFICACIÓN
La respuesta a un reactivo es calificada comparándola a una lista

de respuestas correctas presentadas en el manual de la prueba. La
calificación no proporciona créditos parciales, utiliza el sistema
de todo o nada. En general, las subpruebas correctamente
contestadas por un individuo se extienden a varios niveles de
edad, limitados en un extremo por su edad basal y en el otro por
su edad tope. Para calcular la edad mental de un sujeto en esta
prueba, se parte de su edad basal y se añade a ésta los meses
correspondientes por cada subprueba que realice correctamente
más allá de este nivel. Para hallar su CI, se utilizan las tablas que
se encuentran en el manual (Terman y Merrill, 1973). Se busca
la tabla correspondiente a la edad mental del sujeto, se localiza
su edad cronológica en la respectiva columna y se halla su CI de
desviación. En el manual se encuentran dos conjuntos de
normas, uno que corresponde a la revisión de 1960 y otro a la
reestandarización de 1972.
9. NORMAS
Los inconvenientes observados en la utilización del CI de razón

(ver primer capítulo y Terman y Merrill, 1973) llevaron a la
utilización del CI de desviación a partir de la revisión de 1960.
Estos CI de desviación, como se ha explicado anteriormente, son
calificaciones estandarizadas con una media de 100 y desviación
estándar de 16 puntos. Su prin-cipal ventaja es presentar
resultados comparables en todos los niveles de edad.
Las normas obtenidas en la reestandarización de 1972

provienen de una muestra representativa de la población
americana de cerca de 100 sujetos en cada uno de los 20 niveles
de edad.
71
10. CONFIABILIDAD Y VALIDEZ
Distintos estudios han demostrado el alto nivel de confíabilidad

del Stanford-Binet. Los valores obtenidos para el coeficiente de
equivalencia y estabilidad de las formas L y M, aplicadas con una
semana de intervalo o menos, son de .90 o más. En general, se ha
observado que el coeficiente de confíabilidad es más alto en las
muestras de niños mayores y en aquellas de niños que presentan
CI más bajos. Los índices de confíabilidad obtenidos indican que
el error estándar de la medida es de cinco puntos de CI (Brown,
1980; Anastasi, 1978).
El estudio de las subpruebas de la forma LM, realizado en
1960, utilizando la correlación biserial (correlación entre cada
subprueba y la escala total) indica una correlación biserial
promedio de 0.66, lo que asegura que la prueba tiene una buena
consistencia interna (Terman y Merrill, 1973).
La validez estructural ha sido también comprobada por varios
análisis factoriales, que constataron la existencia de un factor
general aunque no excluyeron la posibilidad de que existan
factores de grupo en algunos niveles de edad. La validez
predictiva o de criterio fue también estudiada. Los coeficientes de
correlación encontrados entre el CI del Stanford-Binet y
calificaciones escolares, evaluaciones de maestros y resultados en
pruebas de rendimiento varían entre .40 y .75 (Anastasi, 1978).
11. COMENTARIOS
No se puede negar la importancia histórica de la prueba Stan-ford-

Binet en la medida de la inteligencia. Tampoco la calidad técnica
de su proceso de construcción, su eficiencia y amplia aceptación a
lo largo de los años.
Sin embargo, Anastasi (1978) apunta algunos límites de la
prueba, a los cuales uno debe estar atento:
72
• La medida está muy cargada de funciones verbales, sobre

todo en los niveles de edad superiores, lo que llevaría a los
individuos con deficiencia de lenguaje a obtener resultados
relativamente bajos.
• La prueba es inadecuada para medir aptitudes diferenciales
pues: (a) no se encuentran las mismas subpruebas a todos los niveles
de edad; (b) el número de subpruebas de cada tipo es muy reducido
para que se pueda determinar, de manera precisa, la realización de
un individuo en un grupo específico de subpruebas y (c) es difícil
determinar cuales son las funciones medidas por una subprueba,
solamente a través de la observación de su contenido.
• La prueba es inadecuada para adultos sobre todo en la
amplitud normal y superior. Aunque se utilicen tres niveles de
adulto superior es muy difícil establecer, para la mayoría de los
adultos superiores, la edad tope (la edad en que ninguna
subprueba es resuelta). Además, el contenido de las subpruebas
del Stanford-Binet es más apropiado para niños que para adultos.
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión).

Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet intelli-
gence scale. Form L-M. Boston: Houghton Mifflin Com-
pany.
73
CAPITULO VI
ESCALA DE INTELIGENCIA
PARA ADULTOS (WAIS)
1. ASPECTOS HISTÓRICOS
La primera escala individual para la medida de la inteligencia

del adolescente y del adulto fue publicada en 1939 en Baltimore
por David WECHSLER, jefe de clínica del hospital psiquiátrico
de Bellevue (New York). Esta escala era llamada "Wechsler-
Bellevue". Su construcción tomó como base la
concepción global de la inteligencia definida por Wechsler
como ' 'la capacidad agregada o global del individuo para
actuar con propósito, para pensar racionalmente y para
habérselas de manera efectiva con su medio ambiente^
(Wechsler, 1955, p.3).
El desarrollo de esta escala ha sido impulsado por el hecho de
que las escalas existentes, no proporcionaban una medida
adecuada de la inteligencia en el adulto. No solamente el uso de
la edad mental era inapropiado para medir la inteligencia en el
adulto, sino que la mayoría de los reactivos de estas escalas
estaban orientados hacia los intereses infantiles. Además, los
adultos eran frecuentemente penalizados por el énfasis dado a la
velocidad de respuesta, en comparación con la exactitud, puesto
que las personas más grandes generalmente trabajan más
despacio que los niños. Las escalas existentes también
presentaban fallas importantes en los procedimientos de
estandarización. La nueva escala tenía como objetivo superar
estas dificultades.
La escala Wechsler-Bellevue dio origen, después de algunas
75
revisiones, a la escala WAIS (Wechsler Adulte Intelligence

Scale) que surgió en 1955 en Estados Unidos. Esta nueva escala
no contenía cambios significativos en cuanto a su contenido
general, construcción y organización. Las modificaciones más
importantes estaban relacionadas a: a) la muestra normativa, b)
las instrucciones y calificaciones
c) el contenido para situaciones especiales (evaluación de sujetos
con un bajo nivel intelectual). Algunos reactivos de la escala
original fueron conservados; otros fueron sustituidos por
reactivos menos ambiguos y presentados en un mejor orden de
dificultad.
En 1981, El WAIS sufrió una revisión y pasó a llamarse

WAIS-R (Wechsler, 1981a). El objetivo de esta última revisión
fue actualizar algunos contenidos y proveer nuevas normas
basadas en las puntuaciones obtenidas por muestras más actuales
de la población. Cerca del 80% de los reactivos del WAIS-R
provinieron del WAIS, intactos o modificados. Los demás
reactivos fueron nuevos. Además, se realizaron pequeños
cambios en el procedimiento de aplicación y de puntuación.
El WAIS ha sido traducido y adaptado a varios idiomas,
demostrando mucha utilidad y aceptación. La versión francesa
fue realizada por Pichot y presentada en 1968 (Vrignaud, en
Aubret y col, 1991). La versión para el idioma español se llama
WAIS-español y fue presentada en 1981 (Wechsler, 1981b).
EL WAIS ha dado origen a las demás escalas Wechsler, WISC

y WPPSI, utilizadas con niños, que serán presentadas en los
próximos capítulos.
Las pruebas de Wechsler están compuestas por dos subescalas,

una verbal y otra de ejecución, que están constituidas por una
serie de tests específicos (subtests). Según Morales (1993),
76
estas escalas "son, por una parte, escalas heterogéneas intertest,

debido a que miden diferentes funciones y, por tanto, distintos
factores ...; y por otra parte, son escalas homogéneas intratest,
porque cada subtest mide un sólo factor en toda su amplitud"(p.
107).
Los reactivos de cada subtest son organizados en orden
creciente de dificultad. Los reactivos de los subtests se clasifican
en tres grupos: 1) reactivos que toda persona puede contestar,
tenga o no instrucción escolar, 2) reactivos que se espera sean
contestados por sujetos de instrucción escolar media y 3)
reactivos que sólo pueden ser contestados por sujetos con una
instrucción especial (idem).
La escala verbal del WAIS está compuesta de seis subtests:
1) Conocimientos o Información, 2) Comprensión, 3)
Aritmética, 4) Semejanzas, 5) Vocabulario y 6) Repetición de
dígitos o retención de dígitos. La escala de ejecución se compone
de 5 subtests: 1) Dibujos Incompletos o Figuras Incompletas, 2)
Diseño con cubos, 3) Ordenación de dibujos,
4) Composición de objetos y 5) Dígitos y Símbolos o Claves.
2.1. Características de los subtests
Cada subtest solicita funciones intelectuales distintas y por lo

tanto difiere en sus características y contenidos. Las dos medidas
—verbal y de ejecución— representan las diferentes formas en
que puede expresarse la inteligencia. En seguida, serán
presentadas las características específicas de cada subtest
mencionadas por Wechsler (1955), Rapaport (1965), Vrignaud
(en Aubret y col., 1991) y Morales (1993).
a. Escala verbal:
Conocimientos o Información: Este subtest propone

cuestiones que permiten verificar la extensión de los
77
conocimientos del sujeto. Dos funciones son solicitadas: 1)

capacidad de retención (memoria) y 2) asociación y organización
de experiencias. Los resultados están ligados al medio ambiente
cultural, a la estabilidad emocional y a los intereses. Mientras
tanto, proporcionan una buena indicación de la capacidad
intelectual. Este subtest presenta una buena correlación con la
escala total y sus resultados en general se mantienen bien con la
edad.
Comprensión: Este subtest depende de un cierto aprendizaje de
informaciones prácticas aunado a la habilidad de evaluar y utilizar
la experiencia. Es una prueba de juicio. Mide la inteligencia
social, la aptitud para evaluar la experiencia. Además, el factor
verbal contribuye considerablemente al buen desempeño en este
subtest. Las funciones solicitadas son: 1) razonamiento abstracto,
2) organización del conocimiento (análisis y síntesis), 3)
capacidad de utilizar en la práctica las experiencias y aprendizajes
obtenidos y 4) manejo de símbolos, números y lenguaje. Los
factores influyentes son: a) las oportunidades culturales, b) la
capacidad para colocarse en situaciones reales y c) el juicio social
y sentido común. Proporciona muchos datos clínicos, es sen-sible
a las psicopatías, esquizofrenias y a las actitudes reaccionales.
Presenta una buena correlación con la escala total y con los
subtests de Conocimientos y Semejanzas. Sus resultados se
mantienen bien con la edad.
Aritmética: Este subtest es una señal de vivacidad intelectual.

Solicita las siguientes funciones: 1) razonamiento abstracto,
2) formación de conceptos numéricos, 3) retención de procesos
aritméticos. Los resultados son influenciados por: a) la
concentración, b) la atención inmediata y automática, c) las
oportunidades ambientales para adquirir los procesos aritméticos
fundamentales y d) las reacciones emocionales y de inhibición
escolar. Este subtest evalúa el saber de origen escolar y familiar,
la concentración con relación a la atención,
78
la abstracción y la memoria. Presenta una buena correlación con

la escala total y sus resultados se mantienen medianamente con
la edad.
Semejanzas: El tipo de respuestas ofrecidas proporciona

indicios sobre el proceso de pensamiento del sujeto y su nivel de
generalización y abstracción. Según Rapaport (1965), los sujetos
buscan sus respuestas en tres planes diferentes: concreto,
funcional y abstracto. La correlación de este subtest con la escala
total es muy buena. Sin embargo, es uno de los tests menos
estables de los subtests del grupo esencialmente verbal. Son
exigidas funciones como: 1) análisis de relaciones y 2)
formación de conceptos verbales (calidad). Los factores
influyentes son: a) un mínimo de oportunidades culturales,
b) la capacidad para relacionar hechos y c) la adaptación
adecuada al medio ambiente.
Vocabulario: Subtest constituido de palabras que se sacaron
de una serie experimental, presentadas en orden de dificultad
creciente. Según Rapaport (1965, p. 40), "la riqueza e integración
del Vocabulario depende, en parte, de la capacidad de la dotación
natural y, en parte, de la riqueza cultural de los primeros años".
El Vocabulario es refractario a la disminución por inadaptación y
también al progreso por la instrucción o experiencia de vida.
Inicialmente, Wechsler lo utilizó como subtest complementario,
y posteriormente lo incluyó regularmente. El ha constatado que
este subtest es un muy buen índice de la inteligencia y que
permite observaciones clínicas importantes: proceso de
pensamiento del sujeto (calidad, extensión de las ideas y de la
expresión), rasgos particulares, errores sutiles, aspecto
convencional, perseveración, redundancia, incoherencia,
pudiendo llegar a aspectos patológicos (esquizo-epilepsia).
Presenta una correlación muy elevada con la escala total y se
mantiene bien con la edad. Solicita funciones del tipo: 1)
adquisición
79
y desarrollo del lenguaje y 2) adquisición y organización de

significados verbales. Los resultados son influenciados por:
a) las potencialidades naturales y 3) las oportunidades culturales.
Repetición de dígitos: Uno de los subtests más mediocres. Su

correlación con la escala total es mediana. Inicialmente, Wechsler
propuso que este subtest fuera utilizado como complementario,
pero después lo incorporó a la subescala verbal. Requiere: 1)
concentración y memoria inmediata, 2) imaginación auditiva y 3)
imaginación visual simultánea. Los factores influyentes son: a)
atención inmediata, b) atención dirigida c) nivel de ansiedad. El
fracaso en este subtest presenta frecuentemente significación
diagnóstica, siendo el mismo utilizado para detectar deficiencia
mental o defectos orgánicos. Cuando se obtienen bajas
calificaciones y éstas no están asociadas con problemas de
deficiencia u organicidad, pueden deberse a un cierto grado de
ansiedad. Sus resultados disminuyen con la edad.
b. Escala de ejecución:
Figuras incompletas: La tarea del sujeto es discernir la parte

esencial tomando en cuenta la forma o la función del objeto. Este
subtest discrimina bien los niveles mediocres e inferiores de la
inteligencia. Su correlación con la escala total es alta. Los
resultados en este subtest se mantienen relativamente bien con la
edad. Las funciones solicitadas son: 1) percepción visual fina
(análisis), 2) concentración visual, 3) atención selectiva, 4)
imágenes visuales. Los factores influyentes son:
a) esfuerzo sistemático voluntario y selectivo, b) enfoque activo
de la atención, c) agudeza visual y d) experiencia ambiental.
Diseño con cubos: Es considerado el mejor subtest de

ejecución, mide lo mismo que miden los tests verbales, está
80
saturado en g y revela las perturbaciones antiguas o recientes de

los procesos de percepción superiores. Es importante analizar el
proceso de trabajo y las actitudes. Se detectan comportamientos
característicos en el caso de deterioro mental. Sus resultados no
se mantienen con la edad. Este subtest presenta una buena
correlación con la escala total y también con los subtests
verbales. Requiere: 1) percepción de forma, 2) percepción visual:
análisis y síntesis, y 3) integración visomotora. Los resultados
pueden ser influenciados por: a) el nivel de actividad motora, b)
un mínimo de discriminación del color, c) la agudeza y velocidad
del análisis visual y d) la organización visual.
Ordenación de dibujos: Subtest de construcción difícil debido

al contenido de las historias (rol social o afectivo). Exige la
comprensión de la situación en su totalidad y su organización en
el tiempo y en el espacio. Raramente es realizado por un
deficiente mental. Este subtest presenta una correlación mediana
con la escala total y sus resultados no se mantienen con la edad.
Es el subtest más vulnerable de la escala. Requiere las funciones
siguientes: 1) percepción visual de relaciones, 2) síntesis de
material no verbal y 3) anticipación y organización visual. Los
factores influyentes son: a) la exactitud visual y b) un mínimo de
oportunidades culturales.
Composición de objetos: Este subtest proporciona indicios

sobre el modo de percepción, el método de investigación y la
reacción delante de la dificultad o de un error. Su correlación con
la escala total es mediocre y varía según la edad (baja entre 15 y
30 años). Las funciones exigidas son:
1) percepción visual, 2) integración visomotora y 3)
anticipaciones adecuadas. Los factores influyentes son: a)
velocidad de la actividad motora, b) precisión de la actividad
motora, c) interés y d) atención.
Dígitos y Símbolos o Claves: Excepto casos particulares,
81
el aspecto motor no interviene en los resultados obtenidos en esta

escala. Requiere: 1) recuerdo inmediato, 2) integración
visomotora 3) imaginación visual y 4) capacidad de reproducción
e imitación. Puede sufrir influencia de los factores: a) velocidad
de la actividad motora, b) rapidez en la asociación, c) aprendizaje
en función de entrenamiento de la atención, d) instabilidad y e)
emotividad. La correlación de este subtest con la escala global es
relativamente buena pero sus resultados no se mantienen con la
edad.
Los subtests pueden ser clasificados en cuatro grupos, según
los factores específicos que evalúan y su vulnerabilidad
(sensibilidad) (Rapaport, 1965).
1) Esencialmente verbal: Conocimientos, Vocabulario,
Semejanzas y Comprensión . "Su rasgo común es que requieren la
explicación verbal de los problemas y la formulación verbal de las
respuestas" (ídem, p. 38). Son los tests menos vulnerables. La
disminución considerable ante cualquiera de estas cuatro pruebas
sugiere la presencia de una inadaptación grave.
2) Atención y concentración: Retención de dígitos y

Aritmética. En ambos, la verbalización es sólo una forma de
comunicación. Son los subtests verbales más vulnerables y
variables.
3) Coordinación Visomotora: Diseño con cubos, Composición
de objetos, Dígitos y símbolos. "Un rasgo común en estos
subtests es que tras la conducta que estimulan subyacen funciones
tanto motrices como visuales" (ídem, p.39). Estos subtests son
más resistentes que los demás de ejecución , pero más vulnerables
que los subtests esencialmente verbales.
4) Organización Visual: Ordenación de dibujos y Figuras
incompletas. Se basan en la organización visual, no suponiendo
ninguna acción motriz en especial. Estos subtests son los más
vulnerables.
Según Morales (1993), desde el punto de vista de la
82
vulnerabilidad, se considera que el subtest de Vocabulario es el

menos sensible de todos y por lo tanto el que mejor sirve como
parámetro de comparación de la ejecución de los demás subtests.
Los más sensibles son: repetición de dígitos (escala verbal) y
figuras incompletas (escala de ejecución), siendo el primero más
vulnerable que el segundo. En general, los subtests de ejecución
son más vulnerables que los verbales.
3. MATERIAL
Para la aplicación del WAIS se requieren: 1) el manual, 2) un

protocolo donde se registran las respuestas del examinado,
3) una tarjeta con una lista de palabras para Vocabulario,
4) una libreta que contiene los reactivos de Figuras incompletas
y los modelos para Diseño con cubos, 5) una caja con tarjetas
para Ordenación de dibujos, 6) una caja con cubos rojos/ blancos
para Diseño con cubos, 7) cuatro cajas que contienen las partes
de los reactivos de Composición de objetos, 8) un diagrama para
Composición de Objetos, y 9) una plantilla de corrección para
Dígitos y Símbolos. El examinador necesita también un
cronómetro y dos lápices, sin goma, para Dígitos y Símbolos
(Wechsler, 1981b).
El WAIS es utilizado con personas a partir de los 16 años

(ídem).
Esta prueba sólo debe ser administrada individualmente. La

complejidad de su aplicación y calificación no permite la
administración en forma colectiva.
83
Se requieren entre 50 y 90 minutos para la aplicación completa

del WAIS. Sin embargo, las diferencias individuales respecto al
estilo particular de cada sujeto para contestar y la técnica de
aplicación del examinador pueden alargar o abreviar el tiempo de
administración. El ideal es aplicar todos los subtests en una
misma sesión. Si esto resulta imposible por problemas de horario,
motivación u otra razón, pueden programarse dos sesiones con un
intervalo máximo de una semana.
No se debe reducir el número de subtests aplicados para
ahorrar tiempo. La reducción en el número de éstos sólo puede ser
contemplada cuando no sea posible la aplicación de ciertos
subtests debido a incapacidades que impiden su realización como:
inadecuada comprensión del lenguaje o deficiencias sensorio-
motrices. Por ejemplo, es posible aplicar solamente la subescala
verbal a individuos con incapacidades motoras o solamente la
subescala de ejecución, en el caso de sujetos imposibilitados de
comprender o utilizar el lenguaje (Wechsler, 1981a)
Algunos subtests de las escalas Wechsler suponen un tiempo

límite estricto para su ejecución y otros no. Por ejemplo, en el
WAIS, cada reactivo del subtest de Aritmética debe ser
contestado en un tiempo límite que varía de 15 a 120 segundos.
Además, en algunos subtests se bonifica la ejecución rápida del
sujeto, concediéndole puntos extras dependiendo del tiempo de
ejecución. En los subtests que no suponen un tiempo límite, el
examinador debe conceder al sujeto el tiempo adecuado para que
éste exprese su respuesta. Generalmente se considera de 10 a 15
segundos como suficiente.
El procedimiento de administración de las escalas Wechsler es

relativamente complejo y supone un buen entrenamiento.
84
El examinador debe leer las instrucciones y preguntas

directamente del manual, sin cambiar términos ni apartarse de los
procedimientos estandarizados. Para sacar dudas, repetir
instrucciones y hacer preguntas que esclarezcan una respuesta
ambigua o incompleta, el examinador debe seguir las
indicaciones especificadas en el manual. Además, debe tener
muy claro los procedimientos de puntuación de cada subtest para
que pueda discontinuar la aplicación, después de un determinado
número de errores, o regresar a la aplicación del primer reactivo
del subtest, cuando sea el caso.
El registro, de los datos personales y de las respuestas, en el
protocolo es realizado por el examinador. El subtest de Dígitos y
Símbolos es contestado por el sujeto directamente en el espacio
destinado del protocolo.
En el WAIS, primero se aplican todos los subtests verbales y en
seguida todos los subtests de ejecución (Wechsler, 1981b). La
secuencia de aplicación fue alterada en el W AIS-R, subtests verbales
y de ejecución son sistemáticamente alternados (Wechsler, 198 la).
Para cada subtest, se indica el reactivo donde debe iniciarse la
aplicación y en que situación debe retornarse a la aplicación del
primer reactivo. Para algunos subtests, un cierto número de errores
consecutivos conduce a la discontinuación del subtest.
Para la mayoría de los subtests de las escalas Wechsler la

puntuación es objetiva. Sin embargo, la evaluación de los
subtests de Semejanzas, Vocabulario y Comprensión y de
algunos de los reactivos de Conocimientos requiere un criterio
considerable por parte del examinador. El manual del WAIS
proporciona, para estos subtests, ejemplos de respuestas para
cada reactivo, además de un criterio general de puntuación. El
examinador debe estar familiarizado con este criterio general
para poder calificar correctamente. En estos
85
subtests se recomienda apuntar las respuestas completas del

sujeto para facilitar la calificación.
Pueden asignarse uno o más puntos a las respuestas correctas
dependiendo del subtest, de la calidad de la respuesta o del tiempo
en que el sujeto ha contestado el reactivo. Para cada subtest se
calcula la puntuación natural, que en seguida es convertida a
puntuación normalizada, utilizando la tabla de conversión
presentada en el manual. En seguida, se calcula el total de las
puntuaciones normalizadas de cada subescala —Verbal y de
Ejecución— de la escala total. Con estas puntuaciones totales se
hallan los respectivos CI (verbal, de ejecución y total). En el
manual del WAIS, existen varias tablas de conversión
(puntuación normalizada - CI) que están divididas por rangos de
edad. Deben registrarse las puntuaciones naturales y normalizadas
en el protocolo de respuestas, la suma de puntuaciones de cada
subescala, la puntuación total y los tres valores de CI.
Es importante señalar que cuando un subtest es anulado o

cuando, por impedimento del sujeto, se hizo inadmisible la
aplicación de toda la escala, es necesario prorratear la suma de las
puntuaciones normalizadas de la subescala. Si se anula un subtest
de la subescala verbal, la suma de las puntuaciones normalizadas
debe ser multiplicada por 6/5 para obtener la puntuación
prorrateada. Si el subtest omitido es de la subescala de ejecución,
la suma de las puntuaciones normalizadas de los otros cuatro
subtests debe ser multiplicada por 5/4 (Wechsler, 1981b).
Obtenido el CI total se utiliza la tabla de clasificación de

inteligencia, presentada a continuación, para establecer el
diagnóstico.
El examinador puede también hacer la gráfica de las
puntuaciones del sujeto en el protocolo (primera hoja),
encerrando en un círculo las puntuaciones naturales obtenidas en
cada subtest y conectando los círculos con una línea.
86
CI CLASIFICACIÓN
130 y por encima Muy superior
120-129 Superior
110-119 Arriba del normal (brillante)
90-109 Normal
80-89 Abajo del normal (torpe)
70-79 Limítrofe
69 y hacia abajo Deficiente Mental
Además del diagnóstico de la capacidad intelectual, pueden

realizarse otros análisis, cuantitativos y cualitativos, que
permiten profundizar el diagnóstico de habilidades o
incapacidades específicas. En seguida, serán presentados otros
tipos de análisis que pueden ser llevados a cabo con los
resultados del WAIS.
8.1. Comparación por edad
Puede ser interesante comparar los resultados de un individuo, en

cada uno de los subtests, con los resultados de personas del
mismo grupo de edad. Para realizar este tipo de comparación, el
manual del WAIS provee 10 cuadros de puntuaciones
normalizadas por edad. Estos cuadros no deben ser utilizados
para computar el CI.
En cada cuadro comparativo por edad, una puntuación
normali-zada de 10 para un subtest representa la puntuación
normalizada media para este grupo de edad. La desviación
estándar de puntuacio-nes normalizadas para cada subtest es de 3
puntos (Wechsler, 1981a, 1981b).
El procedimiento es el siguiente {ídem):
• Se localiza el cuadro que corresponde a la edad del
individuo y se buscan las puntuaciones normalizadas para cada
subtest
•Las puntuaciones normalizadas por edad son apuntadas,
87
entre paréntesis, en la columna situada al lado de la columna

destinada a puntuaciones normalizadas, en el protocolo.
Estas puntuaciones permiten al examinador evaluar la
actuación del individuo en relación con personas de su misma
edad y comparar los resultados de una primera aplicación con los
de una reaplicación, permitiendo verificar cambios en la
ejecución de los distintos subtests, además de las variaciones
causadas por la edad. Estas puntuaciones son también utilizadas
para el cálculo del coeficiente de deterioro mental (ver más
adelante en el apartado 8.3).
8.2. Dispersión de los resultados
El análisis de la dispersión de los resultados obtenidos en las

escalas Wechsler provee datos importantes sobre las funciones
intelectuales más y menos desarrolladas. Discrepancias fuertes
pueden también estar asociadas a ciertos tipos de patologías
mentales.
a. Diferencia entre el CI Verbal y el CI de Ejecución
El CI Verbal indica la facilidad del sujeto en utilizar palabras y

símbolos y el CI de Ejecución, su habilidad para manipular
objetos y para percibir patrones visuales. En general, puede
existir una diferencia de algunos puntos entre estos dos CI. En el
caso del WAIS, esta diferencia solamente tiene importancia a
partir de 10 puntos (Wechsler, 1955). En el WAIS-R también se
observó que una diferencia de 10 puntos corresponde a un nivel
de significancia de .05 (Wechsler, 1981a).
b. Interpretación de las diferencias entre el CI Verbal y el CI de

Ejecución
Cuando se encuentra una diferencia significativa entre los dos CI,

hay que ser prudente en su interpretación antes de
88
considerar que el sujeto tiene realmente una función intelectual

más desarrollada que la otra. Wechsler (1955) afirma, respecto al
WAIS, que la cantidad y dirección de la diferencia varía según la
edad y el nivel global de inteligencia del individuo. El apunta
que "sujetos de inteligencia superior generalmente lo hacen
mejor en la parte verbal del examen, y sujetos de inteligencia
inferior lo hacen mejor en la parte de ejecución" (p.213). El,
también hace incapié en las diferencias raciales y culturales.
c. Dispersión intraindividual
El cálculo de la dispersión de las puntuaciones obtenidas por un

sujeto en los diferentes subtests permite apreciar la
homogeneidad de sus resultados y establecer un perfil de éstos.
El estudio de la dispersión responde a la pregunta siguiente:
¿Cuándo podemos decidir que la puntuación obtenida en un
subtest se desvía significativamente del promedio de los
resultados del sujeto?
Vrignaud (en Aubret y col., 1991) menciona el siguiente
procedimiento para calcular la dispersión intraindividual en el
WAIS:
• Calcular el promedio de las puntuaciones normalizadas
(Suma de puntuaciones normalizadas/Número de escalas). Si la
diferencia entre el CI verbal y el CI de Ejecución es considerada
significativa, es recomendable calcular, por separado, el
promedio de las puntuaciones normalizadas de
la subescala verbal y de la subescala de ejecución.
• Calcular la dispersión hallando la diferencia entre la
puntuación normalizada de cada subtest y el promedio de
puntuaciones normalizadas (total o por subescala).
Este mismo autor añade que Wechsler propuso, para la escala
Wechsler-Bellevue, un método para determinar cuales son los
subtests que presentan desviaciones significativas.
89
Aunque Wechsler no ha comentado sobre la utilización de este

método en el caso del WAIS, éste es generalmente utilizado por
los clínicos.
Según este método, para determinar si la diferencia, entre la
puntuación normalizada obtenida en un subtest y el promedio, es
significativa, debe examinarse la suma total de las puntuaciones
normalizadas o el CI total del sujeto.
Para sumas totales comprendidas entre 80 y 110, que
corresponden a CI totales comprendidos entre 85 y 115. es
significativa toda diferencia de más de 2 puntos entre la
puntuación del subtest y el promedio de las puntuaciones
normalizadas. Este intervalo representa más o menos una
desviación típica.
Para los CI superiores a 115 o inferiores a 85, el valor de la
diferencia significativa varía en función del promedio de las
puntuaciones normalizadas del sujeto. La diferencia, entre la
puntuación normalizada obtenida en un subtest y el promedio de
las puntuaciones normalizadas, es significativa si su valor es
superior a este promedio divido entre 4. Por Ejemplo: para un
sujeto cuyo promedio de puntuaciones norma'izadas es 5.6, la
diferencia es significativa si es mayor que 5.6/4 = 1.4; para otro
sujeto cuyo promedio es 13.2, la diferencia es significativa si es
mayor que 13.2/4 = 3.3.
Además de este procedimiento, Wechsler propuso la tabla
presentada abajo, donde define, para diferentes valores de la
diferencia, símbolos que caracterizan el sentido e importancia de
la desviación:
+ desviación del subtest de 1.5 a 2.5 unidades arriba de la

puntuación promedio.
+ desviación del subtest de 3 o más unidades arriba de la
desviación del subtest de 1.5 a 2.5 unidades abajo de la
90
desviación del subtest de 3 o más unidades abajo de

la puntuación promedio.
0 desviación del subtest de +1.5 a -1.5 unidades de la
Vrignaud (en Aubret y col., 1991) señala la ambigüedad,

de la parte de Wechsler, en la determinación de la
importancia de la diferencia. De un lado, propuso el
método expuesto inicialmente para determinar el valor de
la diferencia significativa y de otro, propuso una tabla con
valores fijos (que no dependen del CI del sujeto) para la
determinación de la importancia de la diferencia.
d. Análisis e interpretación de la dispersión
Dos tipos de análisis pueden ser realizados a través del

estudio de la dispersión del WAIS.
1) Análisis de las funciones intelectuales más
desarrolladas o deficientes. En este caso deben analizarse
las escalas que presentan una dispersión significativa (para
arriba o para abajo) verificando a cuales funciones
intelectuales corresponden. Se determinan así cuales
funciones intelectuales el sujeto tiene más desarrolladas y
cuales son las más deficientes. Este análisis proporciona
una interpretación cualitativa de los resultados numéricos
obtenidos a través del cálculo de la dispersión.
2) Establecimiento de relaciones entre las dispersiones y
diferentes entidades clínicasEste análisis, propuesto por
Rapaport (1965), permite establecer asociaciones entre las
divergencias de las puntuaciones de subtests particulares y
las entidades clínicas específicas. Consiste en relacionar el
perfil del sujeto con perfiles correspondientes a tipos
particulares de problemas o disfunciones mentales.
Rapaport (ídem), a partir de una investigación realizada
91
con la escala Wechsler-Bellevue, que fue aplicada a 261 casos

clínicos y de control, propone un análisis de la dispersión de los
diferentes subtests y describe las vicisitudes de cada uno de ellos
en los distintos grupos clínicos. El utiliza las siguientes medidas
de la dispersión: a) Dispersión del Vocabulario: el Vocabulario es
el subtest menos vulnerable o sea es donde los sujetos muestran la
máxima tendencia a no sufrir disminuciones en el rendimiento;
sirve de referencia para medir la disminución de los otros
subtests; b) Dispersión media: desviación de los subtests verbales
con respecto al promedio y verbal de los subtests de ejecución con
respecto al promedio de ejecución; los subtests verbales y de
ejecución son tratados separadamente pues difieren en el grado de
vulnerabilidad; c) Puntuaciones normalizadas extremada-mente
altas o bajas.
El análisis de la dispersión permite evaluar la eficiencia

desigual de las diferentes funciones y a partir de estas diferencias
de la eficiencia funcional pueden inferirse las categorías clínicas
en que puede esperárselas. Rapaport (1965,
pp. 50-61) propone, para cada grupo y sus respectivos subtests, el
análisis siguiente:
• Grupo esencialmente verbal
Vocabulario: Este subtest se halla profundamente disminuido

en los neurasténicos, en los depresivos psicóticos y en los
esquizofrénicos deteriorados. Los promedios más altos para el
Vocabulario se encuentran en las condiciones paranoideas, en los
preesquizofrénicos sobreideacionales y en los compulsivos
obsesivos. Un puntaje en este subtest, inferior en dos o más
unidades a la tendencia central de los otros subtests esencialmente
verbales, indica un retardo significativo del desarrollo o
disminución del Vocabulario.
Conocimientos: En general las puntuaciones son semejantes
92
a las de Vocabulario; sólo en tres grupos se observa una

puntuación significativamente más baja que la de Vocabulario:
histeria, depresiones involucionadas y en algunas esquizofrenias
paranoideas crónicas. En estos dos últimos grupos también se
hallan disminuidas las puntuaciones en el resto de los subtests
verbales, lo que no ocurre con los histéricos. En las neurosis y
psicosis intelectuali-zantes, especialmente en los
preesquizofrénicos sobre-ideacionales y los compulsivos
obsesivos los Conocimientos se encuentran preservados. Cuando
el puntaje en Cono-cimientos está tres o más unidades abajo del
puntaje en Vocabulario significa una disminución significativa
de la disponibilidad del conocimiento general.
Semejanzas: Este subtest permite distinguir los diferentes

tipos de depresiones. En las neurosis depresivas la puntuación en
este subtest no está afectada; en las psicosis depresivas ella está
por debajo del Vocabulario y aun más por debajo del promedio
de los puntajes del grupo esencialmente verbal. De la misma
manera, en las esquizofrenias paranoideas este puntaje no se ve
afectado, mientras que en los casos crónicos y deteriorados su
puntaje es inferior al de Vocabulario y al promedio de los
puntajes verbales. Los puntajes más altos son obtenidos por los
grupos "intelectualizantes". Una puntuación inferior en tres o
más unidades a la de Vocabulario indica una disminución
significativa de la formación verbal de conceptos.
Comprensión: Cuando la puntuación en este subtest está más

de dos unidades por debajo de la de Vocabulario o de
Conocimientos constituye un índice grave. Indica una
significativa disminución del juicio. Esto se observa, con
frecuencia, en los compulsivos obsesivos, esquizofrénicos,
preesquizofrénicos y depresivos. Se constata que, mientras los
histéricos represivos presentan una disminución en el subtest de
Conocimientos y un puntaje normal en el de
93
Comprensión, los compulsivos obsesivos presentan un excelente

puntaje en Conocimientos y una caída en Comprensión.
• Grupo de atención y concentración
Repetición de dígitos: En los neuróticos y depresivos se

observa una baja de puntuación, especialmente en aquellos casos
en que la ansiedad adquiere una mayor importancia, provocando
una disminución de la atención. Se considera este subtest como un
test específico de ansiedad. Un puntaje inferior de 4 o más
unidades al del Vocabulario indica una significativa disminución
de la atención.
Aritmética: El puntaje a este subtest se ve seriamente
disminuido en el caso de los esquizofrénicos, especialmente de
los deteriorados y de los psicóticos depresivos. Los neuróticos y
normales presentan disminuciones pequeñas. También aquí los
grupos "intelectualizantes" presentan altos puntajes, superiores al
de Vocabulario. El puntaje en este subtest inferior en 4 o más
unidades al de Vocabulario indica una significativa disminución
de la concentración.
• Grupo de coordinación visomotora
Composición de objetos: La puntuación en este subtest se ve

disminuida sobre todo por la depresión o ansiedad intensa. Es uno
de los subtests más vulnerables. En las depresiones, en general,
los puntajes bajan en la mayoría de los subtests de ejecución.
Cuando el puntaje es normal en los demás subtests de ejecución y
la caída se da solamente en este subtest indica una ansiedad
neurótica normal. Los esquizofrénicos generalmente presentan un
desempeño normal en este subtest. Un puntaje inferior en 5 o más
unidades al de Vocabulario indica una significativa disminución
de la organización y coordinación visomotora.
94
Diseño con cubos: Este subtest es el más sólido de los de

ejecución y en general se mantiene próximo al nivel del
Vocabulario. El factor que genera disminución en este
subtest es la depresión. En este caso la disminución es igual
o más importante que la de los demás subtests de ejecución
y cuanto mayor la disminución más grave es la depresión.
Un puntaje, en este subtest y en el de Composición de
objetos, superior a una tendencia central baja para los tests
de ejecución puede indicar una esquizofrenia. En general en
estos dos subtests los esquizofrénicos crónicos y
deteriorados pueden desempeñarse perfectamente bien. Un
puntaje en Diseño con cubos inferior en tres o más unidades
al de Vocabulario indica una baja significativa de la
organización y coordinación visomotora.
Dígitos y Símbolos: Este es el subtest de ejecución más
sensible al retardo psicomotor producido por las depresiones.
En los esquizofrénicos, es la disminución de la concentración
que perjudica el desempeño en esta prueba, aunque algunos
tipos (los blandos) la realizan sin ansiedad y obtienen buenas
puntuaciones. Las personas acostumbradas a realizar trabajos
semejantes al requerido en este subtest, como los taquígrafos,
suelen obtener puntuaciones altas no solamente en este subtest
pero también en los demás de ejecución. Una puntuación en
Dígitos y Símbolos, tres o más unidades inferior a la de
Vocabulario, indica una disminución significativa de la
coordinación y velocidad visomotora.
• Grupo de organización visual
Ordenamiento de dibujos: Este es un subtest muy vulnera-ble,

aun en neuróticos y normales. También se halla disminuido en los
esquizofrénicos paranoideos y más profundamente en los
deteriorados y psicóticos depresivos. Un puntaje inferior al de
Vocabulario en 4 o más unidades revela una baja
95
significativa de la aptitud para realizar anticipaciones correctas

y/o de la organización visual.
Figuras incompletas: Este es el subtest que presenta la serie de
disminución más sistemática. La disminución más importante es
observada en los psicóticos depresivos, luego vienen los
esquizofrénicos deteriorados sin clasificar, luego los
esquizofrénicos agudos y crónicos seguidos de los compulsivos
obsesivos, luego los neuróticos depresivos, en seguida los
normales con tendencias depresivas y finalmente los normales no
depresivos. Para diferenciar los psicóticos depresivos de los
esquizofrénicos se verifica el desempeño en los demás subtests de
ejecución que debe estar mucho más disminuido entre los
primeros.
Completando el análisis de la dispersión, Rapaport (1965, pp.68-
81) comenta sobre los patrones de dispersión específicos y
característicos de diferentes grupos clínicos. Presentamos en
seguida algunas características de tres de estos grupos:
• Grupo de esquizofrénicos:
Los esquizofrénicos agudos sin clasificar presentan puntajes

inferiores al de Vocabulario en prácticamente todos los subtests.
El subtest de Conocimientos es el que presenta menor dispersión
con respecto al de Vocabulario. El patrón diagnóstico para los
esquizofrénicos agudos es el siguiente, en los subtests verbales se
observa disminución en el de Comprensión y sobretodo en el de
Aritmética y poca baja en el de Repetición de Dígitos; en los de
ejecución se observa gran disminución en los subtests de
Organización Visual (Ordenamiento de figuras y Figuras
incompletas) y en el de Composición de Objetos. Los casos
crónicos presentan puntuaciones en los subtests inferiores a la de
Vocabulario, excepto en Conocimientos; pero casi ninguna de
ellas es tan baja cuanto las obtenidas por los casos agudos. En
general, los casos
96
crónicos se desempeñan mejor que los agudos, excepto en

Comprensión, Aritmética y Repetición de Dígitos.
Los esquizofrénicos deteriorados sin clasificar muestran
una baja importante en casi todos los subtests. Comprensión y
Repetición de Dígitos sufren una disminución considerable,
Aritmética aun más y los peores son Ordenamiento de figuras,
Figuras incompletas y Dígitos y Símbolos.
El diagnóstico diferencial del carácter agudo, crónico o
deteriorado de una esquizofrenia paranoica se basa en: 1)
los casos agudos conservan muy bien su desempeño en
Semejanzas, bien en Conocimientos, pero son los peores en
Composición de objetos y Dígitos y Símbolos. 2) los casos
crónicos presentan una dispersión más blanda que la de los
agudos y se distinguen de ellos sobre todo por la
disminución en Conocimientos y Semejanzas, 3) los casos
deteriorados son los que presentan la mayor disminución
del juicio (Comprensión), de la atención (Repetición de
dígitos), de la concentración (Aritmética) y de la capacidad
de planeamiento y anticipación (Ordenamiento de figuras).
Tanto en los esquizofrénicos sin clasificar como en los
paranoideos la dispersión es mayor en los grupos deteriorados,
seguidos de los agudos y finalmente de los crónicos.
• Grupo de depresivos
La gravedad de la depresión corre paralela a la medida de

la disminución de los subtests de ejecución. Los psicóticos
depresivos son los que presentan mayor disminución. El
desempeño de los psicóticos depresivos difiere del de los
neuróticos depresivos en: el subtest de Semejanzas se halla
bien conservado en los neuróticos y muy disminuido en los
psicóticos; los subtests de Conocimientos y Repetición de
dígitos se hallan mejor conservados en los neuróticos.
La diferenciación entre psicóticos depresivos,
97
esquizofrénicos y preesquizofrénicos se halla en la ausencia de

una disminución especial en los subtests de organización visual
(Ordenamiento de figuras y Figuras incompletas), en la
disminución de Diseño de cubos y en la falta de la relación
Repetición de dígitos/Aritmética, puesto que en el primero el
desempeño está seriamente disminuido mientras que en el
segundo está apenas un poco menos.
La diferencia entre depresivos neuróticos y esquizofrénicos
agudos se basa en la baja sistemática de los primeros en los
subtests de ejecución, en la ausencia de verbalizaciones
extravagantes y en la lentitud, bloqueo y pobreza de producción.
• Grupo de neuróticos
Los grupos histeroides difieren de los obsesivos puesto que los

primeros presentan puntajes en Comprensión más altos que en
Conocimientos, lo que sucede al revés en los últimos. En los
grupos histeroides los puntajes en Conocimientos, Comprensión y
Semejanzas se hallan bien conservados, cercanos o superiores a
los de Vocabulario, ya los de Repetición de dígitos y Aritmética
sufren una disminución considerable. Estos son los grupos más
ansiosos de los neuróticos y observamos en estos dos últimos
subtests los efectos de la ansiedad.
Los grupos neuróticos de tipo obsesivo se caracterizan por una

disminución en Comprensión, aunque el desempeño en
Conocimientos se halla conservado. También en estos grupos la
ansiedad es fuerte, lo que provoca una fuerte disminución en
Repetición de dígitos.
Los neurasténicos presentan un nivel de eficiencia sumamente
bajo en los tests de ejecución resultante de su pereza y apatía. Sus
puntajes verbales parecen permanecer en un nivel relativamente
parejo, aunque bajo.
En los compulsivos obsesivos se constata una baja en
98
Aritmética mayor que en cualquier otro grupo neurótico. Se

observa aun una disminución del juicio (Comprensión), de
la organización visual (Ordenamiento de figuras y Figuras
Incompletas) y de los conceptos verbales (Semejanzas)
como sucede en los esquizofrénicos agudos sin clasificar.
La distinción está en el hecho de que la dispersión, en los
primeros, se da en un nivel de puntuaciones normalizadas
más altas, siendo raras las respuestas peculiares o los
errores en los reactivos fáciles.
Finalmente, cabe mencionar que estos análisis provienen
de una investigación realizada con la escala Wechsler-
Bellevue y que por lo tanto debemos tener cuidado en
generalizarlos para las demás escalas de Wechsler. Este
tipo de análisis deja abierto un sinnúmero de problemas
tanto en el dominio estadístico como en el de la
interpretación clínica de los perfiles. Sin embargo, permite
la elaboración de hipótesis diagnósticas que deben ser
verificadas con la aplicación de pruebas psicológicas
específicas.
8.3. Coeficiente de deterioro mental
Wechsler (1955) considera señal de deterioro mental

cualquier caída significativa o pérdida de las habilidades
intelectuales. Esta declinación mental puede ocurrir como
resultado de una enfermedad mental específica o de una
lesión orgánica o cerebral, pero también resulta del proceso
senil, del aumento natural de la edad.
Partiendo de la observación de que ciertas habilidades
declinan más despacio con la edad que otras, Wechsler (ídem)
propuso un procedimiento para el cálculo del coeficiente de
deterioro. En éste, se utilizan las puntuaciones ponderadas
obtenidas en los subtests que "se mantienen" con la edad
(Conocimientos, Vocabulario, Dibujos incompletos y
Composición de objetos) y aquellas obtenidas en los subtests
que "no se mantienen" con la edad (Repetición de dígitos,
99
Aritmética, Diseño con cubos y Dígitos y símbolos). El

procedimiento propuesto es el siguiente:
1) Transformar las puntuaciones brutas obtenidas en cada uno
de estos subtests en puntuaciones normalizadas utilizando
los cuadros de transformación por edades (ver manual)
2) Sumar las cuatro puntuaciones normalizadas obtenidas en
los subtests que se mantienen con la edad (Conocimientos,
Vocabulario, Dibujos incompletos y Composición de objetos)
3) Sumar las cuatro puntuaciones normalizadas obtenidas en
los subtests que declinan con la edad (Repetición de dígitos,
Aritmética, Diseño con cubos y Dígitos y símbolos).
4) Calcular el coeficiente de deterioro mental cuya fórmula es:
Suma (punt. norm, subtests que se mantienen)
-Suma (punt. norm, subtests que declinan)
Suma puntuaciones normalizadas subtests que se mantienen
5) Interpretación: un coeficiente positivo es indicador de

deterioro mental. El estudio de la dispersión de este coeficiente
muestra que uno tiene 20 posibilidades entre 100 de obtener un
CD > .12 y 1 posibilidad entre 100 de obtener un CD > .35. En
general, se obtiene un valor cercano a 0, independientemente de
la edad (Vrignaud en Aubret y col, 1991).
Es importante señalar que para el cálculo del coeficiente de
deterioro deben utilizarse las puntuaciones ponderadas obtenidas
en las tablas por edad. Este procedimiento elimina la
deterioración psicológica provocada por la edad y evalúa
únicamente la deterioración patológica.
9. NORMAS
Las normas del WAIS son presentadas en CI de desviación,

considerando una media de 100 y una desviación estándar de 15
puntos. Estas provienen de una muestra de 1,700 adultos
100
de E.U.A (16-64 años), prorrateados de acuerdo con el censo

de 1950. Los sujetos fueron tomados de cuatro áreas
geográficas en que se dividió a los Estados Unidos y se
establecieron 18 centros de aplicación en diferentes sitios. Las
aplicaciones fueron realizadas por examinadores,
supervisados por psicólogos profesionales (Wechsler, 1955).
Las normas del WAIS-R fueron extraídas de una muestra
de 1,880 adultos (entre 16 y 74 años y 11 meses), estratificada
de acuerdo con el censo de E.U.A. realizado en 1970. Los
sujetos fueron examinados entre 1976 y 1980 en 115 centros
localizados en 39 estados y Washington DC. Un grupo de
individuos de esta muestra fue sometido a ambas formas de la
escala (WAIS y WAIS-R) (Wechsler, 1981a).
Anastasi (1978) resume los resultados reportados sobre la

confíabilidad y validez del WAIS. La confiabilidad de los
subtests, de las subescalas y de la escala total fue verificada
con los grupos de edad de 18-19, 24-34 y 45-54. En general,
se utilizó el procedimiento de división en mitades, excepto en
los casos en que este procedimiento no era apropiado:
Repetición de Dígitos y Dígitos y Símbolos. Para Dígitos
y Símbolos se utilizó el procedimiento de test-retest y para
Repetición de dígitos se obtuvo la correlación entre las
puntuaciones de Dígitos en Orden Progresivo y Dígitos en
Orden Inverso, corregida por la fórmula de Spearman-
Brown. Fueron calculados coeficientes de confiabilidad de
las subescalas y de la escala total a partir de los coeficientes
obtenidos para los subtests. El CI de la escala total presentó
coeficientes de confiabilidad de .97 en los tres grupos de
edad, el CI de la subescala verbal, coeficientes de .96 en los
tres grupos y el de la subescala de ejecución, coeficientes
entre .93 y .94. Los subtests presentaron coeficientes más
101
bajos, variando de .60 a .90. Vocabulario demostró ser el subtest

más confiable. El error estándar de la medida es de 3 puntos (en
cada grupo) para el CI Verbal, de 4 puntos para el CI de
Ejecución y de 2.60 para el CI Total.
La validez del WAIS fue demostrada por distintos
procedimientos. Muchos estudios fueron realizados para estudiar
la validez de criterio, utilizando: correlaciones con evaluaciones
de realización en el trabajo, con calificaciones académicas, etc.
La validez estructural fue testada a través de intercorrelaciones
entre los distintos subtests y subescalas y de análisis factoriales.
Uno de los estudios factoriales, realizado por Cohen, identificó
tres factores básicos: un factor de comprensión verbal, un factor
de organización perceptual y un factor de memoria. Según
Wechsler (1981a) estos resultados confirman la adecuación de la
división en dos subescalas: una verbal y otra de ejecución. Fueron
también obtenidos coeficientes de correlación con otras pruebas
de inteligencia. Con el Stanford-Binet, los coeficientes de
correlación variaron entre .80 y .90 dependiendo de la muestra.
Con los tests colectivos las correlaciones fueron un poco más
bajas, variando de .40 a .80 (Anastasi, 1978). Anastasi (ídem)
relata, con detalles, varios de los estudios realizados para testar la
validez de esta escala.
El WAIS-R presentó también coeficientes de confiabilidad

elevados en nueve grupos de edad. Estos fueron obtenidos a
través de los mismos procedimientos utilizados para el WAIS.
Los coeficientes promedio obtenidos fueron: .97 para la subescala
verbal, .93 para la subescala de ejecución y .97 para la escala
total. Los coeficientes de confiabilidad de los subtests variaron
entre .52 y .96, la escala de vocabulario obtuvo el coeficiente más
alto. En general, los subtest verbales presentaron una mayor
confiabilidad que los de ejecución. El subtest de Repetición de
dígitos presentó un coeficiente significativamente superior al
obtenido en la versión anterior
102
del WAIS. Este resultado puede ser atribuido a los cambios

realizados en este subtest. El error estándar de la medida es de
2.74 para la subescala verbal, de 4.14 para la subescala de
ejecución y de 2.53 para la escala total (Wechsler, 1981a).
El manual del WAIS-R no presenta ningún estudio específico
sobre la validez de esta prueba. El autor comenta que como el
WAIS-R mide las mismas habilidades que sus precursores
(WAIS y WECHSLER-BELLEVUE), los resultados de los
estudios realizados con estos últimos pueden ser considerados
relevantes para la escala revisada (ídem).
11. COMENTARIOS
El WAIS ha demostrado gran utilidad y aceptación. Su gran

ventaja es proporcionar un diagnóstico mucho más fino de las
habilidades intelectuales de un individuo, comparado al ofrecido
por la mayoría de las pruebas de inteligencia. Además, posibilita
otros análisis, a nivel cuantitativo y cualitativo, que enriquecen
enormemente la interpretación de sus resultados, posibilitando
hasta la formulación de hipótesis diagnósticas de disfunciones
orgánicas y mentales.
Mientras tanto, ésta es una prueba que sólo puede ser aplicada
individualmente y que requiere un tiempo de aplicación
importante. Necesita también, examinadores altamente
entrenados.
Una observación importante, en la utilización de WAIS-
español, es el hecho de que todavía no existen normas para la
población mexicana. En México, desde 1964, vienen siendo
realizados los primeros pasos para la estandarización de la
escala, bajo la dirección del doctor. Rogelio Díaz-Guerrero
(Morales, 1993).
103
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión).
Aubret, F., Aubret, J., Chartier, D., Chaudagne, H.,Francequin-

Chartier, G., Huetau, M., Porlier, J - C, Rozencwajg,
P. y Vrignaud, P. (1991). Evaluer I'intelligence. Manus-
crito no publicado, I.N.E.T.O.P., París, Francia.
a a
Morales, M.L. (1993). Psicometria Aplicada (2 ed., 2 reimpre-
sión) México D.F.: Editorial Trillas.
Wechsler, D. (1955). La medición de la inteligencia del adulto.
La Habana: Cultural, S.A.
Scale-Revised. Nueva York: The psychological Corpora-

tion
, D. (1981b). WAIS-Español - Escala de Inteligencia para
Adultos -Manual. México D.F.: Editorial El Manual
Moderno.
CAPITULO VII
ESCALA DE INTELIGENCIA PARA
EL NIVEL ESCOLAR
DEfWECHSLER (WISC)
La escala WISC (Escala de Inteligencia para el Nivel Escolar)

fue presentada en 1949, como una extensión de la escala
Wechsler-Bellevue, para ser utilizada con niños de 5 a 15 años
11 meses (Wechsler, 1981c). En 1974, surgió la escala
revisada del WISC (WISC-R) que es fundamentalmente
similar, pero técnicamente superior, a la original. Los cambios
básicos fueron: 1) eliminación de los reactivos ambiguos,
obsoletos o injustos e inclusión de reactivos nuevos para
incrementar la confiabilidad de la escala; 2) cambio en el
rango de edad para 6 a 16 años 11 meses; 3) cambios en la
estandarización (ejemplo: más amplia representación de los
blancos); 4) cambio en el contenido de algunos reactivos;
5) cambio en la secuencia de aplicación de los subtests; 6)
cambio en las instrucciones de aplicación; 7) cambio en los
criterios de calificación (Wechsler, 1981d).
Una nueva edición del WISC fue presentada recientemente
(WISC-III). Como en el caso de la revisión anterior, esta última
representa un desarrollo técnico de la versión original. Incluye
reactivos actualizados, dibujos más modernos, mejores normas y
más investigaciones con respecto a la validez.
Esta escala fue traducida y adaptada para varios idiomas.
Las dos primeras versiones fueron traducidas para el español
105
—WISC-español y WISC-R español— y presentadas en 1981.

Además, desde 1964 está siendo realizada la estandarización
de esta prueba para la población mexicana (WISC-RM), por el
equipo de investigaciones del INCCAPAC (Instituto Nacional
de Ciencias del Comportamiento y de la Actitud Pública,
Asociación Civil), bajo la dirección del doctor Rogelio Díaz-
Guerrero. Para elaborar esta versión se tomó la traducción de
Puerto Rico, se le comparó con el original de Wechsler, se
hicieron correcciones en la traducción y se adaptaron aquellos
reactivos considerados no adecuados a la cultura mexicana,
cuidando de no alterar ni el contenido, ni el grado de dificultad
de los mismos (Morales, 1993).
El WISC se compone de dos subescalas: Verbal y de Ejecución.

Cada subescala es compuesta de 6 subtests: 1) Verbal:
Conocimientos o Información, Comprensión, Aritmética,
Semejanzas, Vocabulario y Repetición de dígitos o
retención de dígitos; 2) De ejecución: Figuras Incompletas o
Dibujos Incompletos, Diseño con cubos, Ordenación de
dibujos, Composición de objetos, Dígitos y Símbolos o
Claves, y Laberintos. Los subtests del WISC son los mismos
del WAIS, la diferencia es que se agregó el subtest de
Laberintos a la subescala de ejecución. Dos de estos subtests
son considerados complementarios: en la escala verbal, el
subtest Repetición de dígitos y en la de ejecución, es subtest
de Laberintos. Los subtests complementarios tienen como
objetivo sustituir un subtest, que por algún motivo
específico quede invalidado (Wechsler, 1981c, 198 Id).
3. MATERIAL
Para la aplicación del WISC se requieren: 1) el manual, 2)

106
un protocolo donde se registran las respuestas del examinado,

3) un protocolo de Claves y Laberintos, 4) una libreta con
algunos problemas de Aritmética, Figuras Incompletas y
Diseños con Cubos, 5) una caja con tarjetas para Ordenación
de Dibujos, 6) una lámina con árboles y una lámina blanca
para problemas de Aritmética, 7) una caja con cubos
rojiblancos para Diseño con Cubos, 8) cinco cajas con
diferentes "rompecabezas" para Composición de Objetos y
9) una plantilla de Claves. Además, se necesita un
cronómetro, dos lápices rojos sin goma y un lápiz color
negro para Claves y Laberintos.
El WISC es indicado para niños entre 5 y 15 años y 11

meses y el WISC-R para niños de 6 a 16 años y 11 meses.
Esta prueba sólo debe ser administrada individualmente.
Se requieren entre 50 y 75 minutos para la aplicación de 10

subtests del WISC. El ideal es aplicar toda la prueba en una
única sesión. Pero, si esto resulta imposible debido a
problemas de horario, motivación del niño o algún otro
motivo, puede dividirse en dos sesiones, con un intervalo
máximo entre ellas de una semana. Lo que no se puede
hacer es disminuir el número de escalas para ahorrar
tiempo (Wechsler, 1981c, 198 Id).
En el WISC, también debe estarse atento a los subtests
107
que suponen un límite estricto de tiempo, así como a los

subtests que bonifican la ejecución rápida del individuo.
La complejidad de la aplicación exige del examinador un buen

entrenamiento. El examinador debe seguir exactamente las
instrucciones del manual, las indicaciones para sacar dudas,
para formular y contestar preguntas y para repetir
instrucciones. Es importante que el examinador sepa que las
instrucciones utilizadas en el WISC-R son, algunas veces,
distintas a las del WISC y que él debe estar muy atento a estas
diferencias. La aplicación del WISC requiere aún más cuidado
puesto que ésta se realiza con niños. Los niños, sobre todo los
muy jóvenes, son más inquietos, curiosos con el material,
hacen preguntas, pueden cansarse más rápido, etc. El
examinador debe prepararse para enfrentar situaciones de este
tipo y seguir las instrucciones del manual para manejarlas.
El examinador inicia la aplicación llenando los datos
personales y calculando la edad exacta del individuo. En el
manual se indica la forma correcta de realizar este cálculo.
En el WISC se aplican primero los subtests de la subescala
verbal y después los subtests de la subescala de ejecución
(Wechsler, 198 le). En el WISC-R se alternan subtests verbales
y de ejecución. El orden recomendado es el siguiente: 1)
Información, 2) Figuras Incompletas, 3) Semejanzas, 4)
Ordenación de dibujos, 5) Aritmética, 6) Diseño con cubos,
7) Vocabulario, 8) Composición de Objetos, 9) Comprensión,
10) Claves, 11) Retención de Dígitos (subtest
complementario) y 12) Laberintos (subtest
complementario). Este orden no es estricto pudiendo ser
adaptado a las necesidades de un niño específico. Si el niño
se rehusa a ejecutar un subtest en particular el examinador
puede dejarlo para el final de la sesión (Wechsler, 198Id).
108
Los subtests complementarios pueden usarse: (a) cuando

el tiempo lo permita, (b) como subtest alternativo cuando
uno de los subtests, de la misma subescala, se quede
invalidado y (c) cuando el sujeto presente una limitación
específica que impida la ejecución de uno de los subtests.
Mientras tanto, la sustitución no puede ser realizada
simplemente porque el sujeto obtuvo una puntuación baja
en un determinado subtest (Wechsler, 1981c).
Para cada subtest, se indica el reactivo donde debe
iniciarse la aplicación; el reactivo inicial depende, en varios
subtests, de la edad del examinado. Por ello, es muy
importante hacer el cálculo exacto de la edad del niño antes
de iniciar la aplicación. Al aplicarse a niños con sospecha
de deficiencia mental, perturbados emocionalmente o
atípicos es recomendable iniciar con el primer reactivo.
El procedimiento básico de calificación es muy similar al del

WAIS, aunque los criterios de calificación de los subtests, cuya
puntuación no es objetiva (Semejanzas, Vocabulario y
Comprensión y algunos de los reactivos de Conocimientos), son
muy distintos. Por ello, un examinador entrenado en el WAIS no
debe creerse capaz de aplicar o calificar un WISC sin el debido
entrenamiento. Los criterios utilizados en el WISC y en el
WISC-R también tienen diferencias importantes.
En el WISC, se asignan uno o más puntos a las respuestas
correctas dependiendo del subtest, de la calidad de la respuesta o
del tiempo en que el sujeto ha contestado el reactivo. Para cada
subtest, se calcula la puntuación natural y se la convierte en
puntuación normalizada. Las tablas de conversión (puntuación
natural - puntuación normalizada) están divididas por edades,
con intervalos de 4 meses. Estas, son presentadas en el manual.
En seguida, se calcula el total de las puntuaciones
109
normalizadas de cada subescala —Verbal y de Ejecución— y de

la escala total. Con estas puntuaciones totales se hallan los
respectivos CI (verbal, de ejecución y total) en la tabla de
conversión presentada en el manual. Todas las puntuaciones
deben ser apuntadas en el protocolo, en sus respectivos espacios.
Allí también se debe trazar la gráfica de las puntuaciones.
Es importante señalar que, en esta prueba, cuando se incluyen
en la aplicación los subtests complementarios, debe prorratearse la
suma de las puntuaciones normalizadas (Ver-bal y/o de Ejecución)
antes de convertirla a CI. Esto se hace necesario, puesto que, la
construcción de la tabla de CI fue basada en la suma de las
puntuaciones normalizadas de cinco subtests verbales y cinco de
ejecución. Para prorratear se multiplica la suma de puntuaciones
normalizadas de la subescala por 5/6. Si ocurre la invalidación de
un subtest, o sea, en el caso que sólo se tomen en cuenta cuatro de
los subtests de una subescala, se multiplica la suma de
puntuaciones normalizadas de esta subescala por 5/4 (Wechsler,
198Id).
Obtenido el CI total se utiliza la tabla de clasificación de
inteligencia para establecer el diagnóstico (ver Capítulo VI).
También con el WISC pueden realizarse otros análisis para
profundizar el diagnóstico de habilidades o incapacidades
específicas.
a. Diferencia entre el CI Verbal y el CI de Ejecución
Según Kaufman (1982), en el WISC-R, la diferencia entre el CI

Verbal y el CI de Ejecución es considerada significativa cuando es
superior o igual a 12 puntos. El apunta que cuando la diferencia es
mayor que 25 puntos puede ser indicativo de disfunción
neurológica (daño cerebral). Mientras tanto, añade que "las
discrepancias en los CI V-E no deben utilizarse para inferir una
disfunción neurológica si no se cuenta con un
110
apoyo convincente de otros datos y observaciones

suplementarias" (ídem, p.30).
b. Interpretación de las diferencias entre el CI Verbal v el

CI de Ejecución
Kaufman (1982, pp. 26-50) analiza posibles explicaciones

para las diferencias significativas entre los CI Verbal y de
Ejecución en el WISC-R.
• Inteligencia verbal contra inteligencia no verbal
Algunos individuos pueden tener una facilidad desigual para

expresar su inteligencia: dando mayor énfasis a la expresión
de la inteligencia verbal en respuesta a estímulos verbales o
expresándola mejor en forma manipulativa en respuestas a
estímulos visuales concretos. Las verdaderas diferencias entre
la inteligencia verbal y la no verbal pueden reflejar un mayor
desarrollo de uno de los hemisferios cerebrales. El hemisferio
izquierdo está especializado en el procesamiento de estímulos
lingüísticos mientras que el derecho es experto en el manejo
de estímulos visuales-espaciales. Entonces: E > V puede
sugerir un mayor desarrollo del hemisferio derecho en tanto
que V > E puede sugerir un mayor desarrollo del hemisferio
izquierdo.
• Capacidad fluida y capacidad cristalizada
Las discrepancias entre el CI Verbal y el de Ejecución pueden

indicar diferencias entre las capacidades fluida y cristalizada
más que entre el pensamiento verbal y de ejecución. "La
capacidad fluida implica solución de problemas en los que el
punto crítico es la adaptación y flexibilidad para enfrentar
estímulos desconocidos; la capacidad cristalizada se refiere
111
al funcionamiento intelectual en tareas que requieren

entrenamiento, educación y aculturación previos" (ídem, p.
32) . La primera es reflejo del aprendizaje incidental, obtenido
indirectamente de las experiencias de la vida, mientras que la
segunda implica un entrenamiento directo y deliberado. No hay
una correspondencia perfecta entre las dicotomías V-E y fluida-
cristalizada. Aunque la escala verbal puede ser considerada una
buena medida del Pensamiento cristalizado, la escala de ejecución
evalúa además del Pensamiento fluido, la Visualización amplia
(factor análogo a Organización perceptual) y otras capacidades
menores. Estas escalas no son medidas puras de estos
pensamientos.
Un niño proveniente de un medio privilegiado y cuyos padres
dan mucha importancia al éxito escolar es probable que obtenga
V > E, como también los niños que logran su éxito escolar con un
trabajo excesivo. Es frecuente que los niños con problemas de
aprendizaje obtengan E > V. La relación E > V en los niños con
desventaja cultural puede indicar una verdadera capacidad
intelectual potencial a pesar de la falta de experiencia de
aprendizajes adecuadas. El CI de ejecución considerablemente
más alto indica que el niño puede abordar la solución de
problemas de forma adaptable y flexible, lo que sugiere que él
podría llegar a una situación de éxito escolar si fuera debidamente
estimulado en estas habilidades.
• Deficiencias psicolingüísticas
Deficiencias en el funcionamiento psicolingüístico generan

problemas de aprendizaje y seguramente afectan las puntuaciones
de un test de inteligencia. Como el WISC-R evalúa la inteligencia
por medio de los transmisores correspondientes a las formas de
comunicación auditiva-vocal y visual-motora, si uno de estos
transmisores está
112
dañado, una parte del test ya no está midiendo la

inteligencia del sujeto. Por ejemplo, un niño con deficiencia
en las vías de comunicación auditiva-visual probablemente
realizará una ejecución deficiente en la mayoría de los
subtests verbales y podrá tener dificultades en los subtests
no verbales que requieren la comprensión de extensas
instrucciones verbales. Los niños con problemas
psicolingüísticos graves podrán presentar una fuerte
discrepancia V-E. Los niños con problemas receptivos no
tienen la oportunidad de demostrar su inteligencia en el
canal afectado, mientras que los que tienen problemas en el
área de expresión no pueden comunicar sus procesos de
pensamiento. Si la discrepancia V-E es resultado de una
deficiencia psicolingüística, el CI total no tiene significado.
• Bilingüismo
Es probable que los niños que aprenden dos idiomas

simultáneamente en la infancia obtengan una puntuación más
alta en la escala de Ejecución que en la Verbal. "Varias
investigaciones han encontrado que los niños mexicanos
norteamericanos y los puertorriqueños que viven en los
Estados Unidos obtienen puntuaciones significativamente
mayores en las medidas de capacidad mental no verbal que en
la verbal" (Kaufman, 1982,p.36). Este hecho es generalmente
observado independientemente de que la prueba sea aplicada
en inglés o español. No se pueden atribuir las bajas
calificaciones en la escala verbal a un déficit intelectual pues
las puntuaciones en las tareas cristalizadas son influenciadas
por la capacidad de lenguaje, por la cultura y por el estilo
cognoscitivo. Kaufman (ídem) recomienda que, al evaluar un
niño bilingüe a través del WISC-R, no se compute o interprete
el CI global y se proceda a una interpretación juiciosa de la
discrepancia CI V-E.
113
• Dialecto de los negros
Se ha observado que la pronunciación, estructura gramatical y

vocabulario del niño negro tienen sus peculiaridades. Aunque el
examinador está familiarizado con el lenguaje y la cultura negra
posiblemente sentirá el impacto del dialecto de los negros en el
CI del WISC-R. Tanto el CI verbal cuanto el de Ejecución pueden
ser afectados, sin embargo el CI verbal es el más vulnerable.
Cuando los examinadores desconocen el dialecto de los negros
puede haber una profunda influencia de las diferencias de
lenguaje sobre el CI verbal. Hay muchas diferencias de
pronunciación que pueden provocar dificultades en los estímulos
de Vocabulario y Semejanzas. Además, al contestar los reactivos
verbales el niño puede usar palabras y conceptos específicos a la
cultura negra. Muchas de estas respuestas, que pueden ser
correctas o parcialmente correctas, pueden ser tomadas como
incorrectas por un examinador que no tenga los conocimientos
pertinentes. Así, cuando un niño negro presenta una puntuación
de ejecución mucho más alta que la verbal, debe considerarse la
posibilidad que su puntuación verbal esté disminuida por las
diferencias lingüísticas.
• Problema de coordinación
Un CI Verbal más alto que uno de Ejecución no necesariamente

indica que el niño ha desarrollado mejor su capacidad mental
verbal que no verbal. Muchos subtests de ejecución exigen una
coordinación motora considerable para un rendimiento acertado.
Niños con un desarrollo motor deficiente tienden a obtener una
baja puntuación en la Escala de Ejecución. Los subtests Diseño
con cubos, Composición de objetos, Laberintos y Dígitos y
Símbolos son los que más coordinación motora exigen. Siempre
que el examinador observe que las puntuaciones normalizadas del
niño en los primeros cinco subtests de
114
ejecución muestran una disminución constante, debe

considerar la posibilidad de un problema motor. Si el niño
no manifiesta alguna dificultad de coordinación durante la
aplicación, sobre todo de la escala de ejecución, la hipótesis
debe ser rechazada. Cuando esta hipótesis no es rechazada,
es importante aplicar tests suplementarios específicos que
permitan verificarla (Ejemplo: Bender).
• Exigencias de tiempo
Las discrepancias de tipo V > E también pueden ser

explicadas por la incapacidad del niño de conducirse
adecuadamente bajo situaciones de apremio. En todos los
subtests de ejecución se toma el tiempo y en muchos se dan
bonificaciones por una rápida ejecución. Sin embargo, en la
escala verbal sólo se controla el tiempo en Aritmética. Un
niño con este tipo de problema tendrá no solamente una
puntuación de ejecución baja pero también la de Aritmética.
En general, la conducta del niño proporciona indicios de su
problema. Algunos emiten respuestas claramente negativas
hacia el cronómetro o comportamientos que indican
ansiedad con respecto al mismo; otros harán caso omiso del
cronómetro o de la importancia del tiempo. El rendimiento
deficiente en los subtests cronometrados puede ser debido a
(además de problemas de coordinación motora): inmadurez,
ansiedad, distracción, reflexión o compulsión.
Un método para verificar la capacidad no verbal de solución
de problemas sin presiones de tiempo, es el probar los límites al
terminar la aplicación del WISC-R completo. En este caso se
elimina el cronómetro y se presenta otra vez aquellos reactivos
que el niño no pudo contestar correctamente, analizando su
conducta bajo estas nuevas condiciones.
115
• Dependencia e independencia del campo
Según Kaufman (1982) el estilo cognoscitivo bipolar —

dependencia-independencia del campo— "se refiere al
proceso o forma de una actividad cognoscitiva (es decir, se
interesa en cómo percibimos, aprendemos, nos relacionamos
con la gente, etc.), más que al contenido; es difuso, abarca
los dominios sociales, intelectivos y personales, y es estable
con el tiempo; además, a diferencia de los extremos de la
inteligencia, cada polo tiene un valor adaptativc bajo
circunstancias específicas" (p.46).
El añade que, en general, las personas independientes del
campo son flexibles en situaciones que exigen la resolución
de problemas, imponen una estructura cuando se carece de
ella al manejar materiales verbales y perceptuales, tienen una
orientación impersonal, son interesadas por los aspectos
teóricos y abstractos y utilizan la intelectualización como
mecanismo de defensa. Las dependientes del campo están en
armonía con los aspectos sociales de su medio ambiente,
echan mano del orden social predominante, se interesan por
la gente y gustan de estar con ella, no estructuran de forma
espontánea a los estímulos (los dejan como están), tienen un
concepto corporal global y no detallado y utilizan defensas
inespecíficas como la represión.
Las personas independientes del campo, por su forma
analítica tienen mayor facilidad en los subtests Figuras
incompletas, Diseño con cubos y Composición de objetos. En
consecuencia, puede atribuirse una discrepancia E > V al hecho
que el sujeto sea del tipo independiente del campo, así como la
relación V > E puede estar asociada a un tipo dependiente del
campo. El mismo autor apunta que pueden comprobarse las
hipótesis relacionadas al estilo cognoscitivo:
1) analizando el perfil de los subtests que debe indicar que
las puntuaciones normalizadas obtenidas en Figuras
116
incompletas, Diseño con cubos y Composición de objetos son

radicalmente distintas (mayores o menores) al promedio de las
demás puntuaciones (verbales y no verbales); 2) aplicando
instrumentos específicos para discriminar el estilo cognoscitivo
(Ejemplo: Test de Figuras Ocultas); 3) integrando la información
referente al medio del niño con las observaciones del
comportamiento del niño en las áreas social y personal.
• Operación de evaluación de GUILFORT
Las escalas verbal y de ejecución difieren en el grado en que

miden la operación de ' 'evaluación'' descrita por Guilfort.
Esta operación está relacionada con la capacidad para emitir
juicios tomando como base una norma conocida. Este proceso
mental es requerido para que se obtengan buenas puntuaciones
en los cinco subtests de ejecución normalmente aplicados,
pero sólo es necesario para un subtest verbal — Comprensión.
Luego, las discrepancias V-E pueden deberse a la capacidad
de evaluación excelente o deficiente y no a diferencias entre
las habilidades de Comprensión Verbal y Organización
Perceptual. Según Kaufman (1982), dos condiciones son
importantes para la formulación de esta hipótesis: 1) que
exista poca variación en las puntuaciones normalizadas de la
Escala de Ejecución, 2) que la puntuación de Comprensión
difiera significativamente del promedio de las puntuaciones
verbales y que sea consistente con el promedio de las
puntuaciones normalizadas obtenidas en la Escala de
Ejecución.
• Influencias socioeconómicas
Las discrepancias V-E pueden ser atribuidas, en parte, al

medio socioeconómico del niño. La investigación ha
demostrado que los hijos de profesionistas tienden a obtener
117
puntuaciones superiores en la Escala Verbal, mientras que en los

hijos de trabajadores no especializados sucede el opuesto.
Kaufman comenta: "aunque los datos son muy variables para cada
categoría socioeconómica, estas tendencias son dignas de
atención ya que sugieren que las experiencias que el niño tiene en
su medio pueden ayudar a conformar sus habilidades relativas en
las esferas verbal y no verbal" (ídem, p.50).
Kaufman (1982) menciona algunas situaciones en que la
discrepancia CI V-E carece de importancia:
• Los cocientes de inteligencia no corresponden a las

puntuaciones del factor
No hay un acuerdo perfecto entre el CI de la escala y el factor

(verbal o no verbal). El subtest Aritmética realmente no pertenece
al factor verbal, tampoco hay datos que apoyen la inclusión de
Dígitos y Códigos en el factor perceptual. En consecuencia, hay
que analizar el impacto que tienen estos dos subtests sobre la
discrepancia V-E. Discrepancias V-E que aparentemente no son
significativas (inferiores a 12) pueden en realidad ser importantes,
o viceversa.
• Compensación Verbal de la deficiencia en Ejecución
Los niños que tienen habilidades verbales excepcionalmente

desarrolladas pueden utilizarlas para compensar habilidades no
verbales deficientes. En este caso hay que observar el rendimiento
del niño en dos tests no verbales, que tienen cargas secundarias de
Comprensión Verbal - Ordenación de figuras y Figuras
incompletas - y su discrepancia de los demás tests de ejecución.
Muchas veces se observa que los niños altamente verbales
vocalizan sus estrategias de resolución de problemas.
118
• Dispersión en el perfil
Siempre que se observe una dispersión considerable en el
perfil de puntuaciones normalizadas, en la Escala Verbal,
en la Escala de Ejecución o en ambas, la discrepancia V-E
suele perder significado. La existencia de dispersión de las
puntuaciones normalizadas obtenidas en la Escala Verbal
indica que la capacidad global de Comprensión Verbal del
niño no es la causa principal de las puntuaciones
normalizadas que obtuvo en los distintos subtests de esta
escala, sino que existen otras variables que han contribuido;
por lo tanto el CI Verbal no corresponde a una entidad
unitaria. El mismo tipo de razonamiento debe ser realizado
en cuanto a la Escala de Ejecución. En este caso la
discrepancia entre los CI V-E tiene poco significado.
• Efectos de la repetición del test
Varias situaciones pueden llevar a una reaplicación del test

con un intervalo de unos cuantos meses. "En ningún caso en
que se vuelva a aplicar el WISC-R después de uno o varios
meses son de fiar las discrepancias V-E y los CI globales
obtenidos por los niños en segunda aplicación'' (Kaufman,
1982, p.56). Cuando se realiza un retest después de un mes, se
espera que cualquier niño logre un incremento cercano a los 7
puntos en su CI total. Sin embargo, este incremento no se
distribuye igualmente entre el CI Verbal y el CI de Ejecución.
El primero obtiene un incremento de 3½ puntos mientras que
el segundo aumenta de 9½ puntos. Este incremento desigual
puede provocar una discrepancia significativa en la
reaplicación. Es probable que el mayor incremento del CI de
Ejecución se deba a una familiaridad relativa con las tareas. Si
es posible, es conveniente aplicar un instrumento de retest
diferente (Ejemplo: el Stanford-Binet). En el caso que se
reaplique el WISC-R, se debe
119
proceder a una interpretación prudente, sin dar importancia

indebida al CI global o a la discrepancia V-E. "Cuando la
discrepancia V > E casi es significativa, se debe suponer que
probablemente refleje una diferencia significativa; sin em-
bargo, se deben ignorar aquellas discrepancias E > V que
apenas son significativas. En caso que se encuentren grandes
discrepancias E > V, es pertinente mantener como hipótesis
viable que la magnitud de esas discrepancias se puede
atribuir parcialmente al retest" (ídem, p. 57).
c. Dispersión intra-individual
Kaufinan (1982, p. 64) propone el siguiente procedimiento para

calcular fluctuaciones internas significativas en el WISC-R:
1) Compute la puntuación normalizada promedio de todos los
subtests de la Escala Verbal aplicados (5 o 6) y la puntuación
normalizada promedio de los subtests de la Escala de Ejecución.
Redondee cada promedio al número entero más próximo.
2) Examine las puntuaciones normalizadas de la Escala
Verbal y anote todos los valores que están 3 puntos por arriba
del promedio de esta escala. Estas son las ventajas
significativas del niño y deben señalarse con "V" . En seguida
anote los valores que están 3 puntos por abajo del promedio de
la Escala Verbal y señálelos con " D " (desventaja).
3) Realice el mismo procedimiento arriba mencionado
con las puntuaciones de la Escala de Ejecución.
4) Todas las puntuaciones normalizadas cuyas
desviaciones no son significativas deben considerarse como
fluctuaciones al azar
Deben interpretarse las ventajas y desventajas del niño
con base a las funciones intelectuales medidas por los
subtests cuya dispersión es significativa. En la sesión del
WAIS, se mencionan las funciones intelectuales medidas
por cada uno de los subtests de la escala.
120
9. NORMAS
Las normas para ambas versiones del WISC son presentadas

en CI de desviación, considerando una media de 100 y una
desviación estándar de 15 puntos. Los manuales presentan
tablas de normas para 11 grupos de edad.
El WISC fue estandarizado en una muestra de 2,200 niños
de E.U.A., distribuidos en 11 grupos de edad (100 niños y 100
niñas de cada edad), de 5 años 0 meses a 15 años 11 meses.
Todos los niños fueron examinados dentro de un mes y medio
de su medio año; por ejemplo los niños de 5 años, ya habían
cumplido 5 años, 4 meses y 15 días, sin embargo no habían
pasado de los 5 años, 5 meses y 15 días. Los requisitos de
muestreo fueron basados, en gran medida, en los datos del
Censo de E.U.A de 1940, tomándose en cuenta la edad, el
sexo, el área geográfica, la residencia urbana-rural y la
ocupación de los padres. Se incluyeron en la muestra 55 casos
de débiles mentales, la mayoría provenientes de escuelas
especiales (Wechsler, 1981c).
Las normas del WISC-R provienen de una muestra de
2,200 niños de E.U.A., 200 de cada uno de los 11 grupos de
edad, desde los 6 ½ hasta los 16 ½ años. Cada niño fue
examinado hasta seis semanas de su medio año cumplido,
como en el WISC. El plan de muestreo fue estratificado y se
seleccionaron variables de acuerdo con los datos del Censo de
1970. Las variables utilizadas fueron: edad, sexo, raza
(blancos y no blancos), región geográfica, ocupación de los
jefes de la familia y residencia rural-urbana. La muestra de
estandarización se limitó a niños ' 'normales"; no se tomaron
en cuenta niños institucionalizados con anormalidades
mentales o con problemas emocionales graves. Un total de
202 examinadores aplicaron la prueba a lo largo de E.U.A.,
entre diciembre de 1971 y enero de 1973 (Wechsler, 1981d).
La estandarización de la versión mexicana (WISC-RM)
121
se inició en 1964, con una muestra de niños residentes en la

ciudad de México. La muestra incluyó niños escolares urbanos, de
ambos sexos y de tres niveles de sistemas escolares, que
representaban tres niveles económicos de la ciudad de México
(Morales, 1993).
Para estudiar la confíabilidad de las dos versiones del WISC, se

utilizó el procedimiento de división en mitades, excepto en los
casos en que este procedimiento no era apropiado: Repetición de
Dígitos y Dígitos y Símbolos. Para Dígitos y Símbolos se utilizó
el procedimiento de test-retest y para Repetición de dígitos se
obtuvo la correlación entre las puntuaciones de Dígitos en Orden
Progresivo y Dígitos en Orden Inverso, corregida por la fórmula
de Spearman-Brown. Fueron calculados coeficientes de
confíabilidad de las subescalas y de la escala total a partir de los
coeficientes obtenidos para los subtests.
En el caso del WISC, la confíabilidad de los subtests, de las

subescalas y de la escala total ha sido testada con los grupos de
edad de 7 ½, 10 ½ y 13 ½ años, considerados los más
representativos de los rangos de edades para los cuales fue
diseñada la prueba. Los coeficientes de confíabilidad para la
Subescala Verbal variaron, en función del grupo de edad, entre .88
y .96; los de la Subescala de Ejecución, entre .86 y .90; y los de la
Escala Total entre .92 y .94. Los coeficientes de confíabilidad
fueron más elevados en los grupos de edades más altas. El Error
Estándar varió también con el grupo de edad: para la Subescala
Verbal entre 3.00 y 5.19, para la Subescala de Ejecución, entre
4.74 y 5.61 y para la Escala Total entre 3.68 y 4.25. El Error
Estándar fue siempre menor en los grupos de edades más altas
(Wechsler, 1981c).
Para estudiar la confíabilidad del WISC-R, se tomaron en
122
cuenta los 11 grupos de edad. Para la Subescala Verbal el

coeficiente promedio fue .94, para la Subescala de Ejecución
fue .90 y para la Escala Total fue .96. Los valores promedio
observados de Error Estándar fueron de 3.6, 4.66 y 3.19, para
las escalas verbal, de ejecución y total, respectivamente. Con
el WISC-R se sacaron también coeficientes de estabilidad,
reaplicando la prueba después de un intervalo de cerca de un
mes. Una comparación en la media de los CI en la primera y
en la segunda aplicación revela un aumento de alrededor 3 ½
puntos en la Escala Verbal, 9 ¼ puntos en la escala de
Ejecución y de 7 puntos en la escala Total. Estos resultados
deben ser tomados en cuenta cuando se reaplica la prueba
después de un breve intervalo de tiempo (Wechsler, 198Id).
La confiabilidad del WISC-RM fue verificada a través del
procedimiento de test-retest, con un intervalo de 12 meses, en
tres grupos de edades: 6-7 (133 casos), 9-10 (118 casos)
y 12-13 (133 casos). Los coeficientes de confiabilidad
obtenidos variaron, según el grupo, entre .72 y .76 para la
subescala verbal, entre .64 y .70 para la subescala de ejecución y
entre .77 y .79 para la escala total (Morales, 1993).
La validez, del WISC y del WISC-R, fue estudiada a través
de las intercorrelaciones entre los diferentes subtests. En el
caso del WISC, en tres grupos de edad (7 ½ , 10 ½ y 13
½ ) y en el caso del WISC-R en todos los 11 grupos de
edad. Los coeficientes obtenidos son presentados en los
respectivos manuales e indican que, en general, cada
subtest verbal se correlaciona mejor con la subescala verbal
que con la de ejecución y que cada subtest de ejecución se
correlaciona mejor con la subescala de ejecución que con la
verbal (Wechsler, 1981c, 198 Id).
Fueron realizados también estudios para determinar la
relación entre el WISC-R y otras medidas de inteligencia,
de aplicación individual: el WPPSI, el WAIS y el Stanford-
Binet. La correlación entre el CI total del WISC-R y el del
123
WPPSI, obtenida con un grupo de 50 niños de 6 años 0 meses fue

de .82. La correlación obtenida entre el CI total del WISC-R y el
del WAIS, en un grupo de 40 niños con edades de 16 años 11
meses, fue .95. La correlación entre el WISC-R y el Stanford-
Binet fue estudiada en cuatro grupos de niños (6, 9 ½ , 12 ½ y 16
½ años). Los coeficientes de correlación promedio, entre los CI de
la subescala verbal, de la subescala de ejecución y de la escala
total y los CI del Stanford-Binet, fueron .71, .60 y .73,
respectivamente. Estos valores son similares a aquellos obtenidos
en estudios que comparan el Stanford-Binet al WISC (Wechsler,
198Id).
La validez del WISC-RM fue estudiada mediante un análisis
factorial por edades. Los resultados confirmaron aquellos
obtenidos por Wechsler y otros investigadores con la escala
WISC. Además, fue realizado un análisis de varianza (ANOVA)
con el objetivo de probar el poder discriminative de cada subtest,
por edad, y de verificar la hipótesis de diferenciación por sexo y
nivel socioeconómico (Morales, 1993).
11. COMENTARIOS
Las ventajas del WISC son similares a las atribuidas al WAIS,

sobre todo respecto a la posibilidad de elaborar un diagnóstico
más fino de las habilidades intelectuales, más y menos
desarrolladas, del niño. La aplicación y puntuación del WISC-R
es relativamente más fácil que la del WISC. Los cambios
realizados en el WISC-R fueron de gran utilidad para los
examinadores.
Las dificultades encontradas en la utilización del WISC se
refieren a aspectos prácticos: aplicación estrictamente individual,
tiempo de aplicación considerable, material costoso, etc. Tanto el
WISC como el WISC-R no han sido estandarizados para la
población mexicana, solamente traducidos para el español. La
versión mexicana, construida bajo la dirección
124
de Díaz-Guerrero (WISC-RM), es la que presenta una

estandarización para la población mexicana. Sin embargo,
hay que llevar en consideración que la muestra utilizada se
limitó a la ciudad de México, no siendo por lo tanto
representativa de toda la población mexicana.
Kaufman, A.(1982) Psicometría razonada con el WISC-R.

México D.F.: Editorial El Manual Moderno.
Magnuson, P. (1979). Teoría de los tests México: Editorial
Trillas.
a a
Morales, M.L. (1993). Psicometría Aplicada (2 ed., 2 re-
impresión) México D.F.: Editorial Trillas.
Wechsler, D. (1981c). WISC-Español - Escala de
Inteligencia para el nivel escolar -Manual. México
D.F.: Editorial El Manual Moderno.
, D. (1981d). WISC-R-Español - Escala de Inteligen-
cia revisada para el nivel escolar - Manual. México
125
CAPITULO VIII
ESCALA DE INTELIGENCIA PARA LOS

NIVELES
PREESCOLAR Y PRIMARIO (WPPSI)
La escala WPPSI (Wechsler Preschool and Primary Scale of

Intelligence), fue presentada en 1963. La idea original era
elaborar una escala que fuera una extensión descendiente del
WISC. Sin embargo, después de un estudio preliminar, y por
razones teóricas y prácticas, se consideró que el WPPSI "era
una escala independiente, adaptada de manera óptima al
examen mental de los niños de 4 a 6 ½ años" (Wechsler, 198
le, p. 1). Asimismo, ocho de los once subtests del WPPSI y
casi la mitad de sus reactivos provienen directamente del
WISC. Las modificaciones básicas que se hicieron en los
subtests provenientes del WISC son: adición de elementos
más fáciles y eliminación de otros más difíciles, algunos
cambios en el contenido de reactivos y en la forma de la
aplicación.
Posteriormente se presentó una versión revisada (WPPSI-
R) que puede ser utilizada con niños de 3 a 7 años de edad.
La versión en español —WPPSI español— surgió en 1981
(Wechsler, 198 le). En México, fue realizado un estudio para
la traducción, adaptación, confiabilidad y validez del WPPSI
127
en un grupo de 60 niños de nivel socio económico medio

alto (Coto Villa y Llano de la Torre, 1981).
El WPPSI consta de un total de once subtests, seis

pertenecientes a la subescala verbal y cinco a la subescala de
ejecución. Ocho de los subtests provienen del WISC:
Información, Vocabulario, Aritmética, Semejanzas,
Comprensión, Figuras Incompletas, Laberintos y Diseño con
Prismas y tres son nuevos: Frases, Casa de los Animales y
Diseños Geométricos. El subtest de Frases es complementario
y sólo debe ser utilizado como alternativa, cuando no se puede
aplicar o se queda invalidado uno de los subtests verbales. Las
subescalas, verbal y de ejecución están compuestas por los
siguientes subtests (Wechsler, 198le):
Subescala verbal Subescala de ejecución

Información Casa de Animales
Vocabulario Figuras Incompletas
Aritmética Laberintos
Semejanzas Diseños geométricos
Comprensión Diseños con prismas (o con cubos)
Frases (complementario)
3. MATERIAL
El material del WPPSI se compone de: (1) un manual, (2) un

protocolo, (3) una hoja con laberintos, (4) una hoja de Diseños
Geométricos, (5) un tablero de 28 cilindros de colores para
Casa de los Animales, (6) una libreta con espiral que contiene
los reactivos de Figuras Incompletas y algunos de Diseño con
Prismas, (7) una libreta con espiral que contiene
128
algunos de los problemas de Aritmética y los de Diseños

Geométricos, (8) una caja con 14 prismas, rojo y blancos
para Diseño con Prismas y para algunos de los problemas
de Aritmética. El examinador necesitará también un
cronómetro y dos lápices de color rojo (Wechsler, 198le).
El WPPSI puede ser utilizado con niños de 4 a 6 ½ años y

el WPPSI-R con niños de 3 a 7 años.
La administración es exclusivamente individual.
La aplicación del WPPSI requiere entre 50 y 75 minutos. Si

posible, la prueba debe ser aplicada en una única sesión.
Caso el niño de muestra de cansancio o desmotivación,
puede aplicársela en dos sesiones, con un intervalo máximo
de una semana.
En el WPPSI también existen subtests con tiempo
estrictamente limitado y otros que no tienen límite de
tiempo. En estos últimos, se considera que 15 segundos son
suficientes para que el niño inicie su respuesta.
7. PROCEDIMIENTO DE APLICACIÓN
Como en las demás escalas de Wechsler, las instrucciones de

aplicación y calificación, presentadas en el manual, deben ser
seguidas con la mayor precisión posible. Siendo el WPPSI
utilizado con niños muy pequeños, su aplicación requiere del
examinador mucha simpatía, objetividad y paciencia. Es
129
muy importante mantener el interés y motivación del niño, pero

deben ser evitadas manifestaciones de efusividad o
sobreprotección. Con frecuencia, los niños pequeños quieren
manejar el material, situación que debe ser debidamente
controlada por el examinador.
Llenar los datos personales del sujeto es el primer paso de la
aplicación, seguido del cálculo exacto de la edad del niño, cuyo
procedimiento viene descrito en el manual. En la aplicación, se
alternan los subtests verbales y de ejecución, así como los
"fáciles" y "difíciles". El orden de aplicación indicado, en el
manual, es el siguiente: 1) Información, 2) Casa de Animales, 3)
Vocabulario, 4) Figuras Incompletas, 5) Aritmética, 6) Laberintos,
7) Diseños Geométricos, 8) Semejanzas, 9) Diseño con Prismas y
10) Comprensión. Este orden puede ser alterado, si el niño
presenta alguna dificultad especial o manifiesta alguna resistencia
a un determinado subtest (Wechsler, 198le).
El subtest de Casa de Animales puede ser reaplicado, después

de todos los demás, con el objetivo de ayudar al examinador en la
evaluación cualitativa de la habilidad del niño para aprender una
tarea simple. La reaplicación permite, muchas veces, diferenciar a
los sujetos de aprendizaje rápido o lento. El subtest de Frases es
aplicado cuando se invalida o no se puede aplicar alguno de los
subtests verbales.
En la mayoría de los subtests se inicia la aplicación por el
reactivo 1, con excepción de los subtests de Aritmética, Diseño
con Prismas y Frases cuyo reactivo inicial depende de la edad del
niño.
El procedimiento básico de calificación, aunque muy similar al

del WISC, supone criterios distintos, sobre todo en los subtests
que implican una calificación no objetiva. Se asignan
130
uno o más puntos a las respuestas correctas y se calcula, para

cada subtest, la puntuación natural. Cada puntuación natural es
convertida en puntuación normalizada, utilizándose los cuadros
de conversión, presentados en el manual, que están divididos por
rangos de edades. Se halla la Puntuación Verbal, que es la suma
de las puntuaciones normalizadas de los cinco subtests verbales,
y la Puntuación de Ejecución, que Se obtiene sumando las cinco
puntuaciones de los subtests de ejecución. Es importante señalar
que caso se reaplique el subtest Casa de Animales, no se incluye
en la suma de la Puntuación de Ejecución la puntuación
normalizada de la reaplicación, sólo la de la primera aplicación.
Si solamente se pueden tomar en cuenta cuatro de los subtests de
una subescala (por problemas de invalidez), debe prorratearse la
suma de puntuaciones normalizadas de esta subescala,
multiplicándola por cinco cuartos (5/4) (Wechsler, 198le).
En seguida, se calcula la puntuación total, sumando la

Puntuación de Ejecución con la Puntuación Verbal. Estas tres
puntuaciones son convertidas a CI mediante los cuadros de
conversión presentados en el manual. Todas las puntuaciones
son apuntadas en el protocolo, en los espacios correspondientes.
Además, puede trazarse la gráfica de las puntuaciones del sujeto
en el protocolo. Para establecer el diagnóstico, se utiliza la tabla
de clasificación de la inteligencia, ya presentada anteriormente
(ver Capítulo VI ).
8.1. Aspectos cualitativos
Analizando las respuestas del niño, puede llegarse a una mayor y

mejor comprensión de éste, puesto que, sus respuestas reflejan,
no sólo las influencias culturales o familiares, sino también
algunas características de personalidad como: motivación,
persistencia, impulsividad, ansiedad, necesidad de realización,
independencia, etc. Sin embargo, hay que tener el cuidado de no
hacer demasiadas inferencias a partir de una sola respuesta.
131
Kathia María Costa Neiva
8.2. Diagnóstico de deficiencia mental en niños de edad

preescolar
Aunque el diagnóstico de deficiencia mental en niños
pequeños puede ser una tarea relativamente fácil, "su
diferenciación de otras incapacidades o deficiencia similares
(por ejemplo, esquizofrenia y lesión cerebral), en muchas
ocasiones es realmente difícil´´(Wechsler, 198 le, p.26). La
dificultad mayor está en distinguir las perturbaciones
congénitas del desarrollo mental interrumpido y también en
evaluar, de manera objetiva, las deficiencias. Esta
evaluación se vuelve aún más importante a la medida en que
se acerca la entrada del niño en la edad escolar.
a. Diferencia entre el CI verbal y el CI de ejecución
Wechsler (198le) considera que la diferencia entre el CI

verbal y el CI de ejecución es significativa, a un nivel de
confianza de 5%, cuando es mayor que 11 puntos. Según él,
una diferencia de 15 o más puntos es importante y debe ser
investigada.
b. Diferencia entre las puntuaciones normalizadas de los

distintos subtests
Wechsler presenta en el manual del WPPSI un cuadro con

las diferencias entre las puntuaciones normalizadas
requeridas para la obtención de una significancia estadística
al nivel de confianza de 15%. Según él, una diferencia de 3
puntos entre las puntuaciones normalizadas de cualquier par
de subtests es significativa a este nivel de confianza (ídem).
132
9. NORMAS
Las normas del WPPSI son presentadas en CI de desviación,

considerando una media de 100 y una desviación estándar de 15
puntos. En el manual se encuentran tablas de normas para 6
grupos de edad.
Las normas del WPPSI fueron derivadas de una muestra
considerada representativa de los niños estadounidenses de 4 a 6
½ años de edad. El total de la muestra fue de 1,200 niños, 100
niños y 100 niñas para cada uno de los seis grupos de edad, que
están divididos por intervalo de seis meses. Cada niño fue
examinado dentro de las seis semanas anteriores o posteriores a
su cumpleaños o dentro de las seis semanas anteriores o
posteriores a su medio año cumplido. La muestra fue basada en
los datos del Censo de E.U.A. de 1960 y fue estratificada según
los siguientes criterios: edad, sexo, región geográfica, residencia
(urbana-rural), color (blancos-no blancos) y ocupación del padre
(Wechsler, 198le).
La confiabilidad fue estudiada mediante las correlaciones entre

las puntuaciones naturales de los reactivos pares y aquellas de
los reactivos nones, que fueron en seguida corregidas a través de
la fórmula de Spearman-Brown. Como este procedimiento no es
apropiado para subtests que son cronometrados, como el subtest
Casa de Animales, se utilizó en este caso el procedimiento de
test-retest. Los coeficientes fueron obtenidos para los seis niveles
de edad. Los coeficientes promedios obtenidos para los distintos
subtests variaron de .77 a .87. Los coeficientes promedio de las
escalas fueron,
.94, .93 y .96, para la escala verbal, de ejecución y total,
respectivamente (Wechsler, 198le)
Fue también estudiada la estabilidad de las puntuaciones
133
del WPP SI. A un grupo de 50 niños, entre 5 ¼ y 5 ¾ años de

edad, se les aplicó la escala dos veces con un intervalo de 48 hasta
117 días. Los coeficientes de estabilidad (corregidos) de los
subtests variaron de .60 a .93. Los coeficientes obtenidos para la
subescala verbal, de ejecución y la escala total fueron, .86, .89 y .
92, respectivamente (ídem).
Se estudió también el Error Estándar de la medida para cada
subtest y escala, en los distintos grupos de edad. El manual del
WPPSI presenta un cuadro indicando los distintos valores
obtenidos. En la subescala verbal el Error Estándar varía, según el
grupo de edad, entre 3.40 y 3.69; en la subescala de ejecución
varía entre 3.44 y 4.35 y en la escala total varía entre 2.66 y 3.12
(Wechsler, 1981e).
La validez del WPPSI fue estudiada a través de las
intercorrelaciones entre: a) los 11 subtests, b) cada subtest y las
subescalas, c) cada subtest y la escala total y d)las subescalas
verbal y de ejecución. Se tomaron en cuenta los seis grupos de
edad. Se observó, de un lado, que los subtests verbales se
correlacionan mejor con su propia subescala que con la de
ejecución, y del otro, que los subtests de ejecución se
correlacionan mejor con su propia subescala que con la verbal. La
correlación promedio obtenida entre las dos subescalas —verbal y
de ejecución —fue de .66 (ídem).
La validez fue también verificada mediante la correlación con
otras pruebas de inteligencia de aplicación individual: la Escala de
Stanford-Binet (Forma LM), el Peabody Picture Vocabulary Test
(Forma A) y el Pictorial Test of Intelligence; los coeficientes de
correlación obtenidos fueron .75, .58 y .64, respectivamente. La
muestra utilizada fue de 98 niños entre los 5 y 6 años de edad. Los
coeficientes de correlación obtenidos entre los CI del WPPSI y el
del Stanford-Binet son de la misma magnitud que los observados
entre el los CI del WISC y el del Stanford-Binet. Se observó
también, que el CI verbal del WPPSI se correlaciona más con el
CI del
134
Stanford-Binet, que el CI de ejecución, lo que también fue

observado en las investigaciones que se interesaron a la
correlación entre el WISC y el Stanford-Binet (Wechsler, 198 le).
La correlación entre el CI total del WISC-R y el del WPPSI,
obtenida con un grupo de 50 niños de 6 años 0 meses fue de .82
(Wechsler, 1981d).
11. COMENTARIOS
El WPPSI tiene las mismas ventajas de las demás escalas

Wechsler, además de ser una de las pocas escalas que permite la
evaluación de la capacidad intelectual de niños tan pequeños.
Las dificultades encontradas en la utilización del WPPSI se
refieren a los mismos aspectos ya mencionados respecto a las
escalas Wechsler: aplicación estrictamente individual, tiempo de
aplicación considerable, material costoso, etc. Esta prueba
tampoco ha sido estandarizada para la población mexicana,
solamente traducida para el español. La versión mexicana,
desarrollada por Coto Villa y Llano de la Torre (1981), no ha
sido estandarizada. Estos investigadores solamente realizaron un
primer estudio sobre la traducción y adaptación del WPPSI,
limitado a una pequeña muestra (N=60) de niños mexicanos de
nivel socio económico medio alto.
Coto Villa, M. J. y Llano de la Torre, A. (1981). Estudio sobre la

traducción, adaptación, conflabilidad y validez del test
para preescolares y primaría de Wechsler (WPPSI) en un
grupo de niños de nivel socioeconómico medio alto. Tesis
inédita de Licenciatura en Psicología. Universidad
Iberoamericana, México D.F.
Wechsler, D. (1981d). WISC-R-Español-Escala de Inteligen-
135
cia revisada para el nivel escolar-Manual. México

., D. (1981e). WPPSl-Español - Escala de Inteligencia
para los niveles preescolar y primario - Manual.
136
CAPITULO IX
BETA II-R
El Beta II-R (Segunda Edición Revisada) tiene su origen en el

Examen Beta Grupal (Group Examination Beta) desarrollado
por la Armada de los Estados Unidos de Norteamérica
durante la primera guerra mundial para seleccionar reclutas
extranjeros o analfabetos. La versión original, que fue la
primera prueba colectiva de inteligencia, fue revisada en 1934
por Kellogg y Morton, con el objetivo de adaptarla a
poblaciones civiles (Examen Beta Revisado). Esta prueba se
quedó conocida como el Beta I (Primera edición).
Posteriormente, apareció la edición utilizada actualmente
(Beta II-R) (Kellogg y Morton, 1974).
Entre una edición y otra, fueron realizadas varias revisiones
del manual. En 1946, Lindner y Gurvitz llevaron a cabo una
reestandarización, utilizando procedimientos basados en la
escala de inteligencia Wechsler-Bellevue. Aunque no se
introdujeron cambios importantes en los procedimientos de
aplicación y calificación, es a partir de esta revisión que se
empezó a utilizar el CI de desviación. Se desarrollaron tablas de
conversión para nueve niveles de edad. En 1957, fue realizada
otra revisión del manual que aportó nueva información sobre la
confiabilidad de la prueba (ídem).
Los cambios introducidos en el Beta II-R están relacionados
al contenido de los reactivos y a la estandarización. Aunque
137
la naturaleza de las tareas no cambió, el orden de éstas fue

alterado ligeramente. El material sufrió modificaciones (reactivos
mayores o redibujados), los reactivos obsoletos, ambiguos o
inadecuados fueron reemplazados por nuevos y fueron revisadas
las instrucciones para que se volvieran más comprensibles.
Además, fueron utilizados procedimientos de estandarización más
sofisticados; la muestra estudiada siendo más representativa de
toda la población norteamericana, de las mismas edades a las que
se destina el instrumento (ídem).
El Beta II-R es una prueba de inteligencia no verbal diseñada

especialmente para adultos que tienen problemas de lectura y
escritura. Está compuesta de seis tareas, cada una de ellas mide
como uno puede resolver determinados problemas. Las tareas
son: Laberintos, Claves, Figuras Geométricas, Figuras
Incompletas, Pares Iguales vs Desiguales y Objetos Equivocados.
3. MATERIAL
El material consta de: 1) un folleto de tareas, donde son

presentadas y contestadas, una a una, las seis tareas; 2) una
lámina complementaria para los ejercicios de práctica de la tarea
3 (Figuras Geométricas), 3) una plantilla de calificación y 4) el
manual de la prueba. Se necesita también un cronómetro.
Esta prueba es indicada para adultos que presentan problemas de

lectura (no leen o la lectura es deficiente) y escritura, así
138
como para extranjeros. Es utilizada frecuentemente en prisiones

y en industrias que emplean sobre todo obreros no calificados.
Esta prueba fue construida para posibilitar la aplicación

colectiva, pudiendo ser también administrada en forma in-
dividual. Para la aplicación grupal se requiere de un
examinador para cada 15 examinados. Se necesitan más
asistentes cuando en el grupo existan sujetos que requieran
ayuda especial para la ejecución de los ejercicios de práctica.
Cada tarea tiene un tiempo límite para su realización, que no

incluye el tiempo necesario para las instrucciones y para la
ejecución de los ejercicios de práctica. El examinador debe
contar, por lo tanto, con un cronómetro o con un reloj con
segundero. Para la aplicación completa se necesitan cerca de
30 minutos. Los tiempos límites para cada tarea son:
TAREA TIEMPO
Tarea 1 (Laberintos) 1 min. 30 seg.
Tarea 2 (Claves) 2 min.
Tarea 3 (Figuras Geométricas) 4 min.
Tarea 4 (Figuras Incompletas) 2 min. 30 seg.
Tarea 5 (Pares Iguales vs Desiguales) 2 min.
Tarea 6 (Objetos Equivocados) 3 min.
Cada examinado debe contar con dos lápices y una goma; y empezar
139
llenando, en el folleto de tareas, sus datos personales. En el caso

de analfabetos, el examinador debe encargarse de anotarlos.
Cada tarea tiene una instrucción específica que debe ser leída
atentamente por el examinador. Antes de cada una de ellas, hay
algunos ejercicios de práctica que aclararán cómo hacerlas. Las
tareas son realizadas en orden y contestadas directamente en el
folleto de tareas.
La plantilla de calificación facilita la corrección de las tareas. Los

criterios de puntuación varían de una tarea a otra y deben ser
seguidos rigurosamente. En el caso de las tareas 2, 3, 4 y 6, se
asigna un punto para cada respuesta correcta. En la tarea 1
(laberintos) se asigna un punto a la ejecución correcta de la mitad
de cada uno de los laberintos; la puntuación máxima de cada
laberinto es de dos puntos. En el manual vienen los casos en que
se considera incorrecta la mitad de un laberinto. En la tarea 5
(Pares Iguales vs Desiguales) se atribuye un " + " a las respuestas
contestadas correctamente y un " - " a las respuestas contestadas
en forma incorrecta. Se resta, el total de las respuestas contestadas
incorrectamente (-), del total de las respuestas contestadas
correctamente (+). Unicamente se toman en cuenta los reactivos
contestados por el examinado (Kellogg y Morton, 1974).
Para cada tarea, se convierte la puntuación bruta o natural en

puntuación normalizada utilizando un cuadro de conversión
presentado en el manual. En el Sumario de Puntuaciones (última
hoja del folleto de tareas), se anotan los valores en los debidos
espacios. La suma de las puntuaciones normalizadas puede ser
convertida a CI de desviación o percentil, mediante cuadros de
conversión disponibles en el manual. Estos cuadros
140
toman en cuenta el grupo de edad del sujeto. El manual

provee también una tabla de clasificación de la inteligencia,
en función del CI obtenido.
9. NORMAS
Las normas son expresas en CI de desviación y en percentil.

Se determinó que los CI, en cada grupo de edades, tendrían
una media con valor de 100 y una desviación estándar con
valor de 15. Las tablas de CI de desviación y de percentil
están dividas en siete grupos de edad: (16-17), (18-19), (20-
24), (25-34), (35-44), (45-54) y (55-64).
Las normas provienen de una muestra considerada
representativa de la población norteamericana, compuesta
por 1,050 personas entre 16 y 64 años de edad. Se utilizó un
procedimiento de muestreo estratificado y se tomaron en
cuenta las siguientes variables: sexo, edad, región
geográfica, raza y ocupación. Aunque el nivel de
escolaridad no fue controlado, se procuró que en la muestra
existiera una proporción semejante de sujetos que habían
completado determinado números de años escolares en
relación con la existente en la población norteamericana. La
aplicación de la prueba se llevó a cabo entre abril de 1974 y
mayo de 1976 (ídem).
La confiabilidad del Beta II-R fue testada en una muestra de

79 sujetos (40 hombres y 39 mujeres) de 16-17 años. Como
las tareas de esta prueba deben ser resueltas con rapidez, el
procedimiento de confiabilidad utilizado fue el de Test-Retest
con intervalo de 3 semanas. El coeficiente de estabilidad
obtenido fue de .91. El Error Estándar de la medida es de 4.6,
lo que significa que existe una probabilidad de 2 sobre
141
3 de que el CI real del examinado se encuentre dentro de 4.6

puntos del CI obtenido (Kellogg y Morton, 1974).
La validez ha sido estudiada mediante la correlación entre la
puntuación obtenida en el Beta y la puntuación obtenida en otras
medidas de inteligencia. La Primera Edición del Beta presentaba
una correlación de .80 con el Alpha, de .73 con el Stanford-Binet
(Anastasi, 1974) y correlaciones variando entre .37 y .83 con el
WAIS, dependiendo de la muestra utilizada (Kellogg y Morton,
1974). Es importante señalar que estos coeficientes fueron
obtenidos con muestras muy específicas.
La correlación entre el CI del Beta II-R y el CI del WAIS fue

estudiada en una muestra más amplia y general que tomó dos de
los grupos de edad del Beta II-R: 18-19 y 35-44 años. Se observó
una correlación entre el CI del Beta II-R y el CI total del WAIS
de .64 (18-19 años) y de .66 (35-44 años). Las correlaciones más
altas se obtuvieron entre los CI del Beta II-R y los CI de la escala
de ejecución del WAIS: .68 (18-19 años) y .73 (35-44 años)
(ídem).
Fue también estudiada la relación entre la Primera Edición del
Beta y el Beta II-R. La muestra utilizada fue de 267 sujetos entre
18 y 54 años. A 132 sujetos se les aplicó primero la Primera
Edición del Beta y 7 a 10 días después el Beta II-R. Al resto de
los sujetos se procedió de manera inversa. Los coeficientes de
correlación obtenidos fueron:. 84 (Primera Edición - Beta II-R) y .
93 (Beta II-R - Primera Edición). Este estudio permitió detectar
que, en general, los CI de la Primera Edición resultan más bajos
que los obtenidos en el Beta II-R. Esta diferencia puede ser
explicada de dos maneras: (a) diferencias en las estrategias de
muestreo utilizadas en las dos estandarizaciones y (b) la
posibilidad que la población adulta norteamericana, ejecute mejor
actualmente las tareas en comparación con los sujetos que
participaran de la normalización en 1946 (ídem).
142
11. COMENTARIOS
Algunas de las ventajas del Beta 1I-R son: ser una medida no
verbal de inteligencia, permitir una aplicación colectiva, poder
ser aplicado a personas analfabetas o con problemas de escritura
y lectura, no requerir mucho tiempo para su administración.
Entre los inconvenientes está el hecho de que el valor máximo

de este instrumento no es muy alto, no diferenciando bien entre
sujetos de capacidades muy altas. Por este motivo, se recomienda
que los individuos que puntúan muy alto en esta prueba deberían
ser examinados con otros instrumentos, para que se pueda
obtener una medida más exacta de su capacidad (Kellogg y
Morton, 1974).
Otro aspecto importante está en las normas. Las tablas
presentadas en el manual son adecuadas solamente para la
población norteamericana, de donde fueron extraídos los datos
normativos.
Anastasi, A (1978). Tests Psicológicos, (3a ed., 4a reimpre-sión).

Kellogg, C E . y Morton, N.W. (1974). Instrumento no ver-bal
de inteligencia - Beta II-R. Manual. México D.F.:
Editorial El Manual moderno.
143
CAPITULO X
TEST DE MATRICES
PROGRESIVAS (RAVEN)
Esta prueba fue desarrollada por el psicólogo inglés J.C.

Raven e impresa por primera vez en 1936. Dos años
después, la prueba ya tenía su forma definitiva y estaba
tipificada (Progressive Matrices —1938— Series A, B, C,
D, E). Posteriormente fueron publicadas: (a) una escala para
niños de 3 a 10 años y adultos deficientes (1938), (b) una
revisión de la escala general de 1938 (1956) y (c) una escala
general para niveles superiores. La revisión de 1956
presentó como cambios el reemplazo de un reactivo y
modificación de la ubicación de otros siete (Raven, 1987).
El Test de Matrices Progresivas es una prueba no verbal que

busca medir la inteligencia general. La escala general es
compuesta de 60 problemas, dispuestos en cinco series de
doce problemas (A, B, C, D y E) en orden de dificultad
progresiva. Las dos primeras series plantean problemas de
educción de relaciones y las demás, problemas de educción de
correlatos. Es un test de matrices lacunarios pues cada
reactivo es compuesto de una lámina de figuras geométricas
abstractas lacunarias que exige una tarea de completamiento.
145
Cada figura geométrica es la matriz de un sistema de

pensamiento. Para descubrir la matriz de pensamiento implicada
en cada figura, el sujeto realiza una tarea de observación,
comparación y razonamiento analógico. El completamiento de la
matriz es realizado a través de elección múltiple entre una serie de
6 o 8 respuestas (ídem).
La escala especial es compuesta de 36 láminas dispuestas en
tres series: A, Ab y B. La primera y la última son las mismas de
la escala general, la serie Ab es de un nivel de dificultad
intermediario.
3. MATERIAL
El material básico consta de: (1) un cuaderno de matrices, donde

vienen encuadernadas las láminas en negro y blanco;
(2) un protocolo de prueba, donde se registran los datos y las
respuestas del sujeto; (3) una plantilla de corrección (clave
matriz); (4) una carpeta de evaluación, donde vienen varias tablas
normativas (baremos) obtenidas con distintas muestras y una tabla
de diagnóstico de la capacidad intelectual, y (5) el manual del
autor.
La escala especial es presentada en la forma de tablero o de
cuadernillo y las láminas son coloridas. En la forma de tablero, las
láminas están encuadernadas sobre planchas de cartón con
excavaciones, de manera que pueden ser manejadas como un test
de tipo encaje. Cada serie viene en una carpeta y las tres carpetas
en un estuche.
La escala general es utilizada con sujetos normales o poco

dañados intelectualmente, de 12 a 65 años. La escala especial es
indicada para niños menores de 12 años o adultos dañados
intelectualmente (reducida capacidad intelectual, serios trastornos
de lenguaje o audición). La forma de cuadernillo
146
es indicada para niños entre 9 y 11 años y sujetos deficitarios,

mientras que la forma de tablero es recomendada para niños
menores de 9 años y sujetos muy deficitarios (Raven, 1987)
En niños menores de 9 años o adultos muy deficitarios la

aplicación es individual. En niños mayores de 9 años o
adultos, la aplicación puede ser individual o colectiva. Con
estos últimos, la prueba puede también ser autoadministrada.
El tiempo de administración no es limitado. En general, se

necesitan entre 30' y 40' para la ejecución de la prueba.
Inicialmente, deben llenarse los datos del examinado en el

protocolo de prueba. El procedimiento de administración
consiste en presentar a la inspección del sujeto, uno a uno, los 60
problemas de completamiento e instruirle para hallar la respuesta
correcta entre varias soluciones presentadas (6 o 8). Cada
respuesta debe ser anotada en su respectivo espacio en el
protocolo de prueba. Las anotaciones pueden ser realizadas por
el examinador (aplicación individual) o por el propio examinado
(aplicación colectiva o autoaplicación). En el caso de una
aplicación colectiva, el examinador debe vigilar para asegurarse
de que los examinados no se salten ningún problema, anoten sus
respuestas en las respectivas casillas y no copien entre sí.
Para calificar la prueba se utiliza una clave matriz de

corrección que permite verificar las respuestas correctas e
147
incorrectas. Se atribuye un punto para cada respuesta correcta.

Se calculan los puntajes parciales (de cada serie) y el puntaje
total (suma de puntajes parciales). Se convierte la puntuación
bruta a puntaje ponderado (percentil), buscando en la carpeta
de evaluación la tabla de normas (baremo) más adecuada a los
datos del examinado (edad, nacionalidad, etc.). Finalmente, se
convierte el percentil en rango, estableciendo así el diagnóstico
de la capacidad intelectual del sujeto.
8.1. Consistencia del puntaje
Un segundo procedimiento de evaluación es la verificación

de la consistencia del puntaje, cuyo objetivo es comprobar si
la composición del puntaje del sujeto es ajustada al
esperado. Raven ha calculado los puntajes medios, de cada
una de las series, que deberían componer cada uno de los
posibles puntajes totales. Estos puntajes medios son los
puntajes parciales esperados para cada puntaje total. Para
verificar la consistencia del puntaje de un sujeto, se calcula,
por sustracción, la discrepancia entre los puntajes obtenidos
por el sujeto en cada una de las cinco series (puntajes
parciales) y los puntajes parciales esperados en razón de su
puntaje total. El puntaje de un sujeto es considerado
consistente cuando la discrepancia entre puntajes parciales y
puntajes parciales esperados, no es mayor que +2 o -2. En el
manual se encuentran las tablas que presentan los puntajes
parciales esperados para cada puntaje total (Raven, 1987).
8.2. Evaluación de errores
Una forma adicional de evaluación es la que toma en cuenta la

cantidad de errores. Los errores indican las fallas en el
razonamiento. La ejecución satisfactoria, de los problemas
propuestos en esta prueba, exige la educción de tres correlatos:
148
(a) correlato numérico: cantidad de figuras, (b) correlato de

figuras: forma de las figuras y (c) correlato lineal: disposición de
las figuras (recta, oblicua curva). Al dar una solución errada, el
sujeto puede estar omitiendo uno, dos o tres correlatos. Así, se
distinguen tres tipos de errores: (1) finos
(F) - educción de dos correlatos; (2) medios (M) - educción de
un correlato y (3) grosero (G) - completa ausencia de educción.
En el manual (Raven, 1987, p. 27), se presenta una tabla de
graduación de errores para los 60 problemas.
Para expresar cuantitativamente cada error, se acreditan
a: errores groseros = 1 ½ puntos, errores medios = 1 punto y
errores finos = ½ punto. Se suman los valores hallando así el
puntaje de error (P.E.). Este puntaje es muy útil en la selección
de clases de escolares y de cuadros militares para desempatar
percentiles iguales. También es importante en diagnóstico
diferencial, para detectar fallas y déficits en las funciones
mentales (ídem).
9. NORMAS
Las normas son expresas en percentiles. El manual ofrece varias

tablas de normas (baremos) obtenidas con distintas muestras: de
Argentina, Uruguay, España e Inglaterra. El número de sujetos
varía de una muestra normativa a otra, así como la edad de éstos.
Algunas normas fueron establecidas a partir de una aplicación
individual, otras a partir de una aplicación colectiva.
El coeficiente de estabilidad (test-retest) del Raven varía según

la edad, entre .83 y .93. (Raven, 1987; Anstey, 1974).
La validez de criterio ha sido comprobada comparando los
resultados de un grupo de sujetos con la opinión de los
149
maestros acerca de su inteligencia y verificando el éxito o fracaso

en el aprendizaje escolar de un grupo de alumnos en el año
siguiente al de su medición.
La validez estructural ha sido estudiada a través de análisis
factoriales. Raven encontró una saturación g de .82 (Raven,
1987), aunque otros estudios han llegado a valores entre .75 y .79
(Anstey, 1974). El estudio realizado por Vernon en 1947 (citado
por Anstey, 1974) ha detectado un factor específico del grupo
visual perceptivo, factor espacial, y un residuo compuesto por
otros factores específicos no identificados.
Otro procedimiento, para el estudio de la validez estructural,
obtuvo una correlación de .86 con el test de Terman - Binet.
11. COMENTARIOS
Las principales ventajas del Test de Matrices Progresivas (Raven)

son: (a) es una prueba no verbal, supuestamente independiente de
factores culturales; (b) es de fácil administración y evaluación; (c)
no requiere demasiado tiempo para ser contestado ni calificado y
(d) la tarea motiva tanto a jóvenes cuanto a adultos mayores.
Cuanto a las desventajas, Raven (1987) menciona las

detectadas por M. Madruga en 1958. Algunas de ellas son:
(a) validez deficiente, (b) no mide el factor g con pureza, (c)
permite dar soluciones acertadas por otras vías distintas a la que
se pretende medir (por ejemplo, su probabilidad de respuestas al
azar el de 1/6 o 1/8 según el reactivo) y (d) presenta excesiva
dificultad para personas de nivel intelectual mediocre. Anastasi
(1978) comenta que estudios realizados en algunas culturas no
europeas llevaron a dudar de la adecuación de esta prueba para
grupos con ambientes muy diferentes. Además, en estos grupos se
ha verificado que el test refleja una cierta educación y que está
susceptible a la práctica.
150
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reim-

presión). Madrid: Editorial Aguilar.
Anstey, E. (1974). Test de dominós - manual. Buenos Aires:
Editorial Paidós.
Raven, J. C. (1987). Test de Matrices Progresivas. Buenos
' Aires: Paidós
151
CAPITULO XI
TEST DE DOMINOS
El test de Dominós fue construido para la armada británica

por el psicólogo inglés Edgar Anstey en 1944. Esta prueba
fue ideada para servir como test paralelo del test de
Matrices Progresivas de Raven y para superar algunos de
sus inconvenientes (Anstey, 1974).
La versión original, que constaba de 44 reactivos, ha
quedado como un "closed test" con uso oficial o exclusivo. En
1955, Anstey publicó una nueva versión con carácter de "open
test'', ligeramente diferente de la primera en su material. Esta,
constaba de 48 reactivos de complejidad creciente, agrupados
en ocho páginas según diferentes principios. Anstey confió
esta nueva versión al investigador uruguayo W. L. Risso, de la
Universidad del Trabajo del Uruguay, para estandarización. La
prueba fue entonces tipificada, fueron elaboradas normas para
el Uruguay, estudiada su validez y confíabilidad y preparado
su manual (ídem).
El test de Dominós ha tenido dos adaptaciones: la inglesa
(Group Test 100) y la francesa (D48). La primera, realizada
por el Instituto de Psicología Industrial de Londres, utiliza el
test de Dominós dentro de una batería que incluye también
pruebas verbales. La segunda, que alcanzó gran difusión, fue
elaborada por P. Pichot y publicada por el Centre de
Psychologie Appliquée de París. Esta adaptación difiere de la
original sobre todo en la disposición de los reactivos.
153
Además de distribuir las fichas de Dominós en columnas, en

estrella y en espiral, como el test de Anstey, las dispone también
en elipse. El D48 fue estandarizado para sujetos de 12, a 39 años y
proporciona normas para seis niveles culturales diferentes. En
algunos países de América Latina también se realizaron estudios y
adaptaciones del test (Anstey, 1974).
El test de Dominós es una prueba no verbal de inteligencia, que

no depende en un grado considerable del ambiente, de la
educación o de la experiencia del individuo. Se basa en la teoría
factorial de Spearman y busca por lo tanto medir el factor de
inteligencia general g.
Es un test de educción de leyes o principios de relaciones y de
completamiento de series numéricas. Los principios que regulan
las secuencias en las series son los siguientes: Simetría,
Alternancia y progresión simple, Asimetría, Progresión circular,
Progresión compleja, Combinación de principios previos, Adición
y Sustracción.
Es un test de figuras numéricas de puntos dispuestos en grupos
según un patrón, las fichas de Dominós. Los estudios han
demostrado que la experiencia previa con el juego de Dominós no
interviene en el resultado del sujeto (ídem).
El test es compuesto de 48 reactivos, impresos en ocho
páginas, a razón de seis reactivos por página. Los reactivos,
pertenecientes a un mismo principio, están dispuestos en orden de
dificultad creciente. Sin embargo, el primer reactivo
correspondiente a un nuevo principio, en general, es más fácil que
el último reactivo correspondiente al principio anterior.
3. MATERIAL
El material básico está constituido por: 1) un cuaderno de
154
prueba, donde vienen las instrucciones básicas, cuatro

ejemplos y 48 reactivos; 2) una hoja de respuestas, 3) una
clave matriz de corrección; 4) una carpeta de instrucciones
y evaluación, donde se encuentran también las tablas de
normas (baremos) y la tabla de diagnóstico y 5) el manual
del autor.
Esta prueba puede ser utilizada con sujetos de 12 años en

adelante, aunque es posible aplicársela individualmente a
partir de los 10 años. El autor de la prueba ha comprobado
una cierta dificultad de ejecución cuando aplicó la prueba a
sujetos de más de 65 años. El considera que puede aplicársela
individualmente a enfermos mentales, sin embargo, en éste
caso, la interpretación de los resultados debe basarse más en
criterios cualitativos que cuantitativos (Anstey, 1974).
Esta prueba puede ser aplicada en forma individual y colectiva.
Para la realización de esta prueba se establece un tiempo límite

de 30 minutos, con una tolerancia de 12 a 15 minutos
adicionales. Aunque se limite el tiempo, no se considera ésta una
prueba de velocidad sino de poder (power test), pues pretende
medir solamente la habilidad de los sujetos y no su velocidad de
trabajo. El autor de la prueba considera que el tiempo establecido
es suficiente para que los sujetos tengan la oportunidad de
intentar la resolución de todos los problemas. Los sujetos menos
inteligentes nunca resolverán los problemas más difíciles aunque
se les permita dedicar más tiempo a
155
ellos. En una aplicación colectiva, la reducción del grupo a

1/5 o 1/6 de su tamaño original puede señalar el tiempo
límite para la finalización de la prueba (Anstey, 1974).
El procedimiento se inicia llenando los datos personales del

examinado en la hoja de respuestas. En seguida, con el cuaderno
de pruebas abierto en la página preliminar, se explican las
instrucciones, se discuten los ejemplos ya resueltos (A y B) y se le
pide al examinado que conteste los ejemplos C y D.
La tarea consiste en observar bien un grupo de Dominós y
calcular cuantos puntos le corresponden a la ficha que está
en blanco. El sujeto debe llenar, en el debido espacio de la
hoja de respuestas, las cifras que corresponden a la ficha en
blanco. Dentro de cada mitad de la ficha, los puntos pueden
variar de 0 a 6.
La clave matriz de corrección permite una calificación rápida y

precisa. Se coloca la hoja de respuestas dentro de la clave matriz, que
posee ventanillas por donde se pueden ver las respuestas. Se hace una
marca visible sobre las respuestas correctas. Se adjudica un punto
para cada respuesta totalmente correcta. Una respuesta totalmente
correcta es la que se compone de las cifras exactas en cada una de las
mitades de la ficha en blanco, estando las cifras ubicadas en la
posición correcta. Se consideran soluciones erradas:
(a) las inversiones de posiciones y (b) las respuestas que
omiten el 0 (cero) y simplemente dejan en blanco la mitad de
la ficha (Anstey, 1974).
Con el puntaje total, se busca en la tabla de normas adecuada
el percentil correspondiente. En seguida, se verifica el rango al
cual corresponde el nivel intelectual del examinado.
156
8.1. Porcentaje de eficiencia
Este índice permite verificar el sistema de trabajo del sujeto:

aproximación cuidadosa a los problemas, sacrificio de la
exactitud en beneficio de la rapidez, etc. La fórmula utilizada
para calcularlo es (ídem):
% eficiencia = C /T
donde: C= número de respuestas correctas

T= número de respuestas que el sujeto ha intentado
resolver, o sea, correctas más incorrectas.
9. NORMAS
Las normas son expresadas en percentil. El manual ofrece tres

tablas de normas: (a) un baremo inglés para la población general,
(b) un baremo uruguayo: 1 2 - 3 0 años y población general, y (c)
un baremo argentino provisorio: 1 2 - 1 7 años y población
general.
La estandarización que parece más consistente es la realizada
en Montevideo, con 1736 sujetos de 12 a 30 años de edad,
alumnos de escuelas industriales de la Universidad del Trabajo
del Uruguay y del Instituto Crandon. Las normas argentinas
fueron extraídas de una muestra de 583 estudiantes de 12
a 17 años (Anstey, 1974).
Los estudios han encontrado que el coeficiente de confiabilidad

(Kuder-Richardson) del test de Dominós tiende a crecer con la
edad, variando de .85 a .91. Para la población general el es de .85
(ídem).
La validez ha sido estudiada por el método de análisis
157
factorial. Dos estudios obtuvieron una saturación de g de .82 y un

tercero de .90, lo que indica que el test es una buena medida de la
capacidad intelectual general. Un factor específico de tipo
numérico ha sido detectado en dos de estos estudios (ídem).
Como la idea original es que el test de Dominós fuera una

prueba paralela al de Raven, muchos estudios comparativos, entre
las dos pruebas, fueron llevados a cabo. El coeficiente de
correlación, entre las dos pruebas, obtenido por Anstey fue de .55,
lo que llevó a pensar que en realidad los dos tests son
complementarios, pero no paralelos.
11. COMENTARIOS
El test de Dominós tiene las ventajas de un test no verbal, no

dependiendo de factores culturales. Es también económico (su
aplicación puede limitarse a 30 minutos), es confiable (sobre todo
para edades más altas) y dificulta la respuesta al azar, pues la
probabilidad de respuestas de este tipo es de 1/49.
Con respecto a desventajas, se considera que las tablas de

normas son muy limitadas en cuanto a los rangos de edad que
utilizan, no existiendo normas de edad específicas para per-sonas
mayores de 30 años. Para éstas, se deben utilizar las normas de la
población general. Otro aspecto importante, está en el hecho de
poseer el test un factor numérico. Se puede suponer que éste
pueda afectar los resultados de personas que poseen dificultades
específicas en el área de razonamiento numérico, pero no en otras
áreas intelectuales.
Anstey, E. (1974). Test de Dominós - manual. Buenos Aires:

Editorial Paidós.
158
CAPITULO XII
EL TEST DE GOODENOUGH
El Test del dibujo de un hombre de Goodenough fue publicado

por primera vez en 1926. En castellano, su primera publicación
fue realizada en 1951. Este test "ha sido muy empleado para
examinar el nivel intelectual de los niños pequeños y para
estudiar a aquellos niños que tienen disminuciones auditivas o en
los que se sospecha la existencia de deficiencias neurológicas"
(Harris, 1991, p. 17). Asimismo, ha sido utilizado para estudiar
problemas de personalidad y adaptación, así como la
delincuencia y otros defectos del carácter.
La hipótesis básica de este test es que el dibujo que hace
un niño de cualquier objeto, muestra las discriminaciones
que él ha efectuado respecto al mismo, como un concepto.
Así, su concepto de un objeto, como el ser humano,
"resulta un índice útil para la creciente complejidad de sus
conceptos en general" (ídem, p.23).
El 1963 fue publicada la versión revisada, ampliada y
actualizada del test, por Dale B. Harris. Esta revisión tuvo por
objetivo: (1) extender la escala a los años de adolescencia
y (2) desarrollar una forma alternativa de la escala de la
figura del hombre, la escala de la figura de la mujer. Se
hicieron algunos otros cambios como: (a) se incluyó el dibujo
de sí mismo con el objetivo de facilitar un mejor estudio del
autoconcepto, del afecto y del interés, (b) se hizo la
estandarización de las escalas de puntos para la figura del
159
hombre y de la mujer y (c) se desarrollaron escalas cualitativas

para una rápida aproximación a la puntuación. Para la revisión del
test se reexaminó la bibliografía empírica y teórica, llegando a la
conclusión de que esta prueba evalúa la madurez intelectual o
conceptual de niños entre cuatro y catorce años, teniendo mucho
menos valor como instrumento proyectivo para estudiar la
personalidad y el área afectiva.
Esta prueba tiene como tarea el diseño de la figura humana.

Según Harris (1991), Goodenough tomó en cuenta los siguientes
aspectos al elegir el tema del dibujo: (a) un tema con el cual todos
los niños estuvieran familiarizados por igual, (b) un tema que
presentara la menor variabilidad posible en sus características
esenciales, (c) un tema sencillo que permitiera que aun los niños
pequeños pudiesen hacerlo, pero al mismo tiempo
suficientemente complejo para poner a prueba las capacidades de
un joven o de un adulto y (d) un tema de interés universal y que
motivara a todos. Basado en estos criterios, él seleccionó la figura
humana, tema relativamente común en dibujos espontáneos de
niños. En la versión original, el dibujo solicitado era el de un
hombre. La elección del dibujo de un hombre se debe al hecho de
considerar la vestimenta masculina más uniforme.
En esta primera versión, el dibujo del hombre era evaluado

según una escala de cuarenta ítems. El análisis de una muestra de
dibujos de niños de diferentes edades y niveles escolares, permitió
discernir los cambios que se producen en los dibujos infantiles
con el aumento de la edad y el desarrollo intelectual. Cada ítem
fue escogido de manera empírica, pudiendo basarse "en la
presencia o en la ausencia de un determinado elemento, en el
método de representación de una relación dada, especial o
cuantitativa, o en la coordinación ojo-mano" (Harris, 1991,
p. 83). Se hicieron 5 revisiones de la escala original, donde se
reevaluaron los ítems y se añadieron otros.
160
La versión actual (test de la figura humana de Goodenough-

Harris), incluye tres dibujos —la figura de un hombre, la figura
de una mujer y el dibujo de sí mismo— que deben ser realizados
en este orden. En cada una de ellas se analizan determinados
ítems, que fueron elegidos según criterios determinados y
validados a través de investigaciones.
3. MATERIAL
Se requiere para la aplicación de esta prueba el cuadernillo del

test (protocolo) y un lápiz número 2 o 2H (no debe utilizarse
crayones). Para la calificación se necesita el manual de la
prueba.
Esta prueba puede ser utilizada con sujetos entre 3 y 15 años de

edad.
El test del dibujo de la figura humana de Goodenough-Harris

puede ser administrado en forma individual o colectiva,
utilizándoos mismas instrucciones. Los preescolares y los niños
bajo estudio clínico deben ser examinados individualmente.
No hay límite de tiempo para la realización del test. Los niños

pequeños, en general, no tardan más de 10 o 15 minutos para
hacer los tres dibujos.
El primer paso de la aplicación es llenar los datos personales
161
solicitados en el protocolo, que puede ser realizado por el

propio niño, a menos que él aun no sepa escribir. En seguida,
el protocolo debe ser doblado, de manera que solamente la
hoja que corresponde al primer dibujo —figura de un hombre
— se quede a la vista. Realizado este dibujo, se pasa a la hoja
siguiente, la de la figura de la mujer. Finalmente, se pasa a la
hoja final, la del dibujo de sí mismo.
A los niños, menores de ocho o nueve años, se
recomienda dar un breve descanso entre el segundo y tercer
dibujos. En los grupos de niños mayores (quinto o sexto
grado), puede ser necesario incentivar a los niños renuentes
a emprender la tarea. El autor advierte para algunas
situaciones especiales que pueden ocurrir en la aplicación
del test, como el niño puede dibujar solamente un busto o
arruinar el dibujo y querer reempezarlo. En ambos casos, el
examinador debe dar un nuevo protocolo, pero guardar
ambos dibujos para una comparación posterior.
Mientras la aplicación es muy sencilla, la calificación requiere

estudio, paciencia y el seguimiento de las instrucciones al pie
de la letra. Cada una de las tres figuras es evaluada en una
escala de puntos, que corresponde a un número determinado de
ítems: Figura del hombre -73 ítems, Figura de la mujer -71
ítems y Dibujo de sí mismo -73 ítems. En el manual vienen las
instrucciones detalladas para la evaluación de los distintos
ítems; algunos de ellos requieren un juicio más subjetivo del
examinador. Algunos ejemplos de ítems analizados: presencia
de cabeza, presencia de cuello, puente de la nariz, nariz y
labios en dos dimensiones, representación del número correcto
de dedos, proporción de los brazos, proporción de las piernas,
vestimenta, coordinación motriz (líneas), etcétera (Harris,
1991)
162
Cada ítem, de cada figura, es evaluado como aprobado o

reprobado. A cada ítem aprobado se asigna un punto, no
existiendo medios puntos. El total de estos puntos corresponde
al puntaje bruto de la figura, el cual se convierte en puntaje
estándar mediante las tablas presentadas en el manual. Para
esta conversión se toman en cuenta el sexo y la edad del
sujeto. Para cada figura se halla un puntaje estándar. Puede
obtenerse una medida promedio de los dibujos de un hombre y
de una mujer sumando los puntajes estándar y dividiendo el
resultado entre dos. El puntaje estándar promedio representa
una estimación combinada de la madurez intelectual del niño.
El dibujo de sí mismo puede ser evaluado mediante la escala
de puntos del sexo correspondiente. Sin embargo, el
autorretrato no ha sido estandarizado y por lo tanto, debe ser
considerado sólo como una medida tentativa de la madurez
intelectual (Harris, 1991).
Finalmente cada puntaje estándar es convertido en rango
percentil, a través de la tabla de conversión adecuada,
también disponible en el manual.
En el protocolo, al lado de cada dibujo, hay espacios
para registrar el puntaje. Se recomienda apuntar un " + "
para cada ítem aprobado y un "cero" para cada ítem
reprobado para facilitar el control de la calificación. Hay
también un espacio para registrar el puntaje bruto de cada
figura. En la primera hoja hay un cuadro resumen donde
deben apuntarse los puntajes brutos, los puntajes estándar y
los rangos percen-tiles de los tres dibujos, además del
puntaje estándar promediado.
Para los dibujos de la figura del hombre y de la figura de la
mujer se puede también realizar una evaluación cualitativa.
Las escalas cualitativas permiten una evaluación mucho más
rápida de los dibujos que la escala de puntos. Mientras tanto,
sus resultados no son tan exactos, proporcionando solamente
una estimación aproximada de la
163
madurez intelectual del niño. Para esta evaluación, debe

utilizarse una muestra de 12 dibujos (disponibles en el
manual) clasificados según el nivel de madurez del " 1
"(menos maduro) al "12" (más maduro). El examinador debe
comparar el dibujo que evalúa con los dibujos de la muestra
y decidir con cual se parece más. Atribuirá al dibujo que
evalúa el puntaje correspondiente al dibujo de la muestra
que es más similar. Este valor debe ser registrado en el
espacio correspondiente del cuadro resumen del protocolo,
según sea la figura de un hombre o de una mujer. No fue
elaborada ninguna escala cualitativa para el dibujo de sí
mismo y el autor no cree conveniente utilizar las muestras
de las figuras de un hombre o de una mujer para evaluarlo.
Los valores obtenidos en la escala cualitativa son
convertidos a puntaje estándar mediante tablas disponibles
en el manual. En esta conversión también son tomadas en
cuenta la edad y el sexo del sujeto. Este puntaje estándar es
comparable al obtenido a través de la escala de puntos y por
consiguiente puede ser convertido en rango percentil
mediante la misma tabla.
Harris (1991) propone aun, en forma experimental, una
guía para el análisis del dibujo de sí mismo. Esta guía tiene
como objetivo detectar rasgos especiales de la personalidad:
intereses, actitudes, preocupaciones, etc. Consta de una
sucesión de preguntas, que van de generales a específicas.
9. NORMAS
Las normas de esta prueba son presentadas en puntaje

estándar con una media de 100 y una desviación de 15 (CI
de Goodenough) y en percentil. En las tablas de puntaje
estándar se toman en cuenta el sexo y la edad del sujeto.
La estandarización y las normas de la escala revisada están
basadas en 2,975 niños, representativos de la distribución
164
ocupacional de los Estados Unidos en 1950, pertenecientes a

cuatro áreas geográficas. Se incluyeron 75 niños de cada nivel de
edad provenientes de cada una de estas áreas. La edad de los
niños varió de los 5 a los 15 años y éstos fueron distribuidos de
tal manera "que la muestra se centrara alrededor de los seis
meses, con un número aproximadamente igual de niños
escogidos por cada mes dentro de ese intervalo de edad" (Harris,
1991, p. 113). Se buscó que la cantidad de varones y niñas en
cada estrato ocupacional fueran siempre igual.
El primer paso para validar la escala revisada consistió en la

validación de los ítems tomados en cuenta en la escala de puntos.
Se utilizó una muestra de 100 niños (50 varones y 50 niñas) con
edades entre: 5 años y 9 meses y 6 años 8 meses, 6 años 9 meses
y 7 años 8 meses, y así sucesivamente. Los niños tenían como
edad media, al momento de la realización de la prueba, 6 años 3
meses, 7 años 3 meses, etc. Las muestras de cada edad
representaban la distribución de ocupaciones paternas en los
E.U.A. Los ítems fueron seleccionados según los siguientes
criterios: 1) acusar un incremento regular y bastante rápido en los
niños que aprueban el ítem, 2) mostrar una relación con alguna
medida general de inteligencia, 3) diferenciar entre los niños que
obtenían un puntaje total alto en la escala y aquellos que obtenían
un puntaje total bajo. Para el dibujo del hombre se ensayaron 100
ítems y se seleccionaron 73; para el dibujo de la mujer se
ensayaron 90 de los cuales se mantuvieron 71. En estos ítems "se
incluyeron algunos que son inoperantes en la niñez pero tienen
cierta incidencia en la pubertad" (Harris, 1991, p. 89).
Utilizando la misma muestra, fueron seleccionados y
165
validados los dibujos que componen la escala cualitativa. Se

eligieron, de cada grupo de edad, 20 dibujos, 10 de varones y 10
de niñas de acuerdo con una tabla de números al azar. Estos
dibujos fueron dispuestos en un orden fortuito y así presentados a
doce examinadores. Estos, debían clasificar los dibujos en una
escala del " 1 " al "11", el " 1 " correspondiendo a una menor
excelencia y el "11" a una mayor excelencia. Se incluyeron
también otras dos categorías para los dibujos que se apartaban
suficientemente de los demás, sea por una extraordinaria
inferioridad (0) o por una extraordinaria superioridad (12). La
escala cualitativa final fue constituida por 23 dibujos, dispuestos
en una escala de 23 puntos de intervalo, que pueden también ser
utilizados como una escala de 12 puntos, si se emplean los
valores alternos (Harris, 1991).
La confiabilidad de la escala de puntos fue estudiada mediante

la concordancia en la evaluación de distintos examinadores y la
coherencia en el rendimiento del niño en la tarea del dibujo,
según la evaluación de la escala. La correlación entre los puntajes
totales obtenidos por distintos examinadores varió entre .80 y .96.
Las correlaciones entre los puntajes de dibujos infantiles
separados por un intervalo de hasta tres meses variaron entre .60
y .70. Uno de los estudios considerados más consistentes por
Harris, fue realizado por McCarthy con 386 niños de tercero y
cuarto grado, siendo la prueba aplicada dos veces con un
intervalo de una semana. La confiabilidad por el método de
división por mitades fue de .89, por el método de test-retest fue
de .68. (ídem).
En el estudio de la confiabilidad de la escala cualitativa fueron

obtenidas correlaciones, entre los puntajes asignados por tres
examinadores, de .86 a .92 para el dibujo de un hombre y de .74 a
.88 para el dibujo de una mujer. Las correlaciones entre los
puntajes obtenidos en la escala de
166
puntos y en la escala cualitativa variaron, según la edad,

entre .72 y .94 para la figura de un hombre y entre .73 y .89
para la figura de una mujer (ídem).
La validez de esta prueba fue evaluada mediante dos
procedimientos: 1) estudiando los efectos que determinadas
experiencias o aprendizajes ejercen sobre el rendimiento en el
dibujo, 2) correlacionando estadísticamente la escala con otras
medidas de inteligencia. En el primer caso se estudió el efecto
del examinador, de la enseñanza artística, de ciertos tipos de
instrucción formal, etc. Se observó, en general, que la
influencia del examinador y de la enseñanza artística es
insignificante (Anastasi, 1978, Harris, 1991). En el segundo,
se correlacionó la prueba con varias medidas de inteligencia:
Test de habilidades mentales primarias, Test de Stanford-
Binet, WISC, WAIS y otros. Las investigaciones fueron
llevadas a cabo con distintas muestras y los resultados han
proporcionado coeficientes de correlación muy variados, a
veces altos, a veces bajos. Por ejemplo,' 'con niños pequeños,
el puntaje del Test de Goodenough se asocia de modo notable
con la madurez intelectual tal como la evalúa el Test de
Stanford-Binet o el WISC" (Harris, 1991, p. 109). Ya la
correlación obtenida con el Raven, en alumnos de jardín de
infantes fue muy baja (.22). El manual presenta un cuadro de
las correlaciones obtenidas en distintas investigaciones entre
los puntajes en el Test de Goodenough y los puntajes en otros
tests de inteligencia.
Se estudió también la correlación entre la escala original
y la escala revisada obteniéndose coeficientes altos que
variaron, según la edad, entre .91 y .98 (Anastasi, 1978,
Harris, 1991). La correlación entre la escala del hombre y
la de la mujer también es bastante elevada, variando de .71
a .79, según la edad (Harris, 1991).
167
11. COMENTARIOS
Este test es de muy fácil aplicación, motiva en general a los niños

y por ello viene siendo aplicado ampliamente en la clínica.
Sin embargo, hay que estar atento a algunas limitaciones de la

prueba:
• Aunque originalmente esta prueba ha sido considerada
como independiente del ambiente cultural, las investigaciones han
demostrado que esta idea no es muy verdadera (Anastasi, 1974).
La figura femenina parece más vinculada con la cultura, menos
estereotipada y menos susceptible a la interpretación individual
(Harris, 1991).
• La prueba no discrimina bien la madurez intelectual de
niños a partir de los doce años; los puntajes dejan de mostrar un
aumento con la edad, a partir de la pubertad. Goodenough y otros
investigadores llegaron a la conclusión de que este test es más
apropiado para los niños pequeños (Harris, 1991).
• Las niñas de las culturas occidentales se desempeñan mejor
que los niños en la prueba. La diferencia es más acentuada en la
escala de la figura de la mujer, que en la
de la figura de un hombre (ídem).
• El dibujo de sí mismo parece más útil para el estudio
de los factores psicológicos no intelectuales (ídem).
• Las escalas cuantitativas ofrecen mayor precisión en la
evaluación, que las escalas cualitativas. Estas últimas no son
medidas tan sensibles, especialmente después de los ocho o nueve
años, y aumentan las diferencias entre los sexos observadas en las
escalas cuantitativas. Sin embargo, las escalas cualitativas,
además de más fáciles y más rápidas, "proporcionan una
impresión total o global del desarrollo de la conducta en el dibujo
reflejada gráficamente en la figura humana, que las tablas de
porcentajes correspondientes a los ítems de las escalas de puntos
no ofrecen" (Harris, 1991, p. 127). Por lo tanto, cada método de
evaluación proporciona diferentes ventajas y desventajas.
168
• El manual de la prueba presenta solamente normas

estandarizadas para la población americana.
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpre-

sión). Madrid: Editorial Aguilar.
Harris, D.B. (1991). El Test de Goodenough-Revisión, Am-
a a
pliación y Actualización (2 ed., 3 reimpresión). Mé-
xico D.F.: Ediciones Paidós.
169
TERCERA PARTE
APTITUDES
CAPITULO XIII
LAS APTITUDES
A. LA DEFINICIÓN DE APTITUD
La definición del término "aptitud''' proporcionada por el

Diccionario de Psicología de Warren (1934, en Bennett,
Seashore y Wesman, 1990) dice:
Condición o conjunto de características consideradas sintomáticas de
la capacidad de un individuo de adquirir mediante entrenamiento
algún conocimiento, técnica o conjunto de respuestas (generalmente
especificadas) como la habilidad para hablar un idioma, producir
música., .(p. 1)
Esta definición indica que las aptitudes son producto de una interacción
entre la herencia y el ambiente y que pueden ser desarrolladas. Brown
(1980) diferencia los términos habilidad y aptitud, señalando que la
habilidad indica "el poder para realizar una tarea" y la aptitud "el poder
para aprender a realizar una tarea" (p.282). El primer término se refiere
a un estado actual y el segundo a un estado futuro. En el término aptitud
se incluye la idea de previsión, de probabilidad de que se adquieran o
aprendan conductas.
Desde 1928, con la publicación del libro de Kelley, Cross-
roads in the Mind of Man, ya se observaba la preocupación
por investigar los diferentes factores que componen la
inteligencia. El modelo multifactorial, defendido sobre todo
por Thurstone, profundizó esta idea. A partir de varias
investigaciones, él propuso 12 factores grupales a los cuales
denominó de capacidades mentales primarias. De éstos, los
que más se confirmaron en los estudios subsecuentes fueron:
173
(1) Comprensión verbal, (2) Fluencia verbal, (3) Número, (4)

Espacio, (5) Memoria Asociativa, (6) Rapidez Perceptual y
(7) Inducción (o Razonamiento general) (Anastasi, 1978).
Posteriormente, Guilford (1956, 1967, 1970) propuso un modelo
para la estructura intelectual, donde llegó a calcular
la existencia de 120 habilidades.
Antes de que fueran construidas baterías de aptitudes
múltiples, se hicieron tentativas de comparar la posición relativa
de un individuo en diferentes subtests o grupo de reactivos de
pruebas de inteligencia. Como estas pruebas no fueron
desarrolladas con este objetivo, generalmente, los subtests no
permitían una comparación intraindividual adecuada.
El desarrollo de baterías de aptitud múltiple fue estimulado por

las limitaciones de las pruebas de inteligencia que, en general, se
concentraban en la medida de la capacidad verbal, no
proporcionando medidas de otras capacidades (abstracta,
mecánica, etc.). Además, la creciente actividad de los psicólogos
en las áreas de selección y clasificación de personal y de
orientación vocacional llevaron a la necesidad de disponer de
instrumentos más específicos que facilitaran estas tareas. Pero,
fue sobre todo el desarrollo del método estadístico del análisis
factorial que impulsó la investigación en esta área y permitió el
desarrollo de los primeros instrumentos de medida de las
aptitudes.
B. LA MEDICIÓN DE APTITUDES
Hay pruebas de aptitudes construidas para medir aptitudes

específicas o especiales que pueden ser de tipo cognoscitivo
(habilidad para matemáticas, creatividad), de tipo vocacional
(velocidad y precisión perceptual, destreza manual) y de tipo
musical o artístico.
Existen también las baterías de pruebas de aptitudes
174
múltiples, que se componen de una serie de pruebas de aptitudes

específicas. La construcción de estas baterías presupone que: (a)
la batería debe contener tantas pruebas cuanto el número de
aptitudes que se quiera medir, (b) cada prueba debe medir
solamente una aptitud y (c) debe utilizarse la misma muestra
normativa para todas las pruebas para que se pueda hacer
comparaciones intra e interindividuales adecuadas. Otro
problema está en la utilización del método apropiado para
combinar las calificaciones de las pruebas. Se sugiere el método
de regresión múltiple para determinar el peso óptimo de cada
factor (Brown, 1980).
En los próximos capítulos serán presentadas las informaciones
básicas sobre algunas baterías de aptitudes múltiples
ampliamente utilizadas, principalmente en las áreas
a a
Anastasi, A. (1978). Tests psicológicos (3 ed.,4 reim-presión).
Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990/
Pruebas de Aptitud Diferencial-(DAT) Manual del
Instructor, México D.F. : Ed. El Manual Moderno.
Educación. México D.F.: Editorial El Manual Mo-derno.
Guilforf, J.P. (1956). The structure of intellect. Psychologi-cal

Bulletin, 53, 267-293.
, J.P. (1967). The nature of human intelligence. Nueva
York: McGraw Hill.
,J.P. (1970). Creativity: Retrospect and Prospect. Journal
of Creative Behavior, 4(3),
175
CAPITULO XIV
PRUEBAS DE APTITUD
DIFERENCIAL (DAT)
Las Pruebas de Aptitud Diferencial (DAT), desarrolladas en

Estados Unidos por G. Bennett, H. Seashore y A. Wesman,
fueron publicadas en sus formas originales (A y B) en 1947.
Fueron diseñadas para atender a la demanda de los
orientadores educacionales y vocacionales, que necesitaban
de un instrumento que permitiera medir rigurosamente las
apti-tudes múltiples de los alumnos de secundaria y
preparatoria. (Bennett, Seashore y Wesman, 1990).
Estas pruebas fueron revisadas y reestandarizadas en
1962 (Formas L y M), en 1972 (Formas S y T), en 1980
(Formas V y W) y en 1990 (Formas C y D). En la primera
revisión, el objetivo principal fue facilitar la administración
y calificación de las pruebas y para tal se cambió el formato
y extensión de las mismas. En la segunda, se conservaron
los cambios anteriores y se actualizaron algunas pruebas.
La tercera, tuvo como meta principal elaborar reactivos con
el mismo nivel de dificultad para varones y mujeres. Se
hicieron también cambios en las instrucciones para
a
volverlas más comprensibles (ídem). La última revisión (5
edición) incluye reactivos nuevos y utiliza dos formas
paralelas (C y D) para dos niveles diferentes (Nivel 1 y
Nivel 2), aumentando así su utilidad y confiabilidad.
177
En México, fue publicada en 1990 la versión en español del

DAT basada en la revisión de 1980 (Bennett y cols., 1990). En
esta versión no se incluyeron las pruebas de Razonamiento
Verbal, Ortografía y Uso del lenguaje.
En 1994, surgió la Prueba Diferencial de Aptitudes
PROUNAM, basada en la quinta versión del DAT (DAT 1990),
desarrollada mediante la colaboración de la Universidad Nacional
Autónoma de México, el Instituto de Evaluación en Gran Escala y
The Psychological Corporation (Universidad Nacional Autónoma
de México [UNAM], 1994a). Esta prueba está compuesta de las
ocho subpruebas del DAT, siendo que tres de ellas fueron
elaboradas totalmente en México (Razonamiento Verbal, Uso del
Lenguaje y Ortografía). La elaboración de las dos primeras siguió
los principios establecidos en la prueba original, aunque en el caso
de la prueba Uso del Lenguaje se utilizaron las reglas del Idioma
Español. Sin embargo "la prueba de Ortografía fue diseñada en su
totalidad para el 'PROUNAM' siguiendo modelos escolares
utilizados en México para este tipo de evaluación" (Universidad
Nacional Autónoma de México [UNAM], 1994b, p.5), en
sustitución de la prueba original de "Spelling" que no era
aplicable a México.
Aunque la pruebas de la batería DAT son independientes, éstas

fueron desarrolladas y reestandarizadas como una batería
integrada, la estandarización de las distintas pruebas fue realizada
con una misma muestra. Como el rango de niveles es el mismo
para todas las pruebas de la batería, se pueden hacer
comparaciones intra e interindividuales consistentes. Por ejemplo,
si un estudiante obtiene un percentil 50 en tres pruebas de la
batería, estamos seguros que la clasificación "promedio" tiene el
mismo significado para tal estudiante en las tres áreas de
habilidades.
178
Las pruebas de la batería DAT "fueron diseñadas para valorar

habilidades intelectuales fundamentales y evitar en la medida
del posible que éstas dependan del aprendizaje de materias
escolares especificas'' (Bennett y cols., 1990,
p. 2). Las habilidades medidas en éstas son consideradas
importantes en varias situaciones educativas y profesionales.
La batería DAT se compone de 8 pruebas: Razonamiento
Verbal, Habilidad Numérica, Razonamiento Abstracto,
Velocidad y Exactitud Secretariates,Razonamiento
Mecánico, Relaciones Espaciales, Uso del Lenguaje y
Ortografía. La versión en español, publicada en 1990 (forma V
y W), incluye sólo cinco de éstas (Habilidad Numérica,
Razonamiento Abstracto, Velocidad y Exactitud Secretariales,
Razonamiento Mecánico y Relaciones Espaciales), mientras que
en el PROUNAM están incluidas todas las ocho pruebas. Es
importante señalar que en el PROUNAM la prueba de Velocidad
y Exactitud Secretariales se denomina Velocidad y Precisión
Perceptual. Aunque cada prueba mide una habilidad específica,
el agrupamiento de algunas de ellas puede proporcionar
información adicional, como veremos más adelante. A
continuación se describen las diversas pruebas.
• Razonamiento Verbal
Esta prueba tiene como objetivo medir "la habilidad para

comprender conceptos encerrados en palabras,...para pensar
constructivamente, para encontrar la identificación entre
conceptos aparentemente diferentes y para manejar las ideas en
un nivel abstracto"(Bennett y cols., 1990, p.3). Sus reactivos son
planteados como una doble analogía en que el primero y último
términos están ausentes y deben ser seleccionados de entre cinco
pares de palabras. Los contenidos
179
de los reactivos son relativamente familiares y cubren distintas

áreas: historia, geografía, literatura, ciencia, etc. El vocabulario es
generalmente simple.
Esta prueba busca predecir el éxito en áreas que requieren "la
comprensión de relaciones verbales complejas y la destreza para
manejar conceptos verbales" (ídem, p.3). Se puede decir que la
prueba indica la posibilidad del estudiante para seguir estudios
universitarios y pronostica, en cierta medida, el éxito académico
en la mayoría de los campos. Algunas áreas específicas que
requieren de esta habilidad son: comunicaciones, periodismo,
traducción, producción editorial, literatura, filosofía, psicología,
pedagogía, derecho, corrección de pruebas tipográficas, ventas,
etc.
• Habilidad Numérica
Esta prueba mide la comprensión de relaciones numéricas y el

manejo de los conceptos y relaciones numéricas. Sus reactivos
son básicamente problemas de "cálculo numérico", que requieren
el manejo de una gran variedad de conceptos matemáticos. Esta
prueba busca predecir el éxito en los campos donde se hace
necesario el pensamiento cuantitativo como: matemática, física,
química, estadística, ingeniería, contaduría, actuada, economía,
arquitectura, computación...y en trabajos especializados del tipo:
carpintería, fabricación de herramientas, etc.
• Razonamiento Abstracto
Esta prueba provee una medida no verbal de la habilidad de

razonamiento caracterizada por la percepción de relaciones entre
patrones abstractos. Su medida indica la capacidad de reflexión
del sujeto. Cada reactivo requiere el reconocimiento del principio
o principios operantes en una serie de diagramas y la
identificación del diagrama que sigue lógicamente en la
180
serie. En la selección de los diseños, se buscó utilizar

diseños grandes y claros que mostraran diferencias obvias
entre los sucesivos diagramas.
Esta prueba predice el éxito en actividades que requieren
de la percepción entre cosas, más que entre números o
palabras. Esta, "complementa los aspectos de inteligencia
general de las pruebas de Razonamiento Verbal y Habilidad
Numérica" (Bennett y cols., 1990, p.4). Sin embargo, no
puede sustituir ni ser sustituida por la prueba de
Razonamiento Verbal, aunque en los casos de deficiencia
de lenguaje pueda ser útil para la comprobación de las
puntuaciones de Razonamiento Verbal.
Esta aptitud es necesaria para el estudio de las carreras
profesionales, especialmente para carreras como:
computación, ingeniería, matemáticas, arquitectura,
ciencias químico-biológicas, etc.
• Velocidad y Exactitud Secretariates
El objetivo de esta prueba es medir la' 'velocidad de

percepción, la retención momentánea, y la velocidad y
exactitud de la respuesta" (Bennett y cols., 1990, p.4) en
una tarea percep-tual simple. La tarea es seleccionar, de
entre un grupo de combinaciones de números y letras,
aquella que está subrayada, retenerla, e identificarla en un
segundo grupo de combinaciones similares.
La habilidad exigida en esta prueba es necesaria para
tareas administrativas como: archivar, clasificar, codificar,
catalogar, perforar tarjetas, tareas de almacenaje, etc. Se
requiere también de esta aptitud para realizar actividades
que involucren información científica y técnica y para
aquellas que exijan memoria inmediata y la habilidad para
trabajar rápido y sin errores.
Aunque esta habilidad no es muy importante para los
181
objetivos educativos, un estudiante cuya puntuación es baja

puede tener dificultades en cumplir algunas exigencias
escolares de organización, velocidad y precisión. Si la
puntuación baja es obtenida por un estudiante cuyas
habilidades son en general superiores puede indicar una
precisión exagerada, más que una falta de velocidad.
• Razonamiento Mecánico
En esta prueba cada reactivo presenta, en imágenes, una

situación mecánica acompañada de una pregunta sencilla cuya
respuesta debe ser seleccionada de una serie de respuestas de
opción múltiple. Se considera que "la puntuación está afectada
por la experiencia previa del sujeto, pero no a tal grado que
cause dificultades para su interpretación" (Bennett y cols.,
1990, p.4). Una alta puntuación indica una facilidad para
aprender los principios de operación y reparación de
instrumentos o mecanismos relativamente complejos. La
prueba pronostica el éxito en las áreas que requieren la
comprensión de los principios de las fuerzas físicas. Algunas
ocupaciones como carpintero, mecánico, encargado de
mantenimiento, ensamblador y muchas otras tareas de fábricas
y oficinas requieren el tipo de habilidad que mide esta prueba.
Además, esta habilidad es necesaria para campos como:
ingeniería, física, computación, medicina, odontología, etc.
• Relaciones Espaciales
Esta prueba tiene como objetivo medir la habilidad para

manejar objetos concretos a través de su visualización en un
espacio tridimensional. Cada reactivo requiere el examen de un
patrón que al doblarse forma una figura y la identificación de
ésta. Los patrones son en general amplios y claros. Esta
habilidad es necesaria en campos como: arquitectura, diseño
182
gráfico, diseño industrial, diseño de modas, diseño textil,

artes, decoración, odontología, medicina...y en trabajos
especializados del tipo: carpintería, fabricación de
herramientas, etc.
• Uso del Lenguaje
Esta prueba evalúa la capacidad para expresarse

correctamente en forma verbal o escrita según las reglas y
características del idioma. Cada reactivo es compuesto de
una oración que puede contener o no errores (gramaticales,
de puntuación, de uso de mayúsculas y minúsculas). La
tarea es identificar la parte incorrecta de la oración o bien si
la misma está correcta. Esta es una aptitud necesaria a todas
las actividades académicas y muy importante en áreas
como: literatura, periodismo, comunicación, leyes,
pedagogía, traducción, docencia, investigación, etc.
• Ortografía
Esta prueba mide la capacidad para identificar y reconocer

errores ortográficos dentro de una oración. Cada reactivo
requiere identificar, entre las respuestas posibles, la palabra
que complete correctamente la oración. Esta habilidad es
importante para cualquier área académica, sobre todo
aquellas que requieren de la elaboración y revisión de
textos, reportes y manuscritos.
• Aptitud Académica (Razonamiento Verbal y

Habilidad Numérica)
Los aspectos del funcionamiento cognoscitivo derivados de

las pruebas Razonamiento Verbal y Habilidad Numérica son
semejantes a los proporcionados por la mayoría de las pruebas
de aptitud académica. Al combinarse las puntuaciones de
183
estas dos pruebas se obtiene una evaluación de la habilidad

general del sujeto o sea de su aptitud académica. Esta medida es
útil para pronosticar el éxito académico en general, e identificar
los sujetos que deberían continuar su educación más allá de la
preparatoria.
3. MATERIAL
El material básico de la forma V y W (Bennett y cols., 1990) se

compone de: a) folleto de aplicación para cada una de las pruebas,
b) hojas de respuestas, c) plantillas de calificación, d) forma de
reporte individual, donde son presentados los resultados y la
gráfica derivada de los mismos, e) manual. Para su aplicación se
necesitan dos lápices con goma y un cronómetro.
El material básico del PROUNAM (UNAM, 1994b) incluye,
entre otros: a) cuadernillo de prueba (cinco formas diferentes) con
los reactivos para las ocho pruebas y las respectivas instrucciones,
b) cuadernillo de respuestas con espacios específicos para
contestar cada una de las ocho pruebas y diseñado para ser
calificado en forma automatizada (lectora óptica), c) hoja de
respuestas para la parte I de la prueba de Velocidad y Precisión
Perceptual, d) manual del aplicador,
e) manual del orientador y f) hoja de interpretación de resultados
del alumno. Además, se necesitan dos lápices con goma, un
cronómetro y hojas de papel en blanco, tamaño carta, para las
operaciones de la prueba de Razonamiento Numérico.
Las formas V y W fueron construidas para ser utilizadas con

adolescentes entre segundo de secundaria y tercero de
preparatoria. Sin embargo, pueden también ser aplicadas a
adultos.
Las pruebas que componen el PROUNAM fueron diseñadas
para el nivel de 2o año de preparatoria.
184
Las pruebas de la batería DAT pueden ser administradas

individualmente o en forma colectiva. Cuando la aplicación
es colectiva se requiere generalmente un examinador para
cada grupo de 30 estudiantes.
Cada prueba tiene un tiempo máximo para su ejecución.

Los límites de tiempo de las pruebas incluidas en la versión
mexicana del DAT (forma V) y de aquellas incluidas en el
PROUNAM son presentados en la tabla 14.1.
TABLA 14.1
LIMITE DE TIEMPO DE LAS PRUEBAS
PRUEBA FORMA V PROUNAM
Razonamiento Verbal 30 minutos
Habilidad Numérica 30 minutos 35 minutos
Razonamiento Abstracto 20 minutos 20 minutos
Velocidad y Exactitud Secretariates Parte I- 3 minutos Partel - 3 minutos
(Velocidad y Precisión Perceptual) Parte II-3 minutos Parte II -3 minutos
Razonamiento Mecánico 30 minutos 25 minutos
Relaciones Espaciales 25 minutos 25 minutos
Ortografía 10 minutos
Uso del Lenguaje 20 minutos
La administración de las pruebas de la forma V y W debe

ser realizada con un intervalo de tiempo relativamente corto
entre una y otra, de preferencia en un período máximo de una
o dos semanas. La aplicación puede ser realizada en dos, tres
o cinco sesiones. En el manual son sugeridas distintas
programaciones para la aplicación (Bennett y cois., 1990).
Las pruebas que componen el PROUNAM son aplicadas en
una misma sesión de aproximadamente 3 horas 45 minutos; la
secuencia de aplicación de las pruebas debe ser estrictamente
respetada (UNAM, 1994b)
185
La administración de las pruebas de la batería DAT (Forma V y

W) es relativamente sencilla. Primero, se distribuye la hoja de
respuestas donde el sujeto debe llenar los datos personales y en
seguida, el folleto de prueba. En el folleto de cada prueba vienen
las instrucciones acompañadas de ejemplos, así como el tiempo
de duración máximo de la prueba. Las instrucciones deben ser
leídas en voz alta por el examinador mientras que el examinado
las lee en voz baja en su folleto. Antes de empezar deben sacarse
las dudas que se presenten, siempre siguiendo las instrucciones.
Se le debe explicar al examinado el propósito de las pruebas y
advertirle que no se desanime cuando alguna pregunta le parezca
muy difícil.
La administración de las pruebas PROUNAM se inicia

también llenando los datos sociodemográficos incluidos en el
cuadernillo de respuestas. Las instrucciones específicas de cada
prueba, así como los ejemplos, vienen en el cuadernillo de prueba.
El procedimiento de aplicación es similar al mencionado con
respecto a las formas V y W; los detalles de este procedimiento
vienen en el manual del aplicador (UNAM, 1994b).
8. 1. Las pruebas de las formas V y W
Para calificar las pruebas de las formas V y W se utilizan

plantillas de calificación. Es importante observar que en la prueba
de Velocidad y Exactitud Secretariales solamente se califica la
Parte II. Cada respuesta correcta es calificada con un punto. La
puntuación bruta de cada prueba es la suma de las respuestas
correctas.
186
La puntuación bruta de cada prueba es convertida en percentil

o estanina utilizándose para tal efecto los cuadros de conversión
disponibles en el manual. Estos cuadros toman en cuenta el sexo
y el grado escolar del sujeto.
Los resultados deben ser apuntados en la hoja de "Reporte
Individual", donde se llenan los datos personales del sujeto, sus
puntuaciones brutas, las puntuaciones percentiles obtenidas por
comparación con una muestra de su mismo sexo y grado escolar,
y las puntuaciones percentiles obtenidas por comparación con
una muestra de su grado escolar pero de sexo opuesto. En esta
misma hoja es trazado el perfil de aptitudes del sujeto, cuyo
procedimiento será explicado en seguida.
a. Comparación con muestras de cada uno de los sexos
En el DAT es importante sacar el percentil obtenido por el sujeto

en una prueba comparándolo, por un lado, con una muestra de
sujetos de su mismo sexo, y por otro, con una muestra de sujetos
del sexo opuesto. Lo que sucede es que los sexos califican
típicamente en algunas pruebas del DAT en forma muy diferente.
Por ejemplo, los varones tienden a tener puntuaciones más altas
que las mujeres, en Razonamiento Mecánico y Relaciones
Espaciales, aunque que en este último caso la diferencia sea
menor. Además, las mujeres suelen tener mejores puntuaciones
que los varones, en la prueba de Velocidad y Exactitud
Secretariales. Siendo así, es importante comparar al sujeto con
una muestra de su mismo sexo pero también, en muchas casos,
es esencial la comparación con una muestra de sexo opuesto al
suyo.
Por ejemplo, si una joven (2o semestre de 2o año de
preparatoria) obtiene una puntuación bruta de 43 en
Razonamiento Mecánico, cuando comparada a una muestra
femenina tendrá como percentil P50, mientras que cuando
comparada a una muestra masculina tendrá un percentil P20.
187
La interpretación de la prueba cambia substancialmente si

tomamos como referencia uno o otro valor de percentil.
Suponiendo que esta joven tenga interés en seguir el área de
Ingeniería Mecánica, donde la población es básicamente
masculina, el percentil obtenido a través de la comparación con la
muestra masculina va a ser de gran importancia. Este es el que va
a permitir pronosticar sus posibilidades en la competencia escolar
y profesional con esta mayoría masculina. En el caso mencionado,
aunque lajoven, comparada con otras jóvenes de su mismo grado
escolar, presenta una habilidad mecánica promedio, esta habilidad
es baja cuando se compara con los varones de su mismo grado
escolar. Esto, probablemente le traerá dificultades al tener que
enfrentar la competencia masculina en la carrera de Ingeniería
Mecánica.
b. El perfil de aptitudes
En la hoja de Reportes Individuales se explica como trazar la

gráfica correspondiente al perfil de aptitudes del sujeto. Primero,
se traza la gráfica correspondiente a los percentiles obtenidos
comparando al sujeto con una muestra de su mismo sexo. Para
cada resultado se traza una barra, en la columna referente a la
prueba. Partiendo del punto correspondiente al percentil obtenido,
se mide 1.2 cm. para arriba y 1.2 cm. para abajo obteniéndose así
una barra que debe ser rellenada en color. Esta barra indica que
podemos estar relativamente seguros de que la puntuación del
sujeto está en algún punto dentro del área cubierta por la misma.
Trazadas todas las barras que indican la habilidad del sujeto al

compararlo con una muestra de su mismo sexo, hacemos el
mismo procedimiento pero ahora tomando como referencia las
puntuaciones percentil obtenidas comparando al sujeto con una
muestra del sexo opuesto. Para cada prueba se trazará una
segunda barra, paralela a la primera, que será rellenada de color
distinto.
188
Para interpretar el perfil de aptitudes se debe proceder de la

siguiente manera (Bennett y col, 1990):
1) Comparar las barras trazadas teniendo como base la
puntuación obtenida a partir de la norma del mismo sexo del
sujeto (primeras barras, que son del mismo color). Esta
comparación indica cuál es el desempeño del sujeto en cada
prueba; cuáles son sus aptitudes más fuertes y más débiles.
2) Comparar cada par de barras correspondiente a una misma
aptitud: la barra obtenida a partir de la norma de mismo sexo con
aquella obtenida a través de la norma de sexo opuesto (primera y
segunda barras, de colores diferentes). Esta comparación permite
verificar si hay una discrepancia en el desempeño del sujeto
comparado con muestras de distintos sexos.
3) La diferencia entre dos aptitudes (o resultados) es

considerada significativa cuando las dos barras no se
sobreponen. Cuando se sobreponen pero no en más de la mitad
de su longitud, la diferencia puede o no ser importante. En este
caso se deben buscar, en otras informaciones sobre el sujeto,
indicios que ayuden a tomar una decisión. Si las barras se
sobreponen en más de la mitad, no se considera significativa la
diferencia, o sea la habilidad del sujeto en estas dos áreas es más
o menos la misma.
8. 2. Las pruebas PROUNAM
La calificación de las pruebas PROUNAM es realizada en forma

automatizada por el IEGE y la UNAM. Las calificaciones
también son expresadas en percentil y estanina, comparando el
sujeto con una muestra de su mismo sexo y con una muestra
mixta (de ambos sexos). Un reporte informatizado de los
resultados, que incluye un perfil de aptitudes, es entregado al
alumno (UNAM, 1994a).
189
9. NORMAS
Las normas para las formas V y W del DAT fueron extraídas de

una muestra de más de 61,000 estudiantes de 2 o. de secundaria a
o
3 . de preparatoria, de 64 sistemas escolares públicos y
parroquiales de los Estados Unidos de América. Las dos formas V
y W son consideradas paralelas lo que significa que sus
puntuaciones brutas son equivalentes y por lo tanto permiten la
utilización de las mismas tablas de normas para su interpretación
(Bennett y cols., 1990).
Los normas se expresan tanto en percentil como en estanina,
o o
para cada sexo y nivel escolar (de 2 . de secundaria a 3 . de
preparatoria). Para cada nivel escolar, se presentan normas para el
primer y para el segundo semestre.
El PROUNAM está estandarizado solamente para el 5 o. año de
o
bachillerato (2 . de preparatoria). Sus normas fueron extraídas de
una muestra de 3,027 alumnos, hombres y mujeres, estudiantes de
distintos sistemas: Escuela Nacional Preparatoria, CCH y
Escuelas Incorporadas a la UNAM, siendo que las escuelas
estaban ubicadas en distintas regiones geográficas (UNAM,
1994a).
10.1. Las pruebas de las formas V y W
La confiabilidad de las pruebas de la batería DAT ha sido

estudiada a través del procedimiento de división por mitades,
cuyo coeficiente fue corregido utilizando la fórmula de
Spearman-Brown, con excepción de Velocidad y Exactitud
Secretariales. Siendo esta última una prueba de velocidad, se
utilizó el procedimiento de formas paralelas. Los coeficientes de
confiabilidad fueron calculados para cada una de las formas V y
W, en cada nivel escolar y para cada sexo. En
190
general, se obtuvieron los coeficientes usando submuestras de la

muestra de estandarización, con excepción de la prueba de
Velocidad y Exactitud Secretariates (Bennett y cols., 1990).
Los coeficientes de confiabilidad obtenidos fueron

relativamente elevados variando, en la muestra masculina de 2o.
de secundaria a 3o. de preparatoria de .89 a .97 (forma
V) y de .87 a .97 (Forma W) y en la muestra femenina de
.83 a .96 (forma V) y de .84 a .96 (forma W) (ídem). En el
manual del DAT son también presentados los Errores
Estándar de Medida para cada prueba (formas V y W), por nivel
escolar y sexo. El procedimiento recomendado para trazar la
gráfica del perfil de aptitudes (la construcción de barras) tiene
como objetivo tomar en cuenta el error estándar de medida. En
general, cada 1.2 cm. equivale a cerca de una y media unidades
de error estándar de medida, lo que significa que, para la mayoría
de las pruebas, las probabilidades son aproximadamente de
nueve en diez de que la puntuación real del sujeto caiga dentro
del intervalo delimitado por las barras (ídem).
10. 2. Las pruebas PROUNAM
El proceso de desarrollo y validación de las pruebas PROUNAM

incluyó varios procedimientos. Para validar el PROUNAM se
utilizaron cinco formas diferentes de la prueba (A, B, C, D, y E)
conformadas con 250 reactivos de Razonamiento Verbal, 360 de
Ortografía, 250 de Uso del Lenguaje, 250 de Razonamiento
Numérico, 200 de Razonamiento Abstracto, 500 de Velocidad y
Precisión Perceptual, 300 de Razonamiento Mecánico y 250 de
Relaciones Espaciales. Las pruebas verbales, Razonamiento
Verbal, Uso del Lenguaje y Ortografía fueron desarrolladas en
México y específicamente para la Prueba Diferencial de
Aptitudes PROUNAM. Para las demás pruebas se utilizaron
191
los reactivos de la quinta edición del DAT (1990), formas C y D,

niveles 1 y 2. Los reactivos fueron analizados a través de varios
procedimientos estadísticos como: valores P (porcentaje de la
muestra que respondieron de forma correcta al reactivo) para
determinar el nivel de dificultad, correlación biserial para
establecer el nivel de discriminación, rango de omisión de los
reactivos (porcentaje de sujetos de la muestra que no contestaron
el reactivo) y análisis de Rasch que determina el nivel de
dificultad del reactivo dentro de una escala métrica logística
análoga a la calificación z (UNAM, 1994a).
Se estudió la confiabilidad de las cinco diferentes formas de la

batería, obteniéndose coeficientes Kuder-Richardson (KR-20)
entre .79 y .96 para las ocho pruebas. Las medias, desviaciones
estándar y percentiles seleccionados (cuartiles) mostraron
variaciones moderadas entre las diferentes formas de la prueba.
Se obtuvieron para la forma final de cada una de las pruebas (con
excepción de Velocidad y Precisión Perceptual) coeficientes KR-
20. Estos variaron de .71 a .90 según la prueba, lo que indica que
las pruebas poseen un alto grado de consistencia interna. Se
obtuvieron también los errores estándar de medida para cada una
de las pruebas, cuyos valores estuvieron entre 2.33 y 3.51
(UNAM, 1994).
Para demostrar la validez del PROUNAM se correlacionaron
los valores en percentil obtenidos por la población de EUA en la
5a. edición del DAT y los obtenidos por los estudiantes mexicanos
en el PROUNAM. Como las pruebas verbales no son
comparables, se limitó la comparación a las pruebas no verbales.
Se comparó así "el rendimiento de ambas poblaciones
considerando tanto a la población general de ambos sexos (mixto),
como las diferencias por género" (ídem, p . 36) . Se examinaron
también las intercorrelaciones entre las distintas pruebas que
componen el PROUNAM, para verificar cuánto miden estas
distintas aptitudes. "En general las intercorrelaciones entre las
pruebas muestran un rango que va de bajo a moderado" {ídem, p.
11. COMENTARIOS
La batería DAT es considerada una gran contribución a la

medida de las aptitudes. Morales (1993) cita un comentario de
Carroll (1960) sobre las cualidades métricas de esta prueba: "Los
autores han hecho un trabajo tan completo y técnicamente
satisfactorio, que cualquier revisor lo encontraría difícil de
hacerlo parecer suficientemente crítico para él mismo"(p.l31).
Las pruebas fueron traducidas y adaptadas a varios idiomas y

demostraron gran utilidad, tanto en el área de la orientación
escolar y profesional como en el área de selección de per-sonal.
Su utilización en la realidad mexicana ha convivido hasta

hace poco tiempo con una limitación importante. Como fue
mencionado anteriormente, la versión en español del DAT
publicada en México (forma V y W) no incluye las pruebas
Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990;.

Pruebas de Aptitud Diferencial (DAT) - Manual del
Instructor, México D.F. : Ed. El Manual Moderno.
Morales, M.L. (1993). Psicometría Aplicada, México D.F.:
Ed. Trillas (2a. Edición, 2a. Reimpresión).
Universidad Nacional Autónoma de México [UNAM] (1994a).
Prueba Diferencial de Aptitudes PROUNAM- Manual
técnico, México D.F.
, (1994b).Prueba Diferencial de Aptitudes PROUNAM
- Manual del aplicador, México D.F.
193
CAPITULO XV
PRUEBAS PARA LA CLASIFICACIÓN
DE APTITUDES
DE FLANAGAN (FACT)
Las Pruebas para la Clasificación de Aptitudes (FACT)

fueron desarrolladas por J.C. Flanagan y dieron continuidad a
su proyecto de construcción de pruebas de clasificación para
la Fuerza Aérea durante la Segunda Guerra Mundial
(Anastasi, 1978). A partir de análisis sistemáticos de puestos
se identificaron elementos comunes a ciertas actividades
profesionales así como las aptitudes necesarias para la buena
ejecución de las mismas. Se construyeron entonces pruebas
para evaluar las aptitudes necesarias para que se realicen con
éxito tareas ocupacionales específicas (Brown, 1980). Las
pruebas FACT fueron publicadas por primera vez en 1953, su
publicación en español fue realizada en 1970, y en 1989 fue
presentada la primera edición mexicana. Esta batería es
destinada fundamentalmente a la orientación vocacional y
profesional y a la selección y clasificación de personal
(Flanagan, 1989).
La batería está compuesta de catorce pruebas, cada una
destinada a medir una habilidad específica (ídem):
• Inspección - Mide la habilidad necesaria para
195
inspeccionar artículos manufacturados y para detectar fallas o

imperfecciones en éstos. La rapidez y la exactitud son
importantes en esta prueba.
• Claves - Mide la rapidez y exactitud en el manejo de claves
utilizadas en el trabajo de oficina.
• Memoria - Mide la habilidad para recordar las claves
aprendidas en el test de claves.
• Precisión - Mide la habilidad para hacer tareas de precisión
con objetos relativamente pequeños; mide la rapidez y precisión
en la ejecución de movimientos circulares pequeños, con los
dedos de una o de ambas las manos al mismo tiempo.
• Ensambles - Mide la habilidad para visualizar la forma de
un objeto mirando solamente sus partes.
• Escalas - Mide la habilidad para la lectura de material
gráfico (escalas, gráficos, mapas), requerida en trabajos de
ingeniería y ocupaciones técnicas semejantes.
• Coordinación - Mide la habilidad para coordinar los
movimientos de brazo y mano y controlarlos de una manera
progresiva y exacta.
• Comprensión y discernimiento - Mide la habilidad para
leer de manera comprensiva, pensar lógicamente y utilizar el
sentido común cuando es necesario.
• Aritmética - Mide la habilidad para el cálculo.
• Modelos - Mide la habilidad para reproducir bosquejos de
modelos sencillos y en forma invertida.
• Componentes - Mide la habilidad para identificar partes
importantes en situaciones complejas. Utiliza como ejemplos
dibujos lineales y bosquejos de planos.
• Tablas - Mide el rendimiento en la lectura de dos tipos de
tablas: a) formada únicamente por dígitos, b) formada por
palabras y letras del alfabeto.
• Comprensión Mecánica - Mide la habilidad para
comprender principios mecánicos.
Expresión Idiomática - Mide el dominio del idioma, la
habilidad para manejar la expresión de ideas en forma escrita y oral.
196
3. MATERIAL
El material básico para la aplicación se compone de: a) folletos

de prueba que funcionan también como hojas de respuestas, b)
dos lápices (uno del No. 3), c) cronómetro , d) hoja de
clasificación de aptitudes y d) manual.
Las pruebas FACT pueden ser utilizadas con adolescentes y

adultos.
Las pruebas de la batería pueden ser administradas en forma

individual y colectiva. En este último caso es conveniente
utilizar un ayudante por cada 25 examinados (Flanagan, 1989).
Cada prueba requiere un tiempo de administración diferente. En

el manual se recomienda un orden de aplicación de las pruebas
que permite llevar a cabo la aplicación de todas ellas en dos
períodos de medio día cada uno. El orden propuesto busca evitar
la monotonía alternando pruebas verbales, numéricas y de
ejecución. Las pruebas de Comprensión y discernimiento y de
Expresión vienen al final de la sesión puesto que no tienen
tiempo límite, permitiendo al sujeto la oportunidad de contestar
todos los reactivos de éstas. Se presenta a seguir un cuadro con
el orden recomendado para cada sesión y el tiempo requerido
para cada prueba (Flanagan, 1989).
Los límites de tiempo de cada prueba de la batería, con

excepción de las pruebas 8 (Comprensión y Discernimiento)
197
Primera sesión- Tiempo total: 2 horas y 46 minutos aproximadamente

P r u e ba Tiempo instrucciones Tiempo Prueba Tiempo Total
1.- Inspección 6 min. 6 min. 12 min.

2.- Claves 20 min. 10 min. 30 min.
3.- Memoria 1 min. 4 min. 5 min
4 - Precisión 7 min. 8 min 15 min.
5 - Ensambles 6 min. 12 min. 18 min.
Receso 10 min.
6.- Escalas 12 min. 16 min. 28 min.
7- Coordinación 5 min. 3 min. 8 min.
8- Comprensión y
Discernimiento 5 min. 35 min. aprox. 40 min. aprox.
Segunda sesión- Tiempo total: 2 horas y 42 minutos a proximadamente

9 - Aritmética 10 min. 10 min. 20 min.
10 - Modelos 8 min. 20 min. 28 min.
1 1 - Componentes 4 min. 20 min. 24 min.
Receso 10 min.
12.- Tablas 5 min. 10 min. 15 min.
1 3 - Comprensión
Mecánica 5 min. 20 min. 25 min.
14 - Expresión
Idiomática 5 min. 35 min. aprox. 40 min. aprox.
y 14 (Expresión Idiomática), deben ser cumplidos

estrictamente y por lo tanto deben ser cronometrados. Puede
aplicarse la batería completa o pueden combinarse pruebas
de distintas maneras, de acuerdo con las habilidades
requeridas por una determinada actividad profesional.
Es importante proveer una breve explicación a los

examinados sobre el propósito de las pruebas, antes de
empezar su administración.
La administración empieza solicitando al examinado que
llene sus datos personales en el folleto de prueba. Las
instrucciones de cada prueba vienen en el folleto de prueba,
seguidas de ejemplos o ejercicios de ensayo. El examinador
debe leerlas en voz alta mientras el examinado las leerá en
voz baja.
198
Las instrucciones que están en la portada de cada folleto son

semejantes para todas las pruebas, por lo tanto el examinador
necesitará leerlas solamente una vez, al iniciar la serie. Sin
embargo, las instrucciones impresas en la portada de los folletos
de las pruebas "Comprensión y Discernimiento'' y "Expresión
Idiomática" son distintas y deben ser leídas por el examinador.
El examinador debe leer las instrucciones específicas de cada
prueba exactamente como vienen impresas. Si hay dudas por
parte de los examinados, el examinador debe leer otra vez la
parte de la instrucción que permita esclarecerlas.
La mayoría de las pruebas fueron diseñadas para facilitar su

corrección. Debajo de la hoja donde el examinado marca sus
respuestas, hay una hoja carbón y abajo de ésta, una parrilla con
casillas. La posición de las casillas corresponde a la de las
respuestas correctas. Cuando el examinado pone una X en la
casilla correspondiente a su respuesta, ésta automáticamente se
reproduce en la parrilla. Este procedimiento permite una
evaluación rápida y precisa de la prueba. En el caso de las
pruebas que no traen parrillas, los resultados son computados
sobre los mismos folletos.
La fórmula utilizada para el cálculo de la puntuación total
varía de una prueba a otra: total de repuestas correctas, total de
respuestas correctas menos las equivocadas, etc. En el manual se
presenta un cuadro que contiene la fórmula que debe ser utilizada
en cada prueba.
El puntaje bruto debe ser apuntado en el espacio designado en
cada folleto de prueba. Allí mismo puede determinarse, a través
de una tabla, el puntaje ponderado del sujeto, expresado en
estanina.
Obtenidos todos los puntajes brutos y ponderados, éstos
199
deben ser apuntados en la Hoja de Clasificación de Apti-tudes,

donde también deben ser llenados los espacios correspondientes a
los datos de identificación del sujeto.
La interpretación de las puntuaciones obtenidas puede ser
realizada a dos niveles (Flanagan, 1989):
• Comparando las aptitudes del individuo y verificando sus
aptitudes más altas y más bajas, sus capacidades y limitaciones, y
• Evaluando las aptitudes de un individuo para una

determinada actividad ocupacional según el siguiente
procedimiento:
1) En la Hoja de Clasificación de Aptitudes, aparecen 30
ocupaciones. Para cada ocupación están determinadas cuáles
aptitudes son necesarias. Al lado de cada ocupación deben ser
llenadas las casillas solicitadas con las respectivos calificaciones
en estaninas.
2) Para cada ocupación se suman las calificaciones en
estanina y se marca con un círculo el resultado obtenido (puntaje
total). En caso que el número correspondiente al puntaje total no
aparezca en la hoja, debe aproximárselo al número mayor.
3) El puntaje total también es convertido en estanina

mediante la tabla de conversión que aparece en esta misma hoja.
En este caso, cada valor de estanina tiene un valor más y un valor
menos, por ejemplo, 1-, 1, 1+, 2-, 2, 2+, ... hasta 9-, 9 y 9+. La
puntuación estanina obtenida debe ser apuntada al lado de la
ocupación, en la casilla de calificación ocupacional.
4) Se compara el rendimiento del sujeto en distintas áreas

ocupacionales (calificaciones ocupacionales).
9. NORMAS
Las pruebas FACT utilizan como puntuación normalizada la

estanina. La conversión de las puntuaciones brutas a estaninas
200
no toma en cuenta ni el sexo ni el grado escolar del examinado

(Flanagan, 1989).
Las normas fueron extraídas de una muestra de
aproximadamente 11,000 estudiantes americanos, cuyos grados
escolares variaban de tercer de secundaria a tercer de preparatoria
(Anastasi, 1978). Con respecto a la edición mexicana, el manual
del FACT no ofrece datos sobre la muestra de estandarización
utilizada.
Los comentarios de Anastasi (1978) sobre la confiabilidad de

este instrumento apuntan que aunque es elevada la fìabilidad de
las puntuaciones compuestas de aptitud ocupacional, "/os tests
individuales tienen /labilidad más bien baja y algunas de las
distribuciones de las puntuaciones sugieren diferenciaciones
inadecuadas entre los individuos''(p. 352).
En cuanto a la validez, este mismo autor comenta que las
interrelaciones entre las pruebas indican que éstas miden
aptitudes bastante distintas. Sin embargo, muchas ocupaciones
exigen combinaciones semejantes de aptitudes, hasta aquellas
cuyas actividades son substancialmente diferentes. Por ejemplo,
la existencia de una alta correlación entre los resultados de
piloto-aviador y diseñador sugiere una validez diferencial
inadecuada. Por otro lado, Anastasi (ídem) apunta que la prueba
ha demostrado tener una buena validez de predicción, con
respecto a los criterios de capacitación profesional. Mientras
tanto, los datos sobre la validez de predicción con relación a la
admisión y éxito en el trabajo son escasos y menos consistentes,
sobre todo debido a la inadecuación de los criterios y a la
influencia de factores fortuitos.
201
11. COMENTARIOS
Las pruebas FACT pueden ser útiles para la orientación

profesional y para la selección de personal pues permiten evaluar
las habilidades del sujeto y proveer una cierta predicción con
respecto al éxito en determinadas tareas ocupacionales. Sin
embargo, son varias las restricciones a las mismas:
•Los resultados sobre la confiabilidad y la validez de la batería

parecen poco consistentes e inclusive en el manual de la edición
mexicana no se proporcionan datos a respecto.
•La representatividad de la muestra normativa de la versión
original es considerada discutible (Anastasi, 1978). En cuanto a
la edición mexicana, no se presentan en el manual datos sobre la
muestra de estandarización utilizada.
•No se toman en cuenta en las normas ni el sexo ni el grado
escolar. Investigadores como Bennett y cois. (1990) observaron
diferencias importantes, en algunas aptitudes, con respecto a
estas variables.
•La edición mexicana del FACT considera solamente 30
ocupaciones, lo que es un número relativamente reducido
comparado al número de ocupaciones existentes en la actualidad.
a a
Anastasi, A. (1978). Tests psicológicos (3 ed., 4 reimpre-sión).
Bennett, G.K.; Seashore, H.G. y Wesman, A.G. (1990).Prue-
bas de Aptitud Diferencial (DAT) - Manual del Ins-
tructor, México D.F.: Editorial El Manual Moderno.
Educación. México, D.F.: Editorial El Manual Moderno.
Flanagan, J.C. (1989). Manual del Examinador - FACT.
202
BIBLIOGRAFÍA
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpre-
sión). Madrid: Editorial Aguilar.
Anstey, E. (1974). Test de Dominós - manual. Buenos Aires:
Editorial Paidós.
Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., France-
quin-Chartier, G., Huetau, M., Porlier, J-C, Rozen-
cwajg, P.y Vrignaud, P. (1991). Evaluer I'intelligence.
Manuscrito no publicado, I.N.E.T.O.P., Paris, Francia.
Bacher, F. (1981). Les enquêtes en Psychologic Tesis
inédi-ta de Doctorado en Psicología, Université de
París V, París.
Bennett, G.K.; Seashore, H.G., Wesman, A.G. (1990). Prue-
bas de aptitud diferencial (D.Â. T) - Manual del
instruc-tor. México D.F.: Editorial El Manual Moderno.
Brown, F.G. (1980). Principios de medición en Psicología
y Educación. México D.F.: Editorial El Manual
Moder-no.
Coto Villa, M.J. y Llano de la Torre, A. (1981). Estudio
sobre la traducción, adaptación, conflabilidad y validez
del test para preescolares y primaria deWechsler
(WPPSI) en un grupo de niños de nivelsocioeconómico
medio alto. Tesis inédita de Licenciatura en Psicología.
Universidad Iberoamericana.
Cronbach, L.J. (1951). Alpha and the internal structure of
tests. Psychometrika, 16, 297-334.
Dorsch, F.(1976). Diccionario de Psicología. Barcelona:
Editorial Herder.
Flanagan, J. (1989). Manual del examinador: FACT. México
D.F.: El Manual Moderno.
Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del
desarrollo intelectual. Madrid: Editorial Paidós.
203
Guilforf, J.P. (1956). The structure of intellect. Psychologi-

cal Bulletin, 53, 267-293.
,J . P . (1967). The nature of human intelligence. Nue-va
York: McGraw Hill.
,J.P. (1970). Creativity: Retrospect and Prospect. Jour-nal
of Creative Behavior, 4(3), 149-168.
Guilfort,J.P. y Hoepfner, R. (1971). The analysis of in-telligence.
Nueva York: McGraw Hill.
Harris, D.B. (1991). El Test de Goodenough - Revisión,

Ampliación y Actualización (2a ed., 3a reimp.). México
D.F.: Ediciones Paidós.
Huteau, M. (1990). La varieté des formes et des composantes de I
´intelligence. En M. Reuchlin y col. (Eds.),Cogni-tion:
¡'individual et ¡'universe!. Paris: P.U.F.
Kaufman, A. (1982) Psicometría razonada con el WISC-R.
México D.F.;Editorial El Manual Moderno.
Kellogg, C E . y Morton, N.W. (1974). Instrumento no verbal de
inteligencia - Beta II-R. Manual. México D.F.: Edi-torial El
Manual Moderno.
Magnuson, P. (1979) Teoríade los tests. México, D.F. Trillas.
a a
Morales, M.L. (1993). Psicometría Aplicada (2 ed., 2 reim-
presión). México D.F.: Editorial Trillas.
Murphy, K. R. y Davidshofer, CO . (1994). Psychological Tes-
ting - Principles Applications. New Jersey: Prentice Hall.
Pasquasy, R. (1974). Las aptitudes y su medida. Madrid:
Ediciones Marova.
Piaget, J. (1972). Psicología de la inteligencia. Buenos Aires:
Editorial Psique.
Raven, J. C. (1987). Test de Matrices Progresivas. Buenos Aires:
Paidós.
Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet inte-
lligence scale. Form L-M. Boston: Houghton Mifflin
Company.
204
Thorndike, L. R. Y Hagen, E. (1975). Tests y técnica de

medición en psicología y educación. México: Editorial
Trillas.
Universidad Nacional Autónoma de México [UNAM].(1994a).

Prueba Diferencial de Aptitudes PROUNAM - Manual
técnico, México D.F. UNAM.
, (1994b). Prueba Diferencial de Aptitudes PROUNAM -
Manual del aplicador, México D.F.: UNAM.
Wechsler, D. (1955). La medición de la inteligencia del adulto.
La Habana: Cultural, S.A.
, D. (1981a). WAIS-R Manual: Wechsler Adult Ite-
lligence Scale-Revised. Nueva York: The Psychologi-cal
Corporation.
, D. (1981b). WAIS-Español - Escala de Inteligencia
para Adultos - Manual. México D.F.: Editorial El Manual
Moderno.
, D. (1981c). WISC-Español - Escala de Inteligencia

para el nivel escolar - Manual. México D.F.: Editorial El
Manual Moderno.
, D. (198 Id). WISC-R-Español - Escala de Inteligen-cia
revisada para el nivel escolar- Manual. México D.F.:
Editorial El Manual Moderno.
, D. (198le). WPPSI-Español - Escala de Inteligen-cia
para los niveles preescolar y primario - Manual. México
205
Se terminó de imprimir en
el mes de junio de 1996.
Tiraje 2,000 ejemplares.

Manual de Pruebas de Inteligencia y Aptitudes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual de Pruebas de Inteligencia y Aptitudes

Cargado por

Copyright:

Formatos disponibles

MANUAL DE

Kathia Maria Costa Neiva

Kathia Maria Costa Neiva

Primera edición: junio de 1996

Derechos exclusivos de edición reservados para

Este libro es una coedición entre

Editado en México por Plaza y Valdés editores

PRIMERA PARTE: Aspectos métricos de las

SEGUNDA PARTE: Inteligencia 59

TERCERA PARTE: Aptitudes 171

Cabe señalar que los tests psicólogicos son de las

Deseo felicitar a la Dra. Kathia Ma. Costa Neiva, ya que ha

Estoy seguro que el presente manual facilitará la

Antonio Tena Suck

Los tests psicológicos constituyen uno de los instrumentos

informaciones son de gran importancia para la comprensión y

Kathia Maria Costa Neiva

Aunque puede considerarse que Platón y Aristóteles fueron los

sobre retraso mental, sus procedimientos para constituir algún

Sin embargo, fue Galton, en Inglaterra, quién, interesado en

La expresión test mental apareció por primera vez en un

niños retrasados mentales, elaboró junto con Simon la primera

Con el desarrollo de los tests surgieron las primeras oficinas

A partir de la primera guerra las pruebas psicológicas

experimentaron un gran avance. Además de los tests de

Los tests de aptitudes específicas fueron construidos sobre

Las pruebas psicológicas pueden clasificarse desde diversos

1) Según la conducta que miden:

examinado su máximo rendimiento en las distintas tareas que

3) Según la forma o el tipo de respuesta exigida:

4) Según la forma de administración:

5) Según la libertad de ejecución:

ejecute la tarea asignada, lo más rápido posible. La duración de la

6) Según el material utilizado en la prueba:

7) Según la forma de dar las instrucciones:

8) Según la forma de calificación:

9) Según la población a la que se destina:

Una prueba psicológica combina varias de estas dimensiones (de

C. USOS DE LAS PRUEBAS

Una pruebapsicológica puede ser empleada con diferentes finalidades:

• Evaluación: por ejemplo en el caso de evaluarse el

Son muchas las medidas adoptadas para controlar el uso

• La venta, distribución y utilización de los tests debe

• Es imprescindible aclarar al examinado sobre el objetivo

Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)

CONSTRUCCIÓN Y EVALUACIÓN DE LAS

No es el propósito de este manual proveer mayores detalles

A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS

El primer procedimiento para analizar los reactivos de una prueba

Figura 2.1: Curva de distribución normal

Si la prueba es muy difícil, la curva de distribución de las

inferior o sea gran número de sujetos con puntuaciones bajas (figura

Figura 2.2 Figura 2.3

Cuando sucede uno de los dos casos arriba mencionados suele

Un tercer procedimiento en el que se verifica el porcentaje de

B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA

El análisis de laprueba, como un todo, supone distintos

Este proceso, también llamado por algunos autores tipificación,

2.1. Validez de contenido

Este tipo de validez es utilizado sobre todo en pruebas de

de validez de contenido. Murphy y Davidshofer (1994) hacen además

2.2. Validez de criterio

Este tipo de validez está relacionado con la predicción de un