Está en la página 1de 31

ANNIE ANASTASI

CAPITULO 1

FUNCIONES Y ORIGENES DE LOS “TEST” PSICOLOGICOS

Cualquier persona que lea este libro en la actualidad podría dar un ejemplo de lo
que se quiere indicar con los test que él mismo pasó en la escuela, en la
Universidad, en el Ejército, en el centro de orientación o en el departamento de
personal. Puede el lector haber servido como sujeto en un experimento en el que
se emplearan test tipificados. Desde luego, este no habría sido el caso hace 50
años. Los test psicológicos constituyen una rama relativamente joven de una de
las ciencias más jóvenes.

1.1 USO CORRIENTES DE LOS “TEST” PSICOLOGICOS

La función básica de los test psicológicos consiste en medir diferencias entre los
individuos o entre las reacciones del mismo individuo en distintas ocasiones. Uno
de los primeros problemas que estimularon el desarrollo de los test psicológicos
fue el de la identificación de los débiles mentales. El descubrimiento de la
deficiencia intelectual sigue siendo en la actualidad una aplicación importante de
ciertos tipos de test psicológicos. Otras aplicaciones clínicas se refieren al examen
de los emocionalmente inadaptados, los delincuentes y otros tipos de
desviaciones de la normalidad. Los problemas educativos también impulsaron el
desarrollo de los test. Actualmente es en los colegios donde se aplican los test en
mayor escala. La clasificación de los niños respecto a su aptitud para aprovechar
distintos tipos de instrucción escolar, la identificación de los intelectualmente
retrasados, por una parte, y de los superdotados, por otra, el diagnóstico de los
fracasos académicos, el consejo educativo y profesional de los estudiantes de
enseñanza media y superior y la selección de los aspirantes a las escuelas
profesionales y otras escuelas especiales, constituyen algunos de los muchos
usos educativos de los test. La aplicación de test a los niños que van a ser
adoptados constituyen otro ejemplo de cómo los test sirven de ayuda en las
decisiones prácticas.
La selección y clasificación del personal industrial representan aplicaciones
relativamente recientes y de rápida expansión de los test psicológicos. Desde el
operador telefónico o el encargado del registro hasta los puestos de alta dirección,
apenas existe un tipo de trabajo para el que no haya demostrado su utilidad
alguna clase de test psicológicos, en asuntos tales como contratación, asignación
de empleo, traslado ascenso o despido. Desde luego, el empleo eficaz de los tests
en gran parte de estas situaciones, especialmente en conexión con los empleos
de alto nivel, requiere generalmente que aparezcan como pieza coadyuvante
adjunta de una experta entrevista, de forma que las puntuaciones de los tests
puedan interpretarse adecuadamente a la luz de otra información concerniente al
individuo. A pesar de ello, los tests constituyen una parte importante del programa
total de personal. Una aplicación de los tests psicológicos estrechamente
relacionada con esta es la correspondiente a la selección y clasificación del
personal militar. Desde sus sencillos comienzos en la primera guerra mundial. La
amplitud y variedad de los tests psicológicos empleados en situaciones militares
ha mostrado un notable incremento durante la segunda guerra mundial. En
consecuencia, la investigación sobre el desarrollo de los tests se ha continuado en
gran escala en todas las ramas del ejército.

Es, pues, evidente que los tests psicológicos se emplean corrientemente en la


solución de una amplia variedad de problemas prácticos. Sin embargo, no se debe
perder de vista el hecho de que también están cumpliendo importantes funciones
en la investigación. En psicología diferencial, p. ej., casi todos los problemas
requieren la inclusión de los tests como un medio de reunión de datos. Como
ejemplo, podemos citar los estudios sobre la naturaleza y el grado de las
diferencias individuales, la identificación de los rasgos psicológicos, la medida de
las diferencias de grupo y la investigación de los factores biológicos y culturales
asociados con diferencias en la conducta. Para todas estas áreas de investigación
–y para muchas otras- constituye un requisito previo esencial la medida precisa de
las diferencias individuales, medida que han hecho posible los tests elaborados
correctamente. Los tests psicológicos han suministrado así mismo instrumentos
tipificados para la investigación de problemas tan variados como los cambios
debidos a la edad del individuo, los efectos de la educación, los resultados de la
psicoterapia, el impacto de la propaganda y la influencia de la distracción sobre la
ejecución.

De tan variados usos de los tests psicológicos se deduce que se requiere cierto
conocimiento de ellos para una adecuada comprensión de la mayoría de los
campos de la psicología contemporánea. Esta obra se ha elaborado teniendo
principalmente en cuenta dicho objetivo. No se destina a hacer de nadie un hábil
examinador y aplicador de tests ni tampoco un experto en la elaboración de los
mismos. Tampoco se dirige al especialista en tests, sino al estudiante de
psicología. Se necesita cierta familiaridad con los tests corrientes, de mayor uso, a
fin de poder entender las referencias que para su empleo se encuentran en la
literatura psicológica. Y una valoración e interpretación adecuada de los resultados
de los tests debe, en ultimo termino descansar en el conocimiento de su
elaboración, lo que se espera de ellos y sus limitaciones. Hoy, esta familiaridad,
con los tests no solo es necesaria para quienes lo aplican o elaboran sino para
todos los psicólogos en general.

Una breve visión panorámica de los antecedentes históricos y orígenes de los


tests psicológicos nos procurara la perspectiva necesaria y nos ayudara en la
comprensión de los tests de la actualidad 1. Es posible aclarar la dirección en que
ha progresado el movimiento contemporáneo de los tests psicológicos cuando se
considera a la luz de sus precursores. Del mismo modo se hace mas inteligibles
en las limitaciones especiales, así como las ventajas que caracterizan a los tests
corrientes cuando se contemplan destacándose sobre el fondo en que se
originaron.

Los orígenes de los tests se pierden en la antigüedad. Dubois (1966) presenta un


sugestivo y entretenido relato del sistema de exámenes para la administración
pública que prevaleció en el imperio chino durante unos 3000 años. Entre los
antiguos griegos, los exámenes constituían un complemento integrado en el
1
Se puede encontrar un relato detallado de los orígenes de los tests psicológicos en Goodenough (1949) y
Peterson (1926). Cf. También Boring (1950) y Murphy (1949) para visión más general, y Anastasi (1958ª, Cap.
1; 1965) para los antecedentes históricos del estudio de las diferencias individuales.
sistema educativo. Las pruebas se empleaban para estimar el dominio tanto de las
habilidades físicas como de las intelectuales. El método socrático de enseñanza,
con su entretejido de preguntas y respuestas, tiene mucho en común con la
enseñanza programada de hoy. Desde su fundación en la Edad Media, las
universidades europeas se basaron en exámenes regulares para conceder grados
y honores. Sin embargo, para descubrir los principales acontecimientos que
modelaron los tests actuales no necesitamos remontarnos más allá del siglo XIX. A
continuación examinaremos estos acontecimientos.

1.2 PRIMERAS DEMOSTRACIONES DE INTERESES POR LA CLASIFICACION


E INSTRUCCIÓN DE LOS RETRASADOS MENTALES

El siglo XIX ha sido testigo de un enérgico despertar del interés por el tratamiento
humano de los retrasados mentales y los alienados. Anteriormente, solo el olvido,
el ridículo e incluso la tortura habían sido la suerte común de estos desgraciados.
Con el aumento de la persecución por el adecuado trato de los débiles mentales
se comprobó que se requerían ciertos criterios uniformes para la identificación y
clasificación de estos casos. La fundación de numerosas instituciones especiales
para el cuidado de los retrasados mentales en Europa y América creo la necesidad
de establecer tipos de admisión y sistemas objetivos de clasificación de especial
urgencia. En primer lugar, se hizo necesario distinguir entre alienado y retrasado
mental. Los primeros manifestaban trastornos emocionales que podían ir o no
acompañados de deterioro intelectual desde un nivel inicial normal; los últimos se
caracterizaban esencialmente por un defecto intelectual ya presente desde el
nacimiento o la primera infancia. Probablemente, la primera afirmación explicita de
esta distinción se halla en una obra de dos volúmenes

***

Del tono más agudo que puede percibirse, así como series graduadas de pesos
para medir la discriminación cenestésica. Galton creía que los tests de
discriminación sensorial podían servir para medir el intelecto, idea que le fue
sugerida por las teorías de Locke. Así, Galton escribió:

La única información que llega hasta nosotros sobre los acontecimientos exteriores pasa,
al parecer, por la avenida de nuestros sentidos; y cuando mas perciban la diferencia
nuestros sentidos, mayor será el campo sobre el que puede actuar nuestro juicio e
inteligencia (GALTON, 1883, pág. 27.)

Galton advirtió también que los idiotas tienden a ser deficientes en la capacidad
para discriminar el calor, el frio y el dolor, observación que reforzó aun mas su
convicción de que la capacidad discriminativa sensorial “seria, en conjunto, mayor
entre los mejor dotados intelectualmente” (Galton, 1883, pág. 29). Galton fue
también uno de los primeros en aplicar las rating scales (escalas de estimación) y
los métodos de cuestionario, así como en el uso de la técnica de asociación libre,
que después se empleo con una gran variedad de fines. Otra contribución de
Galton es su desarrollo de métodos estadísticos para los análisis de los datos
sobre diferencias individuales. Galton seleccionó y adapto cierto número de
técnicas, elaboradas previamente por los matemáticos. Dispuso estas técnicas en
forma tal que pudieran ser utilizadas por el investigador no formado desde el punto
de vista de las matemáticas y que deseara tratar cuantitativamente los resultados
de los tests. Con ello extendió enormemente la aplicación de los procedimientos
estadísticos a los análisis de los datos de los tests. Esta fase de la obra de Galton
ha sido continuada por muchos de sus discípulos, el más eminente de los cuales
fue Karl Pearson.

1.5 CATTELL Y LOS PRIMERODS “TESTS MENTALES”

El psicólogo americano James McKeen Cattell ocupa una posición especialmente


destacada en el desarrollo de los tests psicológicos. La ciencia recientemente
establecida de la psicología experimental y el aun más reciente movimiento a favor
de los tests hicieron su aparición en la obra de Cattell. Para su doctorado en
Leipzig, concluyó una disertación sobre las diferencias individuales en el tiempo de
reacción, a pesar de la resistencia de Wundt hacia este tipo de investigación.
Mientras actuaba de lector en Cambridge, en 1888, el interés de Cattell por la
medida de las diferencias individuales se vio reforzado por el contacto con Galton.
A su regreso a América, Callett demostró gran actividad, tanto en el
establecimiento de laboratorios de psicología experimental como la difusión de los
tests.

En un artículo escrito por Callett en 1890 se empleó por primera vez en la


literatura psicológica la expresión “test mental”. Este artículo describía una serie
de tests que se aplicaban anualmente a los estudiantes universitarios en un
intento de determinar su nivel intelectual. Los tests, que se habían de aplicar
individualmente, incluían medidas de energía muscular, velocidad de movimientos,
sensibilidad al dolor, agudeza de la vista y del oído, discriminación de pesos,
tiempo de reacción, memoria y otras. En la elección de los tests. Cattell compartía
la opinión de Galton de que era factible obtener una medida de las funciones
intelectuales mediante test de discriminación sensorial y tiempo de reacción. La
preferencia de Cattell por estos tests se vio también fomentada por el hecho de
que las funciones simples pueden medirse con precisión y exactitud, mientras que
el desarrollo de medidas objetivas para funciones más complejas aparecía en
aquel tiempo como una tarea casi inaccesible.

Los tests de Callett eran los típicos de la última década del siglo XIX. Estas series
de tests se aplicaban a niños escolares, estudiantes universitarios y adultos sin
discriminación. En la exposición Colombia celebrada en Chicago en 1893, Jastrow
instaló un cetro de exhibición en el que se invitaban a los visitantes a someterse a
tests sensoriales, motores y de procesos de percepción simple, ya comparar su
habilidad con las normas (Peterson, 1926; Philippe, 1884). Unos pocos intentos de
valoración de estos primeros tests ofrecieron resultados muy descorazonadores.
La ejecución del individuo presentaba escasa correspondencia de un test a otro
(Sharp, 1898-99; Wissler, 1901) y poca o ninguna relación con valoraciones
independientes del nivel intelectual, basadas en las estimaciones de los
profesores (Bolton, 1891-92; Gilbert, 1894) o en las calificaciones académicas
(Wissler, 1901).
Algunas series de tests, reunidas por los psicólogos europeos de esta época,
tendían a abarcar funciones en cierto modo más complejas. Kraepelin (1895), que
estaba interesado principalmente en el examen clínico de los pacientes
psiquiátricos, preparó una larga serie de tests para medir lo que él consideraba
factores básicos en la caracterización de un individuo. Los tests, que empleaban
fundamentalmente operaciones aritméticas simples, estaban destinados a medir
los efectos prácticos, la memoria y la susceptibilidad a la fatiga y a la distracción.
Unos pocos años antes, Ochrn (1889), discípulo de Kraepelin, había empleado
tests de percepción tests de percepción, memoria y funciones motoras en la
investigación de las interrelaciones de las funciones psicológicas. Otro psicólogo
alemán, Ebbinghaus (1897), aplico a escolares algunos tests de cálculo aritmético,
de memoria inmediatamente y de completación de frases. El más complejo de los
3 tests, el de completación de frases, fue el único que mostró una clara
correspondencia con el rendimiento escolar de los niños.

Como Kraepelin, el psicólogo italiano Ferrari y sus discípulos se interesaron


principalmente por el uso de los tests en los casos patológicos (Guicciardi y
Ferrari, 1896). Las series, que idearon se extendían desde los tests de medidas
fisiológicas y motores a los del campo de atención y de interpretación de cuadros.
Binet y Henri, en un artículo publicado en Francia de 1895, criticaron la mayoría de
las series de tests existentes, por ser en gran medida sensoriales y concentrarse
indebidamente en aptitudes especializadas sencillas. Argumentaban, además, que
en la medida de funciones más complejas no es necesaria una gran precisión,
puesto que las diferencias individuales son mayores en ellas. Se propuso una
extensa y variada lista de tests que abarcaban funciones tales como la memoria,
la imaginación, la atención, la comprensión, la sugestibilidad, la apreciación
estética y muchas otras. En estos tests podemos fácilmente reconoces las
tendencias que conducirían finalmente al desarrollo de las famosas escalas de
inteligencia de Binet.
1.6 BINET Y EL DESARROLLO DE LOS TESTS DE INTELIGENCIA

Binet y sus colaboradores dedicaron muchos años a una investigación ingeniosa y


activa sobre las maneras de medir la inteligencia. Se probaron numerosos
métodos, que incluían hasta la medida de rasgos físicos, el análisis grafológico ¡y
la quiromancia! Sin embargo, los resultados condujeron a la convicción creciente
de que la medida directa, aunque burda, de las funciones intelectuales complejas
era la mejor solución. Entonces se presento una situación particular que llevó los
esfuerzos de Binet a un resultado práctico inmediato. En 1904, el ministro de
Instrucción Publica nombro una comisión para estudiar los procedimientos para la
educación de los niños subnormales que asistían a las escuelas de París. Con el
fin de satisfacer esta demanda práctica, Binet, en colaboración con Simon,
preparo la primera escala de Binet-Simon (BInet y Simon, 1905).

Esta escala, conocida como la escala de 1905, constaba de 30 problemas o tests,


colocados en orden creciente de dificultad. El nivel de dificultad se determinó de
forma empírica, aplicando los tests a 50 niños normales de 3 a 11 años de edad, y
a algunos niños retrasados mentales. Los tests estaban destinados a cubrir una
amplia variedad de funciones, con especial preferencia para el juicio, la
comprensión y el razonamiento, que Binet consideraba componentes esenciales
de la inteligencia. Aunque se incluían tests sensoriales y perceptivos, en esta
escala se encontraba una proporción mucho mayor de contenido verbal que en la
mayoría de las series de tests de la época. La escala de 1905 se presento como
un instrumento provisional, sujeto a modificaciones, y no se formulo ningún
método objetivo preciso para llegar a una puntuación total.

En la segunda escala, la de 1908, se aumentó el número de tests, eliminando, por


otra parte, algunos de la primera que no eran satisfactorios, y se agruparon todos
los tests en niveles de edad. Así, en el nivel de los 3 años se colocaron todos
aquellos que podían resolver los niños normales a esta edad; en el de 4 años,
todos aquellos que resolvían los niños normales de idéntica edad, y así
sucesivamente hasta el nivel de los 13 años. La puntuación del niño en el test
podía, pues, expresarse como una edad mental, es decir, la edad de los niños
normales cuya ejecución igualaba. Como la edad mental es un concepto tan
sencillo de comprender, la introducción contribuyo notablemente a popularizar la
aplicación de los tests de inteligencia2.

En 1911, año de la prematura muerte de Binet, apareció una tercera revisión. En


esta escala no se introdujo ningún cambio fundamental, sino revisiones menores y
variaciones en la colocación de tests específicos. Se añadieron tests varios niveles
de edad y la escala se extendió hasta el nivel de adulto.

Incluso antes de la revisión de 1908, los tests de Binet-Simon atrajeron el interés


de los psicólogos de todo el mundo. Aparecieron traducciones y adaptaciones en
muchos idiomas. En América se hicieron varias revisiones, de las cuales la más
famosa es la llevada a cabo bajo la dirección de L. M. Terman en la Universidad de
Stanford, conocida como la revisión de Stanford-Binet (Terman, 1916). En este test
se utilizo por primera vez el cociente de inteligencia (CI) o razón entre la edad
mental y la edad cronológica o real. En el capítulo 8 consideramos más
detalladamente la última revisión de este test, muy extendido en la actualidad.
Posee también especial interés la primera revisión de Kuhlmann-Binet, que
extendió la escala por su parte inferior hasta el nivel de edad de los 3 años
(Kuhlmann, 1912). Esta escala representa uno de los primeros esfuerzos por
desarrollar tests de inteligencia para niños en edad preescolar.

1.7 “TESTS” COLECTIVOS

Los tests de Binet, aso como todas sus revisiones, son escalas individuales, en el
sentido de que únicamente puedan aplicarse una sola persona a la vez. En estas
escalas, muchos de los tests requieren respuestas orales del sujeto o necesitan la
manipulación de materiales. Algunos exigen la medida individual del tiempo
invertido en responder. Por estas y otras razones, dichos tests no se adaptan a su
aplicación en grupo. Otra característica del test de Binet es que precisa un

2
Goodenougth (1949, págs. 50, 51) indica que en 1887, 21 años antes de la aparición de la escala de Binet-
Simon de 1908, S. E. Chaille publico en el New Orleans Medical and Surgical Journal una serie de tests para
bebés ordenados según las edades en las que la mayoría de los niños pasaban los tests. La importancia de
esta escala cronológica no fue apreciada en aquella época, en parte por la limitada circulación del diario, y en
parte porque la comunidad científica no estab lo suficientemente preparada.
exterminador de gran experiencia. Tales tests son esencialmente instrumentos
clínicos, apropiados para el estudio intensivo de casos individuales.

Los tests colectivos, como la primera escala de Binet, fueron creados para
satisfacer una urgente necesidad práctica. Cuando en 1917 los EE. UU.
Decidieron participar en la primera guerra mundial, la American Psychological
Association designo un comité parapara considerar de qué manera podía
colaborar en la contienda la psicología. Este comité, bajo la dirección de Robert M.
Yerkes, se percató de la necesidad de clasificar rápidamente a millón y medio de
reclutas respecto a su nivel intelectual general. Tal información sirvió de ayuda en
muchas decisiones administrativas, incluyendo la exención del servicio militar, la
asignación a diferentes tipos de servicio a la admisión a los campamentos de
formación de oficiales. En estas circunstancias se constituyo el primer test de
inteligencia colectivo. Con este fin, los psicólogos del Ejército recurrieron a todos
los materiales de test disponibles, y especialmente a un grupo de tests de
inteligencia no publicados, preparados por Arthur S. Otis y que este entrego al
Ejercito.

Los tests aceptados finalmente por los psicólogos del Ejército se han llegado a
conocer como el Alfa y el Beta del Ejército. El primero estaba destinado a su
aplicación general; el segundo era una escala no verbal, empleada con los
analfabetos o con los reclutas nacidos en países extranjeros que no dominaban el
inglés. Ambos eran apropiados para su aplicación a grandes grupos.

Poco después del fin de la primera guerra mundial, los tests del Ejército fueron
cedidos para su uso civil. El alfa y el Beta del Ejército no solamente pasaron por
muchas revisiones, las ultimas de las cuales aun están en uso, sino que sirvieron
también como modelos para la mayoría de los tests de inteligencia colectivos. El
desarrollo de los tests experimento un grave avance. Pronto se idearon tests de
inteligencia colectivos para todas las edades y tipos de personas, desde niños en
edad preescolar hasta estudiantes graduados. La aplicación de tests en gran
escala, que antes resultaba imposible, se efectuaba ahora con entusiasmo
optimismo. Como los tests colectivos eran instrumentos para la prueba de masas,
no solamente permitían el examen simultáneo de grandes grupos, sino que
simplificaban también las instrucciones y procedimientos de aplicación, de manera
que requerían un mínimo de formación por parte del examinador. Los maestros de
escuela empezaron a aplicar tests en sus clases. Se llevaron a cabo estudios
intensivos en determinados grupos de adultos, tales como los presidiarios. Pronto
el público en general llego a estar familiarizado con el concepto de conciencia
intelectual.

La aplicación de los tests de inteligencia colectivos no estuvo en relación directa


con su perfeccionamiento técnico. Se olvidaba con frecuencia, en el afán de reunir
puntuaciones y sacar de ellas conclusiones practicas, que los tests estaban
todavía en un estado rudimentario. Cuando no llegaban a satisfacer esperanzas
que no tenían ningún fundamento, solía producirse una reacción de escepticismo y
hostilidad. De este modo, el florecimiento de los tests, ocurrido en los años veinte,
basado en un uso indiscriminado de los mismos, puede haber causado tanto
retraso como progreso en los tests psicológicos.

1.8 “TESTS” DE APTITUDES

Aunque los tests de inteligencia se destinaron originalmente a probar una gran


variedad de funciones, a fin de hacer una estimación del nivel intelectual general
del individual, pronto llego a ponerse en claro que eran bastante limitados en la
amplitud del campo que cubrían. No todas las funciones importantes estaban
representadas. De hecho, la mayoría de los tests de inteligencias eran
principalmente medidas de aptitud verbal, y, en menor grado, de la aptitud para
manejar relaciones numéricas y otras abstractas y simbólicas. Los psicólogos
llegaron gradualmente a reconocer que la expresión “test de inteligencia” era poco
acertada, puesto que solo median ciertos aspectos de esta facultad.

Los tests abarcaban, lógicamente, aptitudes de la mayor importancia en nuestra


cultura. Pero llegó a admitirse que eran preferibles designaciones más precisas,
en función del tipo de información que son capaces de darnos. Así, p. ej., algunos
tests que se hubieran denominado “de inteligencia” en los años veinte, fueron
conocidos más tarde como tests de “aptitudes escolares”. Este cambio en la
terminología se realizo al reconocer que muchos de los llamados tests de
inteligencia miden la combinación de aptitudes exigida por el trabajo académico.

Aun antes de la primera guerra mundial, los psicólogos habían comenzando a


admitir la necesidad de tests que midieran las aptitudes especiales para
complementar los tests de inteligencia global. Estos tests de aptitudes especiales
se elaboraron especialmente para su uso en la orientación profesional y en la
selección y clasificación del personal industrial y militar. Entre los tests más
utilizados se encuentran los de aptitudes mecánicas, burocráticas, musicales y
artísticas.

La valoración crítica de los tests de inteligencia que siguió a su amplio e


indiscriminado uso durante los años veinte revelo también otro hecho digno de
consideración: que la ejecución de un individuo en partes distintas de uno de
dichos tests presentaba una señalada variación. Este hecho resultaba
especialmente evidente en los tests colectivos, en donde los elementos suelen
separarse en subtests de contenido relativamente homogéneo; así, p. ej., una
persona podía puntuar relativamente alto en un subtest verbal y bajo en un
subtests numérico, o viceversa. Tal variabilidad interna es también discernible –
hasta cierto punto- en un test como el Standord-Binet, en donde, p. ej., todos los
elementos que incluyen palabras pueden resultar muy difíciles para un individuo
en particular, mientras que los elementos que emplean cuadros o diagramas
geométricos pueden colocarle en situación de ventaja.

Las personas que trabajaban con estos tests, especialmente los médicos,
utilizaron frecuentemente estas comparaciones externas, a fin de obtener una
mayor comprensión de la constitución psicológica del individuo. De este modo, en
la evaluación del caso individual se examinarían no solo el CI u otra puntuación
total, sino también las puntuaciones obtenidas en los subtests. Esta práctica no es,
sin embargo, recomendable, ya que los tests de inteligencia no tuvieron como
finalidad –al ser ideados- el análisis diferencial de las aptitudes. A menudo, los
subtests que se comparan contienen un número de elementos demasiado
pequeño para darnos una estimación estable o fiable de una aptitud especifica.
Como resultado, la diferencia obtenida entre las puntuaciones de los subtests
puede invertirse si el individuo ejecuta nuevamente el test o si se le somete a otra
forma del mismo test. Si han de hacerse tales comparaciones intraindividuales, es
necesario que los tests estén especialmente destinados a revelar diferencias de
ejecución de varias funciones.

Mientras la aplicación práctica demostraba la necesidad de tests de aptitud


diferencial, un desarrollo paralelo en el estudio de la organización de rasgos iba
suministrado gradualmente los medios para su elaboración. Los estudios
estadísticos sobre la naturaleza de la inteligencia habían explorado las
interrelaciones entre las puntuaciones obtenidas por numerosas personas en una
gran variedad de tests. El psicólogo inglés Charles Spearman inició dichas
investigaciones durante la primera década del presente siglo (1904, 1927). El
desarrollo metodológico subsiguiente, basado en la obra de psicólogos
americanos como T. L. Kelley (1928) y L. L. Thurstone (1935, 1947), así como en
la de otros investigadores ingleses y americanos, ha llegado a conocerse con el
nombre de análisis factoriales.

En el capítulo 13 examinaremos más detenidamente las contribuciones que los


métodos del análisis de factores has aportado a la elaboración de tests. Por el
momento, bastara advertir que los datos reunidos mediante estos procedimientos
han señalado la presencia de ciertos factores o rasgos relativamente
independientes. Algunos de estos rasgos estaban representados en proporciones
variables en los tests de inteligencia tradicionales. Como ejemplos citaremos los
de comprensión verbal y razonamiento numérico. Otros rasgos, como los de
aptitudes espaciales, perceptivas y mecánicas, solo habían sido estudiados muy
ligeramente en la mayoría de los tests en inteligencia.

Unos de los principales resultados del análisis factorial fue el desarrollo de las
baterías de aptitud múltiple. Estas baterías tienen por finalidad procurarnos una
medida de la posición del individuo en cada uno de cierto número de rasgos. En
lugar de una puntuación total, o CI, se obtiene una puntuación por separado para
rasgos tales como la comprensión verbal, la aptitud numérica, la capacidad de ver
en el espacio, el razonamiento aritmética y la velocidad de percepción. Estas
baterías proporcionan así el instrumento adecuado para efectuar la clase de
análisis intraindividual, o diagnostico diferencial, que los médicos habían tratado
de obtener durante muchos años partiendo de los tests de inteligencia, con
resultados burdos y a menudo erróneos. Incorporan también, en un amplio y
sistemático programa de tests, gran parte de la información obtenida
anteriormente a partir de los tests de aptitud especial, ya que las baterías de
aptitud múltiple abarcan algunos de los rasgos que corrientemente no están
incluidos en los tests de inteligencia.

Las baterías de aptitud múltiple representan un desarrollo relativamente tardío en


el campo de los tests. Casi todas han aparecido a partir de 1945. Debemos citar
aquí nuevamente la labor de los psicólogos militares durante la segunda guerra
mundial. En su mayoría, la investigación sobre los tests realizada en el Ejército se
baso en el análisis factorial y se dirigió hacia la elaboración de baterías de aptitud
diferencial. En las fuerzas aéreas, p. ej., se idearon baterías especiales para
pilotos, bombarderos, operadores de radio y muchos otros especialistas militares.
Un informe sobre las baterías preparadas solamente en las fuerzas aéreas ocupa,
por lo menos, 9 de los 19 volúmenes dedicados al programa de psicología para la
aviación durante la segunda guerra mundial (Army Air Forces, 1947-48). La
investigación continúa a lo largo de estas mismas líneas, bajo la protección de
varias ramas de las fuerzas armadas. Se han desarrollado también algunas
baterías de aptitud diferencial para el uso del personal civil, y se están aplicando
ampliamente en el consejo educativo y profesional, la selección de personal, etc.
En el capítulo 13 expondremos los principales ejemplos de estas baterías.

Para evitar confusiones, convendría hacer una declaración sobre la terminología.


El término “tests de aptitud” ha sido empleado tradicionalmente con referencia en
los tests que miden aspectos de la capacidad claramente definidos y relativamente
homogéneos; el término “test de inteligencia” suele referirse a tests mas
heterogéneos, que proporcionan una puntuación global única, como, p. ej., un CI.
Los tests de aptitudes especiales miden, por naturaleza, una única aptitud. Las
baterías de aptitudes múltiples miden diversas aptitudes, pero presentan un perfil
de puntuación, una por cada aptitud.

1.9 “TESTS” TIPIFICADOS DE RENDIMIENTO

Mientras los psicólogos se ocupaban en desarrollar los tests de inteligencia y


aptitud, los exámenes escolares tradicionales estaban experimentando ciertas
mejoras técnicas (Caldwell y Courtis, 1923; Ebel y Damrin, 1960). Las escuelas
públicas de Boston dieron un paso importante en esta dirección en 1845, cuando
se sustituyeron por exámenes escritos los exámenes orales realizados por
inspectores. Horace Mann, al comentar esta innovación, citaba argumentos
notablemente semejantes a los que se adujeron muchos más tarde para justificar
la sustitución de las preguntas de examen escrito por elementos objetivos de
elección múltiple. Mann indicaba que los exámenes escritos colocaban a todos los
estudiantes en las mismas circunstancias, permitían abarcar un contenido más
amplio, reducían el factor suerte en la elección de las preguntas y eliminaban la
posibilidad de favoritismo por parte del examinador.

Los primeros tests tipificados para la medida de los resultados de la instrucción


escolar comenzaron a aparecer a partir del comienzo del siglo. Encabezados por
las investigaciones de E. L. Thorndike, estos tests utilizaban los principios de
medición desarrollados en los laboratorios psicológicos. Como ejemplos
podríamos citar las escalas para estimar la calidad de la caligrafía y las
redacciones, así como los tests de ortografía, cálculo y razonamiento aritmético.
Más tarde aparecieron las baterías de rendimiento, con la publicación de la
primera edición del Stanford Achievement Test en 1923. Prefigurando muchas de
las características de los tests modernos, estas baterías proporcionaban medidas
comparables de la actuación de diferentes asignaturas escolares, valoradas en
relación con un grupo normativo único.

Al mismo tiempo, se demostraba cada vez más el desacuerdo existente entre los
profesores con respecto a la calificación de los exámenes de tipo clásico. Hacia
1930 se admitía generalmente que los exámenes corrientes no solo suponían una
mayor pérdida de tiempo, tanto para los alumnos como para los examinadores,
sino que sus resultados eran menos seguros que los obtenidos con el nuevo tipo
de elementos objetivos. A medida que estos últimos se fueron empleando cada
vez más en los tests tipificados de rendimiento, se produjo una tendencia cada vez
mayor a programar elementos para medir la comprensión y la aplicación de
conocimientos y otros objetivos educativos amplios. En los años treinta
aparecieron también las maquinas para la puntuación de tests, a las que se
podrían adaptar fácilmente los nuevos tests objetivos.

Otro importante avance paralelo a este fue el establecimiento de programas de


tests a escala estatal, regional y nacional. El más conocido de estos programas es
probablemente el del College Entrance Board (CEEB). Establecido a comienzos
de siglo para reducir las repeticiones en los exámenes de los estudiantes que
deseaban ingresar en la Universidad, este programa ha experimentado cambios
profundos en sus métodos de examen y en el número y tipo de centro de
enseñanza superior que lo adoptaron, cambios que reflejan los múltiples factores
en evolución que intervienen tanto en la educación como en los tests. En 1947, los
servicios de examen del CEEB se fundieron con los de la Carnegie Corporation y
los del American Council on Education, formando el Educational Testing Service
(ETS). A partir de este momento, el ETS se ha encardo de la elaboración de un
número creciente de tests por encargo de universidades, escuelas profesionales,
organismos gubernamentales y otras instituciones.

Convendría también mencionar el American College Testing Program, establecido


en 1959 para seleccionar los aspirantes a ingreso en los centros no incluidos en el
CEEB, así como los diversos programas nacionales de pruebas para la selección
de los alumnos superdotados con vistas a la concesión de becas. Entre estos
últimos, el programa más amplio es el organizador por la National Merit
Scholarship Corporation.

Los tests de rendimiento se utilizan no solamente con fines educativos, sino


también para la selección de los aspirantes a puestos industriales y
gubernamentales. Un jalón importantes en este sentido fue el desarrollo del
sistema de exámenes para la administración pública de los Estados Unidos
(Kavruck, 1956). Aunque los exámenes competitivos se establecieron en 1872 en
una reducido número hasta 1883. El nombramiento en 1922 de L. J. O´Rourke
como director del departamento de investigación establecido hacia poco tiempo,
significo la introducción en el programa de exámenes para la administración
pública de las técnicas de elaboración de los tests desarrolladas antes y durante la
primera guerra mundial.

A medida que un número creciente de psicólogos con conocimientos de


psicometría participaba en la elaboración de los tests tipificados de rendimiento,
los aspectos técnicos de los tests de rendimiento fueron pareciéndose cada vez
más a los de los tests de aptitudes e inteligencia. Los procedimientos para la
elaboración y la valoración de todos ellos tienen mucho en común. El esfuerzo
creciente para preparar tests de rendimiento que midieran la consecución de
objetivos educativos amplios, en contra posición a la insistencia de hechos sin
importancia, contribuyo también a que su contenido se pareciera mas al de los
tests de inteligencia. En la actualidad, la diferencia entre estos dos tipos de tests
se cifra principalmente en el grado de especificidad del contenido y en la medida
en que el tests presuponga un curso expreso de instrucción previa.

CAPITULO 2

NATURALEZA Y EMPLEO DE LOS “TESTS” PSICOLOGICOS


La introducción histórica del capítulo 1 nos ha revelado ya la diversidad de
finalidades para las que se han utilizado los tests psicológicos, así como lo gran
variedad de tests disponibles. Aunque el público en general puede relacionar
todavía muy estrechamente los tests psicológicos con los tests de CI y con los
dirigidos a detectar desordenes emocionales, estos tests representan solamente
una pequeña proporción de los tipos de instrumentos disponibles. Las principales
categorías de tests psicológicos se estudiaran y aclararan en las partes II, III y IV,
que abarcan los tests de nivel intelectual general, llamados tradicionalmente tests
de inteligencia; tests de aptitudes especiales y de rendimientos, y tests de
personalidad, que se ocupan de la medida de rasgos emocionales y
motivacionales, conducta interpersonal, intereses, actitudes y otras características
no intelectuales.

Ante una diversidad tal en la naturaleza y la finalidad, ¿Cuáles son las


características diferenciadoras comunes de los tests psicológicos? ¿En qué
difieren de las otras formas de reunir información sobre los individuos? La
respuesta se encuentra en ciertas características fundamentales, tanto de la
elaboración como del empleo de los tests. El presente capitulo estudiara estas
características.

2.1 ¿QUÉ ES UN “TEST” PSICOLOGICO?

Un tests psicológico constituye esencialmente una medida objetiva y tipificada de


una muestra de conducta. Las pruebas o tests psicológicos son como las pruebas
en cualquier otra ciencia, en cuanto que las observaciones se realizan sobre una
muestra pequeña, pero cuidadosamente escogida, de la conducta del individuo.
Aquí el psicólogo procede de manera muy parecida a como lo hace el químico que
examina la sangre de los pacientes o un suministro de agua de la comunidad,
analizando una o más muestras del él. Si el psicólogo desea comprobar la
extensión del vocabulario de un niño, o la aptitud de un empleado para realizar
cálculos aritméticos, o la coordinación vista-mano de un piloto, examina la
ejecución de los mismos con un conjunto representativo de palabras o de
problemas aritméticos o de o de tests motores. La posibilidad de que el tests
abarque o no adecuadamente la conducta que se estudia depende, lógicamente,
del numero y naturaleza de los elementos de la muestra; así, p. ej., un test de
aritmética que solo conste de 5 problemas u otro que incluya solo problemas de
multiplicar proporcionaran una medida pobre de la habilidad para calcular que
posee el individuo. Un test de vocabulario que esté compuesto enteramente de
términos de deportes no cabe esperar que nos procure datas seguros sobre la
extensión total del vocabulario de un niño.

El valor predictivo o de diagnostico de un test psicológico del grado en que sirve


como indicador de un área de la conducta relativamente amplia y significativa. El
objetivo de los tests psicológicos difiere de la medida de la muestra de conducta
que el test abarca directamente. El conocimiento que el niño pesca de una lista
particular de 50 palabras no es, en sí mismo, de gran interés. Ni los resultados de
un solicitante en un conjunto específico de 20 problemas aritméticos tienen mucha
importancia. Sin embargo, si es posible demostrar que existe una estrecha
correspondencia entre el conocimiento que un niño posee de la lista de palabras y
su dominio total del vocabulario, o entre la puntuación del solicitante en los
problemas aritméticos y su capacidad para el cálculo en el empleo, entonces los
tests cumplirán su cometido.

Debe advertirse, a propósito de esto, que los elementos de los tests no tienen por
qué parecerse a la conducta que han de predecir. Solamente es preciso que se
demuestre una correspondencia empírica entre los dos. El grado de semejanza
entre la muestra del test y la conducta predicha puede variar ampliamente. En uno
de los extremos el test puede coincidir completamente con parte de la conducta
que ha de predecirse; así, p. ej., un test de vocabulario extranjero en el que se
examina a los estudiantes de 20 de las 50 palabras que han estudiado; otro
ejemplo seria el examen que se realiza antes de obtener la licencia de conductor.
Si observan ejemplos de un grado de semejanza menor en los diversos tests de
aptitud profesional que se aplican con anterioridad al adiestramiento en la tarea,
en los cuales solo existe una moderada semejanza entre las tareas realizadas en
el empleo y las del test. En el otro extremo encontramos los tests proyectivos de
personalidad, como el de las manchas de tinta de Rorschach, en el que se intenta
predecir, partiendo de las reacciones del sujeto ante estímulos de tipo emocional y
ante otras situaciones complejas de la vida diaria. Todos estos tests, a pesar de
sus diferencias superficiales, consisten en muestras de la conducta del individuo.
Y cada uno debe probar su validez por la correspondencia, empíricamente
demostraba, entre la actuación del sujeto en el test y su reacción en las otras
situaciones.

El empleo del término diagnostico, o bien el de predicción o pronóstico en relación


con esto, es algo de menos importancia. Comúnmente, la predicción connota una
apreciación temporal, ya que se deduce, p. ej., la realización futura del individuo
en el empleo a partir de su actuación en el test. Sin embargo en un sentido más
amplio, incluso la diagnosis de una condición presente, tal como la debilidad
mental o un trastorno emocional, significa una predicción del comportamiento del
individuo en situaciones distintas a las de test. Lógicamente, es más sencilla
considerar todos los tests como muestras de conducta a partir de las cuales deben
establecer predicciones relativas a otra conducta. Los diferentes tipos de tests
pueden entonces considerarse como variantes de este patrón básico.

Otro punto que debemos considerar con antelación se refiere al concepto de


capacidad. Es perfectamente posible, p. ej., idear un test para predecir la
capacidad de un individuo para aprender el francés, aun antes que haya
empezado a estudiarlo. Este test llevara implícita una muestra de los tipos de
conducta requeridos para aprender la nueva lengua, pero, por si mismo, no
presupondrá ningún conocimiento del francés. Podría decirse entonces que mide
la capacidad o potencialidad individual para aprender francés. Estos términos
deben usarse, sin embargo, con precaución al referirse a los tests psicológicos.
Solo en el sentido de que una muestra actual de conducta puede emplearse como
indicadora de otra conducta futura, podemos hablar de un test que mida la
capacidad. El test psicológico no hace sino medir una conducta. Solo es posible
determinar por la experiencia que dicha conducta puede servir como índice
efectivo de otra.
Tipificación. Se recordara que en la definición original de test psicológico se
describía este como una medida tipificada. La tipificación supone uniformidad de
procedimiento en la aplicación y puntuación del test. Si han de ser comparables
las puntuaciones obtenidas por varios sujetos, es obvio que las condiciones de
aplicación del test deben ser las mismas para todos. Tal requisito no es más que
una aplicación especial de la necesidad de mantener las condiciones controladas
en todas las observaciones científicas. En un test, la única variable independiente
suele ser el individuo mismo al que se le aplica.

A fin de asegurar la uniformidad de las condiciones de aplicación del test, su


elaborador proporciona instrucciones detalladas para ello. Una parte importante de
la tipificación de un nuevo test consiste en la formulación de estas instrucciones.
La tipificación se extiende a los materiales empleados, los límites de tiempo, las
instrucciones orales a los sujetos, las demostraciones previas, las formas de
resolver las dudas planteadas por los sujetos y todos los demás detalles de más
sutiles en la actuación del sujeto. Así, al dar las instrucciones o platear problemas
oralmente, debe presentarse atención a la velocidad con que se habla, al tono de
la voz, a la inflexión, las pausas y la expresión facial, p. ej., en un test que requiera
el descubrimiento de absurdos, la respuesta correcta puede perder su valor si se
sonríe o se hace una pausa cuando se lee la palabra crucial. El procedimiento
tipificado de aplicar test, desde el punto de vista del examinador, será estudiado
más a fondo en una sección posterior de este capítulo, que trata de los problemas
de la aplicación de tests.

Otro paso importante en la tipificación de un test es el establecimiento de normas.


Sin normas no es posible interpretar las puntuaciones del test. Los tests
psicológicos no tienen modelos predeterminados de aprobados o suspensos.la
puntuación de un individuo solo puede valorarse comparándola con las obtenidas
por otros. Como su nombre indica, una norma es la actuación media o normal. Así,
si los niños normales de 8 años ejecutan correctamente 12 de los 50 problemas de
un determinado test de razonamiento aritmético, entonces la norma en este test,
para los 8 años de edad, corresponde a una puntuación de 12. Esta última es
conocida como la puntuación directa obtenida en el test. Puede expresarse por el
número de elementos correctos, el tiempo requerido para completar una tarea, el
número de errores o cualquier otra medida objetiva apropiada al contenido del
test. Esta puntuación directa no tiene ninguna significación hasta que se valora en
función de un adecuado conjunto de normas.

En el proceso de tipificación de un test, este debe aplicarse a una gran muestra


que represente el tipo de sujetos a los que se destina. Estos grupos, conocido
como “muestra de tipificación”, sirven para establecer las normas, que no solo
indican el promedio de actuación, sino también la frecuencia relativa de los
diversos grados de desviación por encima y por debajo del promedio. De esta
forma, es posible valorar los diferentes grados de superioridad e inferioridad. En el
capítulo 3 se consideran los modos de expresar tales normas. Todos permiten la
designación de la posición del individuo respecto de la muestra normativa o de
tipificación.

Debe también advertirse que en los tests de personalidad las normas no es


necesariamente la actuación más deseable o ideal, como tampoco una puntuación
perfecta o sin error es la norma en un test de aptitud. La norma corresponde en
ambos tipos a la actuación de los individuos del promedio. En los tests de
dominancia-sumisión, p. ej., la norma figura en un punto intermedio, que
representa el grado de dominancia o sumisión que el individuo del promedio
manifiesta. Del mismo modo, en un cuestionario de adaptación emocional, la
norma no suele corresponder a una ausencia completa de respuestas
desfavorables o de inadaptación, puesto que en la mayoría de los individuos
normales de la muestra se dan algunas de estas respuestas. Queda, pues, claro
que los tests psicológicos, de cualquier tipo sean, se basan sobre normas
establecidas empíricamente.

Medida objetiva de la dificultad. Una nueva lectura de la definición de test


psicológico que abrió esta exposición nos indica que este se caracterizaba por ser
una medida objetiva, así como tipificada. ¿De qué modo son objetivos estos test?
Nos hemos referido ya a algunos aspectos de la objetividad de los tests
psicológicos en la discusión acerca de la tipificación. Así, pues, la aplicación, la
puntuación y la interpretación de las puntuaciones son objetivas en cuanto son
independientes del juicio subjetivo del examinador particular. Cualquier individuo
debería, teóricamente, obtener una puntuación idéntica en un test, con
independencia de quien fuera su examinador. Esto, desde luego, no es
exactamente así, puesto que en la práctica no se han alcanzado una tipificación ni
una objetividad perfectas. Pero esta objetividad constituye, al menos, la meta de la
elaboración de los tests, y en la mayoría de ellos se han conseguido hasta un
grado razonablemente elevado.

Existen otros sistemas importantes para que un test pueda ser descrito
adecuadamente como objetivo. La determinación del grado de dificultad de un
elemento o de un test completo y la medida de la fiabilidad y validez de un test se
basan en procedimientos empíricos y objetivos. En secciones posteriores
consideramos los conceptos de fiabilidad y validez. Fijaremos primero nuestra
atención en el concepto de dificultad.

Cuando Binet y Simon prepararon su escala original, la de 1905, para la medida


de la inteligencia, dispusieron los 30 elementos de la escala en orden de dificultad
creciente. Se recordara que esta dificultad se determino ensayando los elementos
en 50 niños normales y unos pocos retrasados y débiles mentales. Los elementos
resueltos correctamente por el mayor número de sujetos se consideraron ipso
facto como los más fáciles; aquellos que fueron acertados relativamente por poco
sujetos se consideraron como más difíciles. Mediante este procedimiento se
estableció un orden empírico de dificultad, que ahora se considera como práctica
común en la elaboración de un test psicológico.

No solo la disposición, sino también la selección de los elementos para su


inclusión en un test, pueden determinar por la proporción de sujetos que pasan
cada elemento en las muestras de prueba. De esta forma, si hay una reunión de
elementos en el extremo fácil o difícil de la escala, algunos de ellos pueden
descartarse. De la misma manera, si los elementos escasean en ciertas porciones
del campo de dificultad, cabe añadir nuevos elementos para rellenar los huecos.
En el capítulo 7 se estudiaran más aspectos técnicos del análisis de los
elementos.

En el nivel de dificultad del test, considerado en su conjunto, depende


directamente, desde luego, de la dificultad de los elementos que lo constituyen. La

Número de casos

Puntuaciones

FIG. 2-1. Una curva de distribución normal.

distribución de las puntuaciones totales proporciona un control completo de la


dificultad del test total para la población a la cual se destina. Si la muestra de
tipificación es una sección trasversal representativa de tal población, entonces
suele suceder que las puntuaciones figuran aproximadamente dentro de una curva
de distribución normal. En otras palabras, debe haber una acumulación de
individuos cerca del centro del campo de variabilidad y una disminución gradual
del numero de los mismos a medida que nos acercamos a los extremos. En la
figura 2-1 se representa una curva normal teórica, con todas las irregularidades
eliminadas. Al representar gráficamente esta distribución de frecuencias, se
indican las puntuaciones en la base, y las frecuencias, o número de personas que
obtienen cada puntuación, en el eje vertical. Cuando se aplican tests a muestras
muy grandes se obtiene una curva suave muy aproximada a la de la figura 2-1.

Supongamos, sin embargo, que la curva de distribución obtenida no es normal,


sino claramente desviada, o torcida, como las que representamos en las figuras 2-
2A.
A, acumulación en el extremo inferior de la escala

B, acumulación en el extremo superior de la escala

FIG. 2-2. Curvas de distribución desviadas.

Y 2-2B. La primera, con una acumulación en el extremo inferior, sugiere que el test
tiene un suelo demasiado alto para el grupo que se considera, faltándole un
número suficiente de elementos fáciles para discriminar adecuadamente en el
extremo inferior del campo. El resultado es que las personas que normalmente se
esparcerían ene amplitud considerable obtiene en este test puntuaciones de cero
o próximas a cero. Por consiguiente, se obtienen una cúspide en el extremo
inferior de la escala. En la figura 2-3 se muestra esquemáticamente dicha
acumulación artificial de puntuaciones, en la cual un grupo distribuido
normalmente produce una distribución desviada en un test determinado. En la
figura 2-2B tenemos un ejemplo de una desviación opuesta, con las puntuaciones
acumuladas en el extremo superior, resultado que sugiere insuficiencia de techo
en el test. Cuando un test destinado a la población en general se aplica a
muestras seleccionadas de estudiantes de enseñanza superior o graduados, se
suele producir corrientemente una distribución desviada, ya que algunos
estudiantes obtienen puntuaciones casi perfectas. Con un test de este tipo es
imposible medir las diferencias individuales entre los sujetos más capacitados en
el grupo. Si se hubieran incluido elementos más difíciles, algunos individuos
habrían puntuado más alto de los que les permite este test.

Cuando en un test la muestra de tipificación arroja una distribución claramente


fuera de lo normal, suele modificarse el nivel de dificultad hasta que se aproxima a
la curva normal. De acuerdo con el tipo de desviación de la normalidad que
aparezca, pueden añadirse elementos más fáciles o más difíciles, eliminar o
modificar otros elementos, alterar la posición de los elementos en la

Amplitud total del test

Distribución de la aptitud

Distribución de las puntuaciones del test

escala o revisar los pesos o ponderaciones de la puntuación asignada a ciertas


respuestas. Se continúa con estas adaptaciones hasta que la distribución llega a
ser normal, al menos aproximadamente. En estas condiciones, la puntuación más
probable obtenida por el mayor número de sujetos suele corresponder
aproximadamente al 50 por 100 de elementos correctos. Para el lego en la
materia, que no se halla familiarizado con los métodos de elaboración de un test
psicológico, una puntuación de un 50 por 100 puede parecer extraordinariamente
baja. A veces se objeta, partiendo de esta base, que el examinador ha asignado
un techo demasiado bajo al test. O se supone que el grupo al que se ha aplicado
es particularmente pobre. Estas dos conclusiones carecen de valor cuando se
contemplan a la luz de los procedimientos que se emplean en la elaboración de
los tests psicológicos. Estos se elaboran deliberadamente y se modifican
específicamente, de forma que arrojen una puntuación media de un 50 por 100 de
respuestas correctas, aproximadamente. Solo de esta manera puede obtenerse
con el test el máximo de diferenciación entre los individuos en todos los niveles de
aptitud. Con una medida de un 50 por 100 aproximadamente de elementos
correctos existe la máxima posibilidad de obtener una distribución normal, con
puntuaciones individuales que se extiendan ampliamente por ambos extremos.

Fiabilidad. ¿Cuál es la bondad del test? ¿Cumple realmente su función? Estas


preguntas pudieran conducir –y ocasionalmente lo hacen- a largas horas de inútil
discusión. Por una parte, las opiniones subjetivas, las sospechas y las tendencias
personales pueden llevar a exigencias extravagantes respecto a la capacidad de
un determinado test, y, por otra parte, a rechazado con obcecación. El único modo
de responder de forma concluyente a tales preguntas es mediante el ensayo
empírico. La valoración objetiva de los tests psicológicos llevan implícita
principalmente la determinación de fiabilidad y validez del test en situaciones
concretas.

El termino fiabilidad, según se usa en psicometría, significa siempre consistencia.


La fiabilidad del test es la consistencia de las puntuaciones obtenidas por las
mismas personas cuando se les aplica otra vez en el mismo test o una forma
equivalente de él. Si un niño obtiene un CI de 110 el lunes y otro de 80 el viernes,
al repetir el test, es obvio que poca o ninguna confianza puede depositarse de una
u otra de las puntuaciones. Del mismo modo, si en un conjunto de 50 palabras un
individuo identifica 40 correctamente, mientras que en otro conjunto que se
supone equivalente solo puede conseguir una puntuación de 20 correctas, no
puede tomarse ninguna de las puntuaciones como índice fiable de su comprensión
verbal. Es muy posible que de ambos ejemplos solo una de las puntuaciones sea
errónea, pero esto únicamente podría demostrarse por medio de otras pruebas.
De los datos que tenemos solo cabe concluir que ambos conclusiones no pueden
ser correctas. No es posible determinar sin más información si una de las dos (o
ninguna de ellas) constituye un cálculo adecuado de la verdadera aptitud del
individuo en vocabulario.

Antes de difundir un test debe realizarse un control minucioso y objetivo de su


fiabilidad. En el capítulo 4 se consideran los diferentes tipos de fiabilidad de los
tests, así como los métodos de medir cada una. La fiabilidad puede verificarse
respecto a las fluctuaciones temporales, a la selección especial de elementos o
muestras de conducta que constituye el test, a las funciones de los distintos
examinadores o puntuadores de otros aspectos de la situación en que se aplica el
test. Es esencial especificar el tipo de fiabilidad y método empleado para
determinarla, puesto que el test puede variar en estos aspectos. De igual manera
debe informarse del número y naturaleza de los individuos sobre los que se realizo
el control de fiabilidad. Con esta información, la persona que utiliza el test puede
predecir si será igualmente fiable para el grupo en el que pretende usarlo, o si es
probable que varié la fiabilidad.

Validez. Indudablemente, la pregunta más importante que se debe hacer sobre


cualquier test psicológico se refiere a su validez, es decir, al grado en que aquel
mide realmente lo que pretende medir. La validez nos proporciona un control
directo de la forma en que cumple su función. La determinación de la validez
requiere generalmente criterios externos independientes de lo que el test este
destinado a medir; así, p. ej., si se va a utilizar un test de aptitud para la medicina
en la selección de aspirantes al ingreso en la Facultad de esta especialidad, un
criterio seria el éxito ulterior en ella. En el proceso de conferir validez a un test de
este tipo se aplicaría a un grupo de estudiantes en el momento de su admisión en
la Facultad de Medicina. Para cada estudiante se obtendría alguna medida de su
actuación en la Facultad, basándose en las calificaciones, en las estimaciones de
los profesores, en éxito o fracaso en su licenciatura y en otros aspectos
semejantes. Una medida compuesta de este tipo constituye el criterio con el que
hay que correlacionar la puntuación inicial en el test de cada estudiante. Una
correlación 8º coeficiente de validez) alta significaría que aquellos individuos de
elevada puntuación en el test habían realizado una buena carrera, mientras que
los que puntuaron bajo en el test habían tenido una actuación pobre en la misma.
Una baja correlación indicaría poca correspondencia entre la puntuación del test y
la medida del criterio, y, por ello, poca validez para el test. El coeficiente de validez
nos capacita para determinar el grado de acierto con que se habría predicho la
ejecución del criterio partiendo de las puntuaciones del test.

De forma similar pueden validarse los tests destinados a otros fines en


comparación con los criterios apropiados. Un test de aptitud profesional, p. ej.,
puede obtener su validez comparándolo con la capacidad en el empleo de un
grupo muestral formado por empleados nuevos. Una forma de conocer la validez
de una batería para medir la aptitud de los planes consistirá en compararla con el
rendimiento en los entrenamientos de vuelo. La validez de los test destinados a
usos más amplios y variados se establece en relación con ciertos criterios y solo
puede comprobarse por la acumulación gradual de datos provenientes de
diferentes tipos de investigación.

El lector quizá haya observado una aparente paradoja en el concepto de validez


de un test. Si es necesario seguir estudiando a los sujetos u obtener de otro modo
una medida independiente de lo que el test trata de predecir ¿por qué no
prescindir del test? La respuesta a este acertijo se encuentra en la distinción entre
el grupo de validación, por una parte, y los grupos a los que finalmente se aplicara
el test con fines predictivos, por otra. Antes que el test esté listo para su uso, su
validez debe establecerse sobre una muestra representativa de sujetos. Las
puntuaciones de estas personas so se usan en sí mismas con fines predictivos,
sino que sirven solamente para el proceso de comprobación del test. Si por este
método el test demuestra que es válido, entonces ya es posible utilizarlo con otras
muestras, sin nuevas medidas de criterio.

Cabria aun argüir que bastaría con esperar a que madurara o pudiera
aprovecharse la medida del criterio sobre cualquier grupo para obtener la
información que el test trata de predecir. Pero tal procedimiento originaria una
perdida tan grande de tiempo y energías que resultaría prohibitivo en la mayoría
de los casos. Así podríamos determinar que solicitantes tendrían éxito en la tarea
o que estudiantes terminarían satisfactoriamente sus estudios universitarios,
admitiendo a todos los que lo solicitaran y esperando los acontecimientos
subsiguientes, pero precisamente el derroche de energías y tiempo de este
procedimientos es lo que los tests pretender reducir. Por medio de estos es
posible predecir la actuación subsiguiente del individuo en tales situaciones con un
margen de error susceptible de determinación. Naturalmente, cuanto más valido
sea el test menor será este margen de error.

En los capítulos 5 y 6 discutiremos los problemas específicos que se presentan


para la determinación de la validez de los diferentes tipos de test, así como los
criterios especiales y los procedimientos estadísticos empleados. Son embargo,
debemos considerar ahora un nuevo punto. La validez no solo nos indica el grado
de perfección del test en su cometido; en realidad, también expresa lo que el test
mide. Examinando los datos del criterio junto con los coeficientes de validez del
test, podemos determinar objetivamente lo que el test intenta medir. Por esta
razón sería más exacto definir la validez como el grado en el que conocemos lo
que el test mide. La interpretación de las puntuaciones de los test seria
indudablemente mas clara y menos ambigua si se titularan corrientemente los test
de acuerdo con el criterio en comparación del cual han obtenido su validez. Puede
reconocerse una tendencia en esta dirección en nombres tales como “test de
aptitud escolar” y “test de clasificación de personal” en lugar del vago título de “test
de inteligencia”.