Está en la página 1de 62
© (e oe Vee TESTS PSICOLOGICOS ANNE ANASTASI SUSANA URBINA rincipales contextos del uso actual de las pruebas as pruebas psicolégicas se utilizan con diversos propésitos y sus reas de aplica- cién crecen continuamente. Luego de haber revisado con cierto detalle ejem- plos representativos de distintas pruebas, pasemos a la consideracién de los temas que atafien a su aplicacién. En este capftulo consideramos tres éreas prin- cipales en las que las pruebas cumplen una multiplicidad de funciones, que a grandes rasgos podemos llamar los contextos educativo, ocupacional y clinico o de consejerfa En el siguiente capitulo, el ultimo, veremos los temas éticos y sociales que se relacio- nan con las practicas de evaluacién en todas las Areas. EVALUACION EDUCATIVA En las escuelas se emplea casi cualquier prueba disponible; en el repertorio del conse- jero y de los psicélogos escolares pueden encontrarse tests de inteligencia, de aptitu- des especiales, de aptitudes multiples y de personalidad. Es comin que maestros y directores tengan que actuar en funcién de los resultados obtenidos con diferentes clases de pruebas; sin embargo, se han desarrollado especificamente algunos instru- mentos para emplearse en los contextos educativos,! pruebas que constituyen el cen- tro de interés de esta seccién, Incluyen instrumentos disefiados para la predicci6n y clasificacién en ambientes educativos y muchas clases de pruebas de aprovechamien- to escolar. "Tanto la versin de 1985 de los Estindares de Examinacidn (AERA, APA, NCME) como su revisin propuesta {véaseelcapttulo 1) incluyen un capttulo dedicado al uso de las pruebas en la edueacisa, 414 Principales contextos del uso actual de las pruebas 475 Naturaleza y usos de las pruebas de aprovechamiento. Las pruebas de apro- vechamiento, cuyo nimero supera con mucho a cualquier otro tipo de pruebas estanda- rizadas, estén disefiadas para medir los efectos de los programas de instruccién o entrenamiento. Se acostumbra distinguirlas de los tests de aptitud, que incluyen va- rios tests generales de inteligencia, baterias de aptitudgs muiltiples y tests de aptitudes especiales. Desde un punto de vista, la diferencia entte la evaluacién del aprovecha miento y la de la aptitud estriba en el grado de uniformidad de las experiencias rele- vantes. De este modo, una prueba de aprovechamiento mide los efectos de conjuntos relativamente estandarizados de experiencias, como un curso elemental de francés, de trigonometria o de programacidn en computadoras. En contraste, la ejecucién en un test de aptitud refleja la influencia acumulativa de una multiplicidad de experiencias en la vida diaria. Podemos decir que los tests de aptitud miden el efecto del aprendiza- je en condiciones relativamente no controladas y desconocidas, mientras que las pruebas de aprovechamiento miden los efectos del aprendizaje ocurrido en condicio- nes que en parte se conocen y controlan, La segunda distincién entre los tests de aptitud y las pruebas de aprovechamiento tiene que ver con sus usos; los primeros permiten predecir la ejecucién subsecuente, se emplean para estimar el grado en que los individuos se beneficiarn de un curso es- pectfico de entrenamiento o para anticipar la calidad de su aprovechamiento en una nueva situaci6n. Por otro lado, las pruebas de aprovechamiento generalmente repre- sentan una evaluaci6n terminal de su posicién individual al finalizar la formacién. En éstas, el énfasis se centra en lo que el individuo puede hacer en ese momento. Sin embargo, debe reconocerse que no es posible aplicar rigidamente distincion al- guna entre los tests de aptitud y las pruebas de aprovechamiento. Algunos tests de apti- tud pueden depender de un aprendizaje muy espectfico y uniforme, mientras que algunas pruebas de aprovechamiento cubren experiencias educativas més bien amplias y no estandarizadas. De modo similar, una prueba de aprovechamiento puede emplear- se para predecir el aprendizaje futuro y, como tal, cumple la misma funcién que un test de aptitud; por ejemplo, las pruebas de aprovechamiento en los cursos propedéuticos de la escuela de medicina pueden servir para predecir el rendimiento en esos estudios. En un esfuerzo por evitar el significado excesivo que se ha asociado a los términos “aptitud” y “aprovechamiento”, cada vez es més frecuente el uso del término “habili- dad” para designar las mediciones de la conducta cognoscitiva.? Cualquier prueba cognoscitiva, independientemente de cémo se llamara antes, ofrece una muestra de lo que el individuo sabe en el momento en que se le probs y mide el nivel de desarrollo obtenido en una o més habilidades. Ningén instrumento revela cémo o por qué alcan- 26 ese nivel, y para responder a esas preguntas es necesario ahondar en otras variables concomitantes y en especial en los antecedentes y las experiencias del individuo. En 2 Los nuevos nombres de los exmenes de la Junta Universitaria, efectivos desde 1994, representan un ejemplo de dos cambios que tienen lugar en telacién con las etiquetas. La conocida abreviatura del SAT ahora correspond a Test de Evaluacién Escolar (Scholastic Assessment Test) en lugar de Test de Aptitud Académica (Scholastic Apeitu- de Test). El nuevo SAT se ha reagrupado en dos componentes, el SAT-L, una prueba de razonamiento que reem- plaza al anterior Test de Aptitud Académica, yel SAT-I, son pruebas teméticas que reemplazan a las anteriores pprucbas de aprovechamiento. Estos cambios fueron acompafiados por otras innovaciones sustanciales en las pruebas que veremos en otra seccién del capitulo. 476 Aplicaciones de las pruebas Especificidad $< ———______________________._ Generalidad | os ce oe é “dp 4 # Figura 17.1. Pruebas de habilidades desarrolladas: continuo de especificidad de la experiencia. este sentido, cada puntuacién tiene un pasado que debe ser explorado para la adecua- da comprensisn del sujeto que la obtuvo; pero también tiene un futuro en la medida fen que permite cierta prediccidn de lo que hard en otras situaciones, ajenas a la prue- ba, asf como en algtin tiempo futuro. Los tests de habilidades desarrollados, se han disefiado como tests de inteligencia general, baterias de aptitudes multiples, rests de aptitudes especiales o pruebas de aprovechamiento, pueden ordenarse en rérminos de la especificidad de la experiencia que suponen, como se ilustra en la figura 17.1. En un extremo se encuentran las prue- bas de aprovechamiento orientadas al curso que cubren habilidades técnicas o infor- macion real muy definidas. Aqui podria encontrarse, por ejemplo, un examen de vocabulario de ruso o de mantenimiento de televisores. Vienen luego las pruebas de aprovechamiento de orientacién mas amplia, que suelen usarse para evaluat Ia obten- cid de las principales metas educativas a largo plazo, y en las que encontramos instru- mentos que se concentran en la comprensidn y aplicacién de principios cientificos, la interpretaci6n de la literatura o la apreciacion de las artes, De orientacién atin més amplia son los instrumentos de medicién de las habilidades cognoscitivas biisicas, co- mo las pruebas de comprensién de lectura, de célculos aritméticos y de razonamiento Iogico, que afectan el rendimiento del individuo en una gran variedad de actividades. Es claro que aqui se funden imperceptiblemente las pruebas de aprovechamiento con los instrumentos de medicién tradicionales de inteligencia y de aptitud.> Las baterfas cognoscitivas predominantemente verbales, conocidas como tests de inteligencia, es- van proximas a las pruebas mas amplias de aprovechamiento; vienen luego las de eje- cucién y sin lenguaje, que por lo general no requieren de lectura o escritura; mientras que en el extremo se encuentran los instrumentos transculturales disefiados para em- plearse con personas de muy diversos antecedents. Denominar a algunos instrumentos como “tests de aptitud” y a otros “pruebas de aprovechamiento” puede dar lugar a algunos usos inadecuados de los resultados. Un > Fea superposicién puede demostrarse empiticamente mediante el examen del cercano parecdo del contenido yel grado de correlacién entee las prucbas con esas etiquetas (véase, por ejemplo, W. Coleman y Cureton, 1954; Cooley y Lohnes, 1976). Principales contextos del uso actual de las pruebas 477 ejemplo comtin es la prictica de identificar como nifios con bajo aprovechamiento a aquellos cuyas puntuaciones en las pruebas de aprovechamiento son inferiores a los ob- tenidos en los tests de aptitud o en los de inteligencia. En realidad, estas diferencias de Jos individuos en las puntuaciones de las pruebas reflejan el hecho de que no hay dos instrumentos (u otros indicadores de la ejecucién, com¢ las calificaciones obtenidas en Jos cursos) que mantengan una correlacién perfecta. La cuestién del bajo o elevado aprovechamiento puede formularse con mayor precisién como una sobre 0 subpredic- cién de la primera prueba a la segunda. Entre las razones que explican los errores de prediccién en los casos individuales se encuentran la poca confiabilidad de los instru- mentos, las diferencias en el contenido cubierto, los diversos efectos de los factores ac- titudinales y motivacionales sobre ambas medidas y el impacto de experiencias como la instruccién de remedio o una larga enfermedad (R. L. Thorndike, 1963). Desde Mice mucho tiempo se reconocen las diversas funciones que pueden cumplir las pruebas de aprovechamiento en el proceso educativo. Como auxiliar en la asigna- cién de calificaciones (o en cualquier otra evaluacisn de la competencia alcanzada), las prucbas estandarizadas de aprovechamiento tienen las ventajas de la objetividad, la uni- formidad y la eficacia. Si se construyen de manera apropiada, tienen otros méritos, como la adecuada cobertura del contenido y la reduccién de la operacién de factores aleato- rios e irrelevantes en los procedimientos de calificacién. Las pruebas de aprovechamien- to también constituyen una caracteristica importante de los programas de ensefianza de remedio. A este respecto, pueden ser de utilidad tanto en la identificacién de los estu- diantes con problemas educativos especiales como en la medicién del progreso en el cuiso del trabajo de remedio. Para todos los estudiantes, la aplicacién periddica de prue- bas de aprovechamiento bien elaboradas y apropiadamente elegidas pueden ayudar a fa- cilitar el aprendizaje. Estas pueden revelar las debilidades del aprendizaje anterior, dar direcci6n al aprendizaje subsecuente y motivar al estudiante. El valor de incentivo del “conocimiento de los resultados” ha sido demostrado repetidamente en algunos experi- mentos psicolégicos realizados en muchas situaciones de aprendizaje, con sujetos que varian mucho tanto en edad como educacién. La eficacia de dicha autosupervisiOn sue- Te aumentar por su inmediatez. Desde otro punto de vista, las pruebas de aprovechamiento proporcionan un medio para adaptar la instruccién a las necesidades individuales. La ensefianza puede ser mas fructffera cuando es adecuada para la etapa del alumno, El primer paso necesario para la ensefianza eficaz consiste en asegurarse de qué es lo que el estudiante puede hacer y qué es lo que ya sabe. Al aplicar examenes al inicio del afio escolar, los educadores pueden emprender los pasos necesarios para cubrir las deficiencias reveladas por los resultados. Otros ejemplos de la funcién de las pruebas de aprovechamiento en el pro- ceso de ensefianza se aprecian en la evaluacién referida a dominio y los sistemas ins- truccionales individualizados que analizamos en el capftulo 3. Finalmente, las pruebas de aprovechamiento pueden emplearse como apoyos en la evaluacién y el mejoramiento de la ensefianza, asf como en la formulacién de las me- tas educativas. Las pruebas de aprovechamiento pueden proporcionar informacién sobre lo adecuado de la ensefianza de las habilidades y contenido esencial. Al concen- trar la atencidn en estos temas y ofrecer hechos concretos, las pruebas estimulan el anilisis de los objetivos educativos y fomentan el examen critico del contenido y de 478 Aplicaciones de las pruebas los métodos de instruccién.* Dado el incremento en la exigencia publica de explica- ciones, en las dltimas décadas se ha observado una cantidad sin precedente de evalua- ciones a instituciones educativas de todos los niveles. En los Estados Unidos, gran parte de esta evaluacién es obligatoria, por mandato de los distritos locales y estatales, asf como por el gobierno federal (B. Gifford, 1989b; Hartle y Battaglia, 1993; National Council on Education Standards and Testing, 1992). La Evaluacién Nacional del Pro- greso Educativo, conocida informalmente como “la tarjeta de calificaciones naciona- les”, es uno de los ejemplos mejor conocidos del programa de evaluacién de ley establecido por el gobierno estadounidense (véase, por ejemplo, Alexander y James, 1987; Gentile, Martin-Rehrmann y Kennedy, 1995; E. G. Johnson, 1992; Messick, Beaton y Lord, 1983; NAEP, 1985; E. B. Womer, 1970). Debido a la difusién de las pruebas estandarizadas y a las consecuencias econémicas de amplio rango que pueden estar unidas a sus resultados, los propios instrumentos han sido sometidos a criticas y a un escrutinio intenso. Los métodos utilizados para evaluar e} progreso educativo, algu- na ver tertitorio exclusivo de los especialistas en las pruebas, se ha convertido en el centro de interés de un debate muy politizado que no sélo recibe la atencién de legis- ladores y Iideres de la industria, sino también del pablico en general (R. E Bennett y Ward, 1993; Courts y McInerney, 1993; Gifford y O'Connor, 1992; S, P. Robinson, 1993; G. P. Wiggins, 1993). El lector interesado puede encontrar en Linn y Gronlund (1995, capitulo 18) una revisiGn de los temas y las tendencias relacionados con los exdmenes escolares y la evaluacién de los programas. Construccién en comparacién con eleccién. Histéricamente, los examenes escolares tradicionales consistfan en un conjunto de preguntas que debian responder- se de palabra 0 por escrito. En cualquier caso, el examinado componfa y formulaba la respuesta; el término “pregunta de ensayo” Ilegé a utilizarse ampliamente para cubrit las preguntas de respuesta libre, que no sélo inclufan las que exigfan un largo ensayo, sino también las que pedfan al examinado dar una respuesta corta o trabajar en la so- lucién de un problema matemético. En contraste, las “preguntas objetivas” eran aquellas que pedian la eleccién de una respuesta correcta de las alternativas propor- cionadas para cada pregunta. Aunque hay varias clases de reactivos que piden a los examinados seleccionar una respuesta, como los de falso 0 verdadero y los de empa- tejamiento, con mucho las més utilizadas, estudiadas y también més criticadas han sido las preguntas de opcién multiple. Los erfticos de éstas argumentan que promueven la memorizacién mecénica y el aprendizaje de hechos aislados en lugar del desarrollo de las habilidades para la reso- luci6n de problemas y la comprensién de conceptos. Ademés, mucha gente mal in- formada en los planteles y la politica educativa considera idénticos los reactivos de opcién miltiple con la evaluacién estandarizada y menoscaba a la vez estos dos ele- mentos de la metodologfa de la evaluacién.* En un giro irénico de los acontecimien- “Publicaciones recientes en Ia educacidn en las reas de matematica yciencia (véase, por ejemplo, Penner, Bats- che, Knoff y Nelson, 1993) y el mejoramiento de las habilidades de pensamiento (véase, por ejemplo, Mulcahy, Short y Andrews, 1991) ejemplifican el trabajo orientado a la solucién que puede resultar de este examen critico. 5 Debe mencionarse que los instrumentos uilizados en muchos programas de evaluacién educativa a gran escala (como las pruebas del SAT, el NAEP y otros instrumentos estandarizados de aprovechamiento) utilizaron por al- ‘in tiempo preguntas de ensayo y reactivos de formato abierto. Principales contextos del uso actual de las pruebas 479 tos, a menudo se considera que los mismos programas estandarizados de evaluacién usados para planear el progreso educativo contribuyen a las deficiencias educativas que han descubierto (Courts y McInerney, 1993; H. Gardner, 1992; Resnick y Res- nick, 1992). Por desgracia, las criticas acerca del uso excesivo e inadecuado de las pruebas estandarizadas en algunos casos han sido cufdadosamente justificadas. En cualquier caso, las quejas de que la evaluacién dirige el curriculum y que ambos ne- cesitan con urgencia una reforma provienen de educadores de todos los niveles. Los defensores de la reforma educativa creen que se necesita una revisién general tanto de las metas curriculares, de los métodos instruccionales asf como de los instrumen- tos de evaluacién debido a que perciben que todas esas 4reas se encuentran rela- cionadas ‘Como los aspectos filoséficos, politicos y practicos de la reforma educativa estan més alld del alcance de este libro, nos limitaremos a analizar algunas de las opciones propuestas en la metodologia de la evaluacién, las cuales se describen por diversos ru- bros como evaluacién “basada en el desempefio”, evaluacién “auténtica” y evaluacién “directa” (véase, por ejemplo, E. L. Baker, O'Neil y Linn, 1993; Linn y Gronlund, 1995, capfulo diez). Aunque cada una de ellas representa énfasis distintos, una de las, caracteristicas centrales que todos comparten es la marcada preferencia por tareas que, como las anteriores “preguntas de ensayo”, requieren que el examinado dé una respuesta. Estos reactivos se describen ahora como de construccién de respuesta o tareas abiertas, y se distinguen de las tareas de selecciGn de respuesta, que es el término aplica- do a los reactivos que s6lo exigen que el examinado elija una respuesta de entre las opciones presentadas, como los reactivos de opcién multiple y los otros tipos de pre- guntas que solian Ilamarse “objetivas”. Los reactivos de construccién de respuesta pueden incluir el simple completamiento (como los de “Ilenar los espacios”), solucién de problemas y ensayos, asf como una variedad de presentaciones 0 desempefios como tocar un instrumento, dar una charla o reparar una méquina.° El método conocido como evaluacién de portafolio ofrece otro conjunto de alternati- vas. Esta herramienta pretende principalmente hacer tan significativo y realista como sea posible el proceso de evaluacién educativa. Aunque el término se aplica a una am- plia gama de procedimientos, por lo comtin el portafolio consta de un registro acumu- lativo (obtenido a lo largo de un periodo prolongado) de muestras del trabajo del estudiante en dreas concretas, como la redaccién o cualquier otro empefio que incluya un proceso en el que sea posible documentar el progreso (Camp, 1993; Gitomer, 1993; D. P. Wolf, 1993). El método de portafolio ofrece gran flexibilidad y puede po- nerse en préctica de manera més o menos formal y con diversos grados de colaboraci6n. entre el estudiante y el maestro (véase en Karlsen, 1992, un ejemplo de un instrumen- to publicado). El lector habra inferido, incluso de esta breve recapitulacién, que se est prestando gran atencién a los medios por los que se conducen las evaluaciones del aprendizaje y el trabajo del estudiante. Esta preocupacién se extiende no sélo a lo que miden los di- © Obviamente, los reactives de la prueba pueden clasficarse segtin otras dimensiones, ademas de si incluyen o no la construcciéin ola seleccién de respuestas. En R. E. Bennett (1993) y en R. E. Snow (1995) pueden encontrar- se ejemplos de dos diferentes taxonomias de los tipos de reactivos. 480 Aplicaciones de las pruebas ferentes reactivos y a lo bien que lo hacen, sino también a otros aspectos psicolégicos de los reactivos de las pruchas. Por ejemplo, Zeidner (1993) investigé las actitudes de los estudiantes hacia los formatos de los reactivos y descubrié que prefieren los reactivos de opcién multiple a los de ensayo. La investigacién de Lu y Suen (1995) indica que la evaluacién basada en el desempefio tiende a favorecer a los estudiantes independientes del campo sobre los dependientes (véase el capftulo 16). Otros investigadores han ob- servado la relaci6n entre la ansiedad ante la prueba y los reactivos, y han descubierto que la ansiedad parece afectar més a las pruebas de construccién que a las de seleccién de respuesta (Crocker y Schmitt, 1987). El lector puede encontrar en R. E. Snow (1993) un anélisis de las variables que influyen en la motivacién de los examinados y, por ende, afectan su respuesta y desemperio (por ejemplo, el propésito del procedimien- to de evaluacién), asf como muchos otros factores que pueden tener relacin con la interpretacién de las pruebas de construccién de respuesta o de opcién miiltiple. Al mismo tiempo, gradualmente se acumula la bibliograffa empirica relativa a las propiedades estrictamente psicométricas de las tareas basadas en el desempetio que se utilizan en los medios académicos.” Tanto el ritmo de la investigacién como la direc- cién de sus resultados difiere considerablemente dependiendo del tipo especffico de reactivos en cuestién. En numerosos estudios se ha investigado la confiabilidad de los procedimientos de puntuacién empleados para las tareas de construccién de respues- ta, que (como los aplicados en las pruebas situacionales que vimos en el capitulo 16) a menudo consisten en valoraciones (E. L. Baker et al., 1993; Linn y Gronlund, 1995, capitulo 10). Por lo general, la confiabilidad entre calificadores suele ser favorable cuando las reglas de calificacién son claras y estén bien desarrolladas y los calificado- res capacitados. Por otro lado, la generalizacién de los resultados entre temas y tareas suele ser baja, lo que sugiere que los reactivos de construccién de respuesta tienen un elevado grado de especificidad de la tarea, lo que no es sorprendente si consideramos que estos reactivos suelen set més complejos y permiten una mayor gama de respues- tas que los reactivos de seleccién de respuestas. En relacién con el tema de la validez, la base empfrica es més bien limitada, al me- nos para las clases menos restringidas y més innovadloras de tareas de construccién de respuesta. Una de las cuestiones preliminares mas cruciales es el grado en que los reac- tivos de construccién y de seleccién de respuesta miden rasgos o habilidades equiva- lentes. Aunque las evidencias sobre este tema no son grandes, la revisién que hizo Traub (1993) de los estudios sobre el tema indican que el grado de equivalencia varia segiin el dominio; por ejemplo, cuando se utilizan diferentes formatos de teactivo en pruebas de comprensién de lectura o de conocimiento en mateméticas, tienden a arrojar resultados equivalentes, mientras que en el drea escrita parece que la clase de los reactivos tiene un efecto significativo en las puntuaciones. Mientras tanto, el uso de reactivos de opcién miiltiple sigue siendo considerable; de hecho, la introduccién de diferentes formatos en los exémenes académicos aunada a las severas criticas hechas a los reactivos de opcién miltiple parecen haber estimula- do los esfuerzos por mejorarlos. Se dispone de orientacién para desarrollar, revisar y evaluar los reactivos de opcidn miiltiple (véase, por ejemplo, Haladyna, 1994) y con- 7 Vease, especialmente, R. E. Bennett y Ward (1993). Principales contextos del uso actual de las pruebas 481 tinda la investigacién sobre aspectas especificas (como el ntimero dptimo de opciones presentadas) del formato (Trevisan, Sax y Michael, 1991, 1994). Mas atin, también se estudian y difunden algunas variantes y perfeccionamientos del género de tareas de seleccién de respuesta (véase, por ejemplo, Linn y Gronlund, 1995, capitulo 8; Sax, 1991; Sireci, Thissen y Wainer, 1991; Wainer y Kiely, 1887; Wainer y Lewis, 1990). También se han Ilevado a cabo comparaciones directas entre los reactivos de cons- truccién y los de seleccién de respuesta (por ejemplo, Lukhele, Thissen y Wainer, 1994). La mayor parte de las veces, las comparaciones parecen favorecer a los reactivos de opcién multiple en criterios como economia, eficacia y validez predictiva, especial- mente al compararse con las preguntas de ensayo tradicionales (Anastasi, 1988b, pp- 416-418; R. E. Bennett, 1993). Sin embargo, debe advertirse que el problema de la evaluacién y comparacién de diferentes formatos de evaluacién (cuando las metas y los métodos de evaluacién se encuentran en estado de cambio continuo) es cualquier cosa menos directo. Més atin, es importante tener en mente que el formato del reactivo es s6- Jo una de muchas variables que interactian para determinar la equidad, la exactitud y, sobre todo, la calidad de un procedimiento de evaluacién. Es necesario considerar el propésito de la evaluacién y el dominio de contenido asf como las caracteristicas de los individuos que deben ser evaluados (E. L. Baker et al., 1993; R. E. Bennett, 1993; Dw- yer, 1993; Mislevy, 1993). Por ejemplo, temas como los efectos diferenciales del fraca- so en la motivacién subsecuente del examinado pueden colocarse a la cabeza de otros criterios para evaluar los reactivos, en particular en el caso de los estudiantes que pro- vienen de condiciones desfavorables o que presentan otras desventajas; no obstante, es digno de mencién que en la actualidad no hay raz6n para creer que la evaluacién basada en el desempefio da por resultado la disminucién de la brecha entre las pun- tuaciones obtenidas por los blancos y los de algunas minorias étnicas en las pruebas estandarizadas de opcién miltiple. En efecto, algunas investigaciones indican que es- ta disparidad en las puntuaciones puede ser mayor en los exémenes de construccién que en los de seleccién de respuesta (Hartle y Battaglia, 1993). Los temas actuales en. la evaluacién educativa de estudiantes con antecedentes culturales y lingiifsticos dis- tintos son analizados por Cancelli y Arena (1996), K. W. Howell y Rueda (1996), y por Shinn y Baker (1996). Tipos de pruebas educativas En el Informe Anual de 1990 del Servicio de Pruebas Educativas, el patronato de la organizacién predijo que la evaluacién educativa cambiarfa mas en los 10 afios si- guientes que en los 50 anteriores (ETX, 1990). Parece ahora que la prediccién fue exacta y que bien podrfa ser reiterada para la proxima década. Todos los exdmenes es- tén siendo sometidos a revisiones importantes y se preparan nuevas herramientas de evaluacién a un paso répido. En consecuencia, la siguiente revisi6n no se concentra en la desctipcién detallada de algunos exémenes individuales, sino en los instrumen- tos usados tradicionalmente en los contextos educativos, junto con algunas innova- ciones en curso en cada uno. Baterfas de aprovechamiento general. Se dispone de algunas baterfas para me- dir el aprovechamiento educativo general en las éreas que suelen cubrir los programas 482 Aplicaciones de las pruebas académicos. Estas pruebas pueden utilizarse desde la primaria hasta el nivel adulto, aunque su principal aplicacién ha sido en la escuela elemental. Por lo comiin, las ba- terias brindan perfiles de calificaciones en subtests individuales o en las principales reas académicas. Una ventaja, en comparacién con las pruebas de aprovechamiento construidas independientemente, es que permiten comparaciones horizontals, verti- cales o ambas. De este modo, es posible evaluar la posicion relativa de un individuo en diferentes dreas temiticas o habilidades educativas en términos de una muestra norma- tiva uniforme, o bien, informar el progreso del estudiante de un grado a otro en térmi- nos de una sola escala de calificacion. Bl usuario de la prueba debe verificar que la bate- rfa est estandarizada de modo que permita uno o ambos tipos de comparabilidad. Aunque algunas de las baterfas de aprovechamiento general estén disefiadas exclu- sivamente para los grados elementales o para la secundaria, la mayor parte abarca una gama amplia que se extiende en ambos niveles y a veces incluso hasta el primer afio de la universidad. Algunas proporcionan una sola baterfa para el rango cubierto, pero casi todas tienen varias baterias sobrepuestas en cuadernillos de pruebas separados pa- ra usarse en diferentes niveles. Algunas baterias forman una serie coordinada, lo que permite la medicién comparable del grado K al decimosegundo. Una de estas combi- naciones es el Test de Habilidades Basicas de Lowa (lowa Tests of Basic Skills), los Tests de Aprovechamiento y Destreza (Tests of Achievement and Profiency) y los Tests de Desa- rollo Educativo de Iowa (Stanford Achievement Tests Series); otra es la Serie de Prue- bas de Aprovechamiento de Stanford. Una caracterfstica digna de mencién de algunas baterfas de aprovechamiento es que se normaron al mismo tiempo con los tests de inteligencia académica o de habili- dad escolar. Los principales ejemplos incluyen las baterias de aprovechamiento que se parearon con tres pruebas de niveles multiples ilustradas en el capitulo 10, a saber, la Serie de Pruebas de Aprovechamiento de Stanford con el Test de Habilidad Escolar de Otis-Lennon; la serie de Tests de Iowa y las Pruebas de Aprovechamiento y Destreza con el Test de Habilidades Cognoscitivas, y los Tests de Aprovechamiento de Califor- nia y los Tests Comprensivos de Habilidades Bésicas con el Test de Habilidades Cog- noscitivas (véase Ia tabla 10.1). El uso de la misma muestra de estandarizacién en estos casos permite la comparacién directa de las puntuaciones obtenidas por cualquier estudiante en las dos pruebas. Por lo general, ambas tienen una correlacisn elevada, y los individuos obtendrén puntuaciones muy similares en ellas. Para los estudiantes que obtienen una puntuaci6n sustancialmente mayor en cualquiera, resulta deseable ex- plorar las razones de la discrepancia. La bateria de aprovechamiento mide en gran me- dida lo que el individuo ha aprendido en los cursos de la educacién bésica; los tests de habilidades cognoscitivas evalian una gama mas amplia de habilidades y conocimien- to aprendidos dentro y fuera de la escuela. Cualquier discrepancia significativa en el desemperio podria reflejar la influencia de capacidades o discapacidades espectficas 0 bien de factores no cognoscitivos como la motivacién, los intereses y las actitudes. A menudo, los antecedentes del individuo oftecen sefiales sobre las condiciones que dan lugar a discrepancias inusuales de ejecucién en la prueba. Por supuesto, las baterias de aprovechamiento difieren en el nivel técnico de sus pro- cedimientos de construcci6n; no obstante, como grupo cumplen con estandares eleva- dos, especialmente en relacién con el tamafio y la representatividad de las muestras normativas, confiabilidad y validacién de contenido. Las especificaciones detalladas Principales contextos del uso actual de las pruebas 483 para la redaccién de reactivos generalmente se siguen mediante cuidadosos andlisis de reactivos, que incluyen la aplicacién de los métodos de la teorfa de respuesta al reacti- vo. Es comin que se empleen procedimientos especiales para evitar los sesgos de géne- ro y étnico. Por lo general, todas las baterias incluyen Ia evaluacién de habilidades basicas de lectura, lenguaje y mateméticas, en combinggién con diversos montos del conocimiento contenido en los estudios cientificos y sotiales. Varias incluyen subtests disefiados para medir habilidades de estudio o la capacidad para emplear diversas fuentes de informacién. Mas atin, en respuesta a las demandas de instrumentos de evaluacién més flexibles e informativas, los editores de las principales baterfas estan- datizadas de aprovechamiento ahora ofrecen una mayor variedad de reactivos y opcio- nes. Ahora se utilizan reactivos abiertos y una gama mayor de reactivos de seleccién de respuesta, diseftados para medir habilidades de pensamiento de orden superior y es- tablecerse en contextos més significativos. Los editores muestran mayor flexibilidad para adaptar los paquetes de evaluacién a las necesidades de los programas educativos actuales, mediante el uso de diversas combinaciones de formatos y contenidos de los reactivos asf como de opciones de calificacién, También ofrecen mayores conexiones entre las pruebas y los materiales educativos.® Pruebas de competencia minima en habilidades basicas. Las dos tiltimas dé- cadas han atestiguado una preocupacién creciente por el bajo nivel de competencia que muchos graduados de secundaria muestran en las habilidades de lectura, redac- cién y aritmética. Esta preocupacién ha dado lugar a las demandas populares de las pruebas por competencia en habilidades bésicas como una forma de certificar que se poseen las capacidades mfnimas y como base para obtener el diploma de secundaria. Estas exigencias generaron una enorme controversia, y la mayor parte de las objecio- nes se concentré en los probables abusos e interpretaciones erréneas de tales pruebas y en la rigidez educativa y los controles burocraticos que pueden tener lugar.? Aunque la mayor parte de los estados ha establecido poltticas concernientes a la evaluacién de competencias mfnimas, sus polfticas y procedimientos varfan ampliamente en el mo- mento y el nivel en los que se aplican las pruebas, el uso que se hace de los resultados y la naturaleza y el grado de autonom(a local en el desarrollo o eleccién de los instru- mentos, Més todavia, las pruebas utilizadas para tomar decisiones sobre becas u obten- cidn de diplomas deben reflejar el programa que cubren. Por todas estas razones, en la actualidad las pruebas apropiadas por lo general se elaboran en las escuelas, los sistemas escolares 0 las dependencias estatales, a menudo con la ayuda de editoriales especializa- das, que pueden ofrecer personal capacitado, grandes bancos de reactivos y servicios de informes que pueden adaptarse para cumplir los objetivos locales. Estos instrumentos © Un ejemplode esa tendencia es la serie TerraNova, publicada en los Estados Unidos recientemente por CTB/Me Graw-Hill. Los componentes de esta serie incluyen las nuevas Pruebas Comprensivas de Habilidades Basicas (Comprehensive Test of Basic Skils, CTBS); una edicién de Evalvaciones Maltiples, que combina reactivos dese- leccién y de elaboracién de respuestas; una edicién de Evaluacién del Desempefi, que ofrece tareas abiertas mas cextensas que pueden ealifiearse localmente o en la editorial, y un Componente de Costurnbres, que ofrece reacti- ‘vos complementarios disefiados para evaluar objetivos de programas especialicados. ® Para un analisis general del movimiento de evaluacién de competencias minimas y los problemas psicométricos téenicos, véase Berk (1986). En el trabajo de Jeger (1989) puede encontrarse otra revisién minuciosa de los te ‘mas y problemas del uso de ls pruebas para certficar la competencia del estudiante. 484 Aplicaciones de las pruebas pueden incluir algunos componentes de las baterfas estandarizadas de aprovecha- miento que vimos antes o pueden prepararse para cada localidad. En los afios recientes el interés por averiguar el dominio de las habilidades basicas se ha extendido a la poblacién adulta.!° Los efectos acumulativos de las grandes tasas de desercidn escolar y los bajos niveles de competencia entre los graduados de secundaria, as{ como el aumento en el ntimero de inmigrantes que no hablan inglés, han aumenta- do la preocupacién por la competitividad de la fuerza de trabajo estadounidense en el mercado mundial. Los descubrimientos del Estudio Nacional de Analfabetismo de los Adultos (National Adult Literacy Survey), realizado en 1992 por el ETS bajo los auspicios del Departamento de Educacién, han reforzado esta preocupacién. El estudio revelé que casi la mitad de la poblacién estadounidense se encontraba en los dos iiltimos niveles (de un total de cinco) de alfabetizaci6n (Kirsch, Jungeblut, Jenkins y Kolstad, 1993). Las pruebas de competencia en habilidades basicas disefiadas para adultos suelen desarrollarse en relacién con los cursos de educaci6n para adultos, programas educati- vos en instituciones penales o programas de capacitacién pata el trabajo. Un ejemplo notable se encuentra en los Tests de Educacién Bésica para Adultos, formas siete y ocho (Tests of Adult Basic Education, TABE, 1994). La baterfa TABE abarca cinco ni- veles graduados de dificultad en cinco diferentes éreas de contenido que incluyen lec- tura, lenguaje y matemsticas aplicadas. Los resultados se asientan como calificaciones referidas a normas y también en términos de informacién basada en la competencia que puede utilizarse en forma de diagnéstico. Ademés de sus formas regulares, también puede tenerse acceso al TABE mediante una versiSn especial adecuada para emplearse en ambientes laborales y una edicin en espafiol (TABE Espafil) disefiada para medit las habilidades basicas de los adultos hispanchablantes en su idioma matemno. Pruebas para el salén de clases elaboradas por el maestro. Es indudable que los maestros preparan para usar en su salén de clases el mayor ntimero de pruebas que cu- bren el contenido de cursos 0 de partes de cursos especificos. Es de todos conocida la gran diversidad que existe entre los cursos sobre el mismo tema y con el mismo nombre, especialmente a partir del nivel de secundaria, por lo que en esas condiciones ninguna prueba estandarizada externa puede bastar. Sin embargo, la preparacién de pruebas para el aula puede mejorar con la aplicacién de las técnicas y la experiencia acumulada de los profesionales en el desarrollo de pruebas. El desarrollo de pruebas para el aula pue- de dividirse en tres pasos principales: (1) la planeacién del instrumento, (2) la re- daccién de los reactivos y (3) el andlisis de los mismos. En el capftulo 7 explicamos algunas técnicas sencillas sobre andlisis de reactivos adecuadas para usarse con grupos pequefios. En esta seccién haremos una breve revision general de los otros dos pasos. Es probable que un constructor de pruebas que se introduce directamente en la re- dacci6n de reactivos produzca una prueba asimétrica; si no se cuenta con un plan, al- 10 Este andlisis se fundamenta en el concepto de “analfabetismo funcional” (Sticht, 1975), que se ha extendlido ala ‘competencia promedio en el uso del lenguaje al hablar y escribir, as como a la comprensisn y uso de diversos docu ‘ments ya céleulosaritméticos. La competencia funcional se define en términos de las demandas de as situaciones pricticas, como el nivel de difcultad y la cantidad de lectura requerida para realizar ciertos trabajos 0, de manera nds amplia as habilidades educativas bisias xigidas para manejr la vida personal en la sociedad moderna "Para una gufa adicional sobre la preparaciOn de las pruebas en el sin de clases y otros procedimientos de eva- luacién, véase Linn y Gronlund (1995, capitulos 5a 13). Principales contextos del uso actual de (as pruebas 485 gunas dreas quedardn sobrerrepresentadas mientras que otras practicamente no serén tocadas. En general, es mas sencillo preparar reactivos objetivos de algunos temas que de otros, y es més facil preparar reactivos que requieran el recuerdo de hechos simples que otros que exigen una evaluacién critica, la integracién de hechos diferentes o la aplicacién de los principios a nuevas situaciones. De mgdo que si una prueba se elabo- ra sin un programa de accién detallado, es probable que muestre una carga excesiva en el material inestable y menos importante. Muchas de las criticas a los instrumentos de seleccién de respuesta surgen del énfasis excesivo que los instrumentos mal construi- dos ponen en la memorizacién mecénica de detalles triviales. Para prevenir esos desequilibrios fortuitos en la cobertura de los reactivos, es necesa- rio establecer las especificaciones de la prueba antes de escribir cualquier reactivo. Para los exdimenes en el salén de clases, estas especificaciones deberian basarse en el esbozo de Jos objetivos de instruccisn y las areas de contenido que deben cubrirse y deberfan refle- jar las decisiones sobre la relativa importancia de cada uno de estos aspectos mediante el niimero de reactivos asignado a cada tema y objetivo.'? Quien desarrolla la prueba también debe decidir sobre la forma de reactivo més apropiada para el material; también es necesario considerar los méritos relativos de los reactivos objetivos y abiertos que vvimos en una seccién anterior de este capitulo en relacién especial con su uso en los programas estandarizados de evaluaci6n a gran escala, Por tiltimo, se han formulado mu- chas reglas practicas para la redaccién de reactivos sobre la base de afios de experiencia en su preparacin y en la evaluacién empfrica de las respuestas. Cualquiera que planee preparar un examen en el salén de clases harfa bien en consultar alguna de las fuentes que resumen esas sugerencias (por ejemplo, Ebel, 1979, capftulos 4 a 9; Haladyna, 1994, capitulos 4 a 6; Linn y Gronlund, 1995, capitulos 6 a 9; Millman y Green, 1989). Examenes para nivel universitario. Se ha desarrollado una serie de pruebas y programas de evaluacién para emplearlas en la admisidn, colocacién y consejerfa de los estudiantes universitarios. Uno de los mas destacados es el Programa de Tests de Eva- luacién Escolar (Scholastic Assessment Tests, SAT) de la Junta Universitaria, que actual- mente se compone de dos elementos, el SAT I: Prueba de Razonamiento, que reempla- 26 a las secciones verbal y matemética del Test de Aptitud Académica, y el SAT Il: Pruebas Temticas, que reemplazaron a las anteriores Pruebas de Aprovechamiento del SAT.!> El SAT I consta principalmente de preguntas de opcién multiple que mi- den las habilidades verbal y matematica; esta pensada para usarse (como complemen- to de las calificaciones de la educacién media y otro tipo de informacién) en la eva- luacién de la preparacién del estudiante para realizar el trabajo universitario. Por otro lado, las pruebas del SAT I] est4n disefiadas para evaluar el conocimiento de éreas te- maticas especificas (por ejemplo, literatura, quimica e historia universal) y puede em- plearse lo mismo para admisién que para colocacién. Las pruebas del programa SAT han modificado tanto su contenido como su forma- to, lo mismo que el nombre; por ejemplo, en la seccién verbal del SAT I hay un mayor "2 En Anastasi (1988, p. 431) yen Linn y Gronlund (1996, p. 122) pueden encontrarse ejemplos de las tabla de cespecificacién de tarea. ' Para una tevisién adicional de los antecedentes del programa SAT, véase Anastasi (1988b, pp. 328-331) y Donton (1984). 486 Aplicaciones de las pruebas énfasis en la lectura critica y el razonamiento; de igual modo, la seccién de matemiticas requiere ahora que los estudiantes produzcan las respuestas (en lugar de limitarse a se- leccionarlas) y (de acuerdo con los estdndares actuales) se permite el uso de calcula- doras en toda la seccién de matemsticas. También han cambiado las pruebas del SAT ILy en la actualidad incluyen una evaluacién més directa de las habilidades mediante el uso de componentes del oyente y muestras de escritura, A partir de abril de 1995, las calificaciones de las pruebas del programa SAT no se informan en términos de un grupo fijo de referencia que se remonta a 1941 (véase el capftulo 3). En lugar de ello, la escala de calificacién del SAT se ha “recentrado” utili- zando un nuevo grupo de referencia de la década de los noventa, de modo que la eje- cucién promedio se representa una vez més por una calificacién aproximada de 500.'+ El recentramiento hizo més precisas y confiables las calificaciones del SAT, sobre todo en los niveles superior e inferior de la escala. Ademds, la interpretacién de las califica- ciones es més sencilla; por ejemplo, las calificaciones en laysecciones verbal y de ma- teméticas ahora puede compararse directamente sin referirse a los rangos percentiles porque ambas han sido realineadas. Més atin, como una calificacién de 500 es el pun- to medio del intervalo de 200 a 800, el promedio “intuitivo” seria igual al promedio real. La Junta Académica ha difundido tablas y otras hertamientas que simplifican la conversi6n de las calificaciones de la escala original a las calificaciones de la escala re- centrada para ayudar a mantener la continuidad entre ambas. Actualmente se dispone de informacién sobre la confiabilidad, niveles de dificultad y tasas de completamien- to de los examenes revisados del SAT en un manual preparado para consejeros y en- cargados de las oficinas de admisién ast como de otras publicaciones ¢ informes de investigacién del ETS y de la Junta Universitaria (College Board, 1995a, 1995b).1° En un estudio preliminar en el que se compara al SAT tradicional con una versién prototipo del SAT I se descubrié que el nuevo instrumento hacia una prediccién lige- ramente mejor que el anterior del promedio de calificaciones obtenido en el primer afio en la universidad (Hale, Bridgeman, Lewis, Pollack y Wang, 1992). Evidencias adicionales sobre la validez de los exémenes revisados del SAT se incluirén en un complemento técnico cuya publicacién se espera para finales de los noventa. Otro programa nacional, iniciado en 1959, es el Programa Estadounidense de Eva- luacién Universitaria (American College Testing Program, ACT, 1995-1996), que au que originalmente estaba limitado a los sistemas estatales de universidades, crecié répidamente y ahora se utiliza en muchas universidades de los Estados Unidos. La ac- tual evaluaci6n ACT incluye cuatro pruebas: de inglés, matematicas, lectura y razo- namiento cientffico. Este programa de examinacién refleja el punto de vista de su fundador, E. E Lindquist, y proporciona un conjunto de muestras de trabajo universi- tario. Se traslapa con los tests tradicionales de aptitud y de aprovechamiento, ademds ™4 Para prineipios de les noventa, las caificaciones promedio sobre la base del SAT habian disminuido de 500 en. ambas reas a 424 en el fea verbal y a 478 en matemsticas. "5 Debio a su funcién en Ia selecci6n de estudiantes universitarios, los exémenes del SAT son sometidos con fre~ cuencia un escrutinio critic; por ejemplo, hace poco se informé que los examinados podian responder correcta~ ‘mente muchas preguntas de opcién mailtiple basadas en las pruebas de lectura del SAT sin consultar los pasajes que acompatian a las preguntas, lo que ha reiniciado la controversa sobre el grado al ue antecedentes extrafios de conocimiento pueden infiuir en las calfcaciones del SAT (véase, por ejemplo, S. Katz y Lautenschlager, 1995). Principales contextos del uso actual de las pruebas 487 de que se concentra en las habilidades intelectuales bésicas que se requieren para te- ner un desempefio satisfactorio en la universidad. Los componentes no cognoscitivos del programa ACT incluyen un cuestionario de informacién sobre las calificaciones obtenidas en secundaria, el inventario de intereses ACT y una Seccién de Perfil del Estudiante que contiene preguntas sobre sus aspiracignes, planes y logros, asf como otra informacién de sus antecedentes. El ACT no ha‘alcanzado los estandares técni- cos establecidos por el SAT, pero los datos de validez se comparan favorablemente con los encontrados para otros instrumentos en ambientes similares. Debe mencionarse que instrumentos como los del SAT y el ACT no pretenden sustituir las calificaciones de la educacién media en la prediccién del rendimiento en la universidad. Estas pueden hacer una predicci6n de las calificaciones obtenidas en la universidad tan buena o ligeramente mejor que la mayor parte de las pruebas; sin em- bargo, cuando se combinan las calificaciones de las pruebas con las calificaciones es- colares, mejora la prediccién del rendimiento en la universidad. Esta mejora surge en parte del hecho de que una prueba uniforme y objetiva corrige la variabilidad de las normas de calificacién de las diferentes secundarias. Ademés, las pruebas no estén so- metidas a los posibles sesgos personales u otros factores arbitrarios que pueden inter- venir en la asignacién de las calificaciones escolares. ‘También crece el uso de pruebas especializadas de aprovechamiento como equiva- lentes de los exdmenes universitarios. Los estudiantes de educacién media que tienen ‘una preparaci6n adicional en ciertas 4reas pueden presentar examen en el Programa ‘Avanzado de Colocacién de la Junta Universitaria (Advanced Placement Program, APP) para obtener la admisién a la universidad y una posicién avanzada en una o més materias. En el Programa de Examenes de Nivel Universitario (College Level Examina- tion Program, CLEP) se encuentra un desarrollo relacionado, cuyo propésito general consiste en facilitar el otorgamiento de créditos universitarios por el examen y oftecer un sistema nacional para evaluar la educacién de nivel universitario adquirida me- diante estudio independiente y otros procedimientos no tradicionales. El Programa Estadounidense de Evaluacién Universitaria aplica una serie similar de pruebas, el Programa de Exdmenes de Destreza del ACT, que aunque incluye algunas materias académicas, como anatomia, fisiologia y psicologia anormal, cubre principalmente reas ocupacionales como enfermerfa y contabilidad. Admisién a la escuela de posgrado. La préctica de evaluar a los solicitantes de admisién se extiende a las escuelas profesionales y de posgrado. Casi todas las pruebas disefiadas con este propésito representan una combinacién de tests de inteligencia general y pruebas de aprovechamiento. Un ejemplo conocido lo constituyen los Exé- menes de Registro de Graduados (Graduate Record Examination, GRE), una serie que tuvo su origen en 1936 en un proyecto conjunto de la Fundacién Carnegie para el Fo- mento de la Ensefianza y las escuelas de posgrado de cuatro universidades. Ahora que se ha expandido considerablemente, el programa es conducido por el Servicio de Eva- luaci6n Educativa bajo la direccién general del Consejo de Exémenes de Registro de Graduados. Los estudiantes son examinados en centros designados (en mas de 100 safses) antes de ser admitidos en las escuelas de posgrado. Los resultados son utilizados como auxiliares en la toma de decisiones sobre la admisin y colocacién y para selec- 488 Aplicaciones de las pruebas cionar a quienes recibirén becas, pensiones y designaciones especiales. El GRE incluye una Prueba General y Pruebas Tematicas en diversas Areas de especializacién.!® La Prueba General actual produce calificaciones independientes para las habilidades ver- bal, cuantitativa y analitica. En cuanto a las Pruebas Tematicas, se dispone de exéme- nes en 16 Areas que incluyen la biologfa, la computacién, el francés, las mateméticas, la musica, las ciencias politicas y la psicologfa. Las caracteristicas psicométricas del GRE se informan en la tiltima edici6n de la guia sobre su uso (GRE 1995-1996 Guide). En gene- ral, las calificaciones de las pruebas teméticas predicen mejor la calificacién promedio obtenida en el primer afio en la escuela de posgrado (Grade Point Average, GPA) que la calificacién compuesta de la Prueba General o el GPA obtenido antes, pero la combi- nacién de las tres medidas proporciona la mayor validez predictiva. En diversos cam- pos, esas correlaciones miiltiples caen entre la media de .40 e inferior de .60. En octubre de 1992 el programa GRE empez6 a aplicar una versién computarizada de la forma tradicional de la Prueba General, y en noviembre de 1993 se introdujo una Prueba General adaptada a la computadora. A pesar de algurfos problemas iniciales re- lacionados con los riesgos de seguridad en la Prueba General computarizada del GRE, las ventajas del uso de computadoras es tal que es posible que para 1999 la Comisién del GRE elimine todos los exmenes de l4piz y papel. La Prueba General la estan revisando para incluir una Prueba Escrita y una de Razonamiento Matematico, ast como algunas preguntas de construccién de respuesta (“Update on the New GRE”, 1995). Evaluacién de diagnéstico y pronéstico. A diferencia de las baterfas de aprove- chamiento general y otras pruebas que hemos estudiado, los instrumentos que veremos en esta seccién estén disefiados para analizar las fortalezas y debilidades de la persona dentro de un drea temética particular y para sugerir las causas de sus problemas. La ma- yor parte de esos instrumentos de diagnéstico se aplica individualmente, por lo que suelen considerarse herramientas clinicas; sin embargo, algunos son componentes sepa- rados de las principales baterias de aprovechamiento que, segtin lo que ya vimos, estén planeadas para la aplicacién colectiva. Casi todas las pruebas colectivas de diagnéstico que se han publicado abordan habilidades de lectura, matemdticas y lenguaje y ofrecen. informacién normativa y referida al contenido. Algunos ejemplos de la aproximacién se encuentran en el Test de Diagnéstico en Matemticas y el Test de Diagnéstico en lectura de Standford, asf como en los Tests de Diagnéstico de Lectura y Mateméticas de California. Los editores de las dos series también han producido instrumentos separados para la evaluacién y el diagnéstico de las habilidades de redaccién. Tanto el Programa de Evaluacién de Redaccién de Standford como el sistema CTB de Evaluacién de Re- daccién utilizan muestras directas de diversos modos de redaccién —por ejemplo, na- rraciones o descripciones— y oftecen diversas opciones de calificacién. En relacién con el uso de todos los instrumentos de diagnéstico, hay un punto que merece especial énfasis. El diagnéstico de los problemas de aprendizaje y el subsecuente programa de la ensefianza de remedio son las funciones apropiadas del especialista ca- pacitado. Ninguna baterfa de pruebas de diagnéstico es suficiente para este propésito. 16 Antes de 1982, la Prueba General se denominaba Test de Aptir y las Prucbas Tematica se conocfan como ‘Tests Avanzados. Como sucedié con el SAT, los nombres cambiaron para evitar el riesgo de una mala interpreta~ cin sobre el propésito de las pruebas Principales contextos del uso actual de las pruebas 489 El diagnéstico y el tratamiento de los problemas graves de aprendizaje requieren un in- tensivo estudio de caso clinico, de preferencia interdisciplinario, que incluya la infor- macién complementaria sobre las capacidades sensoriales y el desarrollo motor, el historial médico y de salud, el historial educativo completo, datos sobre el hogar y los antecedentes familiares y una minuciosa investigacign de las posibles dificultades emocionales. Aunque también las entrevistas y pruebas de diagnéstico colectivas pue- den ayudar a identificar a los individuos que requieren mayor atencién, el diagndstico y el tratamiento de los problemas de aprendizaje requieren de técnicas especializadas. En el capitulo 9 estudiamos algunos de esos procedimientos, y volveremos al tema también en este capitulo en relacién con la evaluacién clinica, Ciertas pruebas disefiadas para emplearse en los contextos educativos son en esencia instrumentos de pronéstico. Como tales, funcionan como tests de aptitudes mas que como pruebas de aprovechamiento; al mismo tiempo, con frecuencia su contenido se parece al de estas tiltimas, ya que lo que toman como base para la prediccién suele ser el rendimiento en un curso especffico. El ejemplo més caracteristico es el Test de Pronés- tico de Algebra de Orleans-Hanna (Orleans-Hanna Algebra Prognosis Test (Hanna, Sonnenschein y Lenke, 1983), en el que se entrega a los estudiantes un conjunto de “lecciones” breves de Algebra y se los examina de inmediato sobre lo que aprendieron. La prueba consiste entonces en muestras de trabajo en las que el aprendizaje que han de mostrar posteriormente en el curso se predice de su rendimiento en las tareas de muestra. Un ejemplo menos comin y atin experimental de la evaluacién de pronéstico se encuentra en las pruebas de lenguaje artificial desarrolladas por la Oficina de Mane- jo de Personal de los Estados Unidos y por el Departamento de la Defensa para predecir la habilidad para aprender un nuevo idioma (Diane, Brogan y McCauley, 1991). Hay otro método de evaluacién que, aun cuando tiene una connotacién totalmen- te individualizada, ha recibido gran atencién desde los afios ochenta. En esencia, la aproximaci6n sigue el procedimiento de examen-ensefianza-examen descrito como dindmica de evaluacién guiada y se asocia con la instruccién de remedio. El potencial de aprendizaje del individuo se evaliia observando qué tan bien puede aprender en una relacién individual con un profesional que cumple la triple funcién de examina- dor, instructor y clinico. Feuerstein (1979) es uno de los principales exponentes del método, y A. L. Brown, Campione, Webber y McGilly (1992) y Lidz (1987, 1997) analizan algunas aproximaciones relacionadas. Debido a su naturaleza clinica, consi- deraremos més a fondo la evaluacién dindmica en una seccién posterior del capitulo. La medicién basada en el curriculo representa otro conjunto de técnicas elaborado para unir la evaluacién con la intervencién (Deno, 1992; L. S. Fuchs, 1993; Fuchs y Deno, 1991; Shinn, 1989). Aunque algunas aproximaciones de evaluacién basadas en el curriculo pueden ser muy informales, otras incluyen medidas estandarizadas de la eje- cuci6n del estudiante en habilidades basicas como la lectura, la ortografia y los célculos aritméticos (para una comparacién de los modelos véase Shinn, Rosenfield y Knutson, 1989). El comin denominador de estas técnicas es una orientacién fuertemente con- ductual y una relacién directa con las tareas que componen el programa comdin con la educacién elemental, en contraste con la aproximacién inferencial y referida a normas de los instrumentos psicométricos tradicionales. La evaluacién basada en el curriculo se ha empleado principalmente en los ambientes de educacién especial. 490 Aplicaciones de las pruebas Evaluacién en la educacién de la nifiez temprana. En las tres tiltimas décadas se han publicado muchos instrumentos nuevos para medir el desarrollo educativo de los nifios pequefios, una actividad a cuyo monto y naturaleza han contribuido diversos factores (capitulos 9 y 12). La investigacién sobre el desarrollo cognoscitivo tempra- no, el florecimiento de programas de educacién preescolar y la difundida preocupa- cién por los efectos de las desventajas culturales sobre la capacidad del nifio para be- neficiarse de la instrucciGn escolar han desempefiado funciones importantes.!” Algu- nas de las pruebas fueron disefiadas principalmente para medir los resultados de la educaci6n en la nifiez temprana y funcionar como pruebas de aprovechamiento; otras se presentaron como instrumentos predictivos para evaluar la preparacién del nifio para la instruccién de primer grado. Sin embargo, los dos instrumentos se combinan de manera imperceptible y es comin que cada uno cumpla cualquier propésito. La maduracié para la escuela se refiere en esencia a la obtencién de las habilidades, los conocimientos, las actitudes, las motivaciones y otros rasgos conductuales apropia- dos que permiren al estudiante beneficiarse al méximo de la educacién escolar. Estos requisitos son lo que J. McV. Hunt y Kirk (1974) denominaron las “habilidades de en- trada” que el nifio necesita para enfrentarse a la situaci6n de ensefianza-aprendizaje que encontraré en el primer grado. La maduracién se relaciona con ciertos niveles m{- nimos de desarrollo fisico y sensorimotor, obtenidos por maduracién asf como el aprendizaje previo. Cada vez es mayor el énfasis que se pone en el desarrollo jeraérquico de conocimiento y habilidades, por medio del cual la adquisicién de conceptos simples preparan al nifio para el aprendizaje de conceptos mas complejos en cualquier edad. En general, las pruebas de maduraci6n se aplican al entrar a la escuela, Aunque tie- nen mucho en comtin con los tests de inteligencia para los grados de primaria, destacan més las habilidades que son importantes para aprender a leer. También se presta alguna atencién a los requisitos del pensamiento numérico y al control sensoriomotor requeti- do para aprender a escribir. Entre las funciones especificas que suelen cubrirse estén la discriminaci6n visual y auditiva, el control motor, la comprensién auditiva, el vocabu- lario, los conceptos cuantitativos y la informaci6n general. Una baterfa de maduracién de gran uso es la sexta edicién de las Pruebas de Maduracién Metropolitana (Metropoli- tan Readiness Tests, MRT; para una revisi6n de la edicion anterior, véase Mabry, 1995, y Stoner, 1995). Una aproximacién diferente a la maduracién para la escuela esté en los instrumentos que se concentran en la comprensién que tiene el nifio de conceptos rela- cionales comunes, como el Test de Conceptos Bésicos de Boehm, Revisado (Boehm Test of Basic Concepts) y la Escala de Conceptos Basicos de Bracken (Bracken Basic Concept Scale) (para revisiones, véanse Fitzmaurice y Witt, 1989; Linn, 1989; Turco, 1989; y Ysseldyke, 1989). El lector puede encontrar en Gredler (1992) un andlisis del concep- to de maduracién para la escuela junto con los temas concernientes a su evaluaci6n. Comentarios finales. El campo de la educacién se encuentra en un estado de cambio continuo que se ve reflejado en la evaluacién educativa en todo el mundo, y 17 Bt dltimo de ellos culminé en la articulacién de una meta educativa nacional que afirma que, para el afio 2000, todos los nifios de los Estados Unidos deberén empezar la escuela preparados para aprender (National Council ‘on Education Standards and Testing, 1992) Principales contextos del uso actual de las pruebas 491, es de esperar que el cambio persista y se intensifique en el futuro préximo.'® Muchos observadores concuerdan en que es necesario integrar la evaluacién y la instruccién de tal forma que estos aspectos de la empresa educativa se complementen para benefi- cio del estudiante!® (H. Gardner, 1992; Nitko, 1989). La mayorta reconoce también que tanto la evaluacién como la ensefianza pueden fnejorar con los avances tedricos y empiticos. Ningtin instrumento educativa o de evaluacién bastard por sf solo, pues ca- da una tiene sus limitaciones; mds atin, diferentes estudiantes requieren de aproxima- ciones distintas, por lo que la biisqueda de las mejoras debe continuar. EVALUACION OCUPACIONAL Es costumbre que las pruebas psicol6gicas se empleen como apoyos en la toma de de- cisiones ocupacionales, que incluyen tanto la consejeria individual como las decisio- nes institucionales concemnientes a la selecci6n y clasificacién de personal. En esta secci6n revisaremos las aplicaciones de la examinacién que atafien a la evaluacién de la calificacién ocupacional del individuo desde el punto de vista de las instituciones responsables de la seleccién, asignacién y evaluacién del personal. Las organizaciones en los sectores empresarial e industrial, en los niveles federal, estatal y local de los gobiernos y en las distintas ramas de las fuerzas armadas utilizan casi todo tipo de prueba disponible en la toma de decisiones relacionadas con el per- sonal. A menudo se han desarrollado baterias de aptitudes méltiples y tests de aptitu- des especiales para cumplir propésitos ocupacionales, como las pruebas situacionales que explicamos en el capitulo 16. También se observa un uso creciente de los inventa- rios de personalidad (capitulo 13) y de los datos biogréficos (capitulo 16). Landy y co- aboradores ofrecen una breve revisiGn del uso de las pruebas y otros instrumentos en laseleccién y clasificacién de personal; asimismo, es posible encontrar un tratamiento amplio del tema en tres libros recientes editados por Rumsey, Walker y Harris (1994), Schmitt, Borman etal. (1993) y Schuler, Farr y Smith (1993). Los principales aspec- tos del uso que se hace de las pruebas en la industria y las organizaciones se examinan de manera exhaustiva en varios capftulos del manual compilado por Dunnette y Hough (1990-1992). La Sociedad para la Psicologia Industrial y Organizacional (Society for Industrial and Organizational Psychology, SIOP, 1987) ha preparado y adop- tado un conjunto de principios para la validacién y el empleo de los procedimientos de seleccién de personal. A la vez que se interesan por la buena préctica en la eleccién, el desarrollo y la evaluacién de todos los procedimientos de seleccisn de personal, estos principios resultan sumamente pertinentes para las pruebas estandarizadas. Ademas, +8 Véase, por ejemplo, el volumen de E. L. Baker y O'Neil (1994) en el que se evalan las innovaciones tecnol6- sicas en la educacién y la capacitacién, el andlisis que R. E Snow y Lohman (1989) hacen de las implicaciones de la psicologia eognoscitiva para la medicién educativa y el trabajo de Oakland y Hambleton (1995) sobre los vances internacionales actuales en Ia evaluacién académica, 2 En efecto, se observa una répida aparicién de nuevos sistemas basados en computadoras que incorporan aspec- tos instruccionales, de evaluacién y administracién que pueden adaptarse individualmente. El programa de Aprendizaje Plus desarrollado por ETS para estudiantes adultos que necesitan mejorar sus habilidades académi- ‘cas bésicas y el programa SchoolVista de IBM para K-12 constituyen dos ejemplos del estado actual de estos ins- 2 BI timo volumen del manual, compilado por Triandis, Dunnette y Hough (1994), aborda temas de la psi logfa industrial y organizacional en diversas eulturas de todo el mundo, 492 Aplicaciones de las pruebas tanto los actuales Estdndares de la Examinacién (AERA, APA, NCME, 1985) como su revisin propuesta (véase el capitulo 1) tienen un capitulo sobre el tema de la evalua- ci6n en los medios laborales. Otra aplicacién importante de la evaluacién ocupacio- nal, cubierta también en ambas versiones del mencionado trabajo, es la certificacién y licencia de quienes se consideran calificados para la préctica de cualquiera de un ni- mero considerable de ocupaciones y profesiones.2! ‘Como en el tratamiento que hicimos de las pruebas educativas, en esta seccién nos concentraremos en los instrumentos disefiados especialmente para propésitos ocupa- cionales, ademés de los de mayor aplicacién que vimos en otros capitulos, También examinaremos algunos de los procedimientos y temas incluidos en la elaboracién y validacién de pruebas en ambientes laborales. Validaci6n de las pruebas para el trabajo Desde el punto de vista del empleado y del empleador* es obvia la importancia de que los individuos se coloquen en los trabajos para los cuales estén calificados. La coloca- cién adecuada también implica que los rasgos que sean irrelevantes para los requisitos del trabajo no afecten (favorable o desfavorablemente) las decisiones de seleccién. Si un test de habilidad mecdnica requiere un nivel de comprensién de lectura muy supe- rior al que exige el trabajo, su uso no conduce al mejor aprovechamiento del personal, para ese puesto. Ya nos resulta familiar el simple hecho psicométrico de que es necesa- rio averiguar la validez del instrumento para los usos particulares de la prueba, aunque ha adquirido nueva importancia por la preocupacién generalizada acerca de la coloca- cidn laboral de minorias que sufren de desventajas culturales y educativas (véase el capitulo 18). Una prueba no valida o una que incluya elementos que no estén relacio- nados con el trabajo considerado puede excluir de manera injusta a los miembros de grupos minoritarios que podrfan realizar ese trabajo de manera satisfactoria. Otra preocupacién pertinente, tanto para las organizaciones como para la sociedad en su conjunto, surge de la relacién demostrada entre la productividad en el trabajo y la validez de los instrumentos de seleccién (en el capftulo 6 revisamos los procedi- mientos para evaluar esta relacién y los resultados comunes). Las ganancias y pérdidas estimadas en la productividad que se asocian con los aumentos y las disminuciones de la validez de los procedimientos de seleccién de personal son considerables; en las ins- tituciones que contratan a muchos empleados, como las dependencias gubernamenta- les, el valor acumulado de estas ganancias y pérdidas es tan grande que merece una estrecha atencién. Durante muchas décadas la opinién prevaleciente en la psicologfa de personal era que las pruebas de seleccién deberfan pasar por la validacién de la escala completa contra criterios locales del desemperio en el trabajo (en los capitulos 5 y 6 estudiamos procedimientos concretos para esa validacién de predicci6n de criterio); sin embargo, 21 Anastai (1988b, pp. 468-474) hace una revisin de la examinacién en las profesiones, incluidos los exime- nes aplicados a los psiclogos para la obtencién de certiicacin y licencia. Para un examen més reciente de los temas relacionados con la validacién y el uso de exmenes de licencia y certfcacién en general, véase el niime- ro especial sobre el rema de Evaluation & the Health Professions, compilado por LaDuca (1994). Principales contextos del uso actual de las pruebas 493 cen casi todas las situaciones resulta poco realista el estudio longitudinal de validacién, de la escala completa, Incluso en condiciones inusualmente favorables, en las que se tiene acceso a grandes muestras de empleados, se hacen evidentes varias limitaciones précticas (véase, por ejemplo, Anastasi, 1972; J. T. Campbell, Crooks, Mahoney y Rock, 1973). En vista de los problemas practices para conducir una validacién local de welecltn ieversde lnesala comaplets/ee far explacedo diverse ced mientos alternativos. Procedimientos globales para la evaluacin del desempefio. Una aproxima- cidn a la seleccién de personal utiliza procedimientos de evaluacién que se parecen, tanto como sea posible, a la situacién laboral total, aunque este parecido nunca puede set completo. El puesto a prueba es lo que més se acerca a una verdadera réplica del tra- bajo; pero incluso en ese caso, la brevedad del periodo y el conocimiento de que el empleo es a prueba puede influir en la conducta del trabajador de muy diversas mane- ras, Las muestras de trabajo representan otro intento por aproximarse a la verdadera ejecucién laboral. Aqut, la tarea es realmente una parte del trabajo que debe ser reali- zado en el puesto, pero tanto la tarea como las condiciones de trabajo son iguales para todos los solicitantes. Algunas pruebas de muestras de trabajo se adaptan y correspon- den a empleos particulares. La representatividad de la muestra de trabajo y la cercanta con que la tarea duplique las condiciones laborales son consideraciones esenciales; al- gunos ejemplos conocidos son los exmenes de manejo, asf como las pruebas estanda- rizadas de habilidades para el trabajo de oficina como la mecanografia y la operacién de diversas méquinas. Algunas pruebas emplean la simulacién para reproducir las funciones realisadas en el puesto, lo que se mezcla imperceptiblemente con las muestras de trabajo. Los ejem- plos van de la operacién de un punzén en miniatura a los simuladores para ingenieros en locomotoras y pilotos de aviones. Los simuladores han sido utilizados para propési- tos de capacitacién y evaluacién en el programa espacial estadounidense de la NA- SA, asf como en diversas especialidades militares. A esta lista deben agregarse las técnicas del centro de evaluacién (véase el capftulo 16) que han sido extensamente empleadas en la evaluaci6n del personal de gerencia o administrativo (Bray, 1982; Finkle, 1983; Moses, 1985; Thornton y Byham, 1982). Una caracteristica distintiva de esta aproximacién es la inclusién de las pruebas si- tuacionales, como la de la cesta, técnica adaptada para evaluar a los ejecutivos en muchos contextos (N. Frederiksen, 1962, 1966; Shapira y Dunbar, 1980). Al simular la familiar “cesta” que se encuentra en el escritorio del administrador, la prueba propor- ciona un conjunto cuidadosamente preparado de cartas recibidas, memoranda, infor- mes, documentos por firmar y articulos similares. Antes de presentar la prueba, el examinado tiene la oportunidad de estudiar los materiales para recibir orientaci6n e in- formaci6n relacionadas con el trabajo hipotético. Durante la prueba, la tarea consiste cen manejar todos los asuntos en la cesta que el examinado haria en el trabajo; todas las acciones deben registrarse por escrito, pero pueden incluir cartas, memos, toma de decisiones, planes, directrices, informacién que debe obtenerse o transmitirse, agen- da de reuniones o cualquier otra nota. Otras técnicas del centro de evaluacién pueden emplear la representacién de papeles, la resoluci6n de problemas en grupo y los juegos 494 Aplicaciones de las pruebas de negocios. Un aspecto comin es el uso de asesores multiples y de valoraciones de los pares; muchos de los rasgos evaluados son pertinentes a la motivaci6n, las habilidades interpersonales y otras variables de personalidad. ‘Aunque dependen al menos en parte del parecido con el puesto como evidencia de que estén relacionados con el mismo, estos procedimientos globales de evaluacién del desempefio también han sido calificados, por separado o en diversas combinaciones, contra diversos criterios (véase Landy et al., 1994; Schmidt, Ones y Hunter, 1992). Anilisis de puestos y el método de elementos del trabajo. Hay un interés reciente en la aplicacién de la validaci6n de contenido a las pruebas de seleccién de personal. En todas sus formas, esta validacién depende de un anilisis minucioso y sis- tematico del puesto (McCormick, 1979). Para ser eficaz, el aniilisis del puesto debe identificar los requisitos que lo distinguen de otros, por lo que para este propésito re- sulta indtil una descripcién en términos de generalidgdes que podrfan aplicarse igualmente a la mayor parte de los puestos. Para obtener una imagen completa de las actividades del puesto, el analista debe recurrir a distintas fuentes de informacién. A. este respecto, es comtin que se consulten manuales de entrenamiento y operaci6n, re- gistros de desempefio y, particularmente, a expertos en la materia como supervisores, instructores o trabajadores experimentados en el campo. Un anilisis eficaz del puesto también debe concentrarse en los aspectos del desem- pefio que hacen una buena diferenciacién entre los mejores y los peores empleados. En su libro clésico, Aptitude Testing, Hull (1928) subrayé la importancia de estos aspectos que permiten hacer una diferenciacién en el desemapefio del trabajo. Posteriormente, el concepto lo subrayé una vez més J. C. Flanagan (1949, 1954), quien propuso una técnica de incidentes criticos que en esencia requiere descripciones reales de casos de conducta laboral que son caracteristicos de los buenos 0 los malos trabajadores. La atencién en los requisitos criticos del puesto llevé al establecimiento del méto- do de elementos del trabajo para construir pruebas y demostrar su validez de contenido (McCormick, 1979, 1983; McCormick, Jeanneret y Mecham, 1972; Primoff, 1975; Primoff y Byde, 1988). Dicho método fue desarrollado y empleado por Primoff y sus colaboradores en la Oficina de Manejo de Personal de los Estados Unidos (antes co- nocida como la Comisién de Servicio Civil de los Estados Unidos). En esencia, los elementos del trabajo son las unidades que describen los requisitos cruciales del puesto. ‘Aunque las diversas adaptaciones del método difieren en los detalles del procedimien- to, todas proporcionan la descripcién de las actividades laborales en términos de los requisitos conductuales especificos a partir de los cuales pueden formularse directamen- te los reactivos de la prucha. Las afirmaciones conductuales especificas a su vez pueden agruparse en categorias més amplias, 0 constructos, como la exactitud del célculo, la destreza de manos y brazos, la discriminacién visual o la capacidad para trabajar bajo presiGn. Existe una gran cantidad de investigacién orientada al desarrollo de una taxo- noma general del desempefio en el trabajo en términos de constructos conductuales amplios (Fleishman, 1975; Fleishman y Quaintance, 1984; Fleishman y Reilly, 1992b).. Los métodos de andlisis de puestos pueden contribuir a la facilitaci6n del uso eficaz de pruebas para muchos trabajos aparentemente diferentes, lo que ilustran instru- mentos como el Estudio de Anillsis de Puestos de Fleishman (Fleishman Job Analysis