Está en la página 1de 31
Andlisis de reactivos Tests Psicolégicos sou ANNE ANASTAST sax SUSANA URBINA a familiaridad con las bases conceptuales y las técnicas del andlisis de ftemes o reactivos, asf como el conocimiento de las otras fases del desarrollo de las prue- ’ bas, puede ayudar a los usuarios a evaluar los instrumentos publicados. El andli- sis de reactivos es también particularmente importante en la elaboracién de pruebas locales de tipo informal, como las preguntas y examenes que preparan los maestros para aplicar en el aula. Algunas de las directrices generales para la redaccion de buenos reactivos, asf como las técnicas estadisticas mAs sencillas de andlisis, pue- den mejorar los exémenes escolares y su uso ser valioso incluso con grupos pequeiivs. Los reactivos pueden analizarse de modo cualitativo, en términos de su forma y con- tenido, y cuantitativo, en funcién de sus propiedades estadisticas. El andlisis cualitativo incluye la consideracién de la validez de contenido que revisamos en el capitulo 5, ast como la evaluacién de los reactivos en términos de los procedimientos adecuados de re- daccién. El andlisis cuantitativo se refiere principalmente a la medicién de la dificultad y discriminacion del reactivo. La validez y la confiabilidad de cualquier prueba depen- den en tiltima instancia de las caracteristicas de sus reactivos, por lo que pueden incor- porarse en la prueba desde el inicio mediante el andlisis de reactivos. Las pruebas pueden mejorarse mediante la seleccién, sustitucién o revisiGn de los reactivos El anilisis de reactivos permite acortar una prueba y al mismo tiempo incrementar su validez y confiabilidad. En igualdad de circunstancias, una prueba més larga es més valida y confiable que una més corta. Al presentar la férmula de Spearman-Brown en. el capitulo 4 revisamos el efecto de alargar 0 acortar una prueba sobre el coeficiente de confiabilidad. Esos cambios estimados en la confiabilidad ocurren cuando los reacti- vos eliminados son equivalentes a los que se aceptan o retienen, o bien cuando se 172 Andlisis de reactivos 173 agregan nuevos reactivos equivalentes. Al eliminar o agregar reactivos de validez equivalente se producen cambios similares en la validez. Todos esos cambios estima- dos en la confiabilidad o valider se refieren al alargamiento 0 acortamiento de las pruebas realizado mediante una seleccién aleatoria de los reactivos, sin analizarlos; no obstante, cuando una prueba se acorta eliminando los reactivos menos validos y con- fiables, la versiGn abreviada es més valida y confable que el instrumento original. DIFICULTAD DE LOS REACTIVOS Porcentaje de aprobacién. Para la mayor parte de los propésitos de examinacién, la dificultad de un reactivo se define en términos del porcentaje (o proporcién) de personas que lo contestan correctamente. Entre mas sencillo sea el reactivo més ele- vado seré el porcentaje. Una palabra que define correctamente el 70 por ciento de la muestra de estandarizaci6n (p = .70) se considera mas fécil que una que se define ape- nas por el 15 por ciento (p = -15). Se acostumbra disponer los reactivos por orden de dificultad, de modo que el examinado empiece con los més sencillos. Este ordena- miento da al examinado confianza al aproximarse a la prueba y hace menos probable que pierda demasiado tiempo en los reactivos que estén por encima de su habilidad y descuide los mas sencillos que puede contestar correctamente. En el proceso de elaboracién de la prueba, la eleccién de los reactivos con un nivel adecuado de dificultad constituye una razén importante para medir la dificultad de los reactivos. La mayor parte de las pruebas estandarizadas de habilidad estan disefiadas para evaluar tan exactamente como sea posible el nivel concreto alcanzado por el in- dividuo; por ello, se considera a los reactivos que nadie aprueba, 0 que todos aciertan, como una especie de exceso de equipaje, puesto que ninguno proporciona informacisn sobre las diferencias individuales. Dado que esos reactivos no afectan la variabilidad de las puntuaciones, en nada contribuyen a la validez de la prueba. Entre més se acer- que a 1.00 0 a0 el grado de dificultad del reactivo, menor es la informacién diferen- cial que aporta sobre los examinados; por el contrario, la diferenciacién que puede hacer aumenta conforme su dificultad se acerca a .50. Suponga que de 100 personas 50 aprueban un reactivo y 50 lo fallan (p = .50). Este reactivo nos permite diferenciar entie cada uno de los que lo aprobaron y cada uno de los que lo fallaron. ‘Tenemos asf 50 X 50 0 2 500 comparaciones apareadas 0 piezas de informacién diferencial. Un reactivo aprobado pot el 70 por ciento ofrece 70 X 30 0 2 100 piezas de informacién; uno aprobado por 90 por ciento brinda 90 X 10 0 900; mientras que uno aprobado por todos ofrece 100 x 0.0 0. La misma relacin puede sostenerse en el caso de los reacti- vos més dificiles, que son aprobados por menos del 50 por ciento. Pareceria entonces que para obtener una diferenciacién maxima debemos elegir todos los reactivos con un grado de dificultad de .50; pero la decisién se complica por el hecho de que en la prueba los reactivos tienden a estar correlacionados, y entre més homogéneo sea el instrumento, mayores seran estas correlaciones. En el caso extremo, si todos los reactivos estuvieran perfectamente correlacionados y todos correspondie- ran al grado de dificultad de .50, las mismas 50 personas del grupo de 100 aprobarian cada reactivo. En consecuencia, una mitad de los examinados obtendria calificaciones perfectas y la otra de cero. Debido a las correlaciones entre los reactivos es mejor selec- cionar a los que muestran una dispersién moderada del grado de dificultad, pero cuyo 174 Principios técnicos y metodolégicos promedio de dificultad es de 50. Mas atin, entre més grandes sean las cortelaciones de los reactivos (0 sus correlaciones con la puntuacién total), mayor debe ser la disper- sién de la dificultad de los reactivos. Otro elemento por considerar al elegir los reactivos de dificultad apropiada tiene que ver con la probabilidad de adivinacién en los reactivos de opcién miiltiple. Para tener en consideraciGn el hecho de que cierta proporcién de examinados adivinaré la opcién correcta, se establece una proporcién deseada de respuestas correctas mayor de Jo que serfa el caso para un reactivo de respuesta libre; por ejemplo, para un reactivo con cinco opciones, la proporcién promedio de respuestas correctas serd aproximada- mente de .69 (Lord, 1952). Escalas de intervalo. El porcentaje de quienes aciertan un reactivo indica su difi- cultad en téminos de una escala ordinal, es decir, sefiala correctamente el orden de clasificacién o de dificultad relativa de los reactivos; por ejemplo, si los reactivos uno, dos y tres son contestados correctamente por 30, 20 y 10 por ciento de los casos, res- pectivamente, podemos concluir que el primer reactivo es el més facil y el tercero el més dificil. Pero no podemos inferir que la diferencia en dificultad entre los reactivos uno y dos es igual a la que existe entre los reactivos dos y tres. Iguales porcentajes de diferencias corresponden a iguales diferencias de dificultad Gnicamente en una distri- bucién rectangular en la que los casos se distribuyan uniformemente. Este problema es similar al que se enfrenta en relacién con las puntuaciones percentilares, que también se basan en porcentajes de casos. Recordaré que en el capitulo 3 vimos que las puntua- ciones percentilares no representan unidades iguales, sino que difieren en magnitud del centro a los extremos de la distribucién (figura 3.4). Si suponemos que el rasgo 0 atributo medido por cualquier reactivo tiene una dis- tribucién normal, el grado de dificultad del reactivo puede expresarse en términos de una escala de intervalo en unidades iguales luego de consultar la tabla de la curva nor- mal de frecuencias; por ejemplo, en el capitulo 3 ya vimos que en una distribucién normal aproximadamente 34 por ciento de los casos se localiza entre la media y una distancia de 16 en cualquier direccién (figura 3.3). Con esta informacion podemos examinar la figura 7.1, que muestra el grado de dificultad de un reactivo aprobado por el 84 por ciento de los casos. Como las personas de la parte superior de la distribucién son las que aprueban y las de la parte inferior las que fallan; este porcentaje incluye a la mitad superior (50 por ciento) més el 34 por ciento de los casos de la mitad infe- rior (50 + 34 = 84). De ahf que, como se muestra en la figura 7.1, el reactivo cae a 10 por debajo de la media. El reactivo aprobado por el 16 por ciento de los casos se ubica en Io por encima de la media, ya que ahf se encuentra el 16 por ciento de los casos (50 — 34 = 16). El reactivo aprobado exactamente por la mitad de los casos cae en la media, por lo que en esta escala tendrfa un valor de 0. Los reactivos de mayor dificultad tienen valores mayores positivos y los més sencillos valores menotes negativos. El {ndi- ce de dificultad correspondiente a cualquier porcentaje de aprobacién puede encon- trarse en la tabla de la curva normal de frecuencias de cualquier libro de estadistica. Escalamiento absoluto de Thurstone. Los indices de dificultad de los reactivos que se expresan como porcentajes o unidades de la curva normal se limitan al rango de habilidad cubierto por la muestra de la que fueron obtenidos; sin embargo, en algu- ani Andlisis de reactivos 175 30 to (0 Hee 8 t ft Reactive Media 1 Figura 7.1. Relacién entre el porcentaje de personas que aprueban un reactivo y el grado de dificultad del reactivo en Unidades de la Curva Normal. nos casos es necesario contar con una medida de la dificultad del reactivo que pueda aplicarse a muestras cuyo nivel de habilidad varfe; por ejemplo, en las pruebas de ren- dimienito académico resulta ventajoso poder comparar la puntuacién de un nifio en varios grados escolates sucesivos con una escala uniforme. Pero obviamente no serfa prictico escalar los reactivos apropiados para todos los grados aplicéndolos a un solo grupo, ya que algunos resultarfan demasiado dificiles y otros demasiado sencillos para casi cualquiera del grupo. Otro ejemplo se encuentra en los programas de examinacién a gran escala, como los de ingreso a la universidad, que tequieren la aplicacién de muchas formas equivalences en momentos distintos, En el capitulo 3-consideramos la forma en que este problema influye en la interpretacién de las puntuaciones totales de los instrumentos como la Prueba de Evaluacién Académica. La solucién descrita en ese caso consistié en usar un grupo estandar de referencia para definir las unidades y el origen de la escala y conver- tir luego a esta escala todas las puntuaciones subsecuentes. Esta conversién requiere la inclusién de un conjunto de reactivos ancla o de enlace en las pruebas aplicadas a cual- quier par de grupos. Los reactivos constituyen una miniprueba, ya que son representati- vos de la prueba completa en contenido y forma. Diferentes pares de grupos pueden compartir un conjunto distinto de reactivos de enlace. Cada nueva forma esta ligada a una o dos formas anteriores, que a su vez se vinculan a otras mediante una cadena de minipruebas que retroceden hasta el grupo original de referencia. Es posible emplear el mismo método general para medir la dificultad de cada reac- tivo en una escala uniforme aplicable a cualquier numero de grupos entrelazados. El procedimiento estadistico, conocido como escalamiento absoluto, fue elaborado por ‘Thurstone (1925, 1947a), y se le ha utilizado mucho en la elaboracién de pruebas, (por ejemplo, Donlon, 1984). En esencia, el procedimiento consta de dos pasos: pri- 176 Principios técnicos y metodolégicos mero, encontrar dentro de cada grupo por separado los valores escalares de los reacti- vos, para lo que se convierte el porcentaje de aprobacién de cada reactivo en distan- cias 6 de la curva normal valores z. Segundo, traducir todos estos valores escalares en los valores escalares cortespondientes para uno de los grupos, elegido como grupo estindar o de referencia. Cualquier grupo puede elegirse como referencia: el primer grupo examinado, el mas joven, uno que se encuentre en el centro del intervalo 0 cualquiera que resulte conveniente. Lo que se requiere es aplicar a dos o més grupos un conjunto comtin de reactivos ancla que sean escalados dentro de cada grupo. Los valores escalares de los mismos reactivos en los dos (o més) grupos permiten definir la relacién entre los grupos e ifttercambiar los valores de dificultad de todos los reactivos de un grupo a otro. Esta relacién se ilustra esqueméticamente en la figura 7.2, que muestra la distancia 6 (z) del mismo reactivo (i) en dos grupos adyacentes A y B. Su distancia de la media es, en consecuencia, mas pequefia en el grupo B (zp) que en el grupo A (zq). Los valores correspondientes de los grupos A y B para todos los ‘eactivos comunes proporcionan la base para la férmula de conversién mediante la cual todos los reactivos presentados en el grupo B pueden convertirse a valores de dificultad del grupo A o viceversa. Para obtener una aproximacién sencilla se grafica z del grupo A contra z del grupo B y se traza una Ifnea recta por los puntos. Esta Ifnea sirve luego para encontrar los valores za para todos los reactivos aplicados al grupo B. EI mismo procedimiento de conversién puede extenderse a cualquier niimero de grupos, trabajando con pares de grupos adyacentes que se traslapan; por ejemplo, en una prueba disefiada para aplicarse del primero al octavo grado, los valores escalares del octavo grado pueden trasladarse a la escala del séptimo grado, la escala de éste a la del sexto, y asf sucesivamente hasta el primer grado. Los grupos de grados adyacentes Grupo Grupo A My, 8 fp Reactivoi [LI)Proporcién dl grupo 8 quo apruoba ol reactive i Proporcién del grupo A que aprueba el reacti Figura 7.2, Valores zde la curva normal que muestran la dificultad relativa del mismo reactivo en los grupos A y B. scan Andlisis de reactivos 177 suelen ser lo suficientemente similares para compartir un segmento importante de la prueba con propésitos de enlazamiento o conexién; sin embargo, cualquier grado debe compartir segmentos similares con los grados inmediato superior e inmediato inferior. Distribucién de las puntuaciones de la prueba. Desde luego, la dificultad de todo el instrumento depende directamente de la dificultad de los reactivos que la componen. La distribucién de las puntuaciones totales permite hacer una revisin de la dificultad de la prueba para la poblacién para la que fue disefiada. Si la muestra de estandarizaci6n es representativa de la poblacién, en general se espera que las puntua- ciones caigan aproximadamente en una curva de distribucién normal. Sin embargo, supongamos que la curva de distribucién obtenida no es normal sino claramente asimétrica, como se observa en las partes A y B de la figura 7.3. La primera de esas distribuciones, con un conjunto de puntuaciones en el extremo inferior, indica que la prueba tiene un piso demasiado alto para el grupo considerado y que carece del niimero suficiente de reactivos sencillos para hacer una discriminacién adecuada en el extremo inferior del rango. El resultado es que las personas que normalmente se disper- sarfan en un rango considerable obtienen en la prueba una puntuacién de cero 0 cerca- naa cero, por lo que se encuentra un pico en el extremo inferior de la escala. El esquema de la figura 7.4 ilustra este conjunto artificial de puntuaciones, en la que un grupo nor- malmente distribuido produce una distribucién asimétrica en una prueba particular. La asimetrfa opuesta se observa en la parte B de la figura 73, en la que las puntuaciones se agrupan en el extremo superior, lo que indica un techo insuficiente para la prueba. La aplicacién de una prueba diseftada para la poblacién general a muestras seleccionadas de estudiantes universitarios por lo general produciré una distribucién asimétrica, en la que un ntimeto de estudiantes obtiene puntuaciones casi perfectas. Con dicha prueba es imposible medir las diferencias individuales entre los estudiantes mas capaces del gru- po. De haberse incluido en las pruebas reactivos més dificiles, es indudable que algunos individuos habrian obtenido puntuaciones mayores a lo que la prueba actual permite. Cuando Ia muestra de estandarizaci6n produce una distribucién marcadamente anormal en la prueba, su grado de dificultad suele modificarse hasta que se acerca a una curva normal. Dependiendo del tipo de desviaci6n de la normalidad que se en- ‘A. Agrupaiiento en el exiremo inferior B. Agrupamiento en el éxtremo superior de ld oscala dela eacala Figura 7.3. Curvasde distribucién asimétricas. 178 Principios técnicos y metodolégicos Gree) Figura 7.4, Asimetréa resultante de un piso insuficiente de la prueba. cuentre, pueden agregarse reactivos més sencillos o més dificiles, eliminarse 0 modifi- carse otros, cambiarlos de posicién o revisar los pesos asignados a ciertas respuestas. Estos ajustes contintian hasta que la distribuci6n se hace al menos aproximadamente normal. En estas condiciones, la puntuacién més probable, obtenida por el mayor nii- mero de personas, suele corresponder a alrededor del 50 por ciento de reactivos co- rrectos. Para quien no esté familiarizado con los métodos de elaboracién de pruebas psicol6gicas, una puntuacién de 50 por ciento puede parecer escandalosamente baja. En ocasiones se objeta, sobre esa base, que el examinador ha establecido un criterio demasiado bajo de aprobaci6n o bien se infiere que el grupo examinado es particular- mente malo. Por supuesto, ambas conclusiones carecen de sentido cuando se tienen en cuenta los proyectos seguidos en la elaboracién de las pruebas psicolégicas, que se construyen deliberadamente y se modifican de modo especifico para producir una puntuacién promedio de alrededor de 50 por ciento de aciertos. Sélo asf puede ofrecer la prueba la maxima diferenciacién entre individuos a todos los niveles de habilidad. Con una media de aproximadamente 50 por ciento de reactivos correctos, hay una oportunidad maxima de obtener una distribucién normal, en la que las puntuaciones de los individuos se dispersen entre ambos extremos.! " Bn realidad, la curva normal permite hacer una discriminacién més fina en los extremos que en el centro dela «scala. Una discriminacin igual en todas los puntos de laescala requerir‘a una distribucién rectangulay; sin em- ‘argo, si después se pretende realizar andlisis estadisticos de las puntuaciones la curva normal tiene una venta, ya que muchas técnicas estadisticas syponen una normalidad aproximada de la distribucign. Por ésta y otras 220° ‘es es probable que durante algtin tiempo la mayor parte de las pruebas disefiadas para uso general sigan el patron. dela curva normal. Andlisis de reactivos 179 Relaci6n entre la dificultad del reactivo y los propésitos del examen. En general, las pruebas psicolégicas estandarizadas se disefian para permitir la maxima di ferenciacién entre individuos de todos los niveles. Hasta ahora, nuestra revision de la dificultad de los reactivos se ha dirigido a esta clase de instrumento; sin embargo, al elaborar pruebas para propésitos especiales, tanto la elecci6n del grado adecuado de dificultad como la forma éptima de la distribucién de las puntuaciones dependen de la disctiminacién buscada. En consecuencia, las pruebas disefiadas con propésitos de elecci6n deberfan emmplear teactivos cuyos valores de dificultad se acerquen a la razén de seleccién deseada; por ejemplo, para seleccionar al 20 por ciento superior de los casos, los mejores reactivos son los que se agrupan alrededor de una p de .20 (o algo mayor para tener en cuenta la adivinacién). Como en una prueba de eleccién no se requiere diferenciar dentro de los grupos aceptados o rechazados, el uso mis efectivo del tiempo de examinacién se obtiene cuando los reactivos se agrupan cerca del punto xitico de corte. De lo anterior se deriva, por ejemplo, que si quiere usarse una prueba para clasificar a los solicitantes de becas de una poblacién universitaria, la dificultad de los reactivos debe ser considerablemente mayor que el promedio para esa pobla- cién. De modo similar, si debe seleccionarse a personas de lento aprendizaje para un programa de remedio, los reactivos més deseables serfan los que son mds sencillos que el promedio. Las pruebas de habilidad ofrecen otro ejemplo de la eleccién de los grados de difi- cultad. Recordara (capitulo 3) que las pruebes de habilidad a menudo se asocian con la examinacion referida al dominio. Si la prueba pretende averiguar si un individuo ha dominado los elementos basicos de una habilidad o si ha adquirido el conocimien- to requerido para avanzar en un programa de aprendizaje, los reactivos deberfan en- contrarse a un nivel p de .80 0 .90. En esas condiciones, puede esperarse que la mayorfa de los examinados complete correctamente casi todos los reactivos. Ast, los reactivos muy sencillos (incluso los que se aprueban en todos los casos), que las prue- bas estandarizadas comunes eliminan como no discriminativos, son los mismos que se incluirfan en una prueba de destreza. De modo similar, una preevaluacién realizada antes de una unidad de aprendizaje para determinar si alguno de los estudiantes adqui- 1i6 ya la habilidad que pretende ensefiarse, producird porcentajes muy bajos de apro- bacién para cada reactivo. En este caso, no se deberfan eliminar los reactivos con, valores p muy bajos o incluso de cero, ya que revelan lo que queda por ser aprendido. Esos ejemplos hacen evidente que el grado apropiado de dificultad de los reactivos depende del propésito de la prueba. Aunque en la mayor parte de las situaciones de examinacién los reactivos que se agrupan alrededor de una dificultad media (.50) re- ditéan la maxima informacién sobre el nivel de desempefio de cada individuo, las de- cisiones sobre la dificultad de los reactivos no pueden tomarse de manera rutinaria, sin. conocer cémo se emplearén las puntuaciones de la prueba. DISCRIMINACION DEL REACTIVO Eleccién del criterio. La capacidad discriminativa del reactivo se refiere al grado en que éste diferencia correctamente entre los examinados en relacién con la conduc- ta que la prueba pretende medit. Cuando debe evaluarse toda la prueba mediante la va- 180 Principios técnicos y metodolégicos lidaci6n relacionada con el criterio, es posible evaluar y seleccionar los reactivos sobre Ta base de su relaci6n con el mismo criterio externo. Este procedimiento se ha emplea- do en el desarrollo de algunos tests de personalidad y de interés que estudiaremos en los capitulos 13 y 14. También es el método que suele seguirse al elegir los reactivos que han de incluirse en los inventarios biograficos, que por lo general cubren una coleccién heterogénea de antecedentes del individuo. En estos instrumentos no existe una base previa para calificar una respuesta como correcta o incorrecta 0 para asignar un peso de calificacién, salvo por comparacisn con la posicién del criterio de quienes dan esa res- puesta. De un banco inicial de teactivos, se conservan los que mejor distinguen entre las personas clasificadas en diferentes categorfas del criterio, como ocupaciones o sfn- dromes psiquistricos. Con frecuencia, los grupos de criterio constan de éxitos y fracasos en un curso académico, un programa de entrenamiento o una clase de trabajo. En las pruebas de habilidad o destreza referidas al dominio que explicamos en el ca- pitulo 3, los reactivos pueden evaluarse al comparar el desempefio de individuos que varfan en la cantidad de educacion en las funciones relevantes (Panell y Laabs, 1979; L.A. Shepard, 1984). Por lo general se compara la proporcién de personas que dan la respuesta correcta en un grupo antes y después de la instruccién. Como esas pruebas se utilizan para determinar si los individuos han alcanzado un nivel especifico de destre- za, las diferencias individuales en la ejecucién global en una sola ocasién disminuyen al minimo, por lo que el anélisis interno del reactivo no sera significativo y se haré ne- cesario contar con un criterio externo, como la cantidad de educacién televante. En otras pruebas de desempefio, como es el caso de muchos tests de aptitud, suele investigarse la capacidad discriminativa del reactivo en contraste con la puntuacién total en el instrumento mismo.’ En las pruebas de aprovechamiento académico, gene- ralmente no se dispone de un criterio externo, mientras que en los tests de aptitud, el énfasis en la validaci6n del constructo hace de la puntuacién total un criterio apro- piado para la seleccién de reactivos. En las etapas iniciales de la elaboracién del test, la puntuacién total constituye la primera aproximacién a una medida de la habilidad, atributo 0 constructo investigado. Examinemos ademés las implicaciones de elegir los reactivos sobre la base de un cri- terio externo y de la puntuacién total de la prueba. El primero tiende a elevar al méxi- mo Ia validez del instrumento con respecto al criterio extemo, mientras que el segundo aumenta la consistencia interna u homogeneidad de la prueba. En algunas condiciones pueden evar a resultados opuestos, y los reactivos que se eligen sobre la base de la va- lidez externa son los mismos que se rechazan en funcién de la consistencia interna. Su- pongamos que la forma preliminar de una prueba de aptitud académica consta de 100 reactivos de aritmética y 50 de vocabulario. Para seleccionar los teactivos del banco inicial por el método de consistencia interna, se calcula algin indice de acuerdo entre la ejecucién en cada reactivo y la puntuacién total en los 150 reactivos. Es evidente que dicho fndice tender a ser mayor para los reactivos de aritmética que para los de vocabulatio, ya que la puntuacién total se basa en el doble de reactivos de aritinética. Las corclaciones entre reactive y prueha estarin algo infladas por el comiin espectio y la varianza de ertor en el reactivo y Te prusba de que es parte. Se dspone de férmulas para cortepr este efecto de parte-todo (Guilford y Fruchter, 1978, pp. 165-167) Andlisis de reactivos 181 Si se deseara conservar en la forma final de la prueba a los 75 “mejores” reactivos, es probable que en su mayor parte resulten ser problemas aritméticos; sin embargo, en tér- minos del criterio externo de aprovechamiento académico, los reactivos de vocabula- rio podrfan ser predictores més vailidos que los de aritmética, en cuyo caso la validez de Ta prueba habré disminuido en lugar de aumentar gracias al andlisis de reactivos. La préctica de rechazar los reactivos que tienen baja correlacién con la puntuacién total permite purificar u homogeneizar la prueba, ya que al aplicarla se conservan los reactivos con alto promedio de intercorrelaciones. Este método de seleccién de reac- tivos s6lo incrementaré la validez de la prueba cuando el banco original de reactivos mida un solo atributo y éste se encuentre presente en el criterio 0 constructo que se pretende evaluar; no obstante, algunas pruebas miden una combinacién de atributos requerida por un criterio complejo, en cuyo caso purificar la prueba puede reducir la cobertura del criterio y disminuir por ende la validez. La seleccién de reactivos que aumenten la validez de la prueba relacionada con el ctiterio puede compararse con la seleccién de pruebas que produzcan la mayor validez para una baterfa. Recordaré (capitulo 6) que el instrumento que més contribuye a la validez de la baterfa es el que tiene la mayor correlacién con el criterio y la menor co- rrelacién con las otras pruebas de la bateria. Si se aplica este principio a la seleccién de reactivos, significa que los mais satisfactorios son los que tienen mayor validez externa y ‘menor coeficiente de consistencia interna, de modo que un reactivo que tiene una ele- vada correlacién con el criterio externo pero una correlacién relativamente baja con la puntuaci6n total sera preferible a uno que correlacione alto tanto con el criterio como con la puntuacién obtenida en la prueba, ya que es de suponer que el primero mide un aspecto del criterio que no cubre adecuadamente el resto del instrumento. Parecerfa que los reactivos pueden seleccionarse con los mismos métodos emplea- dos para elegir las pruebas que han de incluirse en una baterfa. As{, cada reactivo de- berfa correlacionarse con el criterio externo y con el resto de los teactivos, y los més adecuados serfan ponderados mediante una ecuacién de regresi6n; sin embargo, dicho procedimiento no es factible ni tedricamente aceptable, no slo por lo agobiante de los calculos, sino porque, ademés, las correlaciones entre reactivos también estén su- jetas a una gran fluctuaci6n del muestreo y los valores resultantes de la regresién se- rfan demasiado inestables para ofrecer una base satisfactoria para la seleccién de reactivos, Pero una objeci6n atin més importante es que el contenido de la prueba se- 14 demasiado heterogéneo para permitir cualquier interpretacién significativa de su puntuacién. Tanto la validez externa como la consistencia interna son objetivos importantes en la elaboraci6n de la prueba, de cuya naturaleza y propésito depende la relativa im- portancia que se conceda a cada uno. Para muchas finalidades, un compromiso satis- factorio consiste en distribuir los reactivos relativamente homogéneos en pruebas 0 subpruebas separadas, cada una de las cuales cubre un aspecto distinto del criterio ex- terno. De este modo se obtiene una mayor cobertura al aplicar diversos instrumen- tos, de los que cada uno produce una puntuacién relativamente clara, en lugar de la heterogeneidad de una sola prueba. Con tal procedimiento, los reactivos con un bajo {indice de consistencia interna no se eliminan, sino que se separan, lo que permite obte- ner una elevada consistencia intema dentro de cada subprueba o grupo de reactivos. 182 Principio técnicos y metodol6gicos Indices estadisticos de la capacidad discriminativa del reactivo. Dado que las respuestas a los reactivos generalmente se registran como correctas o incorrectas, la medici6n de la discriminacién del reactivo suele incluir una variable dicotémica (el reactivo) y una variable continua (el criterio). En ciertas situaciones, también el cri- terio puede ser dicotémico (como graduarse o no de la universidad o éxito contra fra- caso laboral) 0 bien puede ser dicotomizado si se pretende hacer un andlisis. En la elaboracién de pruebas se han desarrollado y empleado més de 50 fndices di- ferentes de la capacidad discriminativa del reactivo. Una diferencia entre ellos tiene que ver con su aplicabilidad a medidas dicotémicas o continuas. Ademés, algunos su- ponen que entre los que pueden aplicarse a las variables dicotémicas existe una distri- bucién normal y continua del atributo sobre el que se impuso de manera artificial la dicotomfa, mientras que otros presumen que ésta existe verdaderamente. Otra dife- rencia tiene que ver con la relacién entre la dificultad del reactivo y la discrimina- cién. Algunos indices miden la discriminacién del reactivo independientemente de su dificultad, en tanto que otros producen un mayor indice de discriminaci6n para los reactivos prOximos al grado de dificultad de .50 que para aquellos que se encuentran en los extremos del continuo de dificultad. A pesar de las diferencias en el procedimiento y las suposiciones, la mayor parte de los indices de la capacidad discriminativa del reactivo arrojan resultados muy similares (Oosterhof, 1976). Aunque el valor numérico de los indices puede diferir, los reactivos que se conservan y los que se rechazan sobre la base de diferentes indices de discrimina- cién son en gran medida los mismos; de hecho, la variacién en los datos de la capaci- dad discriminativa del reactivo de una a otra muestra generalmente es mayor que entre diferentes métodos. Uso de grupos extremos. Una prictica comtin en el anilisis de reactivos es comparar la proporcién de casos que aprueba un reactivo en grupos de criterio con- trastantes. Cuando el criterio se mide sobre una escala continua, como sucede con las calificaciones escolares, las calificaciones laborales, los registros de produccién o las puntuaciones totales en la prueba, se seleccionan los grupos de criterio superior (S) € inferior (1) de los extremos de la distribucién. Aunque la diferenciacién seré obvia- mente mayor entre més extremos sean los grupos, el uso de grupos muy extremos (co- mo el 10 pot ciento superior e inferior) puede reducir la confiabilidad de los resultados por el pequeio niimero de casos utilizado. En una distribucién normal, el punto épti- mo en el que las dos condiciones se equilibran se encuentra en el 27 por ciento supe- rior e inferior (T. L. Kelley, 1939). Cuando la distribucién es més plana que la curva normal, el porcentaje 6ptimo es ligeramente mayor al 27 y se aproxima al 33 por cien- to (Cureton, 1957b). Con los grupos pequefios, como los que se encuentran en un sa- Ién de clases, el error estadistico del muestreo es tan grande que sdlo es posible obtener resultados aproximados; por lo tanto, en estas condiciones no es necesario preocuparse por el porcentaje exacto de casos en los dos grupos de contraste. Cualquier mimero conveniente entre 25 y 33 por ciento resultard adecuado. Con las muéstras grandes y normalmente distribuidas que se emplean en el desarro- Ilo de las pruebas estandarizadas, se acostumbra trabajar con el 27 por ciento superior ¢ inferior de la distribucién del criterio. Muchas de las tablas y Abacos preparados para facilitar el c4lculo de los indices de la capacidad discriminativa del reactivo se basan en la suposicién de que se ha seguido la “regla del 27”. Conforme ha aumentado la dis- Andlisis de reactivos 183 ponibilidad de computadoras de alta velocidad, es probable que muchos de los proce- dimientos que se desarrollaron para facilitar el andlisis de reactivos sean reemplazados gradualmente por métodos més exactos y sofisticados. Con los equipos de cémputo, es mejor analizar los resultados de la muestra entera en lugar de trabajar con los extre. ‘mos superior e inferior. Andlisis simple con grupos pequefios. Dado que el anilisis de reactivos se rea- liza a menudo con grupos pequefios, como los estudiantes que presentan un examen en el sal6n de clases, consideremos primero un sencillo procedimiento especialmente adecuado para esta situaci6n. Supongamos que en un grupo de 60 estudiantes hemos clegido a los 20 (33 por ciento) con la mejor puntuaci6n y a los 20 con la més baja, Ahora tenemos tres grupos de exmenes que podemos llamar superior (S), medio (M) ¢ inferior (1). Primero necesitamos contar el ntimero de respuestas correctas dadas a cada reactivo por los estudiantes de los tres grupos. Eso puede hacerse més facilmente si en una lista se coloca el nimero del reactivo en una columna y preparamos otras tres columnas con el encabezado 8, Me I. Al llegar al examen de cada estudiante, bas- ta anotar una marca al lado de cada reactivo que haya contestado correctamente. El procedimiento se repite con cada uno de los 20 examenes del grupo S, luego con los 20 exémenes del grupo M y con los 20 del grupo I. Ahora podemos contar las marcas y registrar los torales de cada grupo, como se muestra en la tabla 7.1, en la que se pre- sentan a manera de ejemplo los siete primeros reactivos. Es posible obtener un indice aproximado del valor discriminativo de cada reactivo al restar el ntimero de respuestas correctas al reactivo en el grupo I del ntimero de aciertos en el grupo S. Esas diferen- cias S — I se presentan en la iiltima columna de la tabla 7.1. Con los mismos datos puede obtenerse una medida del indice de la dificultad del reactivo sumando el ntime- ro de personas que aprobaron cada reactivo en los tres grupos de criterio (S+M +1). Procedimiento simple de anilisis de reactivos: nimero de Personas que contestan correctamente en cada grupo de criterio s M 1 Dificultad Discriminacién Reactivo (20) (20) (20) (S+M+D (s-1) 1 15 9 a al 8 ods 20 ER 20S 16. 56° ‘ pAee ed 119 18 9 46 10 4 ele: i 16 a ay 68 See ae 13 i S98 oO 6 ras 14 Dug ae a me a Sued oo oe 5 * Reactivos elegidos para revisién, 184. Principios técnicos y metodolégicos El andlisis de la tabla 7.1 muestra la identificacién de cuatro reactivos cuestiona- bles que deben recibir mayor consideracién o revisarse en clase. Dos reactivos, el se- gundo y el séptimo, estén sefialados porque uno parece ser demasiado sencillo, ya que lo contestaron 56 de 60 estudiantes, y el otro demasiado dificil, pues sdlo lo aprobaron cinco. Los reactivos cuarto y quinto, aunque con un grado de dificultad satisfactorio, muestran un valor discriminativo negativo y cero respectivamente. Cuando se compa. ran grupos de este tamafio también es posible considerar en esta categoria a cualquier teactivo con una pequefia diferencia positiva S ~ I, de aproximadamente tres o me- nos. Con grupos mayores podemos esperar que ocurran diferencias mas grandes por azar en un reactivo no disctiminativo. El propésito del andlisis de reactivos en una prueba construida por un maestro consiste en identificar las deficiencias en la prueba o en la ensefianza. Para diagnosti- car el problema a menudo es suficiente revisar con el grupo los reactivos cuestiona- bles. Si la redaccién del reactivo fue errénea, se puede revisar o eliminar en exdmenes posteriores; sin embargo, el andlisis puede demostrar que el reactivo era satisfactorio, pe- ro que el punto o tema examinado no se entendié adecuadamente, en cuyo caso el tema puede repasarse o aclararse. Al reducir la fuente de dificultad a menudo es itil realizar un anilisis complementario, como se muestra en la figura 7.2, al menos con algunos de los reactivos elegidos para revisién. Esa tabulacién permite encontrar el ntimero de estu- diantes en los grupos S e I que eligen cada opcidn al contestar a reactivos particulares. ‘Aunque el segundo reactivo se incluyé en la tabla 7.2, es poco mas de lo que pode- ‘mos saber al tabular Ia frecuencia de cada opcidn incorrecta, ya que sélo cuatro perso- nas del grupo I y ninguna del grupo S eligieron respuestas err6neas; no obstante, la revisi6n del reactivo con los estudiantes puede ayudar a determinar si en conjunto és- te era demasiado sencillo y por ende de poco valor intrinseco, si algtin defecto en su | Andlisis de la respuesta a reactivos individuales Opciones de respuesta Reactivo Grupo ‘Nota: Las opciones cortectas se presentan en negritas, Andlisis de reactivos 185 redacci6n les revelé la respuesta correcta o si se trata de un buen reactivo sobre un punto o tema bien ensefiado y recordado. En el primer caso, probablemente se elimi- narfa, en el segundo se revisarfa y en el tercero se mantendrfa sin cambio. Los datos sobre el cuarto reactivo indican que la tercera opcién tiene algunas impli- caciones no previstas que llevaron a nueve de los mejores estudiantes a preferitla sobre la opcién correcta. Ese punto podria aclararse pidiéndoles que expliquen por qué eligie- ron la opcién. En el quinto item, el problema parece estribar en la redaccién del cuerpo del reactivo 0 de la opcin correcta, ya que los estudiantes que fallaton se distribuyeron. de manera uniforme entre las cuatro opciones equivocadas. El séptimo reactivo es inu- sualmente dificil, ya que se equivocaron 15 sujetos del grupo S y todos los del grupo I. La ligera agrupacién de respuestas en la opcién incorrecta tres indica que resulta super- ficialmente atractiva, en especial para los més susceptibles al engafio. De igual modo, el hecho de que ningdn miembro del grupo I haya elegido la opcién correcta (la uno) in- dica que estaba planteada de tal manera que tenia una apariencia errdnea, al menos pa- ra los poco informados. Por supuesto, estos dos atributos son el ideal de los buenos teactivos para todo examen. La revisién dentro del grupo puede mostrar que el séptimo es un buen reactivo que aborda un tema que pocos individuos aprendieron realmente. El indice de discriminacién. Si se expresan como porcentajes los mimeros de personas que aprueban cada reactivo en los grupos S eI, la diferencia entre ambos ofrece un indi- ce de la capacidad discriminativa del reactivo que puede interpretarse independiente- mente del tamafio de la muestra particular de la que se obtuvo. Este indice ha sido des> ctito en repetidas ocasiones en la bibliograffa psicométrica (véase, por ejemplo, Ebel, 1979; A. P. Johnson, 1951; Oosterhof, 1976) y ha sido designado como $ — I, SII, SID 0 simplemente D. Se ha demostrado que, pese a su simplicidad, concuerda estrechamente con otras medidas més elaboradas de la capacidad discriminativa del reactivo (Engel- hart, 1965; Oosterhof, 1976). El célculo de D puede ilustrarse si se consulta los datos de la tabla 7.1. Primero se convierte en porcentaje el niimero de personas que aprueba cada reactivo en los grupos S e I. La diferencia entre los dos porcentajes es el indice de discri- minacién (D) que se muestra en la tabla 7.3, que puede encontrarse entre +100 y -100. Si todos los miembros del grupo S y ninguno del grupo I aprueban un reactivo, D es igual a 100. Por el contrario, si todos los sujetos del grupo I contestan correctamente el reactivo mientras que ninguno del grupo S lo aprueba, D es igual a 100. Si los porcen- tajes de quienes aprueban un reactivo en ambos grupos son iguales, D es igual a cero. Como sucede con los diversos indices de la capacidad discriminativa del reactivo, los valores de D no son independientes de la dificultad del reactivo, pero se inclinan por los grados intermedios de dificultad. La tabla 7.4 muestra el valor m4ximo posible de D para teactivos con diferentes porcentajes de respuestas correctas. Si 100 0 0 por ciento de la muestra total aprueba un reactivo, no puede haber diferencias en el por- centaje de aprobacién en los grupos S e I, por lo que D es igual a cero, En el otro ex- tremo, si 50 por ciento aprueba un reactivo, es posible que lo hayan aprobado todos los casos del grupo S y ninguno de los del grupo I, lo que arrojarfa una D igual a 100 (100 — 0 = 100). Si lo aprueba el 70 por ciento, el valor maximo de D se ilustra de la siguiente manera: (S) 50/50 =100 por ciento; (1) 20/50 = 40 por ciento; D = 100 - 40 = 60. Debe recordarse que, para la mayor parte de los propésitos de examinacién, se prefieren los reactivos més préximos al grado de dificultad del 50 por ciento, por lo 186 Principios técnicos y metodolégicos | Tabla 7.3 : Calculo del indice de discriminacién Porcentaje de aprobacién Indice de Reactivo pate os Grupo superior Grupo inferior discriminacién (D) Nota: Datos tomaidos de la tabla 7.1. que los indices de discriminaci6n que favorecen este grado de dificultad suelen ser apropiados para la selecci6n de reactivos. Coeficiente phi. Muchos indices de discriminaci6n de reactivos informan de la telaci6n entre el reactivo y el criterio de acuerdo con un coeficiente de correlacién; uno de ellos es el coeficiente phi (¢). @ se calcula sobre una tabla cuddruple y se basa en la proporcién de casos que aprueban y fallan un reactivo en los grupos criterios Se I. Como todos los coeficientes de correlacién, los valores se encuentran entre +1.00 y —1.00. El coeficiente @ supone que existe una genuina dicotomia entre la respuesta al reactivo y la variable de criterio. En consecuencia, s6lo puede aplicarse a las condicio- nes dicotémicas en las que se obtuvo y no puede generalizarse a cualquier relacién subyacente entre los atributos medidos y el criterio. Como el indice D, esté sesgado hacia el nivel medio de dificultad, es decir, produce las mayores correlaciones posibles para las dicotomas cercanas a la fraccién 50-50. El nivel de significancia del coeficiente ¢ puede calcularse fécilmente mediante la relaci6n de @ con la chi cuadrada y.la raz6n de la curva normal. Al aplicar esta dltima (om Relacién del valor maximo de D con la dificultad del reactivo Porcentaje de aprobacién del reactivo Valor maximo de D Andlisis de reactivos 187 podemos identificar el valor minimo de $ que puede ser estadfsticamente significative en los niveles de .05 0 .01 mediante las siguientes férmulas: En estas f6rmulas, N representa el mimero total de casos en ambos grupos de criterio. Asst, si hay 50 casos en el grupo S y 50 en el grupo I, N serfa igual 2 100 y el minimo @ significativo a nivel de .05 serfa 1.96 + VI00 = .196. Cualquier reactivo cuyo @aleance © supere .196 estaré correlacionado con el criterio con un nivel de significancia de .05. Correlacién biserial. Como dltimo ejemplo de una medida de uso comtin de la capacidad discriminativa de un reactivo, consideremos la correlacién biserial (ri), que difiere de ¢ en dos aspectos importantes. Primero, fyi, supone una distribucion continua y normal de los atributos que subyacen tanto a la respuesta del reactivo dico- t6mico como a la variable de criterio. Segundo, produce una medida de la relacién entre reactivo y ctiterio que es independiente de la dificultad del reactivo. El célculo de la correlaci6n biserial emplea la media de las puntuaciones de crite- rio de quienes aprueban y de quienes fallan el reactivo, la DE de todo el grupo de cri- terio, y la proporcién de casos de los que aprueban y los que fallan el reactivo. En casi cualquier libro de estadistica se proporcionan las férmulas para calcular ry, (por ejemplo, Guilford y Fruchter, 1978, pp. 304-306). El error estandar de ny, puede caleu- larse con una sencilla f6rmula que utiliza los términos ya presentes en la formula de la propia correlacién. Debe agregarse que, cuando se tiene acceso a las computadoras, é- tas oftecen una forma directa de obtener tanto las correlaciones biseriales como sus errores estdndares. TEORIA DE RESPUESTA AL iTEM Regresion item-test. Tanto la dificultad como la capacidad discriminativa de un reactivo pueden representarse simulténeamente en un diagtama de regresi6n ftem- test. Como ejemplo, consideremos una prueba hipotética de 12 reactivos que requie- ren respuestas cortas del tipo de respuesta libre, como las pruebas de vocabulario de las escalas de inteligencia de aplicacién individual. La tabla 7.5 presenta la propor- ion de personas en cada nivel de puntuacién total que contest correctamente a ca- da uno de los dos reactivos. Esos datos se grafican en la figura 7.5. El grado de dificultad de cada reactivo puede definirse como su umbral del 50 por ciento, como se acostumbra al establecer los umbrales sensoriales en la psicofisica. Fs- to se ha usado en la figura 7.5 al trazar perpendiculares desde los puntos en los que las curvas de ambos reactivos cruzan la linea del 50 por ciento al eje horizontal, sobre el que se localizan las puntuaciones totales correspondientes. Se demuestra as{ que las personas con una calificaci6n aproximada de 8 tienen una oportunidad 50-50 de 188 Principios técnicos y metodolégicos | - Datos hipotéticos que ilustran la regresién item-test Proporcién de acierto Puntuacién total Reactive 7 ‘Reactive 13 Were ee Boe aprobar el reactivo siete, igual que las personas con una calificacién aproximada de 10 en el caso del reactivo 13. La pendiente de la curva indica la capacidad discriminativa de cada reactivo: entre mayor sea la pendiente mayor seré la-correlacién de la ejecu- cién en el reactivo con la puntuacién total y mayor el indice disctiminativo. A simple vista, la capacidad discriminativa de los reactivos siete y 13 parece ser aproximada- mente similar. Un anilisis de las regresiones reactivo-puntuacién, como las ilustradas en la figura 7.5, nos permite ver qué tan eficaz es la funcién de un reactivo. sos diagramas no s6lo combinan la informacién respecto a la dificultad y capacidad discriminativa del reacti- vo, sino que también presentan una imagen de la relacién entre la ejecucién en el reactivo y la puntuaci6n total; por ejemplo, el reactivo siete muestra una inversién en la medida en que en este caso se encontré una mayor proporcién de respuestas correc tas entre las personas con puntuacién de 10 que entre las personas con calificacién de 11. Si los resultados se basaran en una muestra pequefia, la inversién podrfa ser insigni- ficante, pero ilustra la informacién que el andlisis de reactivo puede traer a la luz. Sin embargo, cuando se pretende hacer un tratamiento matemético, una evaluacién precisa y una seleccién de reactivos, el diagrama resulta demasiado limitado. La apro- ximacién sirvié como punto de partida para el desarrollo de formas complejas de and- lisis de reactivos, que empezaron a llamar la atenciGn en los setenta y a inicios de los ochenta. Una raz6n de su popularidad es sin duda la disponibilidad cada vez mayor de computadoras de alta velocidad, sin las cuales resultarfan imposibles las tareas de calcu- o requeridas por esos andlisis. Con la preparacién de programas de c6mputo para los modelos propuestos de andlisis de reactivos, se hacen posibles las aplicaciones précticas de esos procedimientos més refinados. Estudiaremos las principales caracterfsticas de esta aproximaci6n en las siguientes secciones. Andlisis de reactivos 189 Proporcién de respuestas correctas Figura 7.5. Regresién ftem-test para los reactivos siete y 13. (Datos tomadlos de la tabla 7.5.) Teorfa de respuesta al item (TRI): caracterfsticas basicas.? La aproxima- cién matematica considerada como la teorfa de respuesta al item, también se conoce como teorfa de rasgos latentes y teorfa de la curva caracterfstica del reactivo (CCR). Una peculiaridad de esta aproximacién es que relaciona la ejecuci6n en el reactivo con la cantidad estimada del “rasgo latente” en el examinado, simbolizado por la letra gtiega @ (theta). Tal como se usa en este contexto, un “rasgo latente” se refiere a un constructo estadistico, por lo que no se implica la existencia independiente de una en- tidad psicolégica o fisiolégica. En las pruebas cognoscitivas, generalmente se considera que el‘rasgo latente es la habilidad medida por la prueba. La puntuacién total en la prueba a menudo se toma como una estimaci6n de esa habilidad. » Para una revisién clara de la metodologia de la TRI y sus aplicaciones, véase Hambleton etal. (1991). Puede en- Mientras se resuelven las diferencias tedricas y metodolégicas, se acude, no obstante, cada vez més a los procedimientos TRI en el desarrollo de pruebas pricticas. Las técni- cas de la TRI se incorporan répidamente a las pruebas recién elaboradas y a las edicio- nes revisadas de baterfas conocidas que ofrecen las editoriales comerciales. Algunos ejemplos son los Tests de Aprovecamiento de California (California Achievement Tests) y los Tests Comprensivos de Habilidades Bésicas (Comprehensive Tests of Basic Skills), ast como las Escalas de Habilidad Diferencial (Differential Ability Scales) que estudiamos en el capitulo 8. La TRI es particularmente apropiada para ciertos tipos de examinacién de reciente aparicién, como los Tests Adaptados a las Computadoras, TAC (Compu- tarized Adaptive Testing, CAT) que veremos en el capitulo 10. En esa forma de evalua- cién, el examinado puede responder a un conjunto diferente de reactivos, pero todos se califican sobre una escala uniforme (Wainer et al., 1990). Una aplicacién importante 5 Un ejemplo norte es el programa ASCAL para ls calibracionesloftieas TRI para dos y tres pardmervosdisti- buido por Assesament Systems Corporation (cuya dieccién aparece en el apéndice B). También es de provecho el reciente desarollo de a teorfa lineal generalizada de respuesta al reactivo (TLGRR), de la que pueden derivasedi- ferentes modelos TRI que pueden adaprase a dstntos formatas de reactives (Mellenbergh, 1994) Andlisis de reactivos 193 ‘Aptitud Vocacional de las Fuerzas Armadas (Wiskoff y Schratz, 1989). ANALISIS DE REACTIVOS DE LAS PRUEBAS DE VELOCIDAD Sea la velocidad importante 0 no para la funcién medida, los indices calculados de una prueba de'velocidad pueden ser engafiosos. Salvo por los reactivos que todos 0 ca- si todos los examinados tienen el tiempo de intentar, los indices del reactivo que se encuentran en una prueba de velocidad reflejan la posicién del reactivo en la prueba més que su dificultad o capacidad discriminativa. Los reactivos que aparecen al final de la prueba serén aprobados por un porcentaje relativamente pequefio de la muestra porque sélo unas cuantas personas tendrdn el tiempo de llegar a esos reactivos, Inde- pendientemente de lo sencillo que puedan ser, ¢ incluso si lo que preguntan son nom- bres, si se presentan al final de una prueba de velocidad parecerdn dificiles yel porcentaje de personas que los resuelva seré muy bajo. De igual modo, los indices de la capacidad discriminativa del reactivo tienden a so- brestimarse en los reactivos que no han sido alcanzados por todos los examinados. Co- mo los individuos mas diestros suelen trabajar més répido, es probable que lleguen a uno de los tiltimos reactivos en la prueba de velocidad, por lo que, independiente- mente de la naturaleza del reactivo, si se le presenta al final es posible obtener alguna correlaci6n entre el reactivo y el criterio. Para evitar algunos de esos problemas, podemos limitar el andlisis de cada reactivo a las personas que lo alcanzaron, pero ésta no serd una solucién del todo satisfactoria a menos que el ntimero de sujetos que no logren llegar al reactivo sea relativamente pe- quefio. Dicho procedimiento supone el uso de un ntimero de casos que disminuye con rapidez, por lo que los resultados sobre los tiltimos reactivos serfan poco confiables. Més atin, los sujetos en los que se analizan los iltimos reactivos probablemente cons- tituyen una muestra seleccionada y por ende no comparable a las muestras mayores usadas para los primeros reactivos. Como ya dijimos, los mas rpidos también tienden a ser los més diestros, por lo que los tiltimos reactivos serfan analizados en una muestra superior de individuos. Un efecto de ese factor selectivo podria consistir en la dismni- nuci6n del nivel aparente de dificultad de los iltimos reactivos, ya que el porcentaje de los que aprueban serfa mayor en el grupo seleccionado superior que en la muestra entera. En ese caso, la aparente dificultad de los reactivos aumenta de manera falsa. El efecto del procedimiento anterior sobre los fndices de la capacidad discriminati- va del reactivo es menos evidente, pero no menos real; por ejemplo, se ha observado que los mismos individuos que obtienen bajas puntuaciones tienden a apresurarse cuando presentan la prueba, y marcan los reactivos casi al azar en su esfuerzo por ter- minar de contestarlos en el tiempo permitido. Como resultado, la muestra en la que se analiza uno de los ultimos reactivos probablemente conste de algunos examinados mediocres cuya ejecucién no es mejor que el nivel del azar y un niimero grande de in- dividuos que trabajan de manera répida y eficiente que tal vez respondan de manera correcta. En este grupo, es probable que la correlacién reactivo-criterio sea mayor de Jo que resultarfa en una muestra més representativa. Por otro lado, al no contar con individuos que contesten al azar, la muestra en la que se analizan los tiltimos reactivos ha de cubrir un rango de habilidad relativamente estrecho. En esas condiciones, los 194 —Principios técnicos y metodolégicos indices de disctiminacién de los tiltimos reactivos tienden a ser menores que culan sobre una muestra no seleccionada. Los efectos anticipados de la velocidad sobre la dificultad y la discriminacién del teactivo se han verificado empiricamente, tanto al calcular las estadfsticas del reacti- vo con la muestra entera (Wesman, 1949) como cuando se calculan sélo con las per- sonas que intentan resolverlo (Mollenkopf, 1950a). En el tiltimo estudio, se aplicaron a grupos comparables de estudiantes de secundaria dos formas de una prueba verbal y dos de una prueba de mateméticas. Cada una de las formas contenfa los mismos reac- tivos que la otra, pero los reactivos que en una aparecfan al principio en la otra se co- locaban al final. Cada forma se aplicé con un tiempo limite corto (condiciones de velocidad) y con un limite temporal muy libre (condiciones de poder), lo que hizo po- sible realizar varias comparaciones entre las formas y las condiciones temporales. Los resultados mostraron claramente que la posicién de un reactivo en las pruebas de ve- locidad influye en sus indices de dificultad y discriminacién. Cuando el mismo reacti- vo se presentaba al final de una prueba de velocidad, era aprobado por un porcentaje mayor de quienes intentaban resolverlo, y de esa manera arrojaba una correlacién mas alta entre reactivo y ctiterio. Las dificultades enfrentadas en el andlisis de reactivos de las pruebas de velocidad son en esencia similares a las que revisamos en el capitulo 4 al tratar la confiabilidad de estos instrumentos. Para enfrentar esos problemas, se han propuesto varias soluciones, emp{ti- cas y estadisticas. Una solucién empirica consiste en aplicar la prueba con un limite de tiempo largo para el grupo en que se tealizaré el andlisis de reactivos. Esta solucién ser satisfactoria siempre que la velocidad no sea un aspecto importante de la habilidad que la prueba pretende medit. Aparte de los problemas técnicos presentados por las pruebas espectficas, es conveniente recordar que los datos del andlisis de reactivas realizado con las pruebas de velocidad son sospechosos y requieren un escrutinio cuidadoso. se cal- VALIDACION CRUZADA Significado de la validacién erwzada. Es esencial que la valides de la prueba se calcule en una muestra diferente a aquélla en Ia que se seleccionaron los reactivos. Es- ta determinacién independiente de la validez del instrumento se conoce como valida- cidn cruzada. Cualquier coeficiente de validez calculado en la misma muestra que fue empleada para seleccionar los reactivos capitalizaré los errores de muestreo aleatorio de esta muestra particular y en consecuencia resultard alto en forma espuria. De he- cho, en esas circunstancias puede obtenerse un coeficiente de validez elevado aunque a prueba no tenga validez alguna para predecir el ctiterio particular. Supongamos que de una muestra de 100 estudiantes de medicina se elige a los 30 con las mayores callficaciones y a los 30 con las calificaciones més bajas para represen tat grupos de criterio contrastados. Si ahora se comparan los dos grupos en una serie de rasgos que son irrelevantes para el éxito en la escuela de medicina, indudablemente se encontrarén algunas diferencias al azar. Asf, en el grupo de criterio superior puede ha- ber un exceso de personas que provienen de escuelas privadas y de pelitrojos. Si se asig- nara a cada individuo un punto por comprobar que proviene de una escuela privada y otro punto por ser pelitrojo, las medias de esas calificaciones indudablemente serfan mayores en el grupo de criterio superior que en el inferior; sin embargo, esto no es evi- Andlisis de reactives 195 dencia de la validez de los predictores, ya que el proceso de validacién se fundamenta en un argumento circular. En primer lugar los dos ptedictores fueron elegidos sobre la base de las variaciones aleatorias que caracterizan a esta muestra particular, y las mismas diferencias aleatorias operan para producir las diferencias promedio en la calificacién total sin embargo, cuando se prueban en otra muestra, ¢s probable que desaparezcan o se inviertan las diferencias aleatorias en la frecuencia de graduaciones de escuelas pri- vadas y cabello rojo. En consecuencia, se desplomaré la validez de las calificaciones. Un ejemplo empirico. Una investigacién conducida con la prueba de manchas de tinta de Rorschach proporciona una demostraci6n clésica de la necesidad de vali- daci6n cruzada (Kurtz, 1948). En un intento por determinar la posibilidad de que el Rorschach fuese de utilidad para seleccionar gerentes de ventas para una empresa de seguros de vida, la prueba se aplicé a 80 de esos gerentes que habian sido cuidadosa- mente elegidos de entre varios cientos de empleados de ocho compaiifas de seguros, de modo que representaran un grupo de critetio superior de 42 individuos considerados muy satisfactorios por sus compafifas y un grupo de criterio inferior de 38 sujetos que se consideraban inadecuados. Los 80 registros de la prueba fueron estudiados por un experto en el Rorschach, que seleccioné un conjunto de 32 signs, o respuestas carac- teristicas, que ocurrfan més frecuentemente en un grupo de criterio que en el otro. Los signos que se encontraron més a menudo en el grupo de criterio superior se calificaban como +1 si estaban presentes y 0 si se encontraban ausentes; los que eran mas comu- nes en el grupo inferior se calificaban asimismo como 1 0 0. Como habfa 16 signos de cada tipo, en teorfa las calificaciones totales podfan fluctuar entre -16 y +16. Cuando la clave de calificacién basada en esos 32 signos se volvié a aplicar al gru- po original de 80 personas, 79 de las 80 se clasificaron correctamente como pertene- Gientes al grupo superior o inferior. La correlacién entre la calificacién en la prueba y el criterio serfa cercana a 1.00; no obstante, cuando la prueba se validé de manera cru- zada en la segunda muestra de 41 gerentes, 21 en el grupo superior y 20 en el inferior, el coeficiente de validez cayé a un insignificante .02, lo que hizo evidente que la clave aplicada en la primera muestra no tenia validez para seleccionar a dicho personal. Un ejemplo con datos al azar. En un estudio clésico, Cureton (1950) demostré que el uso de una sola muestra para la selecci6n de reactivos y la validacién de la prue- ba puede producir un coeficiente de validez completamente espurio. El criterio a pre- decir era el promedio de calificaciones de cada uno de 29 estudiantes inscritos en un curso de psicologfa. El criterio se dividi6 en calificaciones de B o mayor y calificacio- nes inferiores a B. Los “reactivos” consistfan en 85 etiquetas, que en uno de sus lados tenfan un némero del uno al 85. Para obtener la calificacién en la prueba de cada es- tudiante se mezclaron las 85 etiquetas en un recipiente y se dejaron caer sobre una mesa. Todas las etiquetas que cafan con el lado numerado hacia arriba se registraron como si indicaran la presencia de ese reactivo particular en la ejecucién del estudian- te. De esa manera se obtuvo un registro completo para cada estudiante en los 29 lan- zamientos de las 85 etiquetas, que mostraba la presencia o ausencia de cada reactivo 0 respuesta signo en esa ejecucién del estudiante. Debido al procedimiento seguido para generar esas calificaciones aleatorias, Cureton lo llamé jocosamente B-Projective Psy- chokinesis Test (“Prueba Psicokinética Proyectiva B”). 196 Principios técnicos y metodolégicos Se reali26 un anélisis de reactivos con la calificacién promedio de cada estudiante como criterio. Sobre esta base, se seleccionaron 24 de los 85 “reactivos”, y de éstos, nnueve ocurrian con mayor frecuencia entre los estudiantes con una calificacién prome- dio de B o mejor y recibieron un peso de +1; 15 ocurrieron mis frecuentemente entre los estudiantes con una calificaci6n menor a B y recibieron un peso de ~1. La suma de los pesos de esos reactivos constituyé la calificacién total para cada estudiante. A’pesar de conocer la derivaci6n aleatoria de esas “calificaciones”, su correlacién con la califica~ cidn de criterio en el grupo original de 29 estudiantes demostré ser de 82. Semejante descubrimiento es similar al obtenido con las puntuaciones del Rorschach en el estudio citado anteriormente. En ambos casos, la aparente cortespondencia entre la califica cin de la prueba y el criterio fue producto del empleo de las mismas diferencias aleato- rias al seleccionar los reactivos y al determinar la validez de las calificaciones totales. Condiciones que influyen en Ia disminucién de la validez. El monto de la disminucién del coeficiente de validez en una validacién cruzada depende en parte del tamafio del banco de reactivos original y de la proporcién conservada de ellos. Cuan- do el niimero original de reactivos es grande y la proporci6n conservada es pequeia, hay més oportunidad de capitalizar las diferencias al azar y obtener un coeficiente de validez elevado de manera espuria. Otra condicién que afecta la magnitud de la distni- nuci6n en Ia validacién cruzada es el tamafio de la muestra, pues como una validez es- puriamente alta en la muestra inicial es resultado de la acumnulacién de errores del mauestreo, los grupos ms pequefios (que dan lugar a mayores errores del muestreo) son Jos que exhiben la mayor disminucién de la validez. La disminucién de la validez en la validacién cruzada ser4 mfnima si los reactivos se eligen a partir de hipotesis derivadas de la teorta psicol6gica o bien de la expetien- cia con el criterio. Por ejemplo, si una hipétesis particular requiere que la respuesta “sf sea mas frecuente entre los estudiantes con éxito, entonces el reactivo no deberfa conservarse si los estudiantes no exitosos dieran un nimero significativamente grande de respuestas afirmativas. La aproximaci6n opuesta, del todo empirica, se ejemplifica en el agrupamiento de un conjunto de reactivos sin considerar su importancia para la conducta de criterio para luego conservar los que producen cortelaciones positivas 0 negativas significativas con el critetio. En estas circunstancias, podemos esperar que la disminucién sea mucho mayor que en las primeras. T. W. Mitchell y Klimoski (1986) ofrecen una demostracién bien disefiada de las diferencias que realmente se presentan en la disminucién de la validez cuando los reactivos se eligen mediante estrategias ra- cionales o empfricas. En resumen, la disminucién de la validez en la validacién cruza- da seré mayor cuando las muestras son pequefias, el banco inicial de reactivos es grande, la proporcién de reactivos conservados es pequefia y éstos se agrupan sin una I6gica previamente establecida FUNCIONAMIENTO DIFERENCIAL DE LOS REACTIVOS Procedimientos estadisticos. El anélisis del “sesgo del reactivo” ha recibido mu- cha atencién como parte de la investigacién del sesgo de las pruebas para grupos mi- noritarios. Ese andlisis se interesa principalmente en la dificultad relativa de ciertos reactivos para grupos que difieren en sus antecedentes culturales o su experiencia. En Andlisis de reactivos 197 la terminologfa psicométrica, se conoce como funcionamiento diferencial del reacti- vo (FDR) a esta area de andlisis que pretende identificar los reactivos para los cuales personas igualmente capaces de diferentes grupos culturales tienen distintas probabili- dades de éxito. Para su identificacién se han propuesto muchos métodos, lo mismo es. tadifsticos que procedimientos que incluyen el juicio humano (Berk, 1982; Camilli y Shepard, 1994; Hambleton y Rogers, 1989; P. W. Holland y Thayer, 1988; P. W. Ho- land y Wainer, 1993; Osterlind, 1983; C. R. Reynolds y Brown, 1984). Un problema importante son las diferencias en los grupos demograficos (o en otras experiencias) en la dificultad del reactivo que se asocian estrechamente con las dife- rencias promedio en el nivel de ejecucién en el conjunto de la prueba. En consecuen- cia, es probable que los reactivos que tienen una buena capacidad discriminativa en términos de la calificacién total parezcan “sesgados” y por ende se los descarte. Para controlar esas diferencias en la calificacién total se han empleado varios procedimien- tos, y con el acceso creciente a las computadoras, uno de los mas prometedores se ba sa en la teorfa de respuesta al ftem (TRI). Esos procedimientos son especialmente apropiados cuando se dispone de muestras grandes. Como ya mostramos, las curvas caracteristicas del reactivo (CCR) indican para cada uno la probabilidad de obtener una respuesta correcta en relacién con la escala de habilidad para la prueba (figura 7.6). Al comparar las CCR de ambos grupos para el mismo reactivo, podemos identi- ficar los reactivos con un considerable funcionamiento diferencial en relacién con la ejecucién global de los grupos en la prueba, lo que se expresa en una escala uniforme. Los dos reactivos de la figura 7.7 ejemplifican esta comparaci6n; ah puede verse que para el reactivo uno, las CCR de los grupos A y B son bastante diferentes, mientras que pard el reactivo dos son muy similares. En cada caso, puede emplearse el érea entre las dos CCR para identificar el rango de habilidad probada en el que hay evidencias de FDR. Una vez identificados los reactivos con funcionamiento diferencial, indepen- dientemente del procedimiento empleado, el siguiente paso consiste en averiguar la naturaleza y fuente de la diferencia. La respuesta a esta interrogante determina la dis- posicién del reactivo, para lo cual puede ser necesario contar con procedimientos de juicio combinados con otros andlisis estadisticos. Procedimientos de juicio. No hay un método de anilisis de sesgo que sea “el mejor” para todo propésito, y dado que cada uno oftece una clase diferente de infor- maci6n, es deseable emplear una combinacién de ellos. La combinacién apropiada depende del uso que quiera hacerse de la prueba y de las inferencias que se pretenda derivar de las puntuaciones. En general, la mejor combinacién incluye algunos pto- cedimientos estadisticos y otros que requieren del juicio humano. Cuando se aplican apropiadamente, los procedimientos de juicio pueden ofrecer informacién ttil que no podrfa obtenerse de otra manera (Scheuneman, 1982, Tit- de, 1982). El andlisis mediante el juicio humano es particularmente apropiado en las primeras y viltimas etapas de elaboracién de la prueba, de modo que preceda y siga al analisis estadistico. Por lo general, se introduce al inicio de la elaboracién de la prueba para eliminar el contenido que pueda ser ofensivo o demeritorio de las minorias, o el que perpetia estereotipos culturales relativos a funciones ocupacionales o sociales. Con este propésito, las principales editoriales procuran que tanto miembros de su equipo co- ‘mo asesores externos representativos realicen regularmente revisiones preliminares de 198 Principios técnicos y metodolégicos Escala de habilidad (0) : " Figura 7.7. Curvas caracteristicas del reactivo (COR) que ilustran para dos reacti- vyos tun monto grande y uno pequeio de funcionamiento diferencial del reactivo (FDR). (Graficas adaptadas de Pashley, 1992, con autorizacién.) los reactivos (Berk, 1982, capftulo 9). Estas revisiones también ayudan a identificar el contenido de la prueba que puede ser culturalmente restringido y por consecuencia po- co familiar para poblaciones particulares de examinados, sin embargo, cabe observar que las revisiones hechas por evaluadores calificados en general no han demostrado ser Andlisis de reactivos 199 exitosas para predecir la dificultad relativa o la capacidad discriminativa de los reacti- vos para diferentes poblaciones (Plake, 1980, Sandoval y Miille, 1980; Scheuneman, 1982), Para cumplir esos prop6sitos es necesario realizar andlisis estadisticos. Por otro lado, no puede suponerse que todos los reactivos desviados que se identifi- can mediante procedimientos estadisticos son sesgados. Es necesario que los resulta- dos se interpreten luego de una segunda revisi6n realizada por expertos, esto permite examinar los reactivos en cuanto a posibles fuentes de variaci6n. Los esfuerzos estadis- ticos no suelen revelar ninguna caracterfstica comtin ni razén evidente para la desvia- cién, por lo que es necesario considerar cada reactivo de manera individual. Algunos pueden reflejar sencillamente resultados estadisticos producto del procedimiento parti- cular. En otros casos, la ejecucién desviada puede resultar de cualquiera de las diversas condiciones que tienen implicaciones distintas para la interpretaci6n de la prueba. La evaluacién adecuada de esos reactivos desviados requiere que uno esté familiarizado tanto con el dominio de contenido de la prueba como con las diferencias en la expe- riencia de las poblaciones examinadas. Una posible raz6n de la variaci6n es que un reactivo no mida el mismo construct en diferentes grupos; por ejemplo, una analogia puede medir razonamiento verbal en un grupo y conocimiento de vocabulario en otro, ya que contiene una palabra clave poco familiar para muchos miembros de un grupo minoritario. De modo similar, un problema aritmético puede medir la habilidad matemética en un grupo y en otto la habilidad de comprender afirmaciones verbales complejas. En ambos ejemplos, el co- nocimiento que falta no es relevante para el constructo medido por la prueba como un todo. Pero suponga que se descubre que los reactivos matematicos que incluyen decimales son relativamente més dificiles para los miembros de cierto grupo; esta dife- rencia s{ es relevante para el constructo de la habilidad matemética. Por lo tanto, tales variaciones no son, en este sentido, reactivos sesgaclos. Cuando los reactivos sesgados se identifican estadisticamente, la fuente de varia- cién puede aclararse parcialmente por medio de procedimientos estad{sticos adiciona- les, como el andlisis de las opciones incorrectas elegidas en un reactivo de opcién miltiple. Esos anélisis suplementarios en combinacién con las revisiones de los jue- ces, pueden proporcionar la base para la acciGn adecuada. El reactivo desviado puede descartarse, revisarse o modificarse en su parte defectuosa, las instrucciones de la prue- ba pueden aumentarse o hacerse mas claras, o bien puede decidirse conservar el reac- tivo original a la luz de las especificaciones de la prueba. El anélisis de reactivos puede incluso proponer la reevaluacién de las propias especificaciones del instrumento, lo que puede traer como resultado que se modifiquen o se aclaren, dependiendo de las inferencias particulares que puedan sacarse de las calificaciones de la prueba. Un caso famoso del mal uso del FDR. Se ha dado gran publicidad a lo que pro- bablemente haya sido el primer caso basado en la evaluacién del “sesgo de la prueba” mediante el andlisis de reactivos que se llevé a una corte legal. El proceso lleg6 a co- nocerse como el “caso de la Regla de Oro” por su relaci6n con el uso de un examen de certificacién en la contrataci6n de empleados por la compaiifa de seguros de! mismo nombre. La similitud entre el nombre de la compariia y el uso comtin del mismo en un sentido muy diferente aumenté al parecer la confusin general. El acuerdo final se bas6 200 _Principios técnicos y metodolégicos en la comparacién de un grupo de diferencias en un gran porcentaje de personas que aprobaban un reactivo, sin que se hubiera realizado esfuerzo alguno por igualar los grupos en alguna medida de la habilidad que la prueba pretendfa evaluar 0 por consi- derar la validez de los reactivos pata el propésito que el instrumento pretendfa cum- plir. La decisién se tomé en completa transgresién del concepto de funcionamiento diferencial del reactivo y es probable que eliminara los reactivos que podrian ser los mejores predictores del éxito en el trabajo. Debido a la magnitud del malentendido y a los precedentes que podria establecer en el uso ocupacional y educativo de las pruebas, la falacia de la decisién de la “Regla de Oro” se examind desde diferentes perspectivas en. evaluaciones criticas (por ejemplo, Lim y Drasgow, 1990), incluida una declaraci6n oficial de la Asociacién Estadouniden- se de Psicologia (American Psychological Association, APA).® La decisién también fue tema de un simposio en la convencién anual de la APA, en que la mayor parte de las ponencias se publicaron en un némero especial de Educational and Psychological Measu- rement: Issues and Practices (Bond, 1987; Faggen, 1987; Linn y Drasgow, 1987). La con- sideracién de este famoso caso saca a la luz los peligtos pricticos de los esfuerzos por evaluar el “sesgo de la prueba” mediante indicadores superficiales e incompletos. EXPLORACIONES EN EL DESARROLLO DE REACTIVOS La répida expansién del uso de computadoras en las décadas de los ochenta y los no- venta, en combinacién con el progreso en la psicologfa cognoscitiva, estimularon la investigacién de planteamientos innovadores en la elaboracién de reactivos. Tradi- cionalmente, la redaccién de reactivos ha sido mas un arte que una ciencia, e incluso en las mejores condiciones los redactores de reactivos reciben instrucciones que ape- nas especifican la forma y contenido que deben cubrir. Sigue siendo préctica comin confiar en el examen empirico previo para evaluar el grado de dificultad y la capaci- dad discriminativa del reactivo. Hay alguna forma de que estas estadisticas puedan inferirse antes del examen mediante el andlisis de las propiedades fisicas o seménticas de los estimulos? Mejor atin, jes posible elaborar reactivos que tengan las caracterfsti- cas deseadas de grado de dificultad y la capacidad predictiva’, jes factible que la mani- pulacién sistematica de las caracterfsticas del estimulo predeterminen las demandas cognoscitivas de los reactivos de la prueba? Se trata de preguntas que estudia la inves- tigaci6n actual mediante procedimientos experimentales y matematicos (Bejar, 1985, 1991; Carroll, 1987; Embretson, 1985a, 1985b, 1991, 1994, 1995; Freedle, 1990). Las demandas cognoscitivas de los estimulos de la prueba pueden explorarse me- diante el uso de las técnicas de descomposicién de tareas desarrolladas por la psicologta cognoscitiva. Esos procedimientos permiten investigar las relaciones de distintas carac- terfsticas del reactivo con la velocidad y el error de ejecucién, y de hecho se han reali- zado varios estudios con reactivos espaciales (Embretson, 1994; Pellegrino, Mumaw y Shute, 1985). Por ejemplo, los estfmulos presentados en las pruebas de analogfas espa- 6 Preparada por el Comité de Pruebas Psicoldgiasy Evaluacién de Ta APA, la decaracién fue aprobada por los ccomités pertinentes de la APA y por el Consejo de Represencantes. Andlisis de reactivos 201 ciales pueden clasificarse de acuerdo con: (1) la complejidad,.o ntimero de elementos separados que deben identificarse (por ejemplo, forma, tamafio, posicién), y (2) las transformaciones, o ndimero de formas en que se altera al estfmulo dentro del par que debe ser evaluado. En algunos problemas de visualizacién espacial, que requieren que el examinado elija las partes que pueden incluirse para formar un todo determinado, éstas pueden separarse, desplazarse, rotarse o modificarse en alguna combinaci6n. Otros estudios se han interesado en las caracteristicas semAnticas de los estfmulos verbales; por ejemplo, en las pruebas de razonamiento verbal, los reactivos pueden elaborarse de acuerdo con los principios légicos conocidos (Colberg, 1985; Colberg, Nester y Trattner, 1985; Scheuneman, Geritz y Embretson, 1991; K. Sheehan y Mis- levy, 1989; Shye, 1988). Este procedimiento puede asegurar que en el reactivo de muestra s6lo una de las opciones de respuesta sea verdaderamente correcta y que dife- rentes relaciones l6gicas estén representadas en una proporcién predeterminada. Este procedimiento también puede hacer posible la manipulacién de la complejidad l6gica del reactivo, cuya relacién con el grado de dificultad puede investigarse empfricamen- te. Algunos investigadores han experimentado con la disposicién de series de letras disefiadas para probar el razonamiento inductivo (Butterfield et al., 1985). Para la ela- boracién sistemética de esa serie de letras primero se desarroll6 un conjunto detallado de reglas, luego se formularon hipstesis sobre lo que la gente haria al tratar de enten- der una serie y se probaron mediante estudios empiricos de la dificultad de series de reactivos de completamiento. Embretson (1994) presenta un minucioso anilisis y actualizacién del proceso en el desarrollo de reactivos que comienza con la definici6n de los constructos que deben evaluarse y continiia con el disefio de un modelo cognoscitivo para la prueba. Los ras- gos detallados de este modelo establecen las especificaciones para la redaccién de los reactivos, cuya validacién empfrica permite asegurar qué tan bien se ajustan al mode- Jo en sus aplicaciones précticas. El procedimiento completo se ilustra en el desarrollo del Test de Habilidad de Aprendizaje Espacial, que no s6lo mide la habilidad espacial inicial, sino también su posible modificacién después de la instruccién estandarizads La investigaci6n sobre la prediccién de la dificultad del reactivo a partir de las pro- piedades fisicas y sem4nticas de los estimulos no sélo facilita la tarea de los redactores en la elaboracién de pruebas efectivas, sino que también conduce a la elaboracion de reactivos por computadoras. Desde luego, es posible incorporar especificaciones deta- Iadas en programas de cémputo (véase por ejemplo, Butterfield et al., 1985; Embret- son, 1994). Sin duda alguna, las ventajas de la evolucién de los procedimientos para la preparacién de pruebas son enormes, sin embargo es importante no esperar demasiado de cualquier aproximacién; por ejemplo, es muy probable que una prueba pueda medir algunos constructos cognoscitivos claramente identificados de manera completa y efi- cat y al mismo tiempo carecer de una elevada validez predictiva para ciertos usos précti- cos importantes. Por ello es esencial considerar los dos aspectos de validacién de constructo que Embretson (1983) designa como representacién de constructo y espacio nomotético. La segunda precaucién contra la sobregeneralizacién atafie a la necesidad de conocer el contenido relevante para desempefiarse de manera eficaz en cualquier rea temética o campo de experiencia. Los procesos suelen vincularse al contenido, por Jo que no pueden evaluarse en forma adecuada en ausencia del contenido apropiado, 202. Principios técnicos y metodolégicos En conclusién, cuando los procedimientos innowadores citados en esta seccién se aplican apropiadamente, pueden hacer contribuciones importantes a la elaboracién sistematica y controlada de los reactivos de las pruebas. Més atin, al identificar los constructos medidos por una prueba, estos procedimientos pueden aumentar de mo- do considerable nuestra comprensién de por qué algunas pruebas predicen el desem- pefio en situaciones de criterio. Un beneficio adicional tiene que ver con el uso diagnéstico de la prueba, en la medida en que sea posible vincular a procesos cognos- citivos particulares la fuente de fortalezas y debilidades del individuo. Se trata de me- tas valiosas, pero su puesta en préctica atin requiere de mucha investigacién sobre problemas todavia no resueltos (véase, por ejemplo, Wainer, 1993a). En la actualidad se investiga a fondo la preparacién de reactivos que permitan identificar los procesos cognoscitivos que emplean algunos individuos al resolverlos (Willson, 1994). El and- lisis de los errores que cometen aporta elementos prometedores para este propésito (Kulikowich y Alexander, 1994).

También podría gustarte