Está en la página 1de 14

.

w:
Tomado de: Gregory, R. (2001). Construcción de pruebas. En R. Gregory (Ed.), Evaluación Psicológica.
Historia, principios y aplicacioner. (pp. 143-167) México D.F.: Manual Moderno.
.F
.€i

:*
j*

T¡mn 48
,*
i{
.É Construcción de pruebas
.t

i:

1;
Definición de la prueba
t;
Selección de un método de escalamiento

Métodos representativos de escalamiento

Construcción de reactivos

Examendereactivos '
f
Revisión de la prueba

Publicación de la prueba

Resumen

Términos y conceptos clave

creación de una nueva prueba impli- el mismo principio. En este tema se enfatizarán
.:ea;tanto una ciencia como un arte. Un autor de los aspectos básicos del desanollo de pruebas;
pruebas debe elpgir estrategias y materiales y el lector que desee una presentación más avan-
¡alespués tomar decisiones continuas de invesü- zada deberá consultar a Kline ( 1 986) y Nunnally
¡;gqción que afectarán la calidad de su instru- (1978).
rim€nto en germinación. El ¡ropósito de esta La construcción de pruebas consta de seis
.sección consiste en analizarel proceso mediante etapas entrelazadas:
'el cual los psicómetras creen pruebas válidas.
.Aunque se examinarán muchas cuestiones in- Definición de la prueba.
"dependientes, a todas las vincula un tema en Selección de un método de escalamiento.
común: las pruebas válidas simplemente no Construcción de los reactivos.
aparecen en escena en plena madurez Examen de los reactivos.
-sur-
gen de manera lenta de un proceso evolutivo, Revisión de la prueba.
'en desarrolio, que se funda en la validez desde Publicación de la prueba.

JE
Í€f¡---
144 , Evaluacion psicológica: Hi$orta, principios y aplicaciones (Cqpftulo 4) ffi*i, '' , . Validez y desanollo .de pruebas , 145

Como aniálisis preliminar, pueden resumi¡se es- .g:gsfá,r;il de aplicar y obletiva de calificar.
tos pasos de la siguiente manera: la definición
Defin¡ción de la prueba - de modo que el lector pueda apreciar mejor las
diferencias entre los métodos de escalamiento.
{,Es sensible a las dtversas necesidades de los
de ia prueba consiste en la delimitación de su V
I
:.pfeescolares, grupos minoritarios y niños
alcance y propósito, los cuales deben conocer-
r,:.excepcionales (Kaufman y Kaufman, 1983).
Selección de un método de escalamiento
se antes de que el autor pueda proseguir con su I
NÍVEI"ES DE rtlEDlgóN
+
rl:: '

construcción. La selección de un método de


----------> Conskucdón de los reactivos t6omo el lector descubrirá en un tema poEte-
escalamiento es un proceso en el que se esta- Segin Stevens (1946) todos los números ex-
blecen las reglas mediante las cuales se asig-
$ rior, la K-ABC representa un viraje interesante
traídos de los instrumentos de medición de cual-
.oonifespecto a las pruebas tradicionales de in-
nan números a los resultados de ia prueba. La ( ,t
Examen de los reactivos .# .téligencia. Por ahora, la cuestión importante es
quier tipo pueden colocarse dentro de una de
construcción de los reactivos es tanto un arte 'que'los autores de este instrumento reciente cuaffo categorías jeriárquicas: nominal, ordinal,
i#.
como una ciencia y es aquí donde puede I
j,q de intervaio o de razón. Cada categoía define
requerirse la creatividad del autor. Una vez que
\V - Revis¡ón de la prueba
.-i| .óxp:licaron su propósito de manera explícita y
un nivel de medición; el orden que se lista es
,$ nuevo enfoque para medir la in-
se tiene disponible una versión preliminar de la flantearon un
mucho antes de que comenzaran a de menos a más informativo.
# tüiigencia,
prueba, los auto¡es en general la aplican a una ,l
Publ¡cación de la prueba
*
;$. construir los reactivos de la prueba.
En las escalas nominales, ios números si¡-
muestra de tamaño modesto de individuos, a ven sólo como nombres de categorías. Por ejem-
fin de reunir los datos iniciales sobre las carac- :lf',
F¡gura rt-s. Procesos de construcción de la prueba. plo, cuando se obtienen datos para un estudio
terísticas de los reactivos. El examen de éstos demográfico, un investigador podría codificar
implica una variedad de procedimientos esta- fisrucoóN DE uN l ÉToDo a los varones como "1" y a las mujeres como
dísticos conocidos como anáüsis de reactivos,
mento es diferente y mejor que los existentes
IDE ESCATAMTENTO "2". Véase que los números son arbitrarios y
cuyo propósito consiste en determina¡ cuáles no designan si hay "más" o "menos" de una
reacüvos deben conse¡varse, revisarse y elimi- depende del autor. cosa. En las escalas nominales, los números son
Considérese la sobrecogedora tarea que El propósito inmediato del examen psicológi-
narse. Con base en el análisis de reactivos y en sólo una forma simplificada de denominación.
enfrenta un autor de pruebas que propone otro co es asignar números a las respuestas en una
oÍas fuentes de información, se revisa la t: Las escalas ordinales constituyen una
instrumento de inteligencia gene¡al. Con doce- ,É prueba de modo que puedajuzgarse que la per-
prueba. Si las revisiones son sustanciales, es fo¡ma de o¡denación o clasificación. Si se le
nas de dichos instrumentos en existencia, ¿cómo ,sona examinada tiene una mayor o menor can-
posible que se requieran nuevos reactivos y pidiera a profesores universitarios que clasifi-
prepruebas aücionales con nuevos individuos. es posibie que uno nuevo haga una contribu- tiilad de la característica medida. Las reglas
caran cuatro automóviles en cuanto a cuál pre-
ción útil al campo? La respuesta es que la in- mediante las cuales se asignan núme¡os a las
Así, la construcción de pruebas impiica un cir- ferirían poseer, el orden preferido podía ser
vestigación contemporánea aumenta de manera respuestas definen el método de escalamiento.
cuito de realimentación donde se podrían pro- :{' "1," Cadillac, "2" Chevrolet, "3" Volkswagen,
continua la comprensión acerca de la inteligen-
*:! l¡s autores de pruebas seleccionan un método
ducir 2, 3 y 4 bosquejos de un inst¡umento .de este tipo que se adecue en forma óptima a la "4" Hyundai. Obsérvese en este caso que los
(figura 4-5). La publicación de la prueba es el cia e impulsa a buscar nuevas maneras y más núme¡os no son intercambiables. Una clasifi-
útiles de medir este constructo multifacético. manera en que han conceptuado el rasgo o ras-
paso final. Además de difundir los materiales cación de "1" es "más" que una clasificación
Kaufman y Kaufman (1983) proporcionan gos medidos por su prueba. Ningún método de
de una prueba, el autor debe producir un ma- de "2" y así sucesivamente. El "más" se refiere
un buen modelo del proceso de definición de la escalamiento es uniformemente mejor que
nual fácil de comprender para el usuario. A al o¡den de preferencia. Sin embargo, las escalas
prueba. Al proponer la Batería de Evaluación otros. En el caso de algunos rasgos, la clasifi-
continuación se examina¡án con más detalle ordinales no proporcionan información sobre
:cación ordinal de parte de jueces expertos po-
cada uno de estos pasos. de Kaufman para Niños (K-ABC), una nueva lafortaleza relativa de las clasificaciones. En
prueba de la inteligencia general en niños, los dría se¡ el mejor enfoque de medición; en el
este ejemplo hipotético no se puede saber si los
autores enumeraron seis objetivos primarios que caso de otros, la medición escalar compleja de
profesores universitarios lenen una fuerte pre-
definen el propósito de la prueba y la distinguen 'los datos de auioinfo¡me puede producir las
ferencia por los Cadillac por encima de los
de las medidas existentes: medidas más válidas.
Chevrolet o sólo hay una diferencia marginal
' Existen tantos métodos precisos de escala-
en su preferencia.
1, Mide la inteligencia desde una fuerte base 'miento disponibles para los psicómetras que nos
A fin de construir una nueva prueba, el autor isentiremos satisfechos con proporcionar aquí Una escala de intervalo proporciona in-
debe tener una idea clara de aquello que ha de teórica y de investigación.
sólo una muesÍa representativa. Los lectores formación acerca de clasificación, pero también
medir y de cómo difiere ésta de los instrumen- 2. Separa el conocimiento objetivo adquirido que deseen tener una reseña más completa y provee una medida para estimar las diferencias
tos existentes. Dado que la existencia de las de la capacidad para resolver problemas entre clasificaciones. Para construir una escala
detallada deben consultar a Gulliksen (1950),
pruebas psicológicas está a punto de entrar en desconocidos. de intervalo se poüía pedir a ios profesores
Nunnally (1978) o Kline (198ó). No obstante,
su segundo siglo y ya que se han pubticado 3. Produce puntuaciones que se traducen en antes de revisar los métodos de escalamiento universitarios que calificaran en una escala de
miles de pruebas para este momento, es claro infervención educativa. ,seleccionados, es necesario que se presente un 1 a 100 qué tanto les gustaría poseer los cuatro
que la responsabilidad de p¡obar que un instru- 4. Incluye ta¡eas novedosas, concepto relacionado, los niveles de medición, automóviles antes citados. Supóngase que las
146' Evaluación psicologin: Historia, principios y aplicaciones (Capltulo 4)

calificaciones promedio van como sigue: electrodérr¡uca. Pero, en general, lo más que oucialmente comunicativo de conciencia con funcionamiento en cada una de las t¡es subes-
Cadillac, 90', Chevrolet, T0; Volkswagen, 60; puede esperar un psicólogo es una media al ni- calas. En cada una se supone que el paciente
iomnolencia'
Hyundai,50. A partir de esta información se vei de inte¡valo. . Un enfoque de la medición con una escala presenta todos los niveles de conducta por de-
puede inferir que la preferencia por un Cadillac Los niveles de medición son relevantes para ¿s l¿'profundidad del coma consistiría en de- bajo del nivel calificado. Así, desde un punto
es mucho más fuerte que por un Chevrolet qae, la construcción de pruebas debido a que los pender de las clasificaciones de expertos en de vista psicométrico, esta escala consiste de
procedimlentos estadísticos paramétricos más iuanto a aspectos conductuales. Por ejemplo, tres subescalas (ojos, respuesta verbal y res-
a su vez, tiene una preferencia levemente más €
fuerte que el Volkswagen. Más importante aún poderosos y útiles (p. ej., r de Pearson, análisis € lse.le puede pedir a un panel de neurólogos que puesta motora) cada una de las cuales produce
de varianza, regresión múltiple) deberían utili- enumere las conductas asociadas con los dife- una clasificación ordinal de conducta.
es que también puede suponerse que los inter-
valos entre los puntos en esta escala son aproxi-
zarse sólo para puntuaciones obtenidas de me- * lrentes niveles de conciencia. Después de que Además de las clasificaciones, es posible
didas que satisfacen los criterios de las escalas ., éstos han presentado una gran lista de conductas calcular una sola puntuación total que se en-
madamente iguales: La diferencia entre la r{
de intervalo o de razón. Para las escalas que diagnósticas, los autores de la prueba cuenfta un poco más allá de una escala ordi-
preferencia de los profesores por un Chevrolet -prefe-
sólo son nominales u ordinales deben emplear- riblemente expeÉos en t¡aumatlsmos cranea- nal, aunque probablemente sea menos que una
y w Volkswagen (10 puntos) es más o menos .'
.1:
se procedimientos estadísticos no paramétricos ii les- clasificarían las conductas indicadoras en verdadera medición al nivel de intervalo. Si se
la misma que existe entre un Volkswagen y un
menos poderosos (p. ej., ji cuadrada, correla- un continuo de conciencia que vaya desde el asignan números a las clasificaciones (p. ej., para
Hyundai (también 10 puntos). En pocas pala-
ción por rangos, pruebas de mediana). En la ,coma profundo hasta la o¡ientación básica. ojos abiertos una codificación de "no" = l; "ante
bras. las escalas de intervalo se basan en la su-
práctica, se supone que la mayor parte de los Teasdale y Jennett (1974) utilizaron justo este el dolor" = 2 y así sucesivamente), entonces
posición de unidades o intervalos de igual principales instrumentos de examen psicológi- enfoque y produjeron la Glasgow Coma Scale pueden sumarse los números para el nivel ca-
taÍraño pam la escala subyacente. co (en especial las pruebas de inteligencia y lificado en cada subescala, lo cual produce
@scala de Coma de Glasgow). Instrumentos
Una escala de razón tiene todas las carac- escalas de personalidad) emplean una medición similares a éste se empleaq de mánera amplia una puntuación miáxima posible de 14 puntos.
terísticas de una escala de intervalo, pero tam- que de manera aproximada está al nivel de in- ':t en hospitales para la evaluación de lesiones por La puntuación total en la Glasgow Coma Scale
bién posee un punto cero conceptualmente tervalo aunque, en términos estrictos, es muy faumatismo craneal (figura 4-7). predice la recuperación posterior con un grado
r19
significativo, en el que existe ausencia total de difícil demostrar iguaidad absoluta de interva- La Glasgow Coma Scale se califica al ob- muy alto de precisión (Jennett, Teasdale y Knill-
la característica meüda. Las propiedades esen- los para dichos instrumentos (Bausell, 1986). servar al paciente y asignar el m¡áximo nivel de Jones, 1975). Por tanto, puede verse que las
ciales de los cuatro niveles de medición se re- Ahora que el lector se ha familiarizado con los
sumen en la figura 4-6. niveles de medición, se presenta una muestra
Las escalas de razón son poco comunes representativa de los métodos de escalamiento,
en la medición psicológica. Considé¡ese si existe
señalando de antemano que los üferentes mé- OCTUBBE
algún sentido significativo en el que pueda pen- todos producen distintos niveles de medición. 28
sarse que una persona tiene cero inteligencia.
No. en realidad. Lo mismo ocurre con la ma- c Ojos 4 Espontáneamente
ab¡ertos 3 Ante el habla I I
yor parte de los constructos en psicología: los
2 Ante el dolor ¿
puntos cero significativos simplemente no exis- REPRESENÍATTOS 1 N¡nguno
I J
ten. Sin embargo, unas cuantas medidas físi- DE ESCATA'r,ilEt{fO
'SÉTODOs
cas que emplean los psicólogos califican para
escalas de razón. Po¡ ejemplo, la estatura y el Mejor 5 Orientada
respuesta 4 Confusa
peso alcanzan esa calificación y quizá tarnbién
O.ASIRCAOONES DE D(PERTOS D
vefDal 3 Inapropiada J
algunas medidas fisiológicas como la respuesta 2Incomprensible
E 1 Ninguna

Supóngase que se desea medir la profundidad
Car¡cterísticas del coma en los pacientes que han sufrido un
Mejor 5 Obedecs instrucciones
Pemlte Pgrmlts Utlllza Posae traumatismo craneal reciente que los ha dejado v^ respuesta 4 Localiza el dolor
la ertegori- laclasifi- intswalos unpunto inconscientes. Una escala de profundidad del mo¡ora 3 Flexión anle el dolor
caclón lgualoe csro rsal M
zac¡ón 2 Extensión ante el dolor
coma sería muy import¿nte para la predicción
1 N¡nguna
Nom¡nal x del curso de la mejoría, debido a que es bien
Ordinal X X conocido que un periodo extenso de inconscien-
De intervalo x x cia ofrece un pronóstico pobre de recuperación.
De razón X x x Ademr4s, el personal de rehabilitación tiene la Figura 4-7. Ejemplo de la utilización de la Escala de Coma de Glasgow para el r€gistro de la prolundidad del
coma.
Flgura 4^€. Características osenciales de los cuatro ni- necesidad práctica de saber si un paciente está Fuente: Reproducido con autorización de Jennett, 8., Teasdale, G. M., and Kn¡lFJones, R. P (1975). Predlcting
veles de modición. en coma profundo o se encuentra en un estado outcome after head in¡ury. Joumal ol the Royal College of Physbians oÍ Lúdon, 9,231-237.
1 48, Eualuacién : psicgtéglca : :Historia, princlpios ;y .aplicaciones (Capftuto 4)' desanollo de pruébas , 149
,--'i .
:

pruebas psicológicas bas.tante elementales ob- rabie". Se le dice jueces que hagan a un
a ios .' ' "fir, inventarios de autoinfo¡me carecían de En este ejemplo puede verse que el enfoque de
tenidas de los métodos de escalamiento más lado sus propios prejuicios y que conside- y opciones ttlit o,l d:,1: Thurstone para la asignación de una escala para
reactiuog 9: ltlout¡1u
sencillos pueden, a pesar de ello, proporcionar ren las l1 categorías como equidistantes. La.distribución de los 216 los reactivos tiene poderosas aplicaciones en el
lepresión-leve'
-nÁctivos
información válida y útil. 3. Después de que iosjueces han terminado con fue bimodal' con muchos de ellos desar¡ollo de pruebas. Con base en estos des-
el proceso de evaluación, se determina la ug*puaot ..t u de la parte baja (ninguna depre- cubrimientos, los investigadores están ahora en
calificación media de favorabilidad (de I a ;ó"i y muchos otros cerca de la parte media posición de desanollar escalas mejoradas de auto-
mÉTODO DE INIERVALOS 11) y la desviación estándar para cada ldepresión moderada). Una conclusión carac- informe que evalúen el rango completo de sín-
DE APARKóN BA/ANCEADA reactivo. Por ejemplo, 10 jueces pueden rkiti.u ptu uno de los conjuntos de reactivos tomas de la depresión.
habe¡ dado una calificación promedio de .de una destacada escala de depresión fue la
A principios de este siglo, L. L. Thurstone favorabilidad de 9.2 al primer reactivo antes .sig$lente:
(1929) propuso un método para construir esca- enunciado; pero es probable que las cali- .-.., MÉToDo DE ESCAIAMIENÍO ABSOtt,fO
las al nivel de intervalo a partir de afirmacio- ficaciones difieran de un juez a otro, como C¿lificación Puntuación Contenido del
nes de actitud. Su método de intervalos de se refleja en una desviación estándar de 1.1 , parala original reactlvo Thurstone (1925) también desanolló el méto-
aparición balanceada todavía se utiiiza en ia para este reactivo.. ,depresión do de escalamiento absoluto, un procedimien-
actualidad, lo cual hace que Thurstone sea uno 4. Debido a que la desviación estándar en la .' .1.0 1 Nunca me siento to para obtener una medida de la dificultad
de los gigantes de la teoría psicométrica. La calificación de favorabiiidad de un reactivo melancólico o t¡iste. absoluta de los reactivos con base en los resul-
metodología en sí para construir intervalos de refleja ambigüedad, los reactivos con desvia- tados de diferentes grupos de personas exami-
J.+ En ocasiones me
aparición balanceada es un tanto estadísücamen- ciones estánda¡ grandes se descartan. Por lo nadas de diferentes edades. La metodología para
siento. melancólico
te compleja y abrumadora, pero la lógica sub- general, se eligen aproximadamente 20 a 30 determinar la dificultad individual de los reacti-
'o tnste.
yacente es fácil de explicar (Ghiselli, Campbell vos en un escalamiento absoluto es bastante
y Zedeck,1981). Para ilustrar este método, se
reactivos, de modo que las afirmaciones ,4.1 3 Me siento melancó-
cubran el rango de la dimensión (favorable compleja, aunque la fundamentación subyacen-
resumen los pasos implicados en la construc- a desfavorable). Se supone que las diferencias te no es tan difícil de comprender. En esencia,
parte del tiempo.
ción de una escala de actitudes hacia la mem- entre reactivos en la escala final satisfacen se aplica un conjunto de reactivos comunes de
bresía a una iglesia. 44 4 Me siento melancó-
prueba a dos o más grupos de diferentes eda-
las propiedades de una escala de intervalo. ' lico o tiste la mayor
5. Se pide a las personas que contesten la escala des. La dificultad relativa de éstos sirve como
1. Se obtienen tantas afirmaciones posibles de
de actitud que marquen todas las afirmacio-
. parte del tiempo.
fundamento para realizar una serie de compa-
falso-verdadero que reflejen una variedad raciones entrelazadas para todos los reactivos
nes con las que concuerdan. Su calificación ,El lector verá que la calificación original de
de actitudes positivas y negativas hacia la y todos los grupos por edad. Un grupo por edad
se determina al promediar los valores de estos reactivos se desvía sustancialmente de las
iglesia. Dos ejemplos extremos podrían ser: sirve como grupo base. La dificultad de los
escala de los reactivos respaldados. .calificaciones de depresión que proporcionó el
"Siento que los servicios religiosos me dan ins- 'panel de estudiantes y docentes clínicos. Tam- reactivos se mide en unidades comunes como
piración y me ayudan a dar lo mejor de mí mis- unidades de capacidad en desviacién estándar
Ghiselli, Campbell y T.edeck (1981) señalan que bién es evidente que los valores reales de la
mo durante la siguiente semana". para el grupo base. El método de escalamiento
el método de escalamiento anterior tan sólo pro- ,escala son discontinuos, ya que van de 1.0 a
"Pienso que las iglesias buscan irnponer gran duce la escala de actitud. Todavía se necesitan :3.4,y mrás alto. Se observó un patrón similar absoiuto se utiliza ampiiamente en pmebas de
cantidad de dogmas anticuados y supersticio- análisis de la confiabilidad y validez de la escala rpara muchos de los reactivos en ios tres inven- rendimiento y aptitud (STEP, 1980; Donlon,
nes medievales".
a fin de determinar su idoneidad y utilidad. rtarios, lo cual condujo a Russo (1994) a con- 1984).
Por supuesto, también se reunirían muchos Un estudio de Russo (1994) ilustra una ,c'luir: Thurstone (1925) ilustró el método de es-
reactivos moderados. aplicación modema del método de Thurstone. calamiento absoiuto con datos de prueba de
2. A continuación, se le pide a un número apro- Esta autora utilizó un enfoque de escala como ' resullados sug¡eren que
si se utiliza la pun- 3 000 escolares en las 65 preguntas de la prue-
el de Thu¡stone para evaluar 216 reactivos de
' 'Estos
fuación original para las trss escalas que se exa- ba Binet original. Con la media de inteligencia
ximado de lOjueces expertos que califiquen . 'm¡nan aquí, entonces las distinciones entre bien-
estas afirmaciones para determinar el grado tres inventarios destacados de autoinforme para . de los niños de 3 años, 6 meses de edad en la
: €strar y aussncia de depresión, al ¡gual que entre
de favorabilidad/desfavorabilidad hacia la evaluar depresión. Losjueces inciuyeron a 527 depresión moderada y grave, serán difíciles de
prueba Binet como punto cero y la desviación
actitud. Losjueces deben ser calificados para estudiantes de pregrado y 37 miembros del cuer- realizar. Tal imorecisión hará difícil la evaluación estándar de su inteligencia como unidad de
esa tarea; podría utilizarse a ministros pa- po docente clínico de una escuela de medicina. ' de la eficacia de los tratamientos para la depre- medición, construyó una escala que iba de -2 a
ra una escala de actitud hacia la mernbresía Los 216 reactivos se distribuyeron en forma ..sión, debido a oue una carenc¡a como ésla debe +10 y después localizó cada una de las 65 pre-
'estar en función de un error ad¡cional de medi guntas en esa escala. Thurstone (1925) encon-
a una iglesia. En general, se pide a cadajuez aleatoria y se calificaron con respecto a grave-
ción debido a las medidas ordinales. Tal error
que clasifique cada afirmación en categorías dad de la depresión desde l, que representaba lambién crearía un desastre €n estudios lon- tró que la escala "hace surgir de manera bastante
de I a 11 que vayan desde "extremadamente ausencia de depresión, hasta 11, que significa- gitudinales, en especial en aquéllos en los que sorprendente el hecho de que las preguntas se
favorable" hasta "extremadamente desfavo- ba depresión extrema. Russo descubrió que los 'Participa la memoria. encuentran agrupadas de maneta indebida en
150, Evaluación psicológica: Historia, principios:y aplicacianes (Capftuto 4)

ciertos rangos [de dificultad] y son más bien con aflrmaciones más ieves que tienen que los reactivos. Tambrén es po- de vista práctico de la construcción de una
,,Í,oidenación de
escasas en otros". Un autor modemo de prue- ver con el mismo continuo subyacente (Guttman, ,.,ible,construir escal¿s de medición que se ba- escala empírica, las consideraciones teó¡icas
bas utilizaría este tipo de análisis como base 1944,1947). Así, cuando el examinador cono- tienen importancia secundaria. En el tema 14A,
satpor completo en conside¡aciones empíricas
para eliminar reactivos redundantes (en el sen- ce la confirmación más extrema de la persona ':áienas a la teoía o el juicio experto. En el mé' Inventarios de autoinfo¡me, se analiza con
tido de que miden el mismo nivel de dificultad) evaluada en el continuo, le es posible recons- '.ó¿o mayor amplitud el método de concordancia em-
¿. concordancia empírica, los reactivos
y añadiría otros que analicen ios rangos supe- t¡uir también la respuesta intermedia. Las es- .r.de una prueba se seleccionan para una escala pírica.
riores (e inferiores) de dificultad. calas Guttman se producen al seleccionar
,.eon'base únicamente en qué tan bien contras-
reactivos que caigan en una secuencia ordena- -tan.con un grupo cnterio con respecto a una
da de confirmaciones de ia persona examinada. CONSIRUCCIóX O¡ ESCATAMIENTO
,muesha normativa. Por ejemplo, se podría ob-
ESCAI.AS UKERT Es poco común que se logre una escala Guttman RAC|ONAL (CONSFTENOA NTERNAI
'tener unu escala de Depresión a partir de una
perfecta debido a los enores de medición pero, 'reserva de preguntas de falso-verdadero de un
Likert (1932) propuso un método sencillo y di- de todas maneras, es una meta adecuada para El enfoque racional de la construcción de una
in'ventario de personalidad, como se Ye a conti-
recto para asignar una escala a las acútudes, el ciertos tipos de pruebas. escala es un método popular para el desanollo
¡uacién:
cual tiene ampiia utilización hoy día. Una es- Aunque el enfoque Guttman se diseñó ori- : de los inventarios de autoinforme. El nombre
::..
cala Likert le presenta a la persona evaluada ginalmente para determinar si un conjunto de racional es en cierto modo equivocado, ya que
11,''Se reúne a un grupo cuidadosamente selec-
cinco respuestas ordenadas en un continuo de afirmaciones de actitud es unidimensional, la aigunos métodos estadísticos son esenciales
acuerdo/desacuerdo o aprobaciór/desaproba- técnica se ha utilizado para muchos tipos dife-
. iionado y homogéneo de personas que ex- para este enfoque. También, el nombre impiica
ción. Por ejemplo, un reactivo en una escala " perimenten depresión mayor, a fin de que
para evaluar las actitudes hacia la membresía a
rentes de pruebas. Por ejemplo, Beck utilizó un , .,¡gspe¡d¿¡ ¿ la reserva de preguntas de falso- que otros enfoques no son racionales o son
método de escalamiento del tipo Guttman para , - verdadero. i¡racionales, lo cual es falso. En el centro del
una iglesia podría ser:
producir los reactivos individuales del Beck ' método de escalamiento racional se encuen-
2.'En cada reactivo se compara la frecuencia
Depression Inventory (Inventario Beck de De- :: ' tra que todos los reactivos de ia escala se
Los servicios ¡eligiosos me dan inspiración y me de confirmación del grupo de depresión con
presión; BDI, Beck, Steer y Garbin, 1988; Beck conelacionan en sentido positivo entre sí y tam-
ayudan a dar lo mejor de mí mismo durante la la de la muest¡a normativa.
y colaboradores, 1961). Los reactivos de este bién con la puntuación total de la misma. Un
siguiente semana.
inventario se parecen a los siguientes: .3.'Los reactivos que muest¡an una gran dife- nombre alternativo y más apropiado para este
Usted está: rencia en frecuencia de confirmación entre enfoque es el de consistencia intema, el cual
il Deil
Fuerte-
tl
Indeciso
iltl
Endesa- Fuertemen-
) En ocasiones me siento triste o afligido
fucuencia me siento histe o afligido
.',
'
tlas muestras con depresión y normativa se se-
'leccionan para la escala de Depresión, se
enfatiza lo que en realidad se hace. Gough y
Bradley (1992) explican cómo fue que el enfo-
) Con
mente acuel- cuerdo teendesa- ) Me siento triste o afligido la mayor par- , :códifican en la dirección favorecida por los
que racional obtuvo su descriptivo ltulo:
de do cuerdo te del tiempo
'individuos con depresión (verdadero o falso,
según sea apropiado).
acuerdo ) Siempre me siento triste y no puedo La idea de la raclonalidad entra en escena en el
tolerarlo. 4. Fntonces, la puntuación en bruto de la escala momento en oue el tema cenlral o dimensión
de Depresión es senciliamente el número de unifícadora, alrededor del cual se agrupan los
Dependiendo del fraseo de un reactivo en par-
reactivos, es aquel que de antemano articuló
ticular, una respuesk extrema de "fuertemente Se pide al cliente que "marque en cada grupo reactivos respondidos en la di¡ección codi-
conceptualmente el autor de la med¡da y a partir
de acuerdo" o "fue¡temente en desacuerdo" in- las afirmaciones que, a su p¿¡¡ecer, lo represen- ficada. del cual se determ¡na la calificación de cada
dicaría la respuesta más favorable en la actitud ten de manera más certera". Un cliente que ¡eactivo de manera lógica y comprens¡ble.
subyacente medida con este cuestionario. Likert
marque una altemativa extrema (p. ej., "Siem- El,método de concordancia empírica puede pro-
(1932) asignó una puntuación de 5 a esta res- Se seguirá su presentación para ilustrar los as-
pre me siento triste y no puedo tolerarlo") casi ducir algunas sorpresas interesantes. Un des-
I
puesta extrema, a la respuestas totalmente
con toda seguridad coincidirá también con las cubrimiento común es que algunos reactivos pectos del enfoque racional.
contraria y 2, 3 y 4 a las respuestas interme- Supóngase que un autor de pruebas desea
afirmaciones más leves. 'seleccionados p¿ua una escala pueden no mos-
dias. La puntuación total de la escala se obtiene
,ha¡ relación obvia con el constructo a medir. desarrolla¡ una nueva escala de autoinforme
al sumar las puntuaciones de los ¡eactivos indi-
Por ejemplo, un reactivo como "Bebo mucho para el potencial de liderazgo. Con base en una
viduales. Por tal razón, la escala Likert también ;:
mÉrooo DE coNcoRDAr{oA agua" (codificado como verdadero) podría ter- revisión de la literatura pertinente, el investi-
se conoce como escala sumatoria.
EMPÍRICA $ mina¡ dentro de una escala de Depresión. La gador podría concluir que el potencial de
i liderazgo se ca¡acteriza por confianza en uno
{ fundamentación momentiínea para incluir este
reactivo es sencillamente que funciona. Por mismo, fl exibilidad bajo presión, inteligencia
ESCALAS GUTTMAN Es posible que el lector haya observado que ia

En una escala Guttman, las personas que co-


mayor parte de los métodos de escalamiento que
se analizan en la sección anterior dependen del
i supuesto, el reto que se le presenta a ios inves-
tigadores consiste en determinar por qué fun-
elevada, capacidad de persuasión, asertividad
y la capacidad para percibir lo que otros pien-
rroboran una afi¡mación también concuerdan juicio autorizado de expertos para la selección ciona el reactivo. Sin embargo, desde el punto san y sienten. Estos conceptos sugieren que los
?

I
?
152" Eualuacién psicolégica:,Historia,' princjpios y aplicaciones (Capftulo 4) y , ll3
ffi:,' Validez desarrollo de pruebas

siguientes reactivos de falso-verdadero podrían ciones, el investigador busca en el listado las


- Los autores de pruebas esperan que algu-
,P.REGUNTAS INIC,IALES
ser útiies en la evaluación del potencial de conelaciones débiles y las inversas (conelacio- EN CoNSTRUCCION DE PRUEBAS nos de los reactivos iniciales produzcancontri-
liderazgo (Gough y Bradley, 1992): nes negatrvas). Estos ¡eactivos se descartan tt!,' buciones poco eficaces para el objetivo global
debido a que no contribuyen a la medición del La.p..:lme:ra
pregunta tiene que ver con la ho- de medición de su instrumento. Por esta razón,

'En general tengo confianza y seguridad en potencial de liderazgo. Podrían eliminarse has- ¡nogeneidad contra la heterogeneidad en el con- es común la práctica de const¡uir un primer
mí mrsmo. (V) ta la mitad de ios reactivos originales. Si de ini- .tenido de los reactivos de una prueba. En gran borrador que contenga un exceso de reactivos,

'Cuando ot¡as personas estiín en desacue¡do


cio se descarta una gran proporción de éstos, el .medida, aquello que dicta si el contenido de los quizás el doble del número de preguntas que se
conmigo, en general me quedo en silencio o investigador podría volver a calcula¡ las cone- ieactivos ha de ser homogéneo o variado es la deseen para el bosquejo final. Por ejemplo, el
cedo de algún otro modo. (F) laciones entre los reactivos y el total, con base manera en que el autor de la prueba ha defini- MMPI, que contiene 550 reactivos, original-
o Creo que me encuentro notablemente por en una reserva reducida de aquéllos para veri- ..d0.al nuevo instrumento. Considérese una prue- mente consistía de más de 1 000 afirmaciones
encima del promedio en cuanto a capacidad ficar la homogeneidad de los restantes. Los ,6¿ culturalmente reducida de la inteligencia de faiso-verdadero acerca de la personalidad
intelecn¡al. (V) ¡eactivos que sobreviven a este procedimiento general. Dicho instrumento podría incorporar (Hathaway y McKinley, 1940).

'Con frecuencia siento que tengo una com- iterativo constituyen la escala de potencial de .¡eactivos va¡iados, en tanto las preguntas no
prensión deficiente de la manera en que otras iiderazgo. El lector debería mantener en mente supongan una escolaridad específica. El autor
personas reaccionarán ante las cosas. (F). que el enfoque racional para la construcción de de la prueba podría tener la intención de in- TABIA DE ESPECIFICACIONES
'Es probable que mis amigos me describieran escalas tan sólo produce una homogénea al corporar problemas novedosos que sean igual-
como una persona fuerte y enérgica. (V) medir un constructo especificado. Se necesita- rnente desconocidos para todas las personas Es frecuente que los autores profesionales de
¡ían estudios adicionales con nuevas muestras evaluadas. Por otro lado, con una prueba de pen- pruebas de rendimiento y capacidad utilicen uno
La V y la F después de cada afirmación indi- de individuos para determinar la confiabilidad samiento espacial que se base en la teoría, se o más esquemas de redacción de reactivos para
can la dirección codificada de manera racional y validez de la nueva escala. requerirían subescalas con reactivos que ten- ayudar a garanizar que su instrumento detecte
para el potencial de liderazgo. gan contenido homogéneo. una mezcla deseada de procesos cognitivos y
Por supuesto, también se propondrían El rango de dificultad de los reactivos debe dominios de contenido. Por ejemplo, un esque-
reactivos adicionales con intenciones similares. ser el suficiente como para dar lugar a una di-
El autor de la prueba podría comenzar con 100
ffi .ottt*uccóN DE REAorvos
ferenciación significativa de las personas eva-
ma muy sencillo de redacción de reactivos po-
dría establece¡ que una prueba de rendimiento
reactivos que parecen una base racio- rluadas en ambos extremos. Entonces, las sobre la Guena Civil de los Estados Unidos
nal- evaiuar el potencial -con
de liderazgo. Estos Construir los reactivos de una prueba es un pro- pruebas más útiles son aquellas que incluyen debe¡ía consistir de l0 reactivos de opción
reactivos preliminares se aplicarían a una mues- cedimiento doloroso y laborioso que impone una serie graduada de reactivos muy fáciles, múlüple y 10 preguntas de llenado de espacios
tra amplia de individuos similares a la pobla- demandas a la creatividad de los auto¡es de que aprueban casi todos, al igual que un grupo en blanco, la mitad de ellos sobre cuestiones
ción blanco a la que se dirige la escala. Por pruebas. Quien los redacta se enfrenta con una de éstos cada vez más difíciles que casi nadie objetivas (p. ej., fechas, principales batallas) y
ejemplo, si ésta se diseña para identificar a es- profusión de preguntas iniciales: aprueba. Se observa un efecto de límite supe- la ot¡a mitad sob¡e asuntos conceptuales (p. ej.,
tudiantes universitarios con potenciai de lideraz- rior cuando números significativos de exami- diferentes perspectivas acerca de la esclavitud).
go, entonces debería aplicarse a una muestra
' ¿El contenido de los reactivos debe ser ho- nandos obtienen puntuaciones perfectas o casi Antes de que comience el desanollo de la
representativa de varios cientos de estudiantes mogéneo o variado? .perfectas. El probiema con el efecto de límite prueba, por lo general los redactores de los
universitarios. Para el desanollo de la escala . ¿Qué rango de dificultad deberían cub¡ir los superior es que no son posibles las distinciones reactivos reciben una tabla de especificacio-
son deseables muestras muy grandes. En este reactivos? .entre,personas con puntuaciones elevadas, aun- nes. Ésta enumera la información y las tareas
caso hipotético, supóngase que se obtienen re- . ¿Cuántos reactivos iniciales deberían cons- que,estos individuos podrían diferir de manera cognitivas en ias que se ha de evaiuar a los
sultados con 500 estudiantes universita¡ios. truirse? sustancial en cuanto al rasgo subyacente que examinandos. Quizás la tabla más común sea
El siguiente paso en la construcción de un t ¿Qué procesos cognitivos y dominios del
,mide la prueba. Se observa un efecto de límite la matriz de contenido por proceso, que lista el
escalamiento racional consiste en conelacionar reactivo deberían cubrirse? inferior cuando cantidades significativas de número exacto de reactivos en las áreas perti-
las puntuaciones de cada uno de los reactivos o examinandos obtienen puntuaciones que se en- nentes de contenido y detalla la combinación
¿Qué tipos de ¡eactivos de prueba deberían
preliminares con la puntuación total de la prue- utiliza¡se? cuentran cerca o en la parte más baja de la es- precisa de reactivos que deben ejemplificar
ba para los 500 participantes en la muestra del cala. Por ejemplo, el WAIS-R üene un importante diferentes p¡ocesos cognitivos (Millman y
piloteo. Debido a que las puntuaciones en los Se atenderá de manera breve a las tres prime- efecto de límite inferior en cuanto a que no Greene, 1989).
reactivos son dicotómicas (se asigna de manera ras preguntas antes de volver a un análisis puede discriminar entre los niveles moderado, Considérese una prueba de rendimiento en
arbitraria un I para la respuesta que correspon- más detallado de los dos últimos temas, que grave y profundo de retraso mental ciencias naturales adecuada para estudiantes de
de a la clave de calificación y 0 a la altemativa), por lo común se engloban bajo los encabeza- -todas
ias personas con discapacidades significativas educación media. Dicha prueba debería cubrir
se requiere de un coeficiente r,, de conelación dos de tabla de especificaciones y formatos de del desanollo fallan en sus resouestas a casl muchas áreas diferentes de contenido y debe-
biserial. Una vez que se obtienen las correla- reactrvo, todas las preguntas. ía requerir una mezcla de procesos cognltlvos
1 54',Evaluación psicolqgica: Historia, principiosy: aplicacisnes (Capftulo 4)
ffi*.,,,1 ,Vatidezyiennottaltepruefni| it:

Cuadro tt-6. Ejemplo de una tabla convenientes de las va¡iedades más comunes reactivo objetivo con respuesta corta. De hecho,
de especificaciones de contenido de reactivos de una prueba. Cuadro ¡l-7. Pautas para la redacción es frecuente que los tipos más sencillos y direc-
por proceso para una prueba hipotética de reactivos de oPción múltiPle
En el caso de pruebas de aplicación grupal tos de preguntas posean la mejor confiabiiidad
de rendimiento en ciencias naturales
sobre intelecto y rendimiento, la técnica a ele- que tengan significados precisos. y validez. Un caso específico es la subprueba
con 100 reactivos .'Etija palabras
gir es la de preguntas de opción múltiple. Por compleja o extraña. de Vocabula¡io del WAIS-I que consiste sólo de
Evite la s¡ntaxis
ejemplo, un reactivo en una prueba de rendi- pedirle a la persona evaluada que defina pala-
Proceso .lncluya:toda la información necesaria para la selec-
miento sobre historia estadounidense podría bras. Ésta tiene una confiabitidad muy elevada
Área Conoci- Suficiencia Razona- c¡ón de la respuesta.
(.96) y en general se considera como la mejor
de conte- miento de la
miento incluir esta combinación de planteamiento v
Inclqya lo más posible de la pregunta dentro del plan-
nido objetivo' informaciónt infe- opclones: I medida individuai de la inteligencia general en el
leam¡ento.
rencial+ WAIS-ru (Gregory, 1999).
'Ño tome los planteamientos al pie de la letra de los
Con frecuencia, las pruebas de personali-
Astronomía ó 33 El presidente de Estados Unidos durante la , libros de texto'
Guena Civil fue: dad utilizan p¡eguntas de falso-verdadero de-
Botánica a6 :L:,tilice opciones de igual extensión y fraseo paralelo.
bido a que son fáciles de comprender para los
E¡ rninguna de las anteriores'y'todas las ante-
Químim 10 Urilice
individuos. A la mayoría de las personas les
a. Washington. riofes" en raras ocas¡ones.
Geología 10 52 b. Lincoin.
resulta sencillo responder con verdadero o fal-
'Reduzca al mínimo el empleo de negativos como no.
Física I cb
c. Hamilton.
so a reacnvos como:
,Eiite la ut¡lización de palabras no funcionales.
Zoología
d. Wilson,
Totales * 30 20
,Evite la especif¡c¡dad innecesaria en el plantea- VF
miento.
Me gustan las revistas deportivas.
'Conoc¡miento objet¡vo: los reactivos pueden responderse Los defensores de la metodología de opción iu¡t, ¡n¿¡.¡* innecesarios ds la respuesta correcta.
con
base en el simple reconocim¡ento de hechos básicos. múltiple afirman que los reactivos construidos
tSuf¡cienciade h ¡ntormación: los reacl¡vos teou¡eren del emoleo iresente los reactivos a otras personas para es' Los c¡íticos de este enfoque han señalado que
de manera apropiada pueden medir tanto el co-
de intormación proporcionada en et texto escr¡to. .crutinio editor¡al. las respuestas a dichas preguntas pueden refle-
t Razonamienlo ¡nferencial: los react¡vos pueden resDonderse nocimiento conceptual como el objetivo. Las
:: jar la deseabilidad social más que los rasgos de
haciendo deducc¡ones u obten¡endo conclusiones. pruebas de opción mriltiple también permiren
ri personalidad (Edwards, 1961). Un formato
la calificación mecánica rápida y objetiva. Lo * alternativo para contrañestar este problema es
que es más, la equidad de las preguntas de op- ,* la metodología de eleccién forzada, donde la
que vayan desde el recuerdo simple hasta el ción múltiple se puede probar (¡o en ocasiones .* persona evaluada debe elegir entre dos opcio-
razonamiento infe¡encial. Al proporcionar una refutar!) con los procedimientos muy sencillos :8. Woodworth _ ninguna conelación en- nes igualmente deseables (o indeseables):
tabla de especificaciones previa a la etapa de de análisis de reactivos que se analizan poste- tre calificaciones y prue-
,.€
redacción de reactivos, el autor de la prueba riormente. Las principales desventajas de las bas mentales. Cuál de estas opciones preferi¡ía hacer:
puede garantizar que el instrumento resultante preguntas de opción múltiple son, en primer :hl C. Cattell desanolló un inventario Limpiar un galón dejarabe del piso.
contenga un equilibrio apropiado en cuanto a lugar, la dificultad de escribir buenas opciones :,t
de personalidad de fal-
:t Trabaja¡ como voluntario por medio día en
cobertura de temas y que detecta un rango de- distractoras y, en segundo, la posibilidad de que ..:f; -
seado de habilidades cognitivas. En el cuadro
- so-verdadero.
- un asilo de ancianos.
la presencia de la respuesta pueda darle un in- ,$,
,* E. McKiniey batería de pruebas sen-
4-ó se presenta una tabia de especificaciones dicio de la contestación correcta a una persona :{ soriomotoras. Aunque el enfoque de elección forzada tiene
hipotética, pero realista. con un conocimiento vago. Las pautas para la i+,t
,E. Wissler desanolló la primua prue- muchas propiedades psicométricas (Zavala,
redacción de buenos reactivos de opción múl- ba útil de inteligencia. 1965), los autores de pruebas de personalidad
tiple se listan en el cuadro 4-7. F.'Goddard prueba de detección del no se han lanzado a elegir esta interesante me-
FORMATOS DE LOS REACIIVOS Los métodos de correspondencias son po- $ trastomo emocional. todoloeía.
pulares en el salón de clases, pero sufren de
s
r* -
En lo que refiere al método a través del cual
se graves desventajas psicométricas. Un ejemplo fl problema más grave con las conesponden-
se han de evaluar los atributos psicológicos, el de correspondencias es: $ cias es que las respuestas no son independien-
I EXA'I,IEN DE REACIIVOS
autor de pruebas se enfrenta a docenas de opcio- :,1-. tes ---€n general, si el examinando pierde una
nes. De hecho, sería fácil escribir un capítulo Utilice las letras que aparecen del lado izquierdo ,t' conespondencia, esto 1o obliga a fallar en otra.
completo sólo sobre este tema. Para una reseña para establecer la correspondencia entre el nombre Otro problema es que las opciones en una co- Los psicómetras saben que numerosos reactlvos
sobre formatos de reactivos, el lector interesa-
}
y la obra alcanzada: nespondencia deben relacionarse de manera de prueba de la reserva original del piloteo se
do debe¡ía consultar a Bausell (1986), Jensen estrecha o la pregunta se¡á demasiado fácil. descartarán o revisarán a medida que se prosi-
(1980) y Wesman (1971). En esta sección se A. Binet _tradujo ga con el desanolio de la prueba. Por tal razón,
una de las principales Cuando se trata de pruebas aplicadas de
revisarán de manera rápida las ventajas e in- pruebas de inteligencia. manera individual, el procedimiento a elegir es el los autores producen inicialmente muchos
1 56 " Eualuación;psicológica:,Historia,
principios'y,aplicaciones (Capítuto 4)
W!'' Validez y desanotto de pruebas , li7

reactivos adicionales, quizás el doble de los que casi todos los participantes dieron la respuesta iNDICE DE LA CONFIABILIDAD ¡eactivo, más útil es éste para la escala comple-
pretenden utilizar. Así que ¿cómo se seleccio- correcta. JDET.REACIIVO ta. Aunque no se proporcionará la derivación,
na la muest¡a final de reactivos de una prueba a ¿Cuál es el nivel ópümo de dificultad del se puede demostrar que la desviación estándar
:.,
partir de la reserva inicial de éstos? Los auto- reactivo? En general, las dificultades de ¡eacüvo :Un autor de pruebas puede desear un instru- de la puntuación del reacti vo. s.. para un reactivo
res de pruebas utilizan el análisis de reactivos, que giran alrededor de .5, con un rango enfte .3 alto nivel de consistencia con calificación dicotómica puede calcular-
-,m€nto que tenga un
una famiiia de procedimrentos estadísticos, para y .7, aumentan al máximo la información que la se con la fórmula:
jfterna, en el que los reactivos sean ¡azonable-
identificar los mejores. En general, el propósi- prueba proporciona acerca de las diferencias
::4.
:!. ,mente homogéneos' Una manera sencilla de
'[*( -

to del análisis de reactivos consiste en determi- s,= Pil
enhe personas evaluadas. No obstante, esta re- # ,determinar si un ¡eactivo individual "se lleva"
nar cuáles de ellos se conservarán, cuáles se gla empírica está sometida a una salvedad im- .oon los restantes en la prueba consiste en
revisarán y cuáles se eliminarán. Cuando se rea- Puede ¡esumirse el análisis realizado hasta este
portante y a una excepción muy significativa. conelacionar ias puntuaciones obtenidas en ese
liza un análisis detallado de los reactivos, el En el caso de ¡eactivos de verdadero-falso
€ reactivo con aquéllas de la prueba completa.
momento del siguiente modo: el valor poten-
autor podría utilizar un índice de dificultad, uno cial de un reactivo de prueba calificado de ma-
o de opción múlúpie, el nivel óptimo de dificul- $ Sin embargo, por 1o común los reactivos ¡ndi-
nera dicotómica depende conjuntamente de su
de confiabilidad, uno de validez, una curva ,'::a
viduales son conectos o incorectos (a menu-
tad del reactivo necesita ajustarse con relación
reactivo-característica o un índice de discri- ';l consistencia interna, como se indica por el ín-
a los efectos de las conjeturas. En el caso de ,do se les califica con I o 0), mientras que las
minación de los reactivos. En este punto hay ;j, dice obtenido de la conelación con la puntua-
puntuaciones totales constituyen una variable
que volver la atención hacia una breve revisión
una prueba de verdadero-falso, se puede obte- ción total (r), y también de su variabilidad
ner un nivel de dificultad de .5 cuando los continua. A fin de correlacionar estos dos tipos
según el índice obtenido de su desviación
de estos enfoques estadísticos para el análisis de
reactivos. Los lectores que deseen una discu-
examinandos simplemente adivinan la respues- t diferentes de puntuaciones, es necesario utili-
zar un tipo especial de método estadístico de-
estándar (s). Si se calcula el producto de estos
sión y crítica a profundidad sobre estos temas
ta, Así, el nivel óptimo de dificultad de dichos ji :nominado coeficiente de Qorrelación biserial
dos índices, se obtiene s, r., que es el índice de
deberían consultar a Hambleton (1989) y reactivos debería ser de .75 (a la mitad entre .5 'de:puntos. conliabüdad del reactivo. Considérense las
,t La fórmula para el cálculo de este
Nunnally (1978). y 1.0). En general, el nivel óptimo de dificultad características de un reactivo que posee un ín-
'ooeficiente de correlación es equivalente a la r
del reactivo se puede calcula¡ con ia fórmula dice relativamente grande de confiabilidad. Este
(1.0 + c)12 donde c se refiere al nivel de éxito
{ de Fearson que s e analizó antes y el coeficiente
exhibiría fuerte consistencia intema y produci-
::i
de cor¡elación biserial de puntos trasmite en
iNorce DE DrFrcrrLTAD DEL REAcfrvo aleatorio. Así, para una prueba de cuatro ría una buena dispersión de puntuaciones entre
'mucho el mismo tipo de info¡mación conce¡-
reactivos de opción múltiple, el nivel de éxito sus dos alternativas. El valo¡ de este índice en
:niente a la relación entre dos variables (una de
La dificultad del reactivo para un solo reacüvo aleatorio es de .25 y el nivel ópümo de dificul- la construcción de pruebas es, dicho de mane-
1as cuales casualmente es dicotómica y se cali-
de prueba se define como la proporción de per- tad del reactivo seía ( I .0 + .25)12 o aproxima- ,fica,con 0 o l). En general, entre más alta sea ra sencilla, el siguiente: al calcular el índice de
sonas examinadas en una muestra conside¡a- damente .63. rla conelación biserial de puntos r¡r enffe un confiabilidad de todos los reactivos en la prue-
ble de piloteo que responden correctamente Si se ha de utilizar una prueba para selec- ba preliminar, pueden eliminarse los "más ex-
reactivo individual y la puntuación total, más
éste. En cualquier reactivo individual i, el ín- ciona¡ a un grupo extremo por medio de una ternos" que tienen el menor vaior en este índice.
úül se¡á éste desde la perspectiva de la consis-
dice de dificultad del reactivo es p¡, que varía puntuación de corte, puede ser deseable la se- Dichos reactivos poseerían una consistencia
tencia interna.
de 0.0 a 1.0. Un reactivo con dificultad de .2 es lección de reactivos con niveles de dificultad interna muy baja o dispersión de puntuaciones
La utilidad de un reactivo dicotómico de
débil y, por tanto, no contiibuirían a los objeti-
más complicado que uno con una dificultad de fuera del rango de .3 a .7. Por ejemplo, una una prueba también se dete¡mina por el grado
vos de ia medición.
.7, debido a que son menos las personas que lo prueba que se empiee para seleccionar a estu- en que las puntuaciones obtenidas en él se dis-
respondieron de manera correcta. diantes de posgrado p¿rra una universidad que 'tribuyen entre los dos resultados de 0 y L Aun-
El índice de dificultad del reactivo es una sóio acepta a unos cuantos elegidos de ent¡e que suena incongruente, es posible calcular Ia
,desviación estándar para reactivos dicotómicos ; í¡.¡o¡cg DE LA vAuDEz DEL REAotvo
henamienta útil para identificar a aquellos que de- sus muchos solicitantes, debeía contener mu-
berían alterarse o descartarse. Supóngase que chos reactivos muy difíciles. Una prueba que como ocune con una variable con puntuación
un reactivo tiene un índice de dificultad cerca- se utilice para asignar a niños a un programa de continua, la desviación estándar de un reactivo En muchas aplicaciones, es importante que una
,{ prueba posea una validez concurrente o
no a 0.0, lo cual significa que casi todos lo han regularización educaüva debería contener mu- dicotómico indica el grado de dispersión de las
é .puntuaciones. predictiva más elevada posible. En estos casos,
respondido de manera inconecta. Por desgra- chos reactivos sumamente fáciles. En ambos ,* Si un reactivo individual tiene
cia, este reactivo es improductivo en sentido casos, habrá una discriminación útil entre las :1'
:!. una desviación estándar de cero, todos los in- una pregunta preponderante que gobiema la
psicométrico debido a que no proporciona in- personas examinadas cerca de la puntuación j dividuos están obteniendo la misma puntuación construcción de pruebas es: ¿cuánto contribu-
formación acerca de las diferencias entre per- de corte puntuación muy alta para las (todos correctos o todos incoffectos). Entre más ye cada reactivo preliminar de una prueba a la
sonas examinadas. Pa¡a la mayor pafe de las
-una
admlsiones al posgrado y muy baja para los
? se acerque el reactivo a una división de 50-50 predicción precisa del critedo? El índice de
:'i
aplicaciones, el reactivo debería volver a redac- estudiantes elegibles para regularización- pero de puntuaciones coffectas e inconectas, mayor validez del reactivo es una heramienta útil en
,1
tarse o eiiminarse. Lo mismo puede decirse de poca discriminación entre los individuos res- :i se¡á la desviación estándar. En general, entre la búsqueda de los psicómetras por identificar
uno con índice de dificultad cercano a L0. donde tantes (Allen y Yen, 1979). ai más srande sea la desviación estándar de un reacf,vos de una pruebaque sean útiies en términos

*

¡1.
:1 58 ",Eualuaciónpsicolqgica: Histaria, principios y aplicaciones (Capítulo 4)

predictivos. Mediante el cálculo del índice de reactivos de prueba son unidimensionales y ilatos sobre fútbol. Para los varones, la CRC en tuaciones y falla con la mayoría de los que tie-
validez de cada reacüvo en la prueba prelinuna¡ miden un rasgo común y 2) los reactivos de ,esrc reactivo podría tcner la pendiente positiva nen bajas puntuaciones (véase curva a en la
el autor puede identificar aquellos que son in- prueba varían en un continuo de nivel de difi- ,deseada, mientras que para mujeres ésta podría figura 4-8). La simple inspección visual de
eficaces, elirninarlos o volve¡ a redactarlos, y cultad. i.ser,plana (como la curva c en la figura 4-8). la CRC proporciona una base rudimentaria para
producir un instrumento revisado que tenga En general, un buen reactivo tiene una CRC Los reactivos con CRC que difieren entre sub- estimar la capacidad de discriminación de un
-?.
mayor utilidad práctica. con una pendiente positiva. Si la capacidad para #l grupos de personas evaluadas deben revisarse reactivo de una prueba: si la pendiente de la
El pnmer paso para establece¡ el índice de resolver un reactivo en particular se distribuye o,elimina¡se. curva es positiva y, de preferencia, tiene forma
$,:i ,
validez de un reactivo consiste en calcula¡ la de mane¡a normal, la CRC se asemejará a una .Ia
leoría subyacente de la CRC también de ojiva, el reactivo está haciendo un buen tra-
'.,{'
corelación biserial de puntos entre la pun- ojiva normal (curva a en la figura 4-8). Esta .se:conoce colno teoúa de respuesta al reactivo bajo en cuanto a separar a las personas con pun-
¡1
tuación del ¡eactivo y aquélla en la variable de es, simplemente, la distribución normal traza- vrfeoría de rasgo latente. Nunnally (1978) ha tuaciones altas y bajas. Pero la inspección visual
*,
criterio. En general, entre más alta sea la cone- da en forma acumulativa. :,1
iuestionado la utilidad de este enfoque al seña- no es un procedimiento totalmente objetivo; lo
lación bise¡ial de puntos r,c ent¡e ias puntuacio- La forma deseada de la CRC depende del :? Iar.que la suposición de unidimensionalidad de que se requiere es una henamienta estadísti-
nes del ¡eactivo individual y del criterio, más propósito de la prueba. Los puristas de la
¡. laprueba (implícita en la CRC que representa ca que resuma el poder de discriminación de
útil será el reactivo desde el punto de vista de psicometría preferirían que la CRC del reactivo ,gáficamente el porcentaje que aprueba contra los reactivos individuales de una prueba.
la validez predictiva. Como se señaló antes, la de una prueba se aproximara a la ojiva normal, il:eje horizontal unidimensional del valor del Un índice de discriminación del reactivo
utilidad de un reactivo también depende de su porque esta curva es conveniente para hacer * rasgo) se viola cuando se consideran muchas es un índice estadístico de la eficiencia con la
desviación estándar s,. Así, el índice de validez deducciones matemáticas acerca del rasgo sub- .$ :pruebas psicológicas. Si no hubiera serios pro- que un reactivo discrimina entre personas que
del reacüvo consiste del producto entre la des- yacente (Lord y Novick, 1968). Sin embargo, üemas técnicos y prácticos, "uno se pregunta obtienen altas y bajas puntuaciones en la prue-
viación estándar y la conelación biserial de pun- para decisiones de selección que se basan en .l :por,qué no se ha adoptado desde hace largo ba completa. Existen muchos índices de dis-
tOS: s¡rrc. puntuaciones de corte, se prefiere una función ¡* '.tiempo la teoría de la CRC para la construcción criminación del reactivo, que incluyen medidas
:.#
escalonada. Por ejemplo, cuando se combina .y calificación de pruebas" (Nunnally, 1978). indirectas como la r,r, la correlación biserial de
con oúos reactivos similares, el reactivo que . Los méritos del enfoque de la CRC toda- puntos entre las puntuaciones en un ¡eactivo
CUFVAS REACNVO.CARACTERÍSN CA produjo la curva b en la figura 4-8 sería el mejor $ víarse discuten. La teoría de la CRC parece par- individual y la puntuación total en la prueba.
para seleccionar individuos con altos niveles ticularmente apropiada para ciertos tipos de No obstante, aquí se restringirá el examen a una
$ medida directa, el índice de discriminación del
;pruebas adaptativas por computadora (PAC) en
del rasgo medido. -rá
Una curva reactivo-característica (CRC) es una
¡s
representación gráfica de la relación entre ia Las CRC son especialmente útiles para r{} las que la persona responde a un conjunto reactivo, que se simboliza por la letra minúscu-
g la d, escrita en cursivas. En una base de reacüvo
probabilidad de una respuesta conecta y la po- identificar reactivos que tienen un desempeño & .individualizado y único de reactivos que se ca-
diferente en los subgrupos de personas exami- ,'liftcan entonces en una escala uniforme subya- por reactivo, este índice compara el desempe-
sición de ia persona evaluada en el rasgo sub- ::tÉ'
!:f:.'
nadas (Allen y Yen, 1979). Por ejemplo, un i& cente (Weiss, 1983). El enfoque de las PAC para ño de los panicipantes en las regiones superior
yacente que mide la prueba. No obstante, no se
autor de pruebas puede descubrir que un reac- la;evaluación no sería posible en ausencia de e inferior de ia puntuación total de prueba. En
tiene acceso directo a los rasgos subyacentes, t*
tivo tiene un desempeño diferente en varones y los métodos de CRC para la medición. Las PAC general, los rangos superior e inferior se defi-
de modo que deben utilizarse las puntuaciones
mujeres. Ese podría ser el caso de una pregun- é :se.analizan en el tema l5A, Evaluación por nen como el 70 a33Vo de personas dentro de la
observadas para estimar las canüdades del rasgo.
ta parcial en cuanto a género que implique computadora y el futuro de las pruebas. ios muestra con puntuaciones rnás altas y más ba-
Se traza una CRC independiente para cada
ilectores que deseen un análisis más detallado jas. Si las puntuaciones totaies de la prueba tie-
reactivo, con base en una gráfica de las pun-
.dclla CRC y de otros modelos de rasgo latente nen una distribución normal, la comparación
h¡aciones totales de una prueba en el eje hori-
.,iléberían consultar a Anastasi (1988), Hambleton óptima es entreZTVo, de personas con puntua-
zontal contra la proporción de personas que ciones más altas y 27Vo con puntuaciones más
1.0 10989) y Wright y Stone (1979).
aprueban el reactivo en el eje vertical (figura
bajas. Si la distribución de las puntuaciones
4-8). De hecho, una CRC es una idealización i. totales de una prueba es más plana que la curva
matemática de la relación entre la probabilidad
Probabilidad
]INDIc¡ DE DISCRI'I'IIMOóN normal, el porcentaje óptimo es más grande,
de una respuesta correcta y la cantidad del ras- de .s cercano a33%o.En el caso de la mayor parte de
go que poseen aquellos que responden a la respuesta iDEt REACIVO
@reda las aplicaciones, cualquier porcentaje entre
prueba. Diferentes modelos de CRC utilizan di- 25 y 33Va producirá estimados similares de d
versas funciones matemáticas con base en las A partir del análisis de las CRC, debería quedar
(Allen y Yen, 1979).
suposiciones iniciales. El modelo más sencillo
de CRC es el de Rasch, que se basa en la teoía de
Nivel de capacidad
i claro que un reactivo de prueba eficaz es aquel
'que discrimina entre los individuos con pun-
El índice de discriminación del reactivo
para un reactivo de prueba se calcula con la
respuesta al reactivo del matemático danés Georg 'tuaclones altas y bajas en la prueba completa.
*"i Un reactivo ideal de una prueba es el que aprue-
fórmula:
Rasch (1966). El modelo de Rasch es el más sen-
F¡gura 4--8. Algunos ejemplos de curvas reactivo-ca- : .ba a la mayoría de las personas con altas pun-
cillo porque realiza sólo dos suposiciones: l) los racterística. $, d=(s-"tw
2
$
,.?

*l...
160''Evaluac'nn,psicológica: Historia, principios y aplicaciones (Capítulo.4)

donde ,S es el número de personas evaluadas resultado indicaría que fueron más los indivi- de todo, la elección del "mejor" reactivo de-
¡¡ueba:hipotética de opción múltiple.
Las op-
que se encuentfan en el rango superior y que duos con bajas puntuaciones quienes respon- aott atut se indican con un asterisco (*). pende de los objetivos del autor de la prueba.
oiones
respondieron de manera conecta al reacüvo, 1 dieron de manera correcta al reactivo que
El':reactivo I demuestra el
patrón deseado de Por ejemplo, un psicólogo inclinado teórica-
es el núme¡o de personas evaluadas que están aquéllos con altas puntuaciones. Si d es igual a mente hacia la investigación podría querer un
rrespuestas, con una dispersión aproximadamen-
del rango inferior y que respondieron al reactlvo cero, hay un número exactamente igual de in- de las opciones inconectas. instrumento de medición con la mayor consis-
i¡. te.igual
en forma coÍecta y N es el número total de dividuos con bajas y altas puntuaciones que res- ¡s
gi tencia intema posible; los índices de confiabili-
personas evaluadas en los rangos superior o in- pondieron de manera conecta al reactivo; dado Alternativas dad del reactivo son cruciales para este objetivo.

ferior. que éste no discrimina en absoluto entre perso-
r*, abc*de Un administ¡ador universitario con mentalidad
Ilustre el cálculo y empleo de d con un nas con altas y bajas puntuaciones, entonces
'
:-
Reactivo I
5 6 80 5 práctica podría desear un instrumento con la
ejemplo hipotético. Supóngase que un autor de debería revisarse o eliminarse. Es preferible un €. {taspuntuaciones 4
mayor validez de criterio posible; los índices
valor positivo paru d y entre más se acerque a
'tt{ .. !¿jaspuntuaciones 15 14 40 16 15
pruebas ha construido una versión preliminar :.:Y de validez del reactivo seían útiles para este
de una prueba de rendimiento de opción múlti- +1.0, mejor. El cuadro ,[-8 ilustra los índices propósito. Un especialista en reffaso mental,
.4.
pie y ha aplicado el examen a una muestra de de discriminación de seis reactivos de la prue- 3n el ¡eactivo 2, se puede ver que ninguno de orientado a la terapéutica, podría necesitar una
piloteo de 400 aiumnos de secundaria. Después ba hipotética que se propone aquí. 'f los alumnos examinados eligió la alternativa d. prueba de inteligencia con un efecto mínimo
:.ü
de calcular las puntuaciones totales de cada Un auto¡ de pruebas puede complementar :,i .Ésa debe reemplazarse con un medio de dis-
de límite inferior; los índices de dificultad del
individuo, el autor idenúfica a25Va con pun- el enfoque de discriminación de los reactivos al ia facción más atractivo: reacúvo serían útiles en este sentido. En resu-
tuaciones más altas y a25Vo con puntuaciones inspeccionar el número de personas evaluadas ,i men, no existe un solo método preferido para
más bajas dentro de ia muestra. Dado que hay en los grupos con puntuaciones más altas y Reactivo 2 u b* cd e
la selección de reactivos que sea idealmente
100 alumnos en cada grupo (25V0 de 400), en más bajas que eligieron cada una de las alterna- f Altas puntuactones 575 10010 adecuado para todos los contextos de evalua-
la fórmula ante¡io¡ N será 100. A continuación, tivas inconectas. Si un reactivo de opción múl- ,ii
a!
Bajas puntuaciones 2t 34 20025 ción v desarrollo de oruebas.
el autor determina el número de estudiantes en tiple está bien redactado, las alternativas :,!.
ios rangos superior e inferior que respondieron inconectas deben ser igualmente atractivas para .:i :El reactivo 3 probablemente es deficiente, a
a cada reacüvo de manera correcta. El cálculo los participantes que no conocen la respuesta pesar del hecho de que discrimina entre los par-
::
de- d pam cada uno se reduce simplemente a correcta. Por supuesto, se esperaría que los :.i
,ticipantes con altas y bajas puntuaciones. El ffinsus¡óN DE rA PRUEBA
.:+
sustituir estos valores dentro de la fórmuia individuos con puntuaciones altas eligieran la
(S-|/N. Por ejemplo, supóngase que en el pri- altemativa correcta con mayor frecuencia que
'i problema obvio es que los alumnos evaluados
que tienen altas puntuaciones prefieren la alter-
'á El propósito del análisis de reactivos que se
mer reactivo 49 alumnos en el rango superior aquéllos con bajas puntuaciones ---+se es el pro- naüva ¿ en iugar de la alternativa coúecta, d'.
'li analizó anteriormente consiste en identificar los
respondieron de manera correcta, mientras que pósito de calcular índices de discriminación del
reactivos improductivos de la prueba prelimi-
23 del rango inferior lo hicieron correctamen- reactivo. Pero. además. un buen reactivo debe-
;i Reactivo3 a b c d* e nar de modo que se puedan revisar, eliminar o
te. En este reactivo, d es igual a (49-23)1100 ría mostrar una dispersión proporcional de op- .',* 'Altas'puntuaciones 43 6 5 37 9 reemplazar. Muy pocas pruebas surgen incólu-
o .26. ciones incorrectas tanto para los individuos con
De la fórmula para d es evidente que este altas puntuaciones como para aquéllos con ba-
i.t -
Bajaspuntuaciones 20 19 22 I0 29 mes de este proceso. Es común dentro del pro-
,;' ceso evolutivo del desarrollo de pruebas que se
índice puede variar de -1.0 a +1.0. Véase t¿m- jas puntuaciones.
.;* descarten muchos ¡eactivos, que otros se refi-
bién que un valor negativo en d es señal de alar- Supóngase que se investigan ias opciones Quizás'si se vuelve a escribir la altemativa a,
$ este reactivo pudiera rescatarse. En cualquier nen y que se añadan nuevos. La repercusión
ma de que un reactivo de prueba necesita tomadas por 100 individuos con altas puntua- ,i inicial es que surge una prueba nueva y ligera-
revisión o sustitución. Después de todo, dicho ciones y 100 con bajas puntuaciones en una f
ii
.caso, el asunto principal aquí es que los auto-
res de pruebas deben escudriñar en cada rincón mente diferente. Es probable que esta prueba
á de cada reactivo de prueba a través de todos los revisada contenga más reactivbs discrimina-
l:l medios posibles, incluyendo la inspección vi- tivos, con mayor confiabilidad y precisión
Cuadro ¡l-8. índices de discriminación del reactivo de seis reactivos hipotéticos li ,sual del patrón de respuestas. predictiva más elevada se sabe que es-
:¿
-pero
tas mejorías son ve¡daderas sólo en el caso de
Reactivo (s-1yN Comentario
.:' la primera muestra del piloteo.
'I 49
79
¿ó .26
.60
Reactivo muy bueno con dificultad elevada.
Excelente reactivo, pero se obtiene en raras ocasiones
i
;
.REMRAOóN: LOS MEJORES REACNVOS
El siguiente paso en el desanollo de una
prueba consiste en obtener nuevos datos de
3 52 52 .00 Reaclivo delic¡ente que debería revisarse. :-i ,De todos los métodos de análisis de reactivos una segunda muestra de piloteo. Por supuesto,
100 0 1.00 Reactivo ideal. Dero nunca se obtiene. .i;.1 .
que se presentan antes,
¿cuáles debe utilizar el estos individuos evaluados deben ser similares
5 20 80 -.ou Reactivo muy inadecuado que debería el¡minarse. ,r¡ autor de pruebas para identificar los mejores a aquéllos a los que, en última instancia, se di-
6 0 t00 -1.00 El peor react¡vo posible en términos teóricos. s: :reactivos para una prueba? La respuesta a esta rige la prueba. El propósito de reunir datos adi-
,+ :pregunta no es ni simple ni sencilla. Después cionales de una prueba es repetir de nuevo los
it
,s
:!i
*X":.¡
lü, Evaluacion psicológica: :llistoria,:principios y, apligaciones (Cqpítutg:4I; ffi ., , :- , , , ',.':l',trl ."r',., Vdlidezy.desefi.dil¡i;de-pnreó¡i,'ii:6.?

con la original de piloteo. El término reducción indi- para estudiar el Int e r - U niv e r s ity P sy c homet ric
procedimientos de análisis de reactivos. Si los $aían cort los números hacia arriba como
Entrance Examination (Examen Psicométrico
cambios posteriores son de una variedad me- de la validez se aplica a este fenómeno. P6¡ , cwión de la presencia de ese "reactivo" para el
nor de tipo añnación, el autor puede decidir que ejemplo, un medio de predicción biográfica- ,estudiant€. A continuación, Cu¡eton llevó a de Ingreso Interuniversitario), uno de ios prin-
la prueba es satisfactoria y que está lista para mente basado del potencial de ventas podría ,:cabo un análisis de reactivos utilizando las ca- cipales requisitos para admisión a las seis uni-
versidades de Israel. El Examen de Ingreso
un estudio de vaiidación cruzada, el cual se ana- tener un desempeño bastante adecuado con la qf üficaciones divididas como criterio. Con base
liza en la siguiente sección. Si se requieren cam- muesúa de individuos que se empleó para de- s :en este análisis, se encontró que 24 reactivos Interuniversitario es una prueba grupal que
bios mayores, es deseable recolectar datos de sarrollar el instrumento, pero demuestra menos
# firtíanlacapacidad máxima de predicción de las consiste de cinco subpruebas de opción múlti-
una tercera e, incluso, quizá de una cuarta i€
validez cuando se apiica a un nuevo grupo de "*' ,calificaciones de ios estudiantes. Nueve de ple: Conocimientos generales, Razonamiento
muestra de piloteo. Pero en algún punto deben personas evaluadas. Mitchell y Klimoski (1986) . ellos.se presentaron con mayor frecuencia entre figurativo, Comprensión, Razonamiento mate-
cesar estos pequeños ajustes psicoméhicos; el estudiaron la reducción de la validez de un ins-
É .ios estudiantes con mayores calificaciones y mático e Inglés. El EFeQ se diseñó como una
autor debe proponer un instrumento terminado trumento diseñado para predecir cuáles estu- ,-€' i.éstos se ponderaron como +1. Quince reactivos posprueba anónima que se aplica de inmediato
r,í-
y proseguir con el siguiente paso, la validación diantes tendr¿ín éxito en bienes raíces, al medirlo aiZ ocurieron con mayor f¡ecuencia en el caso de después de contesta¡ el Examen de Ingreso
?
c¡uzada. por el criterio real de obtener una licencia en .:€$ l los:estudiantes con bajas calificaciones y éstos Interuniversitario.
bienes raíces dos años después. En un an¡ílisis ,* ;se?onderaron como -1. La puntuación de esta El EFeQ es un cuestionario corto y senci-
ra
basado en la muestra utilizada para derivar la .*; ¡rueba (irónicamente llamada "Prueba Pro- llo, diseñado para obtener las opiniones since-
VATJDASóN CRT,ZADA prueba, la prueba predictiva con base biográfi- s: yectiva B de Psicoquinesia") consistió de ia ras de las personas evaluadas en cuanto a los
ca se correlacionó en .6 con el crite¡io. Pero * ,suma de estas 24 ponderaciones de reactivo. siguientes rasgos de la matriz prueba-examina-
Cuando se utiliza una muestra de piloteo para cuando se puso a prueba este mismo instru-
.r1*
.$: , A pesar de la naturaleza insensata de su dor-persona evaluada:
,19 .prueba, Cureton (1950) encontró que las pun-
determinar que una prueba posee validez rela- mento.con una nueva muesüa de estudiantes
cionada con el criterio, la evidencia es bastante de bienes raíces. la cor¡elación con el criterio iuaciones de la prueba se conelacionaban en 'Conducta de los examinadores
preliminar y tentativa. En el desarrollo de prue- €r*. ;82 con las calificaciones. Por supuesto, ia for-
fue menor. cercana a .41 lo cual demuestra una

' Condiciones de prueba
bas, es una práctica prudente la búsqueda de dleza de esta cor¡elación se debía por comple-
reducción típica de la validez.
,s 'Claridad de las instrucciones de examen
confirmación fresca e independiente de la vali- l¿ reducción de la validez es una parte ine- to..a que se obtenía beneficio del azar. Si se
:g': ' Conveniencia en el uso de la hoja de respuestas
dez de la prueba antes de proceder con la pu- vitable del desanollo de pruebas y subraya la
.,...J.
.:tealizua una serie de estudios de validación
é&. '. Percepción sobre la idoneidad de la prueba
blicación. El término vaüdación cruzada se necesidad de obtener una validación cruzada. .j¡uzada con nuevas muestras de estudiantes, Percepción sobre imparcialidad cultural de la
$-
refiere a la práctica de utilizar la ecuación ori- ,es,probable que la conelación entre la Prueba prueba
ginal de regresión en una muesta nueva para
En la mayor parte de los casos, la reducción es
leve y el instrumento sobrevive al desafío de la
* :Proyectiva B de Psicoquinesia y las califica- . Percepción acerca de la suficiencia de tiempo
,+
determinar si la prueba predice el criterio de la validación cruzada. No obstante, la reducción s .c-ig¡es giraría más o menos alrededor de cero, Percepción acerca de la dificultad de la prueba
'rs¡ '
misma manera que en que lo hace la original. ,:porque ésta carece por completo de validez
,
en la validez de una prueba puede reprcsentar un ' Respuesta emocional ante la prueba
Ghiselli, Campbell y kdeck (1981) resumen grave problema cuando las muesfias de deriva- :¡É
ft .p¡edictiva. Esto constituye una importante de conjeturas
'Nivel
'& lección que se aplica también a las pruebas se-
Ia fundamentación para la validación cruzada: ción y de validación eruzada son pequeñas el
,rias: debe demostrarse la validez a través de va-
' Trampa de parte de la persona evaluada u
número de reactivos potenciales de una prueba otros.
Ya sea que los reactivos se elijan con base en es grande y éstos se eligen con una base pura-
5
.,iü' ,lidación cruzada, no debe suponerse que existe
concordanc¡a empírica o que se corrijan o pon- 'simplemente con base en las solemnes inten-
mente empírica, sin fundamentación teórica. La pregunta final en el EFeQ es un ensayo li-
deren, deberían considerarse como especllicos 3
Un artículo clásico escrito por Cureton ciones de un nuevo instrumento. bre: "Estamos interesados en cualesquiera co-
do la muestra que se empleó para los anál¡sis
(1950) demuestra el peorescenario posible: uti- mentarios o sugerencias que pueda tener para
estadísticos, a menos que se obtengan dalos $:*
adic¡onalos. Esto es necesario porque existe la lizar una muestra muy pequeña para seieccio- mejorar el examen". En la figura zl'-9 se pro-
probabil¡dad de que los resultados obtonidos se
nar reactivos con concordancia empírica a partir
$
.:* ]REAUMENTACIóX O¡ I¡S PERSONAS porcionan algunos ejemplos de las preguntas
hayan beneficiado de factores aleatorios que l
iEVATUADAS
operaron en ese grupo y, por tanto, son aplica-
de una reserva de reacüvos grande y después .*'
:i'*
,.e:
de ¡ealimentación similares a las del EFeQ.
bles sólo para la muestra estudiada. validar la prueba con la misma muestra. El cri- t:* Nevo (1992) determinó que el cuestiona-
terio en su estudio era el promedio de califica- ts :En la ¡evisión de la prueba, la realimentación rio EFeQ posee una confiabilidad modesta, con
ciones, dividido de manera artificial en las ,i* . ,ile las personas evaluadas es una fuente po- una confiabilidad test-retest de aproximada-
calificaciones de B o mejores y calificaciones 'tencialmente valiosa de información que en mente .70. Aparte de las propiedades psicomé-
REDUCOóN DE I.AVAIIDU
menores a B. Sus reactivos de "prueba" con- :*, .general pasan por alto los autores de pruebas.
.Se
t¡icas de su escala, la tradición de pedirles
Un descubrimiento común en la investigación sistían de 85 etiquetas, numeradas de un lado.
,* puede ilustrar este enfoque con la investiga- realimentación a los examinandos acerca de las
ai
de validación cruzada es que una prueba predi- Con cada uno de los 29 estudiantes, éstas se ,S
t:*.
iión de Nevo (1992). Este autor desanolló el pruebas ha resultado invaluable. El examen de
ce el criterio relacionado de manera menos pre- revolvían en un recipiente y se dejaban caer '€ Exnminee F e edback Que stionnaire (Cuestiona- ingreso interuniversitario se modificó de dive¡sas
cisa con la nueva muestra de examinandos que sobre una mesa. Se resistraban todas las que s rio de Realimentación del Examinando; EFeQ) maneras en respuesta a esta ¡ealimentación: el

*
'*.
;d'
f
flr
164, Eualuación psicolagica: Historia, principios y aplicaciones '(Capítuloel

¿Cuál es su opinión acerca de la cant¡dad de tiempo que se concede a cada prueba? Marque cada casilla con un número del f al s Si.el ¿utor de la prueba está en posibilidad de ' Proporcionar advertencias específicas en con-
según las s¡gu¡entes cal¡f ¡cac¡ones: s¡¡plificar los deberes del examinador al mis- ha del mal uso anúcipado de una prueba.
54321 ,rmo'üempo que permite que las demandas de la
¡ Citar estudios representativos concemientes
Demas¡ado tiempo Mucho tiempo T¡empo adecuado Poco t¡empo Muy poco tiempo :¡¿¡Qa:s€all iguales para el examinando, el ins- a usos generales y específicos de una prueba.
.rumento resultante tendrá una aceptabilidad
I ldentificar los requisitos especiales necesa-
E Conocim¡entosgenerales.
,mucho mayor para los usuarios potenciales. Por rios para aplicar e interpretar la prueba.
E Razonam¡enlo figufativo.
léiemplo, si las instrucciones de aplicación o Proporcionar revisiones, enmiendas y com-
E comprensión.
E Razonamientomalemáüco. oueden resumirse en el protocolo de prueba, el plementos según sea necesario.
f-l Inglés. ,exanúnador puede hacer a un lado el manual ' Utilizar material promocional que sea preci-
.,mientras que coloca la ta¡ea frente al exami- so y basado en investigación.
¿Usted u ota persona hizo trampa en este examen? Porlavor marque las casillas según se aplique. Puede marcar más de una casilla
fl Sf--obtwe una cooia de la Drueba.
nandci. Otra adición bien recibida para la pre- ' Citar relaciones cuantitativas entre las pun-
[:f Sl-uno de los examinadores me ayudó de manera ¡legal.
sentación de la prueba psicológica es la encua- tuaciones de una prueba y los criterios.
ff Sí-uno de los examinadores me ayudó durante ta prueba. .dernación con engargolado, la cual tiene la ' Informar del grado en que se pueden inter-
f--l .pgsibilidad de coloca¡se de manera vertical y cambiar los modos alternativos de respuesta
SFlo ayudé a oúo de los examinandos.
f-l Sl-utilicé notas ocultas durante la prueba. que muesüa las preguntas de prueba en la cara que (p. ej., folleto conüa una hoja de respuesta).
f---.l S!-vi a otra persona haciendo trampa. ie presenta al examinando a la vez que propor- t hoporcionar auxiliares interpretativos apropia-
E No-nohiceningunatrampa.
ciona las instrucciones de aplicación en el lado dos para la persona que realiza la prueba.
D No--no vi que nadie más hiciera trampa.
,contrario que da hacia el examinado¡. t Suministrar evidencia de la validez de cua-
lesquier interpretaciones automáticas de una
Flgura 4-9. Ejemplos de reactivos del cu€stionario de realimentación del examinando.
prueba.
Fuente: Basado en Nevo, B. (1992). Examinee fe€dback: Practical guidelines. In M. Zeidner and R. Most (Eds.),
Psychological testing: An inside yiew. Palo Alto, Calif.: Consulting Psychologists Press. :IiANUAL fEO,llCO Y TUANUAL
]DE[ I,SUARIO Por último, los manuales de prueba deben
mato de hoja de respuestas se cambió en los la prueba, publicar un manual técnico y produ-
:.1:
proporcionar datos esenciales acerca de la con-
sentidos sugeridos por las personas evaluadas; cir otro del usuario. Se pueden ofrecer varias .En general, los datos técnlcos acerca de un nue- fiabilidad y validez, en vez de referir al usuario
el límite de tiempo se amplió para pruebas espe- pautas relevantes para cada uno de estos pasos ,vo instrumento se resumen con las referencias hacia otras fuentes práctica desafortu-
cíficas de las que se informó que eran dema- ,apropiadas en un manual técnico. En éste, el
-una
nada que se encuentra en algunos manuales de
finales, como se describe en las siguientes sec-
siado rápidas, y se eliminaron ciertos reacüvos ciones. Por último, se ciena este capítulo con füturo rusuario puede encontrar información prueba.
percibidos como parciales o poco equitaüvos. un provocativo comentario acerca del conser- ,.acerca del aniáIisis de los reactivos, confiabilida-
Adenrás, se revisaron y estrecharon las medidas vadurismo de los editores actuales de pruebas. tles de escala, estudios ds validación cruzada y
de seguridad a fin de reducfu el copiado, que 'similares. En algunos casos, esta información
LAS PRUEBAS SON UN GRAN
e¡a más predominante de lo que los examina- se.incorpora en el manual del usuario, que da NEGOOO
dores habían anticipado. Nevo (1992) también PRODUCOóN DE tOS instrucciones para la aplicación y también
cita una ventaja oculta de los cuestionarios de DE PRUEBA 'I,IATERIAT^E5 .proDorciona las pautas para la interpretación
En este momento, el lector deberá advertir la
realiment¿ción: transmiten el mensaje de que
'de.la,prueba. desafiante tarea que enfrenta todo aquel que se
existe alguien a quien le interesa escuchar, lo Los materiales de prueba deben ser amigables Los manuales de prueba deben comunicar
propone desarrollar y publicar una nueva prue-
cual reduce el estrés posterior al examen. Los para el usuario, si es que han de recibir amplia información a muchos grupos diferentes, que
ba. Además de las titiánicas proporciones de la
cuesüonarios de realimentación de los exami- aceptación de parte de psicólogos y educado- abarcan en cuanto a antecedentes y entrena-
empresa, el desanollo de pruebas es ext¡aordi-
nandos deben volverse una práctica rutinaria res. Así, una pauta inicial para la producción miento desde los especialistas en medición hasta
,el
¡Ixcsho en el salón de clases. Los manuales de nariamente costoso, lo cual significa que los
en las pruebas grupales estandarizadas. de la prueba es que la presentación física de los
:ptueba satisfacen muchos propósitos, como se editores tienen una actitud de naturaleza con-
materiaies debe permitir la aplicación rrápida y
describe enlos Standards for Educational and servadora en cuanto a la presentación de nue-
sin complicaciones. Considérese el reto que re-
ffi ,Prychological Testing (AERA, APA, NCME, vas pruebas. Jensen (1980) proporciona la
presentan algunas pruebas de desempeño, don-
ffipusr,¡cAc¡ón o¡ LA PRUEBA
de el examinador debe luchar con el lápiz, la
ai
.ii 1985, 1999). Este influyente compendio de los siguiente perspectiva tentadora acerca de este
:Snüards sugiere que los manuales de prueba tema:
tablilla para anotaciones, el protocolo de prue-
,:f deben alcanza¡ los siguientes objetivos:
El proceso de construcción de pruebas no ter- ba, cronómetro, manual de prueba, pantalla para
Producir una nueva prueba de inteligencia gene-
mina con la obtención de los datos de valida- los reactivos, caja del reactivo y un objeto de-
ral que reprgsente una mejoría verdaderamen-
ción cruzada. El autor de pruebas también debe sarmado de cartón. al mismo tiempo que man- lDescribir la fundamentación y usos recomen-
te s¡gnlicativa, por encima de los ¡nstrum€ntos
supervisar la producción de los materiales de tiene una conversación con el examinando. dados de la prueba. sxislentes, sería un proyecto multimillonar¡o qu€
1 66, Evaluación psicológica: llistuia, principios'y aplicacionx (Capitulo t¡

requeriría gran cantidad de personal constitu¡do que tionen los editores en las pruebas esta- validación cruzada se refiere a 10. Las pruebas deben ser amigabies para el
9. El término
de expertos en construcción de pruebas que blecidas en las que ya han real¡zado enormes
trabajen durante varios años. Hoy en día posee- inversionos, y la economía de mercado de las
Ia práctica de volver a validar una prueba usuario si es que han de recibir amplia acep-
con una nueva muestra de personas exami- tación de parte de psicólogos y educado-
mos la tecnologÍa psicométrica necesaria para pruebas. La m€ioría importante de las pruebas
producir pruebas considerablemente meiores no es, de inicio, una aventura comercial atractiva ¡iadas. Reducción de la vaüdez se refiere res. Por ejemplo, la encuadernación con
que las que se utilizan a nive¡ popular en la ac- y es probable que tuviera que depender de subsi- .Si .ai,fenómeno común en el que una prueba engargolado, que permite la colocación ver-
tualidad. Los principales obstáculos son las le- dios a gran escala y a largo plazo de instanc¡as oredice el crite¡io relacionado de manera tical y que muestra las instrucciones en un
yes de derechos de aulor, los intereses creados gubemamentales y fundaciones privadas.
#i
'.s. . -menos precisa con una nueva muestra que lado y los estímulos de prueba en el otro, es
* .

con aquella original de Piloteo. esoecialmente deseable.


rur g
..5.
Wn¡sun¡¡N :$,
:s:
,t SrÉn¡unos
v concepros cuw
1. La construcción de pruebas consiste de seis tos de límite superior e inferior. En un efec- iÉl

etapas entrelazadas: definición de la prue- to de límite superior, cantidades importantes rl$,

ba, selección de un método de escalamien- de personas evaluadas obtienen puntuacio-


':*
,Escalas nominales p. 145 Tabla de especificaciones p. 153
tp -Escalas ordinales p. 145 Metodología de elección
to, construcción y anrálisis de los reactivos, nes perfectas o casi perfectas. En un efecto
E
así como la revisión y publicación de la de límite infe¡ior, cantidades significati- p. 145 forzada p. 155
ss
.Escala de intervalo
prueba. vas de personas obtienen puntuaciones en 'Escala de razón p.146 Índice de dificultad del reacuvo p. 156
o cerca de Ia parte más baja de la escala.
E
2. Los autores de pruebas necesitan seleccio- * ,Clasificaciones de exPertos. p. r47 Índice de la confiabilidad del
¡eactivo n t<?
nar un método de escalamiento que se ade-
cue en forma óptima a la manera en que han
é. Una tabla de especificaciones enumera la
información y tareas cognitivas en las que I
Éi

.l$ :,
Método de intervalos de
,aparición balanceada p. 148 Índice de la validez del reactivo p. 157
concebido el rasgo o rasgos que mide ia se ha de evaluar a las personas examinadas. ,f; Curva leactivo-caracteística p. 158
Método de escalamiento
prueba. El concepto de niveles de medición En el caso de las pruebas de rendimiento y *.
:Éi absoluto , p.149 Ojivanormal p. 158
es sumamente relevante en este contexto. capacidad, los redacto¡es de los reactivos .i* :'
:Escalas Likert p. 150 Índice de discriminación de1
3. Se reconocen cuatro niveles de medición: habajan, por 1o general, a partir de la tabla ,',
',S'
s :Escalas Guttman p. 150 reactivo p. 159
las escalas nominales constituyen la simple de especificaciones para garantizar que el .:$
denorninación o categorización; las escalas instrumento en progreso detecta la mezcla R Método de conco¡dancia Validación cruzada p.162
ordinales permiten una clasificació¡; las es- deseada de procesos cognitivos y conteni- $ :empírica p. 150 Reducción de la validez p. 162
calas de intervalo poseen intervalos igua- dos de un reactivo. , .''
l.{étodo de escalamiento Manual técnicc p. 165
les; las escalas de razón incorporan todas 7. Los reactivos de una prueba pueden re- ,.*,' d.
racional p. 151 Manual del usuario p. 165
las caracteísticas anterio¡es y también in- dactarse en muchos formatos diferentes, :&r..:
.é I
troducen un cero absolutc¡. incluyendo opción múltiple, respuestas abier-
.-s
' riit ,
4. Existen docenas de métodos de escalamien- tas, falso-verdadero y elección forzada. Las !+
to. Ejemplos representativos incluyen el correspondencias, tan populares en las s
método de escalamiento absoluto, en el que pruebas para salón de clase, son cuestiona- .r*
la dificultad del reactivo se localiza en un bles en términos psicométricos, dado que $:
eje o línea base y se mide en unidades de las opciones no son independientes ent¡e sí. .'$
i:lF-
'-*.
desviación estándar en un grupo base; las 8. El propósito del anáIisis de los reactivos &,
escalas Likert, que presentan reactivos con consiste en determinar cuáles de los inicia- .4

cinco respuestas ordenadas en un conünuo les han de conservarse, cuáles revisarse y


de acuerdo/desacuerdo; y el enfoque de es- cuáles eliminarse. Se tienen disponibles mu- $
calamiento racional en el que los reactivos chos procedimientos estadísticos para el j:
derivados de manera racional se correlacio- análisis de reactivos, que incluyen el índice f
nan con las puntuaciones totales de una de dificultad del reactivo, el índice de tl
,.it
prueba. confiabilidad del reactivo, el índice de vali- t?
i:f
5. La construcción de los reacüvos de una prue- dez del ¡eactivo, la curva reactivo-caracte- :;
ba es un procedimiento laborioso y lento. rística y el índice de discriminación del ,{:
Los autores de pruebas deben evitar los efec- reactivo. :l
ti.
,'-!.

s,,...

También podría gustarte