Está en la página 1de 122

EQUIPO 1

bas,
y neutralidad

Hogan, T. (2004). Pruebas psicológicas. Una introducción


práctica. México: Manual Moderno.

Objetivos
1. Enumerar los pasos para elaborar una prueba.
2. ldentificar las cuestiones que se deben considerar en el diseflo preliminar de una prueba.
3. ldentificar ejemplos comunes de reactivos de respuesta cerrada.
4. ldentificar ejemplos comunes de reactivos de respuesta abierta.
5. Citar algunos de los metodos para calificar reactivos de respuesta abierta.
6. Discutir los aspectos positives de los reactivos de respuesta cerrada y abierta.
7. Dar ejemplos de algunas reglas para redactar reactivos de respuesta cerrada y, luego, de respuesta abierta.
8. ldentificar los dos tipos principales de estadisticos tradicionales de reactivos.
9. Describir los atributos de una curva caracterfstica de reactive.
10. Citar las directrices para elegir reactivos.
11. Esbozar el conjunto de materiales que deben estar disponibles para Ia publicaci6n de una prueba.
12. Definir que significa neutralidad o sesgo de Ia prueba.
13. ldentificar los tres metodos principales para investigar Ia neutralidad de Ia prueba.

lntroducci6n

En este capitulo se explica a grandes rasgos los pa· Los pasos no siempre son, par complete, distln-
sos que, par Ia comUn, se siguen para elaborar una tos; en Ia pr8ctica, a menudo habra cierta superposi-
prueba. El tftulo del capitulo hace menci6n especial del ci6n y reciclado entre elias. Esto es particularmente
"an81isis de reactivos", porque estos procedimientos cierto entre los pasos 1 y 2 y entre los pasos 3 y 4,
analfticos tienen un papel decisive en Ia elaboraci6n como se vera con claridad en nuestra descripci6n. Sin
de pruebas; sin embargo, dichos procedimientos s61o
son una parte de esta tarea. En este capitulo se descri· presentamos aqui. Nuestros pasos 3 y 4 aparecen combinadas
be cad a uno de los seis pasos principales para elabo- en el Standard<; en uno solo; nosotros los separamos, porque
rar una prueba,1 1os cuales se citan en Ia figura 6·1. son muy diferentes en terminos 16gicos y cronoLOgicos. De ma-
nem inexplicable, el Stamla.td<;no incluye nuestro pasoS a pesar
' Esta lista difiere ligeramente de Ia que aparece en el Standards de que hace una remisi6n del capitulo de desarrollo de pruebas
for Educational and Psychological Testing, donde se incluyen a los capirulos sobre nonnas, validez y confiabilidad. El paso 4
cuatro pasos. Los primeros dos son, en esencia, los mismos que del Standardses el mismo que nuestro paso 6.

135
este cuadro, exam~na Ia validez de contenido de una prueba diseilada para reclutar a alguien para ese puesto.
3. El coeficiente de validez del Western Admissions Test (WAT; variable X} para predecir el GPA de un es-
=
tudiante de primer afio (variable Y) es rxY .60. Estas son las medias y desviaciones estSndar de X y Y.
M DE
;.
X 50 10
y 3.00 ..40
a.l_Cuill es el GPA predicho a partir de una puntuaci6n de 65 en WAT? Usa Ia fOrmula 5-2:
b. LCuSI es el error est8ndar de estimaci6n de estos.datos? Usa Ia fOrmula 5-3
c. ,!.Cual es Ia probabilidad de que una persona con una puntuaci6n de 35 en WAT alcance un GPA par de-
bajo de 2.00?
4. Hay 50 casas en esta distribuci6n bivariada.

• •
, , •••
23
c
.g ~~ ~~
••
• • ~" ~ ~ •~ .~ ~

8 . .. ..
~~
••
~ ~ ~

~ ~•
• •• &

•• •
• •
111111111 i_llll_l_lll I
35 40 45
Test {x)

a. Con un punta de corte·en X fijado en 40, como se muestra, l_cu.::lntos aciertos, positives falsos y negativos
falsos hay aquf?
b.Desplaza el punto de corte en X a un nivel mas alto, digamos 42, de modo que el nOmero de positivos
falsos disminuya. Ahara cuenta el nOmero de aciertos, positlvos falsos y negativos falsos.
5. En los estudios sabre validez predictive, el E!xito en Ia universidad se define como el GPA al final del pri-
mer af\o. ,!.Oue otras definiciones operacionales de uexito en Ia univers1dad" podrfas inventar? tAiguna
de estas definiciones alternas llevarfa a usar pruebas de admisi6n diferentes?
6. Las pruebas A y B pretend en predecir el GPA en Ia universidad. La prueba A es corta y tiene una confia-
bilidad de .60; su correlaci6n con el GPA es .45. La prueba B es muy larga y tiene una confiabilidad de
.95; su correlaci6n con el GPA es .SO. Aplica Ia correcci6n par falta de confiabilidad en las pruebas, no
en el criteria, a las correlaciones de am bas pruebas con el GPA. ,!.CUclles son las correlaciones corregi-
das con el GPA de ambas pruebas? Con base en estos resultados, Lconcluirfas que vale Ia pena revisar
Ia prueba A para hacerla m8s confiable? LC6mo podrfas hacerlo? (Pis to: ve el capitulo 4 en Ia p8gina 90.)
7. Regresa a Ia figura 5-6. Par media de un diagrama como los que hemos presentado aquf, ilustra esta des-
cripci6n verbal. Las pruebas X, Y y Z pueden usarse para predecir el criteria C. Las pruebas X y Y tienen
correlaciones altas entre sf y con C. La prueba Z tiene una correlaci6n moderadamente baja cOn X y Y,
.
.. asf como con C.
8. Consulta fuentes electr6nicas o impresas y revisa resefias de cualquier prueba de una edici6n reciente
.,,,.
del Mental Measurements Yearbook de·BmonQcre"""dicerrlos-autores de las resefias·acerca de Ia vali-
dez de Ia prueba? Laue tipos de evidencia de Ia valldez discuten?
... 9. ,oue usarias como definiciOn operacfonol de "exrto" en cada una de estas ocupaciones?
Profesor universitario
Jugador de belsbol
Abogado
10. Con los datos del a pend ice 01: GPA, usa el SPSS u otro paquete estadfstico para determiner Ia correla-
ci6n entre Ia puntuaci6n total del SAT y el GPA. De acuerdo con Ia terminologfa de este capitulo, l_c6mo
llamarfas a este coeficiente de correlaci6n? Despues, crea una distribuci6n bivariada (dispersograma) de
los datos. Trata de usar Ia funci6n ajuste de lfnea para generar Ia linea de regresi6n del dispersograma.

134 Pruebas P5iCOI6glcas. Una 1ntroducci6n practice


embargo, esta lista de pBsos nos da Ia progresi6n 16- Desde el punta de vista pr8ctico, despuE?s de que
gica y el arden cronol6gico lipicos del trabajo de ela- se ha formulado con claridad el prop6sito de !a prue-
boraci6n de una prueba. ba, no debemos continuer de inmediato con su cons-
El proceso para elaborar pruebas educativas y psi- trucci6n, pues el siguiente paso debe ser determinar
col6gicas debe empezar citando el prop6sito o pro- si ya existe una prueba apropiada. Recurrir a las fuen-
p6sitos de Ia prueba, el usuario y los u~os para los tes de informaciOn citadas en el capitulo 2 puede
que estcl pensada, el constructe o dominio de con- ayudar a tamar esta decisiOn. Construir una nueva
tenido que se medircl y Ia poblaci6n de examtnados prueba -at menos, una buena prueba- es una tarea
a Ia que estci dirigida. large, diffdl y costosa. Una re<;:omendaci6n para las
Standoids ... (AERA, APA, & NCME, 2013) personas sensatas: tomen su tiempo para determiner
si una prueba existente puede servir a sus prop6sitos
Despu€s de describir Ia elaboraci6n de pruebas y el antes de intentar crear una nueva_
aniilisis de reactivos, retomaremos Ia cuesti6n del ses-
go: qu€ significa, cOmo se estudia y que procedimien- Cuadra 6-1. Formulociones del prop6silo de diversas
tos se emplean para tratar con er al aplicar pruebas. pruebas muy utilizodas

Definicion del prop6sito de Ia prueba


"Los inventories NEO son medidas concisas de
La elaboraci6n de una prueba empieza con una cla- las cinco dimemiones o dominies principoles de
ra formula ciOn del prop6sito de Ia prueba, Ia cual in- Ia personalidad y los rosgos o facetos m6s impor-
cluye una descripci6n del rasgo que se medir.3 y del tanfes que de~nen coda dominic. En con junto, los
pUblico al que esta dirigida. El prop6sito debe formu- cinco escolos de dominies omplios y los 30 esco-
larse teniendo en mente Ia clase de interpretaciOn los de facetos esped~cos permilen realizar uno
que, en Ultima instancia, se harii de las puntuacio- evoluaci6n inlegrol de Ia per:;onalidad odoles-
nes de Ia prueba. El cuadro 6-1 contiene formulacio- cenle y adulta." (McCrae & Costa. 2010, p. l)
~lo Escafa Wechsler de lnteligencia para Adultos
nes del prop6sito de varias pruebas muy utilizadas;
- IV (WAIS-IV} es un inslrumenlo clinico inlegral
los prop6sitos suelen formularse de man era bastante
sene ilia, a menudo con una sola oraci6n. de aplicoci6n individual para evaluar Ia inteligen-
cio de personas de 16 o 90 afios de edod" (We·
chsler, 2008a, p. 1]
1. De~nici6n del prop6sito "EIInventorio Muftil6sico de Personalidad de Min·
de Ia prueba nesota-2 [MMPl-2} es uno pruebo de omplio
espectro diseiiada para evaluar vorios polrones im-
portontes de trostornos de Ia personalidod y emo·
2. Cuestiones preliminares cionales." (Hathaway & McKinley, 1989, p. 1)
del diseiio ~EI Oiis-lennon School Ability Tesl, Octavo Edici6n
(OLSATB) ... est6 diseiiodo para medir los hobilida-
des de rozonamienlo verbal, cuantitativo y ~gurotivo
que lienen los relociones m6s estrechas con el opro-
3. Preparoci6n de reoctivos 1, vechomiento escolor." (Otis & lennon, 2003, p. 5)

4. An6lisis de readivos
Resumen de puntos clave 6M1

Los primeros dos pasos declsivos en Ia elabora-


5. Estandorizaci6n y progromas ci6n de pruebas
de investigac:i6n complementaria Definir con claridad el prop6sito: variable(s) meta
y grupo. melll
t Considerar cuestiones preliminares del diseflo,
6. Preporaci6n de los materioles como modo de aplicaci6n, extensiOn, formato de
Rnoles y pubficad6n los reactivos, entrenamiento, nUmero de puntua·
ciones e informes de puntuaciones
FiguFa 6-1. Principales poses para eloboror uno prueba.

136 Pruebas psicologicas. Una introducci6n pr8ctica

-··; ·,_
puntuaci6n total o tambi4n el desempefto en gru-
pos de reactivos?
Capacitaci6n para Ia aplicaci6n. ,!.Cuanto entrena-
miento se necesitar8 para aplicar y calificar Ia prue-
ba? lSe necesitara una capacitaci6n profesional
amplia para apl!car, calificar e interpreter Ia prueba?
Si asi fu'era, ~cOmo se ofrece'rfa dicha capacitaci6n?
lnvestigaci6n de los ant~cedentes. En Ia etapa
cuestiones ·preliminwes del disefio del disef\o preliminar, puede ser necesario llevar
a cabo una investigaci6n de los antecedentes del
En las primeras eta pas de Ia elaboraci6n de pruebas, el area correspondiente a lo que se pretende eva-
autor debe tamar varias decisiones acerca del disef\o, luar, a menos que se tenga un conocimiento de-
las cuales se basan en el prop6sito de Ia prueba y Ia in- tallado de ella. Esta investigaci6n debe incluir una
terpretaciOn de las puntuaciones que se tienen pensa- bUsqueda de Ia literature pertinente. Si Ia prue-
das, asf como otras consideraciones prckticas. Deben ba esta pensada para tener una amplia aplicaci6n
considerarse las siguientes cue<7tiones del diseflo: practica, Ia investigaciOn debe incluir tam bien dis-
Modo de aplicaci6n. ~La prueba se aplicara de cusiones con profesionales (p. ej., clinicos, conse-
manera individual o tambien podril aplicarse de jeros, psicOiogos esco!ares, etc.) de los campos
manera grupal? La aplicaci6n grupal sera mas efi- en los que Ia prueba podrfa emplearse.
ciente, perc Ia individual permite mils adaptabili-
dad del formate de los reactivos y Ia observaci6n Muchos tratamientos de Ia elaboraciOn de pruebas
clfnica del examinado. comienzan con Ia "redacciOn de reactivos", pero nose
ExtensiOn. 2.Aproximadamente cuc'into tiempo se puede empezar con esto (al menos, no debe ser asij
llevara Ia prueba? ,;_Sera corta con un tiempo apro- hasta que las cuestiones preliminares del diseflo se
ximado de 15 minutes para su aplicaci6n, o sera hayan considerado minuciosamente, pues estas deter-
mas larga y tamara 45 minutes o varias horas? Las minar8n que clase de reactivos y cuantos de elias ten-
pruebas cortes son, obviamente, mas eficientes, d ran que escribirse. Las malas decisiones acerca del
pero pueden significar una confiabilidad lfmita- disef\o original de Ia prueba no podr8n remediarse en
da y s6Jo una puntuaci6n. La extensiOn no s61o las eta pas de redacciOn o an81isis de reactivos.
es cuesti6n del nUmero de reactivos y el tiempo Las reflexiones relacionadas con las cuestiones
de aplicaci6n, sino que se relaciona intimamen- preliminares del disef\o pueden llevar a refinar Ia for-
te con el tema de que tan sensible sera Ia prue- mulaci6n del prop6sito de Ia prueba. Esta es Ia razOn
ba. [La prueba sera una medida general o global, de Ia flecha que II eva del paso 2 al paso 1 en Ia figura
del rasgo evaluado? LProporcionara Ia base de un 6-1. Par ejemplo, Ia decisiOn de hacer una prueba mas
an81isis diagn6stico sensible del rasgo? corta en vez de una mas larga puede llevar a formular
Formato de los reactivos. [Oue formate de reacti- un propOsito mas circunscrito, o Ia discusi6n con los
vos se utilizara: opci6n mUltiple, verdadero-falso, usuaries puede llevar a amp liar el pUblico al que estcl
de acuerdo-en desacuerdo, respuesta abierta? dirigida Ia prueba.
Un formate de respuesta abierta permite obtener
respuestas mas ricas y de mayor flexibilidad, pero
casi inevltablemente sera m.Ss diffcil de calificar y,
par lo tanto, mas costoso de usar.
NUmero de puntuaciones. lCu<lntas puntuaciones
proporcionara Ia prueba? Esta cuesti6n, par nece-
sidad, estS relacionada con Ia de extensiOn de Ia
prueba. Mas puntuadones permiten hacer interpre-
taciones adicionales, pero tambi8-n exigen mas re-
activos y, par Ia tanto, mas tiempo de aplicaciOn.
lnformes de las puntuaciones. [Que dase de
informes se producirc9n? ,!.Habra un registro sim-
ple heche a mana de Ia puntuaci6n o un con junto
elaborado de informes generados par compu-
tadora que puedan incluir informes interpretati-
vos? LExactamente que sera informado: s61o una

Elaboraci6n de pruebas, aneil iSIS de react1vos y neutralidad 137


Origen de las pruebas nuevas Estrmulo

Condiciones
Antes de continuer con el siguiente paso de Ia ela-
Formato de respuesta que regulon
boraci6n de pruebas, haremos una pausa para con- { Ia respuesto
siderar esta pregunta: ,;.Oue motiva Ia elaboraci6n de
pruebas nuevas? No hay una li-sta sencilla y definitive Procedimientos de califlcaciOn
de las motivaciones que estan detr8s de los proyec-
tos de elaboraci6n de pruebas. Sin embargo, el anilli- Figura 6-2. Anotamfo del reodivo de una prueba.
sis de las pruebas existentes sugiere tres principales
motives de este trabajo.
Primero, muchas de las pruebas que mas se usan Cuadro 6-2. Ejemplos de estlmulos que conlorman los
surgieron en respuesta a alguna necesidod pr6ctica. reactivos de uno prueba
La prueba de inteligencia de Binet, precursora de Ia
iQue signifka "pr6digo"?
Escala de lnteligencia Stanford-Binet. se diseii6 para
Encuentra el valor de x: Si 6x + 10 = 14, x = _ __
identificar a niiios en escuelas parisinas que pudleran
aTe gusto conocer personas nuevas?
necesitar lo que ahara llama.nos educaci6n especial.
Term ina esto oraci6n: Hoy me siento especiolmenle
El Stanford-Binet se elabor6 para brindar una esca-
la tipo Binet que se pudiera usar con los estadouni-
denses. La Escala Wechsler Bellevue de lnteligencia,
que dio origen a Ia multltud de escalas Wechsler ac-
tuales, se cre6 para otrecer una prueba de intellgen- realizado satisfactoriamente, Ia preparaci6n de reac-
cia mas adecuada para adultos que el Stanford-Binet. tlvos puede comenzar. Puede ser Util empezar esta
Esos son sOlo unos pocos ejemplos de que muchas secci6n preguntando: .!,que es con exactitud un reac-
pruebas surgieron como respuesta a una necesidad tive? Un reactlvo consta de cuatro partes (v€ase figu-
muy pnktica. ra 6-2). Prim era, hay un estfmulo al que el examinado
Algunas pruebas se disefiaran a partir de una responde. Segundo, hay un formato de respuesta
base te6rica; par ejemplo el Test de Apercepci6n Te- o metoda. Tercero, hay condiciones que regulan el
miltica (TAT) pretendfa ofrecer una medida de Ia teo- modo en que se emite Ia respuesta al estfmulo. Cuar·
ria de Ia personalidad de Murray. La prueba Primary to, hay procedimientos para califlcar Ia respuesta, a
Mental Abilities [Capacldades Mentales Primarias] de veces llamadas rUbricas de calificaci6n. Describamos
Thurstone, el prototipo de muchas pruebas multifac- brevemente cada uno de estes componentes.
toriales de inteligencia posteriores, se disef'i6 para El estfmulo, a menu do llamado tronc:o del reactive.
apoyar Ia teorfa del propio Thurstone sabre las inteli- puede ser una pregunta como las que aparecen en el
genclas mUltiples. cuadro 6-2. La primera es de una prueba de inteligen-
Por Ultimo, una gran parte del trabajo de elabo- cia; Ia segunda, de una prueba de aprovechamlento;
raci6n de pruebas se dedica a revisar o adaptar las Ia tercera, de una encuesta de actitudes; y Ia cuarta,
pruebas exlstentes; par ejemplo, cada una de las prin- de un lnventario de personalidad. El estimulo tambi€n
cipales baterfas de aprovechamiento tiene una nueva puede ser una imagen acompafiada de una pregun-
edicl6n cada 5o 10 afios. Pruebas como el SAT o ACT ta oral; par ejemplo, en el Rorschach se presenta una
son objeto de revisiones mas o menos continuas. las imagen junto con una pregunta acerca de que ve el
nuevas ediciones de pruebas como las escalas We- examinado. El estfmulo tambien puede ser un aparato
chsler y las pruebas de personalidad mas populares como un dinam6metro de mana, perc el "reactive" no
aparecen de manera regular. Otro-tipo_ de revlsl6n est€i..completo...sirLuna lnstrucci6n como "T6malo con
busca modificar una prueba para emplearla con po- tu mana derecha y aprietalo tan fuerte como puedas".
blaciones especlales. El formato de respuesta incluye factores como
si el reactivo es de opci6n mUltiple o de respuesta
Preparaci6n de reactivos abierta. Par ejemplo, cualquiera de los estfmulos del
cuadro 6-2 podrla tener un conjunto de opcion.es o
La preparaci6n de reactivos lncluye su redaccl6n y podria requerir una respuesta abierta. Tratamos va-
revisiOn. No se debe proceder con Ia redacc!6n de ries formatos de respuesta con mas detalles en Ia si-
react!vos hasta que el prop6slto de Ia prueba este gulente secci6n.
bien definido y las consideraciones prellminares del Quiz.:§: no tan evJdente como los prlmeros dos com-
disei'io se hayan explorado de manera minuciosa. ponentes del reactive, el tercero es decisive para en·
Suponiendo que estes dos primeros pasos se han tender su naturaleza. las condiciones que regulan Ia

138 Pruebas psicol6glcas. Una introducci6n pr€ictlca


Cuadra 6-3. Ejemplos de reactivos de opd6n mUltiple y de verdadero-falso de uno prueba de oprovechamiento
Reactive de opci6n mUltiple
cu61 de estes es un metoda para determiner Ia confiobilidad de una prueba?
8
A Test-retest B. Estonino C. Volidez D. Criteria

Reactivo verdadera-falsa
F La e.stonino es un metoda para determiner lo ·confiabilidod de uno pruebo.

Cuadra 6-4. Ejemplo de reoclivos de opci6n mUltiple y de verdodero-falso de pruebos de intereses y de personolidod
Readivas de opci6n mUltiple
En coda reoctivo, marco si Ia octividod te gusto (G), le disgusta [D) a no es!Os seguro [?).
G ? D
Trobojar con nUmeros 0 0 0
Resolver problemas de resla 0 0 0
[., ~
Reactivos de verdadero-falso
En coda reactive, marco si es verdadero [a cosi siempre verdadera) o falso [a casi siempre falso) para ti.
v F Me siento deprimido Ia mayor porte del tiempo.
v F Me ho ida muy bien Uhimomente.

respuesta incluyen factores como Ia existencia de un En un nivel muy general, los reactivos se pueden clasi-
limite de tiempo para responder, Ia posibilidad de que ficar como de respuesta cerrada o de respuesta abier-
el aplicador explore respuestas ambiguas y Ia manera ta.2 Aquf presentamos s61o los ejemplos m.Ss comunes
exacta en que se registra Ia respuesta, par ejemplo, en de estos fermatas con un breve comentario acerca de
una hoja de respuestas o en un cuadernillo de Ia prueba. sus aplicacianes usuales y sus fortalezas y debilidades.
Par Ultimo, el procedimiento de callficaci6n es par-
te crucial del reactive; en el caso de una prueba de Reactlvos de respuesta cerrada
capacidad o de aprovechamiento de opci6n mUlti-
ple, cada reactive podrfa calificarse como correcto o En los reactivos de respuesta cerrada se le presenta
incarrecto. Otra alternativa es que se pueda conce- al examinado par Ia menos dos opclones, pero no mas
der cn§dito parcial par elegir ciertas opclones. En el de un nUmero razonable, para que ellja una respues-
caso de los reactivos de respuesta abierta en alguw ta. Estos reactivos tam bien se denominao de respues-
nas partes de Ia Escala Wechsler de lnteligencia para ta mUltiple, de opci6n mUltiple ode opciones forzadas.
Adultos, una respuesta muy buena merece dos pun- Entre las pruebas mas utllizadas, el formato de
tas, una respuesta aceptable -pero no particularmenw respuesta cerrada es el mas popular. La mayarfa de
te buena- se califica con un punta, mientras que una las pruebas de capacidad y de aprovechamiento de
respuesta incorrecta no recibe ningiin punta. Los pro- apllcacl6n grupal tiene el formate de opci6n mUlti-
cedimientos para calificar las respuestas en las tecniw ple con cuatm..o...cinco_opriones en cadaLeacfuro...Sin
cas proyectivas pueden ser muy elaborados. Asf, las duda, todos los lectores estfin famlllarlzados con este
procedimientos de calificaci6n de ben ser especiffca- tlpa de reactlvos. Un caso especial del reactive de op-
dos y comprendidos cuando se consideran los reacti- ci6n mUltiple es el reactive de verdadero-falso, que
vos de una prueba. en realidad es de opci6n mUltiple perc con s61o dos
opciones: verdadero o falso. El cuadro 6-3 llustra los
Tipos de reactivos reactivos de opci6n mUltiple y de verdadero-falso en
pruebas de aprovechamlento.
Hay una gran variedad de formas que pueden adoptar
los reactivos de una prueba; par Ia general, se clasifican 2
Como seftalamos en el texto, hay numerosos terminos alter-
en terminas del formate de respuesta, el segundo com- natives para denomlnar los formatos de respuesta abierta y de
panente de un reactive considerado con anterioridad. respuesta cerrada.

Elaboraci6n de pruebas, anallsls de reactivos y neutralidad 139


Cuadra 6~5. Ejemplo del formate Likert en reacti\los de octitud
CA = Completomente de ocuerdo A= De ocuerdo ? - lndeciso D-En desoc:uerdo CD- Complete mente en desacuerdo
CA A ? D CD
Me enconla el 61gebro. 0 0 0 0 0
La rafz cuodrodo es genial. 0 0 0
0 0
Me muero de ganas par tamar e·stadistico. 0 0 0 0 0
Los problemas de aritmetko son divertidos. 0 0 0 0 0
Me gustaria oprender geometric. 0 0 0 0
0

Morea cuolquier punta de lo linea para moslror tu va/oraci6n de esfe instructor.


Horrible Estupendo
[------------------------------I

Escalo usada paro convertir las marcos en uno forma numerica.


[---/---/---/---/---/---/---/---/---/----]
12345678910

Figura 6~3. llustraci6n de uno escalade voloraci6n grCifica.

Los fermatas de respuesta cerrada son mas usua- utilizando Ia escala que se muestra. Una aplicaci6n inte-
les en el campo de Ia evaluaci6n de capacidades y resante de este tormato de respuesta es el dlferendal
aprovechamiento. Sin embargo, tambi€n son los que semiintico, en el que un objeto {p. ej., idea, persona u or-
mcis se usan en las pruebas de personalidad, intere- ganizaci6n) se valera con una serie de escalas en cuyos
ses y actitudes. El cuadro 6-4 muestra los reactivos extremes se encuentran adjetivos opuestos como "du-
de opcl6n mUltiple y de verdadero-falso en inventa- ro-suaveH, "hostll-amigable", "frfo-caluroso" y "competen-
rtos de intereses y de persona lid ad. te-incompetente".4 La figura 6-4 ilustra este metoda.
Un caso especial de un fermata de respuesta cerra-
da usado en muchas medidas de actitud es el formato Calificaci6n de los reactivos
Likert.3 El cuadro 6-5 ilustra este formate. Estos reacti- de respuesta cerrada
vos emplean Ia escala de cinco puntas, que va desde
Campletamente de acuerdo hasta Completamente en En el campo de las pruebas de capacidad y de apro-
desacuerdo. Una prueba puede usar una escala de tres, vechamiento, 1a mayorfa de los reactivos de respues-
.... nueve o cualquier nUmero finito de puntas. En una va- ta cerrada se califica simplemente como correcto o

.... riante, las respuestas se pueden marcar a lo largo de un


continuo entre dos palos: Juego, las marcas se convier-
incorrecto: se concede un punta por una respuesta
correcta y cera puntas par una respuesta incorrecta .
'"... ten en una forma num€!rica. Este procedimiento, a veces Luego, Ia puntuaci6n de Ia prueba es el m1mero to·
ill llamado escala de valorad6n grafica (Guilford, 1954) o tal de respuestas correctas. Sin embargo, hay otras
'" escala anciloga visual (Barker, Pistrang, & Elliott, 1994), se maneras de calificar estos reactivos. Una variante 1m-
" muestra en Ia flgura 6-3. El examinado puede marcar en plica conceder cr€!dito parcial par elegir una opci6n
...,.• cualquier punta de Ia 1rnea; despues, las respuestas se que noes Ia mejor posible, pero tam poco es un clare
• convlerten en una forma·namBrica (1~10 en este ejemplo)

...'' 'n;crucamente, el fonnato Ukert se refiere al metoda de construlr


• Algunas veces se hace referenda al diferencial semSntico
como si fuera una prueba espedfica. Sin embargo, como se
Ia escala entera; sin embargo, es comlln referirse at fonnato de sefiala en la a bra cl3sica sobre este tern a (Osgood,Suci, & Tan-
,..,1 respuesta m.ismo como fonnato Likert En el capfntlo 15 se puede nenbaum, 1957), el diferencial semAmico se refiere a una rec-
consul tar una ctiscusi6n mEls amplia sobre este tema. nica general, no a una prueba especifica.

140 Pruebas psico16gicas. Una lntroducci6n pri9ctica


EvaiUo eslo escuela en coda una de las escalos que aparecen abojo. Haz una
marco en cuolquier punta de los lineos.
[Coluroso Frio]
~~~ H~
(Competente lncompelenle]
[Duro Suave]

Figura 6-4. Ejemplo del metoda de diferencial semOntic:o.

error. Otra variante implica dar un peso extra a los re- calificaciones de 3, 2 y 1 a de +1, 0 y -1 a las distintas
activos de especial importancia; par ejempTo, con el respuestas, mientras que en Ia escala de cinco pun-
fin de calcular Ia puntuaci6n total de Ia prueba, las tas que va de Totalmente de acuerdo a Totalmente
respuestas correctas a dertos reactivos podrfan te- en desacuerdo, podriamos asignar 5, 4, 3, 2 y 1 punta
ner un valor de tres puntas, dos puntas las de otros o +2, +1, O, -1 y -2 puntas a las distintas respuestas.
y un punta las de los reactivos restantes. Una varian- Podemos notar que serfa posible asignar una puntua-
te mas para calificar estos reactfvos implica utilizar Ia ci6n de 1 a las respuestas de Total mente de acuerdo o
correcci6n para las respuestas adivinadas (v€ase ca- De acuerdo y de o a todas las demas. El metoda para
pitulo 3, p. 49). Se han hecho muchas investigacio- calificar estos reactivos se determina en Ia fase de
nes en las que se compara Ia simple calificaci6n de elaboraci6n de Ia prueba que corresponde a las con-
D-o 1 con estos m€-todos mas complicados. La pre- sideraciones preliminares del disefio.
gunta es si los sistemas de calificaci6n mas compli-
cados proporcionan puntuaciones mcls confiables o Reactivos de respuesta abierta
mas validas que Ia calificaci6n miis simple de 0 y 1. La
respuesta consta de dos partes. Primero, 19s sistemas Los reactivos de respuesta abierta presentan un es-
mas complicados suelen proporcionar puntuaciones timulo, pero no limitan al examinado a elegir de un
ligeramente mejores {mas conflables o mas villidas). conjunto predeterminado de respuestas. El examine-
Segundo, los autores difieren; algunos dicen que con do debe crear o construir una respuesta; de respues-
estas mejoras marginales no vale Ia pena molestar- to fibre es otra denominaci6n com lin de este formate.
se con sistemas mas complicados (vE!ase. p. ej., Nun- Aunque Ia respuesta del examinado es "llbreH en el
nally & Bernstein, 1994). Otros dicen que, con ayuda sentido de que no hay alternatives preexistentes, si
de Ia calificaci6n moderna par computadora, esas lla- hay condiciones que reg ulan Ia respuesta. Par ejem-
madas complicaciones son triviales, a sf que cualquier plo, las respuestas se de ben dar de manera oral den-
aumento en Ia confiabilidad o validez es valioso. En tro de cierto peri ado o tienen que escribirse en forma
Millman y Greene (1993) se puede encontrar una des- de ensayo. Por lo comlin, las pruebas de inteligen-
cripci6n de algunos de estos procedimientos para dar cla de aplicaci6n individual recurren a un formate de
distintos valores a los reactivos o las opciones. respuesta abierta: par ejemplo, se puede preguntar a
La calificaci6n de reactivos de respuesta cerra- un examinado ",i.OUI2 signifies pr6digoT o "Si un ISpiz
da de las pruebas de personalidad, intereses y ac- cuesta $15 y Jim compra 5 lapices, .!_cuanto pag6r En
titudes se hace de diversas maneras. En algunas cada ejemplo, el examinado construye una respuesta
aplicaciones, cada reactive se califlca con 1 o 0 de "partiendo de cera". La respuesta.pu.ede....darse..de.ma-
manera anilloga al procedimiento de correcta-inco- nera oral o esc rita. Una versiOn muy sencilla de este
rrecta de las pruebas de capacidad. s·1n embargo, en tipo de reactivos es el formate de l!enar el espacio
este caso, Ia calificaci6n 1 o 0 no impllca que las res- en blanco; aquf se omite Ia palabra o frase clave de
puestas sean correctas o incorrectas, sino que una una oraci6n. El examinado debe agregar Ia palabra o
respuesta tlene cierta direcci6n; par ejemplo, mas an- palabras faltantes: par ejemplo: Las estaninas son un
sioso, mas deprimido, mejOr adaptado o mas intere- tlpo de puntuaci6n . Podemos notar que, en
sado en alguna actlvidad. preguntas como esta, serfa f8cil usar exactamente el
Con frecuencia, se asignan nUmeros variables a mismo reactive en un formato de respuesta cerrada.
las diferentes respuestas en reactivos de pruebas de Uno de los ejemplos mas conocidos del formate
personalidad, intereses y actitudes. Par ejemplo, en Ia de respuesta ablerta es Ia prueba de ensayo. El re-
escala Me gusta-?-Me disgusta, podrfamos asignar las active presents una sltuaci6n o tema y el examinado

Elaboraci6n de pruebas, an81isis de reactivos y neutralidad 141


escribe una respuesta que puede ir desde unas po~ Cuadro 6-6. Ejemplos de reactivos sencillos de respues-
cas oraciones hasta varias pc'iginas de texto. La prue- ta obierta que miden personalidod
ba de ensayo podrfa considerarse como un ejemplo Asociaci6n de palabras
de Ia categorfa mas general de evaluaci6n del des- Dire una palo bray usled dir61a primero polabra que le
empeiio, en Ia cual el estfmulo se supone que es una vengo a Ia mente.
situaci6n realista como uo problema cientffico, una. Caliente...
tarea en Ia biblioteca o una producci6n artfstica. La Escuela ...
respuesta implies resolver el problema, realizar Ia ta- Verano ...
rea o producir una obra de arte. En Ia actualidad las Madre ...
evaluaciones del desempefio atraen Ia atenci6n en el froses incompletas
iirea educative como una alternative a las medidas de Termine coda oroci6n.
opci6n mUltiple de aprovechamiento. Una aplicaci6n Mi juegn favarito es ...
popular de Ia evaluaci6n del desempef'lo es el usa Los familios son ...
de portafolios, que, como lo sugiere su nombre. es El problema mOs grandees...
en esencia una cofecci6n de fa obra de una persona.
Puede crearse un portafo_lio para los trabajos escritos,
los proyectos del laboratorio de ciencias o los anc'ilisis acuerdo entre los jueces (quienes emplean su crite~
estadfsticos terminados. Esta colecci6n podrfa llevar- rio) es decisive. Si hay un inadecuado acuerdo entre
se algunos meses o afios. Como otras evaluaciones elias, las puntuaclones que resulten de Ia prueba no
del desempefio, los contenidos del portafolio se con~ tendr8n sentldo. Desde luego, Ia confiabifidad inter~
vierten en una herramienta de evaluaci6n cuando su jueces no garantiza Ia validez de las puntuaciones.
calidad se juzga en afguna dimensiOn pertinente. En ni otros tipos de confiabilidad fo hacen, como fa de
McMillan (2013) pueden encontrarse ejemplos de va- test-retest. Sin embargo, sin esta confiabilidad, todo
rlas evafuaciones del desempefio. Ia demc'is esta perdido. El punta aquf es que Ia con-
El fermata de respuesta abierta se usa mucho en fiabifidad interjueces es una preocupaci6n especial
fa evafuaci6n de Ia personafldad. Ef cuadro 6-6 mues~ para los reactivos de respuesta abierta.
tra dos ejemplos relativamente se.ncillos de dichos Conceptuallzar un esquema para calificar los re~
reactivos. Desde luego, los ejemplos cl8:sicos de las actives es un reto mayor, pues los tlpos de esquemas
medidas de respuesta abierta de personalidad son varfan ampfiamente. No parece factible proporcionar
las tecnicas proyectlvas como el Rorschach y el TAT. una lista exhaustiva, asf que mejor daremos ejemplos
En estas pruebas, cada reactive presenta un estfmu- de algunos de los mE!todos que se han desarrollado;
lo ambiguo y el examinado tiene Ia amplia libertad de prlmero consideraremos algunos ejemplos del cam~
crear una respuesta. Consideraremos con mayor de- po de las pruebas de aprovechamiento y fuego dirigi-
talle estas tecnicas en ef capitulo 14. remos nuestra atenci6n a las de personalidad.
Algunas pruebas conductuales tambit&n pueden Varies metodos diferentes han surgldo para cali~
cfasificarse como de reactivos de respuesta abierta; ficar los ensayos. Una distinci6n comUn es entre fa
par ejemplo, Ia tecnica del grupo sin lfder y Ia tecni- calificaci6n holistica y Ia analitica. En Ia callficaci6n
ca de Ia canasta son reactivos de respuesta ablerta. holfstica, ef lector -es declr, Ia persona que califica
En el capitulo 13 se puede encontrar una descripci6n el ensayo- hace un juicio sencillo, general, holfstlco
mSs-detaffada de estas tecnicas. acerca de Ia calidad del ensayo. La puntuac16n aslg-
nada af ensayo refleja su julclo general; Ia escala pue~
Califlcacl6n de los reactlvos de tener cualquier nUmero de puntas, par ejemplo,
de respuesta ablerta 1~4. 1-10 o 1~100. La lectura se suele llevar a cabo de-
manera rclplda, sln hacer correcciones ni notas en el
Callficar los reactivos de respuesta abierta presents papel.l,Oue calidad se juzga que tiene el ensayo? Eso
desaffos especiales justa porque las respuestas pue- depende de Ia apllcaci6n especffJca.
den ser muy diversas. En casi todos los casas, Ia cali- El ensayo puede valorarse en terminos de Ia calidad -
ficaci6n requiere del juicio. de fa expresi6n escrita, en ef case de una prueba de
....•""
'""•

~2
Hay dos factores clave para desarroflar puntua-
ciones Utiles de los reactivos de respuesta abierta. El
composicl6n en Ingles, o del conocimiento de un
en el caso de una prueba de historia. La caractedstf- -'
"" prlmero es asegurar Ia conflabllidad interjueces y ef se- ca clave de Ia calificaci6n holfstlca es que s61o hay una _,:
·-'" gundo es conceptualizar un esquema de calificaci6n. puntuacl6n global basada en Ia calidad total del ensayo: -
Ya que califlcar reactivos de respuesta abierta En Ia callflcaci6n analitica, ef mismo ensayo {u -
requlere, par lo general, de un criteria, el grade de otra produccl6n) se vafora en diversas dlmensiones.

142 Pruebas psicol6glcas. Una introduccl6n practice


cantidad de progreso que se muestra de las primeras
a las Ultimas entradas.
Algunos metodos para calificar ensayos y otras Hemos heche hincapi€ varias veces en que Ia ca-
producciones lificaci6n de reactivos de respuesta abierta requiere
• Holistico del juicio. Esto se lleva tiempo, es costoso y puede
• Analftico estar Ilene de problemas relacionados con Ia confia-
Sistema de puntas . billdad de los jueces. Los Jnvestlgadores ahara estu-
Calificaci6n automatizada dian Ia aplicati6n de sistemas expertos de c6mputo
-llamada calificaci6n automatizada- para callficar
los reactivos de respuesta abierta. No se debe con-
fundir Ia calificaci6n automatizada con Ia simple califi-
Requiere una especiflcaci6n previa de las dimen- caci6n mec<lnica de respuestas a reactivos de opci6n
siones importantes de Ia calidad del ensayo. EJ mis- mUltiple donde se !lena un espacio en blanco. La ca-
mo juez puede realizar las valoraciones separadas, lificaciOn automatizada, como el termino ha evolucio-
o diferentes jueces, uno para cada dimensiOn, pue- nado en Ia literature de las investigaciones, implica
den hacerlo. En el ensayo de t...omposici6n en ingles el desarrollo de programas sofisticados de c6mputo
puede valorarse de manera independiente a) Ia co- que simulan el proceso de aplicar el criteria huma-
rrecci6n gramaticaf, b) Ia organizaci6n y c) el usa del ne a las reactivos de respuesta fibre. Por ejemplo, un
vocabulario. Ef ensayo de historia podrfa valorarse de proyecto aplic6 sistemas de calificaci6n automatiza-
manera independiente de acuerdo con el usa de los da a Ia evaluaci6n del desempefio de las habilidades
hechos hist6ricos, Ia identificaciOn de temas principa- de un mE!dico para manejar a los pacientes (Clauser,
les y Ia calidad de Ia escritura. Desde Ia perspective Swanson, & Clyman, 1999). En otro proyecto se apli-
de Ia medici6n. Ia calificaciOn analftica supone ob- cO un sistema de califlcaci6n automatizada en Ia eva-
viamente que hay cierta independencia significative luaci6n de las respuestas de arquitectos a problemas
entre los rasgos especificados en eJ esquema de ca- de.respuesta-ablerta relacionados con Ia arquitectura
lificaci6n analftica. A menudo, tal independencia pa- (Williamson, Bejar, & Hone, 1999). Uno de los primeros
rece estar ausente, como lo indican las correlaclones trabajos en esta lfnea fue el de las puntuaciones ge-
extremadamente altas entre las escalas de varies es- neradas par computadora de Ellis Page para calificar
quemas analiticos. Debe establecerse cierto grade Ia calidad con que estaba escrito un ensayo. Wresch
de independencia entre las escalas antes de adoptar (1993) ofrece un repaso hist6rico de estos esfuerzos;
el sistema de calificaci6n analftica. en Page y Petersen (1995) se encuentra un repaso se-
Un tercer metoda para callficar un ensayo es el mi-popular del trabajo actual de Page con el Project
sistema de puntos. Aquf, ciertos puntas tienen que Essay Grade (PEG [Proyecto Valoraci6n de Ensayos]).
incluirse en una respuesta ~perfecta~. El juez sOlo de- La cuesti6n clave de estes proyectos es si el sistema
term ina Ia presencia o ausencia de cada punta. El automatlzado se aproxima al juicio humane experto.
ejemplo mas sencillo de este sistema es una prue- El Graduate Management Admissions Test [Prueba
ba de memoria pura, par ejemplo "Di los diez manda- de admisi6n para graduados en gesti6n de empre-
mientos". Se otorga un punta por cada mandamiento: sas] ahara usa una computadora para generar una de
desde luego, incluso en este sistema se requiere el las puntuaciones para Ia parte del ensayo de Ia prue-
criteria del juez, excepto en los casas mils triviales. ba y el Graduate Record Exam [Exam en para gradua-
L''lr8s a Ia Iglesia los domingos" se toma como res- dos] anunci6 su intenci6n de empezar a hacerlo. Es
puesta correcta del tercer mandamiento? ,!_Los man~ probable que en eJ futuro veamos una r<3pida expan-
damieRtGs-deBeR-f.i€€-if-se-eA·el-en:'.leA-t:r-aEiieienal? si6n~del~uso~de--varios-sistemas--de-calfficad-6n-auto­
Los diferentes metodos para calificar ensayos matlzada para los reactlvos de respuesta abierta. En
lambien pueden aplicarse a una gran variedad de va- Dikli (2006), Drasgow, Luecht y Bennett (2004). Sher-
lorociones de producciones; de hecho, los ensayos mis y Burstein (2003) y Shermis y Daniels (2003) se
son s61o un tipo de producci6n. Estos metodos pue- pueden encontrar resUmenes de Ia aplicaci6n de Ia
den aplicarse a Ia evaluaciOn del desempefio de pro- calificaci6n.automatizada, especial mente. de ensayos.
ducciones artfsticas, proyectos cientfficos, habilidad En el campo de las pruebas de-personalidad, las
para hablar en pUblico y muchas otras. AI califlcar un tecnicas proyectivas ofrecen un ejemplo cl8sico de
portafolio, se debe tamar una decisiOn no sOlo acer- los reactivos de respuesta abierta. Consideraremos
ca del metoda de calificaci6n, sino tam bien de Ia ca- las tecnicas proyectlvas de una manera mas sistema-
racterfstica del propio portafolfo. Se pueden calificar tica en el capftulo 14. Aquf sOlo ilustramos algunas de
todas las entradas del portafolio, sOlo las mejores o Ia estas tecnlcas en cuanto a su calificaci6n.

Elaboraci6n de pr.uebas, am31isis de reactivos y neutralidad 143


Cuadro 6-7. Cotegorlos de muestra para calirl<;cOr los debe especificar que tipo de capacitaci6n se nece-
respuestas de "localizaci6n~ a una IOmina del Rorschach sita para calificar los reactivos. El manual tambien
Determine Ia locallzaci6n en una tarjeto usado como debe explicar los fundamentos para caliticarlos y po-
punta de referenda para Ia respuesto: ner ejemplos. Las instrucciones para calificar reacti-
Complete La mancha de !into comple!o usado vos de respuesta abierta, par Ia general con ejemplos
para formulor Ia respuesfo de respuestas de distintos niveles, a menudo se de-
nominan nJbricos de calificaci6n. El manual tambien
Detolfe comUn Uno porte bien definida que se obser- debe informar los resultados de estudios de confiabi-
ve comUnmente
lidad de interjueces.
Detolle in usual Se usa uno porte in usual

Espacio La respuesta est6 definido par un es- Ventajas y desventajas de los reactivos de res-

I pado en blanco puesta cerrada frente a los de respuesta abierta


.
. En Ia literatura pslcometrica yen los medias pUblicos
Los metodos comunes para calificar el Rorschach se defienden con vehemencia las ventajas relatives
se apoyan en Ia especifi<::aci6n de categorfas y en el de los reactivos de respuesta abierta y los de res-
conteo del nUmero de respuestas que caen en elias. puesta cerrada. Tratemos de resumir los puntas prin-
El cuadro 6-7 muestra una categorfa que se usa bas- cipales de estas discusiones.
tante: localizaci6n, es decir, Ia localizaci6n de una Los reactivos de respuesta cerrada tienen tres ven-
tarjeta usada como punta de referencia para Ia res- tajas prfncipafes. La primera es Ia confiabilidad de su
puesta. El juez clasifica las respuestas de cada tarje- calificaci6n; ya que no se requiere emplear el criteria,
ta de acuerdo con estas categorlas. Aquf. el esquema o se necesita poco de €!1, una fuente importante de va-
conceptual consiste en a) una lista de categorfas y b) rianza no confiable se elimina. La confiabilidad inter-
Ia noci6n de contar los enunciados. jueces es, en esencia, perfecta para los reactivos de
El Rotter Incomplete Sentences Blank (RISB [Fra- respuesta cerrada; en cambia, para los reactivos de
ses incompletas de Rotter]; Rotter, Lah, & Rafferty, respuesta abierta es un problema considerable. Esta
1992) ofrece otro ejemplo de un esquema conceptual preocupaci6n par Ia confiabilidad fue el estfmufo para
para calfficar una prueba proyectiva. El Rotter consis- desarrollar las primeras versiones de opci6n mUltiple
te en 40 oraciones incompletas similares a las que de las pruebas de aprovechamiento a principles del si-
aparecen en el cuadro 6-6. Cada respuesta se califlca glo XX. Las pruebas de opci6n mUltiple no se desa-
en una escala de seis puntas de acuerdo con el gra- rrollaron para acomodarse a Ia calificaci6n par media
do de inadaptaci6n manifestada. Las valoraciones de de maqulnas, como a menudo se piensa. De heche,
los 40 reactivos se suman para obtener una puntua- no habfa mSquinas para calificarlas en ese tiempo. El
ci6n total de adaptaci6n. El manual del RISB contiene reactive de opci6n mUltiple se convirti6 en el forma-
instrucciones especfficas en relaci6n con los indica- te preferido porque proporcionaba puntuaciones mas
dares de adaptaci6n/inadaptacl6n. Asi, el esquema confiables que los reactivos de respuesta abierta. En
conceptual es mirar las respuestas en terminos de los Ebel {1979) se puede encontrar un repaso histOrico de
indicadores de adaptacl6n, valorarlas en una esca- los factores que llevaron al desarrollo de las primeras
la numerica simple y luego sumar estas valoraciones medidas de aprovechamiento de opci6n mUltiple.
para obtener una puntuaci6n total. En el capf'tulo 14 se La segunda ventaja importante de los reactivos de
habla mas sabre el Rorschach y el RISB. respuesta cerrada es Ia eficiencia temporal; en cler-
ta cantidad de tiempo, un examinado puede, por Ia
general,-termlr:lar-mils-reaGtivos-de-r:espuesta-€erra-·
da que de respuesta abierta. Per ejemplo, en 20 mi-
nutes un exam·lnado podrla terminar con fadlidad 30
reactivos de vocabulario de opc16n mUltiple, mientras
que en el mismo tiempo, el examlnado podrfa termi-
nar s61o 10 reactivos de vocabularlo en el formate de
respuesta ablerta. En el caso de una medida de apro-
vechamiento, en 20 minutes una persona podrfa ter-
minar un ensayo en vez de responder 30 reactivos
El manual de Ia prueba tiene un papel esencial de opci6n mUltiple. Ya que, par lo general, Ia confia·
para asegurar que los reactivos de respuesta abler- bilidad aumenta en funci6n del nUmero de reactlvos,
ta produzcan puntuaciones signiflcatlvas; para ello, esta segunda ventaja, como Ia primera, se reduce a

144 Pruebas psicol6glcas. Una introducci6n pr<ktica


una cuesti6n de confiabilidad. Y estas ventajas tam- Sugerencias para escribir reactivos
bien se relacionan con Ia validez debido a Ia relaci6n de respuesta cerrada
entre confiabilidad y validez.
La tercera ventaja de los reactivos de respuesta Hay numerosas listas de sugerencias para redactar
cerrada es Ia eficiencia en Ia calificaci6n. Un emplea· reactlvos de respuesta cerrada, sabre todo de op-
do de oficina o un esciiner electr6nico pueden catifi- cl6n mUltiple para las pruebas de aprovechamien-
car estos reactivos con mucha rapidez. Esta ventaja to. Haladyna y Downing (1989a, 1989b) prepararon
fue el prinCipal estfmulo para desarrollar las prim eras una taxonomfa de estas asf llamadas reg las para re-
pruebas de capacidad y personalidad de aplicaci6n dactar reactivos, obtenida de una investigaci6n en
grupal durante Ia Primera Guerra Mundial. Podemos 46 Iibras de texto y fuentes similares. Despues, Hal-
notar que esta ventaja es independiente en terminos adyna (1994, 1999, 2004) dedic6 un libra entero a Ia
16gicos de Ia conflabilidad interjueces. elaboraci6n de estas reg las y a Ia investigaci6n re-
A menudo, se citan tres ventajas principales de lacianada con su validez. La edici6n actual de su li-
los reactivos de respuesta abierta. Primero, permi- bra es, sin duda, Ia mejor fuente de consejos para
ten hacer con mayor facilidad una observaciOn de Ia redactar reactivos de respuesta cerrada y para de-
conducta y los procesos al re~;Jonder Ia prueba. De terminer si las sugerencias hacen alguna diferencia
alguna manera, esta ventaja se relaciona mas con el en Ia calidad de los reactivos. La lista actual contiene
modo de aplicaciOn (individual, en vez de grupal) que 31 directrices (36 si cuentas las subpartes de una en·
con ef formate de Ia respuesta. Sin embargo, el for- trada). Cualquiera que necesite ayuda con Ia redac·
mate de respuesta abierta facilita Ia observaciOn de ci6n de reactivos de respuesta cerrada, sabre todo si
Ia motivaci6n del examinado, ansiedad o formas de son para pruebas de capacidad a aprovechamiento,
acercarse a los problemas, de modo que los reactivos deben consultar esta fuente. Entre los ejemplos de
de respuesta cerrada no lo harlan aunque se aplica- las directrices se encuentran cuestiones como evi-
ran de manera individual. tar el usa de "todas las anteriores" como opci6n y
La segunda ventaja del formate de respuesta mantener todas las opciones mas o menos de Ia mis·
abierta, sabre todo en el campo de Ia medici6n de ma extensiOn. Una curiosa ramificaci6n de este tra-
Ia personalidad, es que permite explorar areas in- bajo, despues elaborada par Rodriguez {2005), es Ia
usuales que podrfan nunca salir a Ia Juz por media del recomendaci6n de que tres opciones es el nUmero
formate de respuesta cerrada. Desde fuego, Ia per- Optima, a pesar de que casi todas las pruebas im-
tinencia de este argumento depende de Ia exllaus- portantes usan cuatro o cinco opciones. Haladyna
tividad de Ia prueba de respuestas cerradas; si en (2004, p. 98) seflal6 que "los escritores de reactivos
realidad es exhaustiva, deberfa. par definiciOn, sacar deben apllcar estas directrices de manera sensata,
a Ia luz toda Ia informaciOn impof-tante. La pregunta es pero no rfgida. ya que Ia validez de algunas de elias
Si esas medidas son, en efecto, exhaustivas en su me- aUn esta en entredicho". De hecho. algunos autores
dici6n de Ia personalidad. concluyen sus listas de reglas con esta: Hacer caso
En el campo de las pruebas de aprovechamiento, omiso de cualquiera de estas reg las cuando parezca
algunos autores creen que el tipo de reactivos influye haber una buena raz6n para hacerlo.
en el desarrollo de los hr§bitos de estudio de los alum- Nosotros somas reacios a inventar una lista mas de
nos. De manera mas especffica, hay una sensaciOn reg las para escribir reactivos; sin embargo, nos aven-
de que usar reactivos de opci6n mUltiple promueve el turaremos a opinar que casi todas las reglas existen·
aprendizaje de memoria y un enfoque atomista de las tes se reducen a estas tres: tener un buen contenido,
materias y temas de estudio, mientras que los reacti- no regolar Ia respuesto correcta y hacer/o de manera
vos de respuesta abierta_ pr.omua\len_un.metod<Lde senci/la.y..c/ara.. Ademas, las dos primeras-estan limi-
estudio mas holfstico y significative. tadas a las pruebas de capacidad y aprovechamlen-
En Hogan (2013), Traub, (1993) y Rodriguez (2002, to, mientras que sOlo Ia Ultima es para las medidas de
2003) se encuentran datos de las investigaciones rea- personalidad, intereses y actitudes.
lizadas sabre los reactivos de respuesta cerrada en
comparaci6n con los de respuesta abierta, en espe· Sugerencias para redactar reactivos de res~
cia[ de pruebas de capacldad y aprovechamiento. Los puesta abierta
desarrollos actuales en los sistemas de calificaci6n

I automatizada pueden influir de manera signlficativa


en Ia evaluaciOn futura de las ventajas y desventajas
Como indicamos antes, los Iibras de texto y los artlcu-
los estim llenos de sugerencias para redactar reacti-
.,il relativas de los reactivos de respuesta cerrada frente vos de respuesta cerrada, pero son mas limitadas en
I· a los de respuesta abierta. el caso de los reactivos de respuesta abierta. Quiz.:l Ia

~
i
Elaboraci6n de pruebas, anEilisis de reactivos y neutra!idad 145
11
'!

naturaleza tan abierta de estos reactivos hace mas di- Algunas cansideraciones pnlcticas
ffcil formular consejos espedficos. Es interesante que para redactar reactivos
el primer consejo que dan muchos creadores experi-
mentados de pruebas es tratar de evitar este tipo de Aquf consideramos algunas cuestiones pr8cticas re- _
reactivos y, en su Iugar, usar los de respuesta cerrada, lacionadas con Ia redaccl6n de reactivos. Primero,
sabre todo par el tema de Ia. confiabilidad interjueces si preparamos un conjunto de reactivos de prueba,
que ya discutimos. tcuantos de elias debemos escribir? Esta pregunta
Hogan y Murphy (2007) resumieron las sugeren- no tiene una respuesta definitive, ya que €sta de pen-
cias que encontraron en 25 fuentes para preparar y de en parte de tamar buenas decisiones en Ia eta-
calificar reactivos de respuesta abierta. EJ lector in- pa preliminar del diseflo, par ejemplo, acerca del tipo
teresado puede consulter esa fuente para conocer apropiado de reactivos y de Ia investigaci6n minu-
Ia gran cantidad de sugerencias de esos autores. ciosa del area a Ia que corresponde Ia prueba. La
Allgual que con los reactlvos de respuesta cerrada, respuesta tambi€n depende de hacer un trabajo ra-
en el caso de estos reactivos los consejos tienden a zonable de pruebas informales para asegurarse de
orientarse hacia las pruebas de capacidad y aprove- que los prototipos de los reactlvos que se tlenen
chamiento. Mencionamos aquf s61o algunos de los pensados funcionaran. Con estos requisites en men-
puntas en que hay mayor consenso para dar sabor a te, una regia general comUn es preparar dos o tres
las recomendaciones. veces tantos reactivos como sean necesarios para Ia
1. Asegurarse de que Ia tarea es clara. Con los re- prueba final. Asf, si Ia prueba final tendra 50 reac-
activos de respuesta cerrada, Ia tarea del exami- tivos, se deben preparar 100 o 150 para ponerlos a
nado queda clara al mirar las posibles respuestas, prueba. Consideremos algunas desviaciones extre-
mientras que en los reactivos de respuesta abier- mas de esta regia general. Si Ia prueba final tendra
ta esa ayuda no esta presente. De ahi que se ne- 50 reactivos y s61o se prueban 55, casi sin duda el
cesita tener mayor cuidado al formulary clarificar an81isis de reactivos revelara mas de 5 reactivos con
las instrucciones de estos reactivos. caracterfsticas indeseables. Con un margen de sOlo
2. Evitar el usa de reactivos opcionales. Los psi- 5 reactlvos, sera necesario incluir algunos en Ia prue-
c6metras fruncen el entrecejo frente a Ia muy ba final aunque no sean muy buenos. En el otro ex-
frecuente practica de proporcionar reactivos op- trema, supongamos que se preparan 500 reactivos
cionales (p. ej., responder 3 de 5 preguntas), pues de prueba. Debe sefialarse que preparar 500 reac-
interfiere en Ia comparabilidad de Ia tarea. tivos de cualquier tema es una tarea diffcil; mas im-
3. Ser espedfico respecto al sistema de califica- portante, si se seleccionan 50 reactivos de un fonda
ci6n mientras se prepara el reactive. Y, desde de 500, es muy probable que se saque provecho de
luego. usar ese sistema cuando realmente se algunos factores fortuitos que no sobrevivirfan a un
este calificando. Una practica comUn en el caso proceso de validaci6n cruzada. (Vease Ia discusi6n
de estos reactlvos es preparar el reactive, apli- sabre validaci6n cruzada del capitulo 5). Si es nece-
carlo y suponer que el metoda de califlcaci6n sario probar 500 reactivos para obtener 50 servibles,
sera clara mas tarde. La manera en que el reac- es probable que se necesite replantear el enfoque
tive se calif!cara, de preferencia con respuestas de Ia prueba.
muestra, debe ser clara antes de que se aplique En proyectos importantes para elaborar pruebas,
el reactive. Esta sugerencia se aplica sin impor- una vez que se redactan los reactivos, se someten a
tar Ia generalidad de Ia respuesta. Es igual de im- una revisiOn desde varies perspectivas. Primero, se
portante al calificar los reactivos en que se llena revisa su claridad, adecuaci6n gramatical y conformi-
el.espa.do...en.blanco...que_aL.caJJflcar_ensa¥DS--BX-
tensos, evaluaclones de desempeflo o tlknicas do, en el caso de las pruebas de aprovechamiento,
proyectivas. expertos en el campo del contenido pertinente revi-
4. Califlcar de manera an6nima. Es decir, Ia persona san que €-ste sea el correcto. En el caso de las prue-
que califica no debe conocer Ia identidad del exa- bas de personalidad, a menudo se pide a los clfnicos
minado. Esto ayuda a centrarse en Ia respuesta que revisen Ia pertinencia de los reactlvos.
real y evitar el efecto "halo". Tercero, en aiios recientes se ha vuelto una cos•
5. Cuando hay reactlvos mUltiples, calificarlos uno tumbre tener un panel que revise los reactlvos en
a Ia vez. Como en Ia sugerencia previa, esto ayu- cuanto a posibles sesgos de genera, raciales o I
da a evltar el efecto "halo", en el que Ia respuesta cos. Discutiremos estas revisiones con mayor detalle
a un reactive influye en Ia callficaci6n de Ia res- cuando tratemos Ia neutralidad de las pruebas m.Ss
puesta a otro reactive. adelante en este capitulo.

146 Pruebas psicol6glcas. Una lntroducci6n pr<:ktica


Analisis de reactivos
Resumen de puntos clave 6-3
Uno de los pasos decisivos en Ia elaboraci6n de pruebas
es el aniilisis de reactivos, el cual implies un an81isis es- Las tres fases del anallsis de reactivos
tadfstico de los datos obtenidos en Ia prueba de los re- 1.Prueba de los reactivos
activos. Con base en este anillisls ~e eligen los readivos 2.Anans'rs estadlstico
que formaran parte de Ia prueba final. Asf, lo que aquf 3.Selecci6n de reactivos
hemos llamado an81isls de reactivos consiste en realidad
en tres procesos estrechamente relacionados: prueba
de los reactivos, an.:§lisis estadfstico y selecci6n de reac-
tivos. Discutiremos cada proceso en esta secci6n. y las instrucciones de fa prueba. Se puede pedir a los
;,Par que es importante el ancllisis de reactivos? individuos "pensar en voz alta" mientras responden los
Como seflalamos antes, Ia gran mayorfa de pruebas reactivos, fo cual puede ser de especial ayuda con los
educativas y psicol6gicas consiste en un conjunto de fermatas o m€-todos novedosos, pues permite al crea-
reactivos individuales, que son como los bloques de dor de Ia prueba identificar una redacci6n ambigua, in-
una construcci6n. Controlamos las caracterfsticas de terpretaciones inesperadas de un reactive, confusiOn
una prueba controlando los reactivos que Ia confer- acerca de los metodos para responder y otras anoma~
man. Si queremos una prueba Uicil, usamos reactivos lias como estas. La prueba informal puede evitar gastar
taciles; si queremos una prueba con una confiabllidad recursos en Ia fase de prueba formal. No tiene sentido
de consistencla interna alta, usamos reactivos que ten- recoger datos de varies cientos de examinados y rea-
gan correlaciones altas entre sl. El ancllisis de reacti- lizer elaborados aniilisfs estadfsticos con reactivos que
vos es el conjunto de procedimientos que nos permite nl siquiera comprenden los examinados.
ejercer este control. Ademas, ya que las caracterfsticas La prueba formal de reactivos implica aplicar los re-
del reactive determinan las caracterfsticas importan- activos de Ia nueva prueba a muestras de examinados,
tes de una prueba, los manuales se refieren con fre- las cuafes deben ser representatives de Ia poblaci6n a
cuencia a los resultados del analisis de reactivos. De Ia que esta dirigida. Par ejemplo, si Ia prueba esta pen-
ahf que, para ser un lector informado de e~tos manua- sada para usarse con nifios normales de 3 a 6 alios de
fes, debamos estar famifiarizados con los conceptos y edad, Ia muestra de prueba debe ser representative de
tecnicas del aniilisis de reactivos. este grupo. Si Ia prueba esta pensada para aspirantes
a Ia universidad, Ia muestra de prueba debe ser repre-
sentative de los asplrantes a Ia universidad.
Las muestras de prueba de reactivos a menudo
no son tan grandes como las que se usan para crear
las normas de Ia prueba; sin embargo, es obvlo que
necesitan ser lo suficientemente grandes para pro-
porcionar datos estables. Muestras de varies clentos
de individuos suelen ser adecuadas cuando se usan
los procedimientos cl.3sicos de an.:§lisis de reactivos,
como los definiremos mas adelante, pero usar los
procedimientos de Ia teorfa de Ia respuesta al reacti-
ve puede requerir muestras much a mas grandes.
Los creadores de pruebas usan uno de varies pro-
Prueba de reactivos cedimientos diferentes para llevar a cabo Ia prueba de
reactivos, Ia cual puede implicar un estudio indepen-
Hay dos etapas de Ia prueba de reactivos: formal e in- diente en el que el Unico prop6sito es poner a prueba
formaL Los datos del an81isis de reactivos se basan en los reactivos. 0 los reactivos de prueba pueden estar
Ia prueba formal; sin embargo, antes de llevar a cabo incrustados en Ia aplicaci6n de una prueba existen-
Ia prueba formal, lo habitual y prudente es reafizar una te que proporciona puntuaciones regulares sabre Ia
prueba informal. Esto se sueJe hacer con sOlo algunos prueba, pero los reactivos de prueba no contribuyen
casas, digamos entre cinco y diez parecidos a aque- a Ia puntuaci6n. Muchas pruebas de aplicaci6n adap-
llos a qulenes estii diriglda Ia prueba. A menudo, los table par computadora usan este procedlmiento. Des-
reactlvos ni siquiera se califican d~~ una manera formal, pu€-s de determiner los estadfsticos del reactive, como
pues se pide a los lndlviduos que participan en Ia prue- se describe en Ia siguiente seccl6n, unreactive puede
ba informal que hagan comentarios sabre los reactlvos estar incluido enla versiOn ~en vivo~ de Ia prueba.

Elaboraci6n de pruebas. anillisis de reactivos y neulralidad 147

! ,-;: '
~,,:.._._;·"
EQUIPO 2
aCu6ntas pulgadas )
hoy en un pie?

A. 12 ~
.
Tronco del reaclivo

Opci6n correcta
l
B. 10 - ) Opciones o
c. 100 Dislractores alternativas
D.20

Figura 6-5. Anotomia de los reoclivos de opci6n mUltiple.

Estadfsticos de los reactivos diflcil: sOlo 25% de los examinados lo respondieron


correctamente.
Gran parte del vocabulario que se usa en el anSii-
sis de reactivos se origina en las aplicaciones de las Discriminaci6n del reactive
pruebas de apr~vechamiento y de capacidad, en es-
pecial las de reactivos de opci6n mUltiple. En estes La dlscriminaci6n del reactivo se refiere a Ia capa-
dominies, hay una opci6n corrects y varias incorrec- cidad del reactive para diferenciar en terminos es-
tas; sin embargo, los procedimientos de amllisis de tadfsticos de Ia manera deseada entre grupos de
reactivos tambi€n trabajan con pruebas de otros do- examinados. Aquf, el termino dlscriminaciOn no hace
minies, par ejemplo, con pruebas de personalidad o referencia a una discriminaci6n sociol6gica o jurfdi-
encuestas de actitudes. La terminologfa desarrolla- ca debido a Ia raza, genera o religiOn. A causa del
da en el dominic cognitive se tran~mite a menudo a potencial malentendido que puede surgir en este
otros dominies, aunque su usa a veces es un poco punta, harfamos muy bien usando algUn otro term ina
torzado. La figura 6-5 muestra Ia terminologfa que se para referirnos a esta dlferenciaci6n estadfstica. Sin
suele usar con dichos reactivos. embargo, como sucede con dificultad del reactive,
discriminaci6n del reactive es un termino muy conso-
Dificultad del reactive lidado en Ia literatura pslcometrica y no es probable
que desaparezca.
La prueba formal de reactlvos da par resultado un ~Qu€ dase de discriminaci6n o diferenciaci6n
conjunto de estadfstlcos. Los procedimientos tradicio- queremos de un reactive? Par lo general, queremos
nales de anc'ilisis de reactivos, los que se desprenden que el reactive pueda diferen<;:iar entre individuos que
de Ia teorfa clclsica de las pruebas, dependen de dos tienen mas.del rasgo que tratamos de mediry los que
conceptos: fndlce de dificultad e fndice de discrimina- tienen menos del rasgo. Ya que los reactivos son los
ci6n. La dificultad del reactivo se refiere al porcenta- bloques que conforman Ia prueba, los que pueden di-
je de examinados que responden correctamente. si ferenciar de esta manera har8n una buena prueba. Los
se trata de reactivos que se califican como correcto/ siguientes parilgrafos describen a) c6mo definir los
incorrecto. o en cierta direcci6n, si se trata de reac- grupos con mas o menos de un rasgo y b) c6mo expre-
tivos para los cuales no hay respuesta correcta, par sar el grado en que unreactive puede diferenciarlos.
ejemplo, gde acuerdo" en un reactive de actitud. En el Para determinar si un reactive diferencia entre
caso de reactivos calificados con correcto/incorrecto, quienes tienen mas o menos del rasgo que quere-
Ia "dificultad" es realmente un fndlce de "facilidad", mos medir, necesitamos identificar grupos con mils
pues se refiere al porcentaje de respuestas correctas. o menos de ese rasgo, para lo cual existen dos me-
Sin embargo, el termino dificu/tad del reactive esta todos que se usan con frecuencia. El primero se lla-
muy consolidado en Ia literatura psicometrica. ma "metoda externo y el segundo, metoda lntemo. El
Los nlveles de dificultad sue len denominarse vale- punta de referencia de los ti~rminos externo e inter-
res p, donde p represents el porcentaje o proporci6n. no es Ia prueba misma; en el metoda externo, Ia base
Asf, un reactive con un valor p de 85 es un reacti- para identificar al grupo es externa a Ia prueba, mien-
ve fiacil: 85% de los examinados lo respondieron co- tras que en el metoda interne, Ia base es lnterna a
rrectamente. Un reactive con valor p de 25 es muy Ia prueba. El metoda externo depende de tener des

148 Pruebas pslcol6gicas. Una lntroducci6n pnktica


(o m8s) grupos diferenciados en el rasgo pertinente un anilfisis complete, cuando se usan 25%, 27% o
de acuerdo con algUn criteria externo. Consideremos 33% superior e inferior, es habitual tambiEm determi-
estos dos ejemplos de grupos definidos externamen- ner el desempefia de los grupos intermedios aunque
te. Prim era, supongamos que estamos elaborando un no se tomen en cuenta en el andlisis de discrimina-
cuestionario para medir depresi6n. Tenemos un gru- ci6n. (Para obtener el fndice de dificultad, sf se tom an
po de 50 individuos diagnostic.ados con depresi6n en cuenta todos los casas.)
par un equipo de psic61ogos y otro grupo de 50 indi- Mientras Ia dificultad del reactive casi siempre tiene
viduos que experimentan reacciones f6bicas mode- s61o un indicador universal -el valor p-, Ia discrimina-
radas. pero sin otros sfntomas clfnicos significativos. ci6n del reactive puede expresarse de varlas maneras
oueremos reactivos que discriminen o diferencien diferentes. lo mas comUn es representar el grade de
el grupo de deprimidos del grupo de no deprimidos. discriminaci6n mediante D (que significa diferencia o
Segundo, supongamos que estamos elaborando una dfscriminaci6n) a r (Ia correlaci6n entre el desempeiio
prueba de eficiencia en el usa de Microsoft Access, en el reactivo y el criteria externo o Ia puntuaci6n total
un program a de c6mputo para crear bases de d.ptos. de Ia prueba). Par Jo comUn. D se define como Ia sim-
Tenemos un grupo de 100· individuos que han termi- ple diferencia en el porcentaje de respuestas correc-
nado una capacitaci6n en Access de tres semanas y tas en los grupos "superior" e "inferior". En Ia pr<'ictica,
otro grupo de individuos que sa ben usar Ia compute- encontramos varios tipos diferentes de coeficientes
dora en general, pero no han sido capacitados en Ac- de correlaci6n (r) para expresar las relaciones reacti-
cess. Esperamos que nuestros reactivos discriminen vo-prueba o reactivo-criterio. El tipo de r depende de
entre estes dos grupos. ciertos ?Upuestos que se hacen en casos particulares
En el metoda Interne para crear grupos con mas o acerca de Ia naturaleza de las variables implicadas; los
menos del rasgo que tratamos de medir, calificamos Ia tipos mas comunes lncluyen las correfaciones r biserial
prueba entera y, fuego, identificamos a los que tuvie- (rb11 ) y r biserial puntual (rills~· En Ia literature psicome-
ron puntuaciones mas altas y mils bajas. El supuesto trica, tambien encontraremos referencias a Ia correla-
es que Ia prueba entera es una medida razonable- ci6n tetrac6rlca (rtet), al coeficiente phi (<fl) y al termino
mente v<'ilida de ese rasgo. Entonces determinamos r corregida, el cual se usa cuando Ia correlaci6n entre
el grad a en que un reactivo individual dife~encia entre el reactlvo y Ia prueba se basa en una puntuaci6n total
los que tuvieron puntuaciones altas y bajas. En esen- que excluye el reactive que se esta analizando. Todos
cia, determinamos el grado en que el reactive dife- los metodos proporcionan casi Ia misma informaciOn
rencia entre personas de Ia misma manera en que lo acerca del poder de discriminaci6n de un reactive;
hace Ia puntuaci6n totaL En el caso de muchos ras- ademas de encantrar varias maneras de determiner Ia
gos que deseamos medir, no tenemos un buen indi- discriminacl6n del reactive, encontramos varias mane-
cador externo o es muy diffcil conseguirlo; de ahf que ras de nombrar el fndice. Sin importer el metoda espe-
el metoda interne se use con mucha mayor frecuen- cffico que se use, el resultado puede llamarse fndice
cia que el extern a para elaborar una prueba. de discriminaci6n, correlaci6n reactivo-total o fndice
En el metoda interne se emplea una de varias de validez del reactive.
formes para divfdir a los individuos en puntuaciones El cuadro 6-8 muestra un conjunto de datos em-
altas y puntuaciones bajas. Empezamos con Ia distri- pleados en un an<'illsls de reactivos de una prueba
buci6n de las puntuaciones totales 5 de Ia prueba. Los muy sencilla de 10 reactlvos. Primero. las pruebas se
grupos "alto" y "bajo" pueden identificarse como las califican y, fuego, los casas se ordenan de mayor a
mitades, terceras o cuartas partes que se encuentran
en el extrema superior e inferior de Ia distribucl6n, sible; de acuerdo con este principia, un contraste entre 5% o 10%
respectivamente. Otra divisiOn que se usa con fre- superior e inferior serfa mejor que,..digamos,..entre.50%.superior
cuencia es Ia de 27% superior e inferior.6 Para tener e inferior. For otro !ado, para obtener datos estables, queremos
que los grupos sean tan grandes como sea po.sible; de acuerdo
5
En diferemes aplicaciones, Ia puntuaci6n total de Ia prue- con este principia, grupos con 50% superior e inferior serfan pre-
ba puede definirse de varias maneras distintas. Par ejemplo, fenbles. En un famoso analisis publlcado en 1928, pero despues
puede basarse en todos los reactivos de Ia prueba excluyendo corregido, Truman Kelley (1939) rnootr6 que Ia soluci6n 6ptima.
el que se esta analizando, a en todos los reactivos de una sub· a este problema era usar 27% superior e inferior; de ahi que esta
Prueba perteneciente a una bateria mas grande. cifra se haya convertido en el "estandarindustrial" para dividir los
"Aunque 27% parece una cifra extraiia, hay una buenaruz6n para grupos. A menuda se usan 25% o 33% superior e inferior como
usarla. Cuando se contrastan grupos, queremos optimizar dos aproximaciones razonables a 27%, con los beneficios adicionales
condicion~ que, par lo general, trabajan una contra otra. Por un de permitir un amillsis de uno o dos grupos intennedios del mis-
lad a, queremos que los grupos sean tan diferentes como sea po- mo tamafto que losgrupos de los extremos.

Elaboraci6n de pruebas, an<'ilisis de reactivos y neutralidad 149


Cuadro 6-8. Ejemplo de datos ordenodos poro el anOiisis de reoctivos
Reactivos ( 1 = correcto, 0 = incorrecto)
Coso Punluoci6n 2 3 4 5 6 7 8 9 10
10 1 1
2 9 1 0
3 9 1 1 0 Grupo-olto
4 8 0 1 0
5 8 ~
• 1 0 0
6 8 0 0
'

95 3 0 0 0 0 0 0 0
96 3 1 0 0 0 0 0 0 0
97 3 0 0 0 0 0 0 0
Grupe bojo
98 2 0 0 0 0 0 0 0 0
99 2 0 0 0 0 0 0 0 0
100 2 0 0 0 0 0 0 0 0

men or. El valor p y el fndice de discriminaci6n derivan Grupo bajo (estudiantes de 27% con puntuaclones
de las respuestas a los reactivos, proceso bastante totates mas bajas) y Grupe alto (estudiantes de 27%
tedioso para hacerlo a mana, par lo que pr.:kticamen- con puntuaciones totales mas altas). En "Clave", en
te siempre se hace con ayuda de algUn programa di- Ia columna de Ia extrema derecha, un asterisco (•)
sefiado espedflcamente para el an81isis de reactivos. indica cuill de las alternatlvas esta marcada como Ia --
respuesta corrects.
Ejemplos de los estadisticos del reactive En el reactive 6. Prop. correcta es .56, es decir,
56% de los estudiantes respondi_6 correctamente este
El cuadro 6-9 presenta datos de cinco reactivos de reactive. Podemos notar que es Ia misma cifra que
una prueba de aprovechamiento. Examinemos estos aparece en Prop. de aprob. de Alt. 1, es decir, Ia
datos para ilustrar Ia que se puede llegar a saber a porci6n del grupo total que ellgi6 Ia respuesta correc- -
partir -de un anSiisis de reactivos. La columna de Ia iz- ta. El fndice de disc. del reactive 6 es .50; esta es Ia -
quierda, titulada "Reactive~. presenta el nlimero de re- diferencia (con cierto error rondando) entre Ia proper- :-
activos. Hay tres entradas en Ia columna "Estadrstlcos ciOn de aprobaci6n del grupo alto y el bajo en Ia alter-:,
del reactive": Prop. correcta (proporci6n de respues- nativa 1. Asf, en este reactive, 87% de los estudiantes
tas correctas a un reactive), fndice de disc. (fndice de con mejores puntuaciones totales eligieron Ia opci6n _:,_:
discriminaci6n del reactive). Biser. puntual (coeflcien- correcta. mientras que sOlo 36% de los estudiantes
te de correlaci6n biserial puntual entre el desempeFio con las puntuaciones miis bajas eligieron esta opci6n. --
en este reactive y Ia puntuacl6n total de Ia prueba de Este reactive fue muy eficaz al separar los grupos I
27% de los casas superiores e inferiores). y bajo. La opci6n 2 fue atractiva para los I
En "Estadfsticos de las alternatives", encontramos tes del grupo bajo, pues casi Ia mitad de ellos Ia
las siguientes entradas: Alt. (alternative u opci6n; en gieron; incluso algunos estudlantes (pero muy po,co!;)'
esta prueba, cada reactive tiene cuatro opclones); del grupo alto eligieron Ia opci6n 2 en este ~'~~:;~~:
Prop. de aprob. (proporci6n de aprobaci6n o elec- La correlac16n biserial puntual (.43) no puede
ci6n de cada opci6n) en cada uno de los sigulente minarse directamente de los datos que tenemos I --·
grupos: Grupe total (el grupo total de estudiantes), pero es Ia correlaci6n entre Ia puntuaci6n total de I ,

150 Pruebas psicol6gicas. Una introducci6n prSctica


Cuadra 6M9. Datos mueslro del anOlisis de reodivos de uno prueba de aprovechomienlo 0

Estadisticos del reactivo Estadisticos de las alternativas


Prop. ~e aprob.
Prop. fndice de Biser.
Reactivo correcta disc. puntual Alt. Total Inferior Superior Clave
• 6 .56 . .50 .43 1 .56 .36 .87 •
2 .26 .45 .07
3 .10 .09 .07
4 .05 .00 00
10 .62 .10 .04 '1 .05 .00 .00
2 .62 .64 .73 •
3 .00 .00 .00
4 .31 .36 .27
23 .26 .40 .37 1 .03 .09 .00
2 .08 .18 .00
3 .26 .00 .40 •
4 .56 .55 .60
28 .97 .09 .24 00 .00 .00
2 .03 09 .00
3 .00 .00 .00
4 .97 .91 1.00 •
29 .69 .05 .03 1 .69 .55 .60 •
2 .08 .09 .13
3 .15 .27 .20
4 .08 .09 .07
" Formato odoplado de ITEMAN ™, un componente del poquele de on6lisis de pruebos y reoctivos disefiodo par Assessment
Systems Corporation, reproducido con permiso.

prueba y el desempefio en este reactlvo. La correla- muestra una dlscriminaci6n excelente, el heche de
ci6n biserial y el fndice de discrimlnaci6n, par Ia ge- que mils estudiantes del grupo alto que del grupo
neral, son similares, como se ilustra con los ejemplos bajo eligieran Ia opci6n 4 nos hace preguntarnos saM
del cuadro 6-9. bre esa opci6n.
El reactive 10 ttene casi el mismo nivel de dificul- El reactive 28 es muy facil; casi todos lo responM
tad que_eL6-(.62_\LS_S_fi._no_bay_ mucba_dif.er.encia), die.r:on..de---manera-eo~~ecta.-ES-UtiLcomo-V.alida.ci6n-de
pero el 10 tuvo mucho menor poder de discrimina- que los estudiantes aprendieron el contenido del re-
ciOn que el reactlvo 6. Mientras que 64% del gru- active. Sin embargo, contribuye poco a distlnguir en-
po bajo eligi6 Ia opci6n correcta (Alt. 2), sOlo un tre los que sa ben mas o menos del material, como Ia
porcentaje ligeramente mayor (73%) del grupo alto indica su bajo fndice de discriminaci6n.
eligi6 esta opci6n. Cerca de Ia tercera parte de cada El reactive 29 tiene dificultad moderada (valor p
grupo eligi6 Ia opci6n 4. Estos datos sugieren que el = .69), pero Ia distribuci6n de las respuestas a Ia lar-
reactive 10, en especial Ia opci6n 4, debe revisarse go de las opciones es desconcertante. El indice de
con mucho detenlmiento. discriminaci6n y Ia correlaci6n biserial puntual estcln
El reactive 23 es muy diflcil; s61o 25% del grupo cerca del cero. La divisiOn entre grupos alto y bajo es
total Ia respondi6 correctamente. NingUn estudiante mas o menos Ia misma en cada opcl6n. La redacci6n
del grupo bajo acert6 en este reactive. Aunque este de este reactlvo debe examinarse.

Elaboraci6n de pruebas, anallsls de reactlvos y neutralidad 151


3

Estadfsticos del reactive en Ia teorla se trata de una prueba de personalidad. intereses o ac- ,:
de Ia respuesta al reactive titudes. El estatus del rasgo se define en terminos de ,
theta [9], como se discuti6 en el capftulo 3. (La term]- ,
La discusi6n de los estadfsticos del reactive de Ia nologfa de Ia TRR se origin6 prlmordialmente del traba-
secci6n anterior se bas6 en Ia teorfa cliisica de las jo con las pruebas de capacidad y aprovechamiento; a -
pruebas (TCP). Los Indices de dificultad y de discrl- menudo se transflere de manera dlrecta, forzando un
minaci6n del reactive en esta teorfa a menudo se de- poco el significado, a las medidas de personalidad, inte-
nominan estadisticos tradicionales del reactive. La reses y actitudes. Asf, theta representa una "capacidad"
teorla de Ia respuesta al reactive {TRR) tam bien utiliza aunque el constructe sea depresi6n o lnteres en Ia po-
estadfstlcos del reactive, pero los conceptos y Ia ter- litica; el desempei'lo en el reactive se califica como ~pa­
minologla son alga diferentes a los de Ia TCP. sar" aunque Ia respuesta sea "Sf" o "Me gusta". Algunos
Una caracterfstica clave del aniilisis de reactivos en autores usan lostE!rminos miis genE!ricos "rasgo" a "pro-
Ia TRR es Ia curva caracterfstica del reactive (CCR), Ia babilidad de Ia respuesta correcta".) Los valores theta
cual relaciona el desempefio en un reactive con el es- son hasta cierto punta arbitrarios, pero par Ia general
tatus del rasgo a capacidad que subyace en Ia escala. varfan entre -4 y +4, donde los valores negatives repre-
El desempeiio en el reactive se define como Ia proba- sentan menos del rasgo y los positives, mas. La CCR es
bilidad de pasar un reactive; pasar signlfica dar Ia res- un esquema de Ia relaci6n entre estos dos constructos.
puesta correcta, si se trata de una prueba de capacldad La figura 6-6 describe cuatro CCR. Los niveles ere-
o aprovechamiento, o responder en clerta direcci6n, si dentes de [6] (es decir, el desplazamiento de izquierda

100

90
B
u
80
~
u
a 70

"•
0
~
60

••"
~
50

40
~
a
~ 30
:0
a
~ 20
.l' 10

0 _, -2 -1 0 1
-3
Theta !copoddod)
2 3
'
Figura 6·6, Ejemplos de Ia curvo carocleristica del reactive {CCR) en Ia teorlo de Ia respuesto ol reactive.

152 Pruebas psicol6gicas. Una introducci6n priictica


a derecha a Ia largo de Ia base de cada curva) refle- sin importar que tan abajo se encuentre una perso-
jan el au menta en Ia probabilidad de pasar el reactive. na en [8], hay cerca de 20% de probabilidades de
Esto es cierto para las cuatro CCR. Podemos notar las pasar el reactive. AI principia, esto puede parecer
lfneas punteadas asociadas con Ia CCR del reactive A: inexplicable; sin embargo, consideremos el case de
Ja Jfnea horizontal muestra el punta en que Ia curva su~ un reactive de opci6n mUltiple con cinco opciones de
pera 50% de probabilidades de pasar, mientras que Ia respuesta. Sin importar cuan poco sepamos acerca
Jfnea vertical muestra d6nde se ubica este punta en Ia del tema que se esta midiendo, tenemos 20% de pro-
escala theta (-1.5 en este ejemplo). Es decir, te6rica- babilidades de pasar el reactive tratando de adivinar
mente, las personas con -1.5 del rasgo tlenen 50% de al azar. Algunos modelos de Ia TRR explican esta asfn-
probabilidades de pasar el reactive. En el reactive A. tota inferior con el parilmetro de adivlnaci6n? En el
=
las personas con [9] = -2.5 y[8] 0.0 tienen 20% y 95% case de un reactive de 10 epciones de respuesta, el
de probabilidades de pasarlo, respectivamente. Aqt.if pai-ametro de adivinaci6n es posible que este al nivel
usamos los valores originates theta, pero en el traba- de 10%. Podemos notar que el extrema inferior de Ia
jo pnktico, solemos agregar una constante (p. ej., +5) CCR del reactive B se a proxima a cere en el eje y, lo
para ellminar los nUmeros negatives. cual ilustra que Ia adivinaci6n no afecta tedos los re-
En los modelos mas comur:.es de Ia TRR, el pard- activos. Par lo general, las asfntotas superiores de Ia
metro de diflcultad del reactlvo es el punta en el que CCR estiln cerca de 100%; de ahf que nose introduz-
Ia CCR supera 50% de probabilidades de pasar el re- ca un parc'imetro separado en el case de estas.
active. Este concepto es muy parecido al del fndice Hemos examinado tres parc'imetros de una CCR: difi-
de dificultad del reactive (valor p) en Ia TCP; sin em- cultad, pendiente y adMnaci6n. En ellenguaje de Ia TRR,
bargo, el par.Smetro de dificultad en Ia TRR se repre- Ia pendiente o par.Smetro de discriminaci6n es "a", el pa-
sents mediante su valor correspondiente [6]. rSmetro de dificultad es "b" y el parametro de adivinaci6n
Podemos obse!Var las marcas en las CCR de los es "c". Estes parametres dan origen a tres modelos de Ia
reactivos B, C y Den Ia figura 6-6, las cuales muestran TRR, a menudo denominados P1, P2 y P3: modelos de
el punta en el que las curvas superan el 50% en el uno, des y tres parametres. El modele de un parEimetro
eje y. El reactive B es mas diffcil que el A; se necesita tema en cuenta s61o el parcimetro de dificultad (b); este
un nivel de capacidad superior (6) para t~ner 50% de modele supone que todos los reactivos tlenen Ia misma
probabilidades de pasar Ben comparaci6n con A. Los pendiente (poder de discriminaci6n) y que Ia adivinaci6n
reactivos C y D superan Ia marca de 50% en el mlsmo noes un factor significative. El modele mas popular de un

I punta, y ambos son mas dlflciles que A y B.


Las CCR de Ia figura 6-6 no tienen todas Ia misma
parametro es el modelo Rasch, nombrado asf par Geor-
ge Rasch, quien lo desarrollO (Wright, 1997}. El modelo de
forma; las de los reactivos A y C son muy parecidas: tle- dos parSmetros toma en cuenta dificultad y discrimina-
nen una marcada forma de "S". La mitad de Ia curva, en ci6n, pero no Ia adivinaci6n, mientras que el modele de
ambos casas, es muy empinada. Las CCR de los reac- tres parametres toma en cuenta dificultad, discriminaci6n
tivos By D son menos pronunciadas; el termlno formal y adivinaci6n. (Vease los ejercicios 13 y14 al final del capi-
para esta lnclinaci6n es pendiente. La pendiente de una tulo para experimenter con los tres par8metros.)
curva muestra que tan marcadamente el reactlvo dife- La figura 6-7 muestrB las CCR de dos reactivos de
rencia entre las personas con capacidades distintas (va- un proyecto real de elaboraci6n de una prueba que
lores 6). Hablar de "dlferenclar" nos recuerda al lndice usa el modele Rasch. Los puntas conectados mues-
de discriminaci6n de Ia TCP; de hecho, Ia pendiente de tran el desempefio real de los subgrupos en el pro-
Ia CCR corresponde de manera estrecl1a a esta noci6n. grama de investigaci6n. Las CCR se ajustan a estos
El reactive A muestra una marcada diferenciaci6n puntas emplricos. El reactive 40 es relativamente ta-
de -2.0 a -.5 en Ia escala [9]. El reactive C tlene Ia mis- cJI. pues su par6metro de dificultad (b) es de-2.70. El
ma pendiente que el reactrvo A, perc el C funciona me- reactive 352 es mas diffcil: b = 1.67.
jar (es declr, discrimina de modo mas clara) en el rango
de 1.0 a 3.0. Esto ilustra una caracterfstica importante
de Ia CCR: ayuda al creador de pruebas a identificar
los reactlvos que funcionan de manera diferenciada en
distintos puntas del espectro de Ia capacldad.
Hay una tercera caracterlstica de Ia CCR en Ia fi-
gura 6-6. El extrema inferior de Ia cu!Va de los reac-
tlvos A y C se hace mas plano alrededor del nivel de 1 Puede haber una asfmota inferior por razones distintas a Ia de
20% del eje y. Desde el punta de vista tEknico, este Ia adivinaci6n al azar. De ahf que la asfntota inferior a veces se
"aplanamiento~ se conoce como asfntota inferior. Asf. denomine panimetro de seudoadlvinaci6n.

Elaboraci6n de pruebas. an81isis de reactivos y neutralidad 153


1

~:: 0.8
1

i
1
1
yc !7
/


• 'g_
8

0.6
I
'i
'
I
It-·· ctivo 352

'
!
.E

~ 0.4
} ~
,;
I
~

~
0
•• clivo 40
~
Ji .
/
0

, VI_,
~
0.2

I '
.
___
~
___
0
-6 -2 0 2 4 6
The to

Figura 6-7. Ejemplos de Ia CCR para readivos que uson el modelo Rosch.
Fuente; Reproducida con autorizoci6n de Renaissance Learning, Inc.

Para comprender las CCR, puede ser Citll introducir al- pasar el reactive en realidad disminuye conforme el nivel
gunos ejemplos que son te6ricamente posibles aunque de capacidad aumenta. Esto corresponderfa a un fndice
poco probables de ocurrir en Ia pr8ctica. La figura 6-8 de discriminaci6n negativo en Ia TCP: mas personas del
muestra estes ejemplos. El reactive E muestra un caso grupo inferior que del grupo superior pasan este reactive.
en el que todos los que estSn debajo de cierto nivel de En realidad, Ia gr8fica del reactive G no es tan rara como
capacidad ([8] = -2.0) fallan y todos los que estan arriba podria parecer a primera vista. En situaciones pr8cticas
de ese nivello pasan. Desde varies puntas de vista, este es justa Ia clase de gr8fica que ocurre con las opclones
es un reactive ideal. Una serie de reactivos como este incarrectas de un reactive de respuesta cerrada; es decir,
en diferentes nlveles de [8] harfan una prueba muy etr- conforme aumenta el nivel de capacidad, Ia probabilldad
ciente. El reactive F muestra un caso en el que el reacti- de eleglr una opci6n incorrecta disminuye.
ve diferencia posit!Vamente hasta cierto punta y, fuego, Los parametres de una CCR pueden traducirse como
pierde su poder de diferenciaci6n; despues, Ia recupe- lo que se denomina funcl6n lnformativa del reactivo, Ia
ra de nuevo. A veces encontramos un patr6n como este, cual muestra en que parte del continuo del rasgo [9D un
pero es, qurza. mas una cuesti6n de fluctuaciones inesta- reactive proporciona informaciOn pertlnente para Ia me-
bles en Ia muestra que un verdadero fen6meno. El reac- dici6n, La figura 6-9 presenta las funciones informativas
tive G muestra el extraf'io caso en que Ia probabilidad de hipoteticas de dos reactivos. La funci6n del reactive 8

100

...
....l!!!•.....
;:~I·

...•••
E 90

E 70

..E
u
~ 80
0
u

~
a_ 60
~ E
(\ G

"'
"'"
.,.•.
""! ~ AO
50

-g
..........
1r~1
:g 30
·-·........ :a
j 20

..."
lil!~
·~~ - 10
1,, ol_--~,==c=~_2k-~-"-1c-"--+o--"-~--~~,c-~~,~
::i'
..• I Theto
::-·
··-~
'"" Figura 6~8, Algunos CCR te6ricamente posibles, pero poco probobles.

154 Pruebas psicol6gicas. Una !ntroducci6n practice


2.5
A
-g~ 2.0 l
"
~L5
<
•O
·o
a 1.0
E
.E< .5

o"-_~,c---_~3--~-2~---~1c---,o---~1c---~2----~3~~,~
Rosgo (Theta)

Figu.-g 6-9. Funciones informativas de dos reodivos hipoteticos.

muestra que proporciona una cantidad moderada de in- relativamente independientes y significativas. Este
formaciOn a lo largo del range 0.0-3.0; Ia cantidad de in- enfoque se usa mucho en Ia construcci6n de esca-
formacf6n es mas o menos Ia misma en Ia mitad de este las multirrasgo de personalidad, intereses y actitudes.
range. El reactive A esta marcadamente enfocado alre- En esta apllcac!6n del anc'ilisis factorial, una gran
dedor de [9]"' -1.0. La cantidad de informaciOn que pro- cantidad de reactivos claramente pertinentes a los
' porclona A decae con rapidez mas allii de -1.0. rasgos que se tiene pensado medir se aplica a una
muestra de examinados. Las intercorrelaciones entre
los reactivos se analizan factorialmente. Se fdentlflcan
las dimensiones subyacentes (factores). Entonces, los
reactivos con cargas altas en los factores se eligen
para formar parte de Ia prueba final, Ia cual produce
puntuaciones separadas de cada uno de los factores
con reactivos que deben ser medidas relativamente
puras y eficientes de los factores.

El valor relatrvo de los estadfstlcos del reactive en


Ia TRR y Ia TCP es un poco poh~mico. La mayorfa de Cuadra 6-10. Resultados porciales de un anOiisis facto-
los creadores contempor8neos de pruebas emplean los rial de reoctivos de un inventorio de intereses
estadfsticos de Ia TRR, Jo que suglere que los expertos
Reactive Foetor: I II HI IV
encuentran valiosos los datos que se obtienen de ese
Cargas
modo. Sin embargo, los estadfsticos de Ia TCP siguen
de los
usc'indose en los mismos proyectos de elaboraci6n de
reactivos.,
pruebas. Esto parece ser mas que s61o una cuesti6n de
aferrarse a Ia conocido par Ia seguridad que brinda. Los 10 76 -07 06
creadores de prueba actives encuentran valor en los es- 2 05 16 10 73
ii~,.~cc tadfsticos tradicionales, asr como en los de Ia TRR. 3 08 29 59 39
• < ~

· Analisis factorial como tecnica de anBiisls 4 19 39 67 -05


de reactivos 5 51 26 47 -11
6 36 51 33 -31
En el capitulo 5, describimas el ani311sis factorial como
', un metoda que se usa para demostrar Ia validez de
7 12 44 40 17
constructe de una prueba. En esa aplicaci6n, Ia prue- 8 03 24 65 -01
ba ya estaba hecha y el an81isis factorial indlcaba 9 09 06 55 16
su estructura. Sin embargo, esta hknica tambiE!n se
10 58 45 23 01
usa en Ia fase de ani31isis de reactivos para ayudar
a elegir los reactivos que produciri3n puntuaciones g Se omitieron los puntas decimoles.

Elaboraci6n de pruebas, anSiisis de reaclivos y neutralldad 155


I·n:
El cuadro 6-10 muestra parte de los resultados del no confiables. Asf, el heche de que Ia prueba ten.
an81isis factorial de un fonda de reactivos disefiados ga 100 reactivos es, por complete, irrelevante.
para medir los intereses de los nines en varies temas 2. El nivel de dificultad promedio de Ia prueba esta
escolares. Los reactivos con cargas en negritas po- en funci6n dlrecta de los valores p de los reacti-
drfan elegirse para las escalas finales. En este proceso, vos, mlentras que Ia puntuaci6n media de Ia prue-
las cargas de los reactivos _en los factores sirven para ba es s61o Ia suma de los val ores p. Otro modo de
un prop6sito similar al de los Indices de discriminaciOn expresar esto es que Ia puntuaci6n media de Ia
(D); sin embargo, para determiner D, necesitamos una prueba es el promedio de Ia multiplicaci61l de los
puntuaci6n total para dividir Ia muestra de prueba en valores p par el nlimero de reactivos de Ia prue-
grupos alto y bajo. En el metoda del anillisis factorial, ba. Como seFialamos antes. el valor p es, en rea-
no tenemos puntuaciones totales para empezar el pro- lldad, un fndice de Ia facilidad del reactive mils
ceso, sino que genera mas factores y determinamos Ia que de su dificultad. De ahf que para obtener una ..
relaci6n entre los reactivos y dichos factores. prueba fc'icil se usen reactivos con valores p altos.
mientras que parar obtener una prueba diffcil se
Selecci6n de reactivos usen reactlvos con valores p bajos. Depende del
prop6sito de Ia prueba si se desea que sea f.§cil
La fase final del proceso de ana !isis de reactivos es Ia o diffcil; una prueba fBcil ofrecera Ia mejor discri-
selecci6n. De todos los reactivos preparados y pro- minaci6n en el extrema inferior de Ia distribuci6n
bados, se seleccionan los que aparecen)n en Ia prue- de las puntuaciones de Ia prueba, mientras que
ba para su estandarizaci6n.a La selecci6n de reactivos una prueba diffcil lo hara en el extrema superior.
toma en cuenta el prop6sito y disefio originales de Ia Se puede desear una prueba tacil para una prue-
prueba, las especificaciones pertinentes de contenido ba diagn6stica de lectura disef\ada para dar bue-
y los datos del amilisis de reactivos. Aqufidentificamos na informaciOn sabre estudiantes con dificultades
varlas directrices para este proceso, las cuales derivan para leer. La figura 6-10, Prueba A, ilustra Ia dis-
de los principles que desarrollamos en los capitulos tribuci6n de puntuaciones de una prueba asf. En
sabre normas, confiabilidad y validez. La selecci6n de esta distribuc16n, el range entre los casas es mas
reactivos no ocurre en el vade, sino gue las caracterfs- grande en Ia porcl6n inferior; este tipo de distribu-
ticas de una buena prueba regulan este proceso. ci6n es resultado de tener muchos reactivos con
1. A menudo, el nUmero total de reactivos de Ia prue- valores p altos. Por otro lado, puede desearse
ba es lo mas importante para determiner su con- una prueba que despliegue los casas en Ia par-
fiabilidad. Desde luego, a todos les gustan las te superior de Ia distribuci6n, por ejemplo, para
pruebas cortas, pero estas, par Ia general, no son elegir candidates a una beca. La dlstribuci6n de-
muy confiables. Como regia general, para au men- seada para este caso se muestra en Ia figura 6-10,
tar Ia confiabilidad de una prueba, es necesario au- Prueba B. Este tipo de distribuci6n es resultado
mentor el nUmero de reactivos; sin embargo, hay de tener muchos reactivos con valores p bajos.
un punta en el que agregar nuevas reactlvos no En Ia terminologfa estadistica, Ia distribuci6n de
aumenta Ia confiabilidad de manera significative. Ia prueba A tiene una asimetrfa negatlva o hacia
AI considerar el nUmero deseado de reactrvos, Ia Ia izquierda, mientras que Ia de Ia prueba B tiene
atenci6n se debe concentrar en Ia puntuaci6n, o una asimetrra positlva o hacia Ia derecha. Debe
puntuaciones, que seran informadas, y no el sim- quedarnos clara que no hay una regia de que las
ple nlimero de reactivos en Ia prueba. Suponga- pruebas psicol6gicas inevitablemente lleven a
mos que Ia prueba tiene 100 reactivos. perc las una distribuci6n normal de las puntuaciones.
puntuaciones importantes se basan en seis gru- 3. En general, queremo.s reactivos con fndlces de
pos de elias, uno de los cuales tiene 50 y los otros discriminaci6n altos.9 Tales reactivos contribuyen a
"'
~)
cinco tienen 10 reactivos. El grupo de 50 reactivos Ia medici6n del rasgo. ,;.Oue es "alto" para un fndice
es, probablemente, el que proporcione una pun-
tuaci6n confiable, mfentras que los otros cinco gru- 9
Hay un limite a esta generalizaci6n. Si el rasgo que trntamos
'" pos probablemente proporcionen puntuaciones de medir tiene una definici6n muyrestringida y estamuy p1ar-
"'"
''"
" cadamente focalizado, entonces son deseables los Indices de
"
.. 0 En algunas aplicaciones, el amllisis de reactivos y Ia estanda-
rizaci6n iran acompai'Jados de un programa Unicode investi-
discriminaci6n muy altos. Sl el rasgo tiene una definici6n rnis
amplia, difusa y compleja, entonces son deseables los indices
" gaci6n. Sin embargo, Csta noes Ia pnictica habituaL Combinar de dlscrlminaci6n moderados (pero alln claramente positi-
con exito el amilisis de reactivos y Ia estandarizaci6n requiere vos). En Ia pnictica, casi nunc a hay que preocuparse por tener
un cuidado excepcional y maestria (y, quiza, suerte). indices de discriminaci6n que sean demasiado altos.

156 Pruebas psico!6gicas. Una introducci6n pr8ctica


Prueba A: F6cil
El promedio de volores pes alto

Puntuod6n bojo Puntuoci6n de r Puntuoci6n oho


lo pruebo M

Discriminoci6n m6ximo

Prueba B: Dificil
El promedio de volores p es bojo

Puntuoci6n bojo f Puntuoci6n de Punlvoci6n olio


M lo prvebo

(M"' Punluoci6n media] Oiscriminoci6n m6ximo

Figura 6-10. Distribuciones que resulton de elegir reaclivos con valores p altos o bajos.

de discriminad6n? Mientras que solemos pensar tengan cargas altas en un solo factory cargas re-
en correlaciones "altas" de .80 o mas, un buen lativamente bajas en todos los demiis factores.
(alto) lndice de discriminaci6n a menudo noes ma- 4. Hay una relaci6n importante entre el valor p de un
yor de .50, y un lndice de .30 es bastante respe- reactive y el fndlce de miixima di::>criminaci6n posi-
table. Necesitamos recorder que un solo reactive ble (D). De manera especffica, D puede tamar su valor
tiene una confiabilidad muy limitada, par lo que es maximo cuando p esta en su punta media. Conside-
poco probable tener una correlaci6n sumamente remos los ejemplos del cuadro 6-11 de un grupo total
alta con cualquler otra variable. Sin embargo, un de 200 casas. Con estes datos, D se basa en una di-
conjunto de muchos reactivos con fndlces de dis- visi6n del grupo total en 50% superior e inferior, lo que
crimlnaci6n de .30 a .50 conformarii una prueba nos da 100_casos...paracada..gr.upo..ELcuadro mues-
muy buena. Esta directriz se aplica sin importar el tra el m:Jmero de casas de cada grupo que tuvo el re-
m€todo con que se determine Ia dlscriminacf6n active correcto (No. correcto), luego se traduce este
del reactive. Sin duda, los Indices de discrimina- nOmero a una proporci6n (Prop.) de cada grupo. Re-
ci6n negativa deben evitarse, Los reactivos con cordemos que el lndice de discriminaci6n es Ia dife-
Indices de discriminaci6n cercanos a cera no con- rencla ~?ntre Ia proporci6n de correctos en el grupo
tribuyen en nada a Ia medici6n del rasgo. superiory el inferior. Sip =1.00, es decir. todos respon-
Cuando se usa el an811sls factorial como tecnica dieron correctamente al reactive, es decir, 100"), del
de aniilisis de reactivos, Ia meta suele ser obte- grupo superior y del inferior, entonces D = ,00. Un anS-
ner varias pruebas correspondlentes a los facto- Iisis muy similar se puede hacer si todos respondieron
res, que son medidas reiativamente "puras" de lncorrectamente: el valor pes .00 y D = .00. Si el valor
los factores. Par lo tanto, elegimos reactivos que p es .SO, Ia proporci6n de casas del grupo alto puede

Elaboraci6n de pruebas, anSiisis de reactivos y neutralidad 157


Cuadra 6~ 11. Ejemplos de Ia reloci6n entre el volor p de un reoclivo y el indice de discriminoci6n m6ximo posible
Grupo total Grupo inferior Grupo superior
IN= 200) IN= 100) IN= 100)
No. correcto Prop. (p) No. correcto Prop. No. c:orredo Prop. Milxima
posible D
200 1.00 100 1.00 100 1.00 .00
150 .75 50 .50 100 1.00 .50
125 .625 25 .25 100 1.00 .75
100 .50 0 .00 100 1.00 1.00
60 .30 0 .00 60 60 .60
I 40
I~ 0 .00 0 .00 0 .00 .00
'

ser de 1.00 y Ia del grupo bajo, de .00; de este modo Habiendo considerado Ia relaci6n entre p y D, re-
=
se obt!ene el valor mSximo de 0 "' 1.00. Si p .50, se gresemos at tema de Ia distribuci6n de los valores
puede obtener Ia diferencia m.:ixima entre los grupos p deseados de Ia prueba. Ya que D puede maxi·
superior e inferior. Examinemos otras cambinacianes mizarse cuando p = .50 (a ajustadas adecuada-
en el cuadro 6-11 para canfirmar Ia relaci6n entre p yD. mente hacia arriba par Ia adivinaci6n), a veces Ia
recomendaci6n es que se elijan para Ia prueba los
reactivos con p =.50. Esta ha sido una recomenda-
ci6n influyente en el campo de las pruebas, pues
ayuda a explicar par que las pruebas de capacidad
y aprovechamiento parecen tan diflciles a los exa-
minados. Tener incarrecta Ia mltad de reactivos de
una prueba es una experiencia perturbadora.
No todos los expertos concuerdan con Ia reco-
Debemos sefialar dos cuestiones acerca de Ia rela- mendaci6n de elegir Ia mayorfa de reactrvos con
cl6n entre p yD. Primero, esta relacl6n se refiere a Ia valares p"' .50. Esta recomendaci6n s61a se puede
mSxlma posible D. Sin duda, podrfa darse el caso de aplicar cuando se desea hacer Ia maxima discrimi-
que p = .50 y 50% de los casas de los grupos alto y naci6n en Ia mitad de Ia distribuci6n de las puntua-
bajo respandieran correctamente, lo que produdrfa ciones. Esto a veces es deseable, pero a veces no.
que D "'.00. El valor p determina que tan alta puede En muchas situaciones de evaluaci6n, deseamos
ser D, no que tan alta en reaUdad es; sin embargo, hacer dlscriminaciones razonablemente buenas a
par lo general, sucede que en Ia prSctica, al elaborar lo largo de todo el range del rasgo que medimos.
una prueba, hay una relaci6n real entre p y D. Esto sugiere dispersar los valores p de abajo ha-
Segundo, cuando fijamos el punta media del valor cla arriba; con esta estrategia, lo que tratamas de
de p "' .50, suponemos que no hay efecto de adi- hacer, en esencia, es obtener discriminaciones ra-
vinaci6n, pero en Ia pr.:ictica, par Ia comCrn, esta zonablemente buenas en varlos puntas al mlsmo
"
H presente en cierto grada en las pruebas de opci6n tiempa que sacrificamos Ia discriminaci6n maxima
;.•I mUltiple. Con prop6sitos semejantes a! del anal isis en un punta. Este an.:ilisis otra 'I i
!~· incluida en el cuadro 6-11, el punta media se defi- cia que el prop6sito de Ia prueba tiene en Ia mane-
"'
"' ne como Ia marca intermedia entre una puntuaci6n ra en que esta se elabora.
"',,,'"' perfects y una puntuaci6n par azar. Par ejemplo, 5. los criterias estadfsticos deben atemperarse sl-
,.,'"
~~.
en el caso de una prueba con reactivos de cin- guiendo consideraciones no estadfstlcas en Ia
co opciones, dande Ia puntuacl6n par azar es de selecci6n de reactivos. En una prueba de aprove-
121
'"' 20%, el-ponto-medio del valor de p es .60, no .50.10 chamiento. pueden incluirse ctertos reactivos para
'"I
It I satisfacer las demandas de las especiflcaciones
"" 1
~ An3lisis como estos suponen que los examinados adivinan del cantenida de Ia prueba, es decir, para asegu-
"....,.. al azar siempre que sea posible. De hecho, a rnenudo no adi· rar Ia validez de contenido. Par ejemplo, el pro·
'"
.I,!'.
"_,
,.
vinan al azar; y pueden no adivinar en absolute cuando no
sa ben la respuesta ala pregunta.
yecto de una prueba de matemSticas puede exiglr
10 reactivos sabre conceptos y 10 sabre ctalculas .

158 Pruebas psicol6gicas. Una lntroducci6n practica


lncluso si los estadfsticos son mas favorables en el para las submuestras del grupo de estandarizaci6n. La
caso de los reactivos de conceptos que los de c81- estructura analftico-factorial de Ia prueba puede deter-
culo, no exctuirfamos estos Ultimos reactivos. minarse con los datos de estandarizaci6rt
Tambh~n se podrfan incluir reactivos con fines mo- Ahara se pueden llevar a cabo varlos tipos de es-
tivacionales. Par ejemplo, es com(m empezar las tudios de confiabilidad, par ejemplo, de test-retest
pruebas de capacldad con reactivos muy taciles Par Ia general, no es factible hacer un estudio como
para que el examinado pueda tener un buen ini- este con todos los que participaron en el programs
clo. Los reactivos pueden terfervalores p de .99 y, de estandarizaci6n: sin embargo, se puede aplicar
porIa tantO, los val ores de.D estar.ln cerca de .00. otra vez Ia prueba a una submuestra en una fecha
Sin embargo. los reactivos aUn tlenen un prop6si- posterior. Ya que los estudios de test-retest son one-
to Uti I en Ia prueba; en los inventarios de persona- roses, pueden realizarse con una muestra por com-
lidad e intereSes, los reactivos a veces se repiten- plete independiente del grupo de estandarizaci6n. Si
deliberadamente para verificar Ia consistencia en Ia prueba tiene mas de una forma, podrfa llevarse a
las respuestas. cabo un estudio de confiabllidad de formas alternas
junto con el programs de estandarizaci6n o un es-
Programas de estandarizaci6n tudio independiente paralelo a dicho programs. Las
e investigaci6n complementaria medidas de consistencia interna, por ejemplo, el coe-
ficiente alpha, se hacen con facilfdad en Ia muestra de
El programa de estandarlzaci6n produce las normas estandarizaci6n completa; se trata sOlo de un aniilisis
de una prueba: a veces se le llama asf y a veces tam- estadfstico que no requiere recopilar nuevas da.tos.
bien se le llama programs de obtenci6n de normas. Se pueden llevar a cabo tres tipos de programas
Este programs es parte importante de Ia elaboraci6n de iguaiaci6n como parte o, al menos, al mismo tiem-
completa de una prueba: se reallza despues de que po que el de estandarizaci6n: igualaci6n de formas al-
se seleccionaron los reactivos en Ia fase final de Ia eta- tern as de Ia prueba (si est8n disponibles), igualaci6n
ps de analisls de reactivos. La prueba que se estan- de niveles diferentes de Ia prueba {si Ia prueba tlene
dariza debe ser Ia prueba exacta que se publican§ al niveles mUltiples) e 1gualaci6n de ediciones nuevas y
final. Todas las instrucdones, el nUmero de reactivos, antiguas (si Ia prueba es una revisiOn). Kalen y Bren-
los lfmites de tiempo, deben estar determiilados: de Ia nan (2004) son una referenda clave de los programas
contrsrio, las normas que resulten correriin peligro. de igualaci6n.
En el capitulo 3, describimos Ia nsturaleza de los
programas de estandarizaci6n en relaci6n con el tra- Preparaci6n de los materiales finales
tamiento de las normas. No es necesario repetir esa y publicaci6n
presentaci6n aquf, par lo que nada mas sei'ialamos el
Iugar que ocupa Ia estandarizaci6n en el proceso de El paso final en el proceso de elaboraci6n de una
elaboraci6n de una prueba. prueba es su publicaci6n. ,;.Que es exactamente Ia
Sea como parte del programs de estandarizaci6n o que se publica? En el usa cotidia~o de Ia palabra
como alga simultiineo a €sta, por Ia general, hay otros ''publicado", tendemos a pensar en Ia impresi6n del
programas de investigaci6n reallzados con Ia versiOn cuadernillo de Ia prueba o el conjunto de estfmulos,
final de Ia prueba antes de su publicaci6n. La natura- como las IBminas del TAT. Pero Ia publicacl6n de una
leza y eJ:;tensi6n de estes programas dependen del al- prueba implica instrucciones de aplicaci6n e interpre-
cance de Ia prueba; aquf s61o mencionaremos algunos taciOn, manuales t€cnicos, informes de puntuaclones
de los programas que pueden llevarse a cabo. y otros materiales complementarios. En las pruebas
II Algunos programas de investigaci6n se realizaran
s61o analizando los datos del programs de estandariza-
en verdad sencillas de usa limitado, el conjunto de
los materiales puede ser bastante modesto: un cua-

,,I
ci6n. Estos programas son independlentes en terminos dernillo, una clave de calificacl6n y un manual de
16gicos de Ia elaboraci6n de normas -que es el principal 20 p6ginas con las instrucciones de aplicaci6n y las
!
prop6sito del programs de estandarizsci6n-, perc no caracteristicas t€cnicas de Ia prueba. En el caso de
requieren que se levanten datos nuevas. A menudo, los pruebas complejas que se usan mucho, el conjunto
am'ilisis de puntuaciones de acuerdo con genera, raza, de los materiales puede ser asombrosamente gran-
edad, regl6n geogrc'ifica y otras variables demogriificas de; puede incluir varios tipos de manuales, materiales
se hacen con los datos de estandarizaci6n: tambien se interpretatlvos complementarios, informes t€cnlcos
pueden hacer estudios de Ia validez de Ia prueba. Las especiales, programas de c6mputo complejos para
relaciones de Ia prueba con otras o con valoraciones calificar y hacer informes, y versiones de Ia prueba en
de supervisores, clfnicos o maestros pueden obtenerse lenguas extranjeras y ediciones en Braille.

Elaboraci6n de pruebas, anBiisis de reactivos y neutralidad 159


Una prueba publicada debe tener un manual tt:k- 6ptimas o no es par complete apropiada para los
nico, el cual es Ia fuente clave de informaciOn acerca usos para los que fue pensada.
del prop6sito, fundamentos y estructura de Ia prueba. Stondards ... (AERA, APA, & NCME, 2013)
El manual debe incluir informaciOn sabre Ia confiabi·
lidad, valldez y procedimiento de estandarizaci6n de Neutralidad y sesgos
Ia prueba. Par Ultimo, tambi€n debe incluir directrices
para interpreter Ia puntuaciOn o puntuaciones. Algu- Ahara retomaremos el tema de Ia neutralidad de Ia
nas pruebas pueden cubrir todos estes rubros en un prueba. Como s€fialamos antes, el tema de Ia neutrali-
manual, mieniras que otras pueden tener mas de uno. dad pertenece, en terminos 16gicos, al capitulo 5 sabre
Muchas pruebas actuales tienen informes de pun- validez, y veremos par que es asf en un momenta. Sin
tuaclones, los cuales pueden lncluir Ia presentaci6n embargo, retrasamos Ia revisiOn de este tema hasta el fi-
gn§fica de las puntuaciones y/o Ia traducci6n de las nal de este capitulo par una razOn muy prilctica. Muchos
puntuaciones numehicas a una forma narrative. Las de los esfuerzos para asegurar Ia neutralidad ocurren
pruebas mas usadas de aplicaci6n grupal de apro- durante Ia elaboraci6n de Ia prueba; par ella, tenfamos
vechamiento y capacidad producen informes gene- que conocer el procedlmiento normal que se sigue para
rados par computadora no s61o sabre un individuo, cresr una prueba con elfin de comprender algunos de
sino tambien sabre un grupo, par ejemplo, de un sa- los procedimientos para tratar con Ia neutralidad.
IOn de clases, de una escuela, del sistema escolar en- Ls neutralidad de Ia prueba es, con seguridad, uno
tero o incluso de todo un estado. de los temas mas poh~micos en el campo de las prue-
Par Ultimo, Ia publlcaci6n puede suponer diversos bas psico16gicas y educativas; hay mucha confusiOn
materiales complementarios. Par ejemplo, algunas alrE:dedor de este concepto y, a menudo, tambien
pruebas tienen "localizadores" que ayudan al aplica- mucha pasi6n. De ahf que sea lmportante empezar
dor a determiner cu.:'H es el nivel miis apropiado para nuestro anBiisis del tema poniEmdolo en perspecti-
un examinado cuando Ia prueba es de mUltiples nlve- va y considerando algunos ejemplos. En Ia literature
les. Algunas pruebas ofrecen cuadernillos especiales profesional de las pruebas psicol6gicas, los t€rminos
sabre Ia interpretaciOn de las puntuaciones para los neutralidad de Ia prueba y sesgo de Ia prueba, par
estudiantes y sus padres. lo general, tienen el mismo significado, pero connota-
En rea lid ad, puede ser un poco· engaiioso iden- ciones opuestas. Una prueba neutral es Ia que care-
tificar Ia publicaci6n con el Ultimo paso del proceso ce de sesgos, mientras que una prueba sesgada es
de elaboraci6n de una prueba, pues este nunca ter- Ia que carece de neutralidad. Usaremos ambos t€rmi-
mina. Cuando una prueba se publica, nunca cuenta nos -neutralidad y sesgo- en nuestra discusi6n.
con una demostraci6n exhaustive de su validez; ade-
miis, siempre hay mas preguntas acerca de su apllca- El tema de Ia neutralidad en perspectiva
bilidad en varias poblaciones especiales. Sin importar
que tan perfecto haya sido el programa de estandari- Neutralidad signifies que una prueba (o alguna otra
zaci6n, las norm as estiin ligadas al tfempo, par Ia que tecnlca de evaluaci6n) mide un ~asgo, constructe u ob-
hay una preocupaci6n constante relacionada con lo jetivo con una validez equivalente en distintos grupos.
posibilidad de que estas se vuelvan anticuadas de- Una prueba esta sesgada (no neutral) sino mide el ras-
bido a cambios en Ia poblaci6n meta. Par todas es- go de interes de Ia misma manera en diferentes gru-
tas razones, una prueba estara sujeta a investigaci6n pos. Una simple diferencia en el desemperio promedio
,,. adicional aun despu€s de su publicaci6n. Parte de entre los grupos no constituye un sesgo; este s61o
este desarrollo estarii a cargo del autor o autores y existe si Ia diferencia en los promedios no correspon-
Ia editorial, pero tambi€n otros usuaries interesados de a una diferencia real en el rasgo subyacente que Ia
emprendertm estudlos sabre Ia prueba; algunos es- prueba trata de medir. Los promedios grupales pueden
tudios seriin publicados en revlstas dedlcadas a las diferir -de hecho, deben dlferlr- si los grupos en ver-
pruebas como mencionamos en el capitulo 2. dad son diferentes respecto de Ia capacidad o rasgo
Las pruebas y los documentos que las sustentan ... que se intenta medir. Para ilustrar este punto lmportan-
se revisan de manera peri6dica para determinar si te, examinemos algunos ejemplos. Consideremos el
se requiere· una revisiOn. Las revisiones o enmien- contraste entre alumnos que estudian y otros que no
das son necesarias cuando nuevas datos de inves- lo hacen para el examen final de un curso sabre prue-
tlgacfones, c:ambios signific:ativos en el domlnlo o bas psicol6gicas. Las personas del grupo A estudian el
'' nuevas condiciones del uso e interpreteci6n de le libra de texto 20 horas a Ia semana y asisten a todas
prueba mejorarfan Ia valide:z de las puntuaclones o las clases, mientras que las del grupo 8 estudian el li-
sugieren que Ia pruet>a ya no esta en condiciones bra de texto 20 mlnutos Ia noche anterior al examefl y

160 Pruebas psicol6gicas. Una introducci6n prtictica


asisten a clases de manera irregular. En el examen fi-
nal, el promedio del grupo A es notablemente superior
que el del grupo B, perc esa diferencia no signifies que
el examen tenga un sesgo en contra del grupo B. De
heche, nos sorprenderfa no encontrar esta diferencia
entre los promedios grupales. ~.PC!r que? Porque supo-
nemos que hay una diferencia real entre estes grupos
respecto del rasgo subyacente de conocimiento sabre
el tema. Adem as, si el desempef'io en el examen final
se toma como alga que pronostica el desempeflo en
el GRE Subject Exam in Psychology, sin duda predecir€1
puntuaciones superiores para las personas del grupo
A en comparaci6n con las del grupo B. Esto tampa-
co indica que el examen flnal·este sesgado. LPor que?
p0rque suponemos que las personas que han estudia-
do mas tendr8n un mejor resultado en el examen GRE
que las que estudiaron menos.
... Ia perspectiva sabre Ia medlcl6n del Standards Ahara consideremos el case de una prueba de sis-
excluye de manera explicita una visiOn comUn de temas de transporte en EUA. Se espera que los estu-
Ia neutralidad en el discurso pUblico: Ia neutralldad diantes sepan acerca de los sistemas de transporte
como igualdad.de los resultados de las pruebas para pUblico, asf como de otros sistemas. los nifios rurales
subgrupos definidos par raza, origen ~hnico, gene- pueden tener menos conocimiento sabre el transporte
ra, discapacidad u otras caracteristicas. Sin duda, Ia porque, par lo general, no Ia usan en su medic. Por lo
mayoria de los profesionales de Ia evaluaci6n estan tanto, los niFtos rurales tlenen puntuaciones menores
de acuerdo en que las diferencias grupales en los en los reactivos relacionados con este tema. Lla prue-
resultados de las pruebas deben desencadenar un ba noes neutral con los niFios rurales? No. Perc lo que
examen detallado para detectar posibl~s fuentes de querfamos medir era justa el conocimiento sabre los
sesgo ... Sin embargo, las diferencias grupales en los sistemas de transporte pUblico. La soluci6n a este pro-
resultados no indican par sf mlsmas que una prueba blema es enseFtar a los nifios rurales sabre los siste-
tiene sesgos o no es neutral. mas de transporte pUblico, pues no queremos camblar
Standards ... (AERA, APA, & NCME, 2013) Ia prueba. Par otro lade, supongamos que los reactivos
acerca de los sistemas de transporte pUblico ten fan Ia
He aquf un segundo ejemplo. Queremos saber si intenci6n de medir Ia capacidad de lectura. Silos nifios
una prueba de lectura es neutral (a esta sesgada) en re- rurales tienen puntuaciones menores en Ia prueba, no
laci6n con estudiantes con debllldad visual (DV). Com- a causa de Ia deficiencia en las habilidades de lectu-
paramos el desempef'io de estudiantes con DV con el re sino par et desconocimiento del t~ma, entonces po-
de estudiantes sin DV; los primeros tienen puntuacio- driamos estar dlspuestos a cambiar los reactivos.
nes menores. LEse significa que Ia prueba no es neu- La flgura 6~11 sugiere c6mo pensar sabre estas si-
tral para los estudiantes con DV? AUn no lo sabemos; tuaciones. Comparamos los grupos A y B. En Ia par-
puede ser que estos estudiantes en verdad tengan te alta de Ia figura, los grupos. A y 8 difieren en el
habilidades de lectura inferlores a las del otro grupo. desempefio en Ia prueba: el grupo A es superior. Sin
Supongamos que presentamos Ia prueba en una ver- embargo, los grupos tambi€n difieren en terminos del
siOn con Ia letra mas grande y encontramos que Ia pun- estatus real del rasgo. Por lo tanto, Ia prueba es neu-
tuaci6n promedio de los estudiantes con DV esta par tral, no tiene sesgos; s6to refleja las diferencias rea-
I encima de los estudiantes sin DV; esto sugiere que Ia les entre los grupos. En Ia parte inferior de Ia figura,
I
prueba de lectura, en su versiOn original con letras pe- los grupos C y D dlfieren en su desempefio; sin em-

I
,,
quefias, no era neutral, sino que estaba sesgada en
contra de los estudiantes con DV. Ei resultado tambiE!n
bargo. esto nose debe al estatus real del rasgo, sino
que indica un sesgo en Ia prueba. Evidentemente,
'i
' sugiere que Ia prueba es neutral cuando se presenta para determiner los sesgos,. necesitamos informaciOn
en una versiOn con letra grande. Pongamos este ejem- sabre el estatus real de los grupos en Ia variable. asf
plo en el contexte de Ia figura 5~1; el tamafio de Ia tipo~ como informaciOn sabre el desempefio en Ia prueba.
grafl'a introduce varianza irrelevante para el constructe, Con este Ultimo ejemplo en mente, podemos relacio-
es decir, el tamano de Ia letra influye en las puntuacio~ nar Ia noci6n de neutralidad con el tratamiento for-
nes, perc no queremos que esc ocurra. mal de Ia validez, que presentamos en el capitulo 5.

Elaboraci6n de pruebas, anal isis de reactivos y neutralidad 161


Prueba neutrol, sin sesgo
Estatus re<~l del r<~sgo Desempefio en
o capacidad Ia prueba

Gwpo: A B A B

AI~

Bojo

Pruebo sesgada, na neutral


Estatus real del rasgo Desempel'lo en
o capacidad Ia prueba

Grupo: C D C D

Aha

Baja

Figura 6-11.11ustroci6n del desempeiio grupol en uno pruebo neutral yen uno sesgodo.

En particular, reintroducimos el concepto de varianza Los ejemplos que hemos cftado hasta ahara pro-
irrelevante para el constructe (v€ase figura 5-1). Una vienen del campo de las pru!=bas de capacidad y
prueba espedfica busca medir un constructe; si una aprovechamiento. De heche, este campo ha sido el
caracterfstica de Ia prueba interfiere con Ia medici6n principal escenario para debatir Ia neutralidad de las
exacta del constructe, esa caracterfstica introduce va- pruebas. Sin embargo, las mismas nociones se apli-
rianza irrelevante para el constructe. Regres~mos al can al campo de las pruebas de personalidad. Consi-
., ejemplo de Ia persona con debilidad visual que trata deremos Ia medici6n de Ia introversi6n-extroversi6n,
de leer una prueba con un tamai'io de letra de 10 pun- uno de los cinco grandes rasgos de personalidad.
tas. La varianza asociada con el tamai'io pequeflo de Una prueba que mida este rasgo podrfa elaborarse,
Ia letra-es-lrrelevonte-para-to-que-tratamos de medir y, estandarizarse y validarse en una cultura occidental
par Ia tanto, constituye un sesgo. de raza blanca y clase media. tLa prueba funciona-
Una prueba que es neutral de acuerdo con el sig- ra igual para los examinados de una cultura nativa de
" nificado del Standards refleja el mismo construclo AmE!rica a para una del Medio Oriente? Aplicaremos
'". en todos los examinados, y sus puntuaciones tlenen a estas preguntas a los mismos tipos de an81lsis que
•" el mismo significado para todos los individuos de Ia empleamos con las medidas de capacidad o aprove·
"
'' poblaci6n a Ia que esta dlrlgida; una prueba neutral chamiento. Par ejemplo, un estudio reciente Jnves-
no da ventaja ni pone en desventaja a algunos indi- tig6 si el MMPI-2 funcionaba de manera adecuada
viduos debido a caracterfstlcas irrelevantes para el (sin sesgos) en un grupo de una Antigua Orden Ami-
I' constructo que se quiere medir. sh (Knabb, Vogt, & Newgren, 2011). En otro estudio
.i Standards... (AERA, APA, & NCME, 2013) se examin6 si Ia Revised Children's Manifest Anxiety

162 Pruebas psicol6gicas. Una introducci6n pr8ctica


scale [Escala de Ansiedad Manifiesta en Nifios] fun- desventaja a los hombres. Una prueba que emplee s61o
cionaba de manera adecuada (es decir, sin sesgo) escenarios de granja (equlpo, ani males, temporadas de
con nines de Singapur (Ang, Lowe, & Yusof, 2011). crecimiento) probablemente pondrfa en desventaja a
los habitantes urbanos, mientras que un exceso de es-
Metodos para estudiar Ia neutralidad cenarios de los sistemas de transporte de Ia ciudad (me-
de Ia prueba tro, autobuses) ponga en esa situaciOn a los habitantes
"de zonas rurales. Un reactive que se refiera a comprar
lContamos con metodos para estudlar Ia neutralidad una botella de "pop" tiene perfecto sentido en Ia regi6n
(sesgo) de las pruebas? Sf. Hay tres amplias categorfas del oeste media, pero desconcertarfa en Ia costa Este
para estudiar Ia neutralidad y se usan mucho en Ia ela- (donde pop es carbonate). La revisiOn de panel ayuda
boracl6n y el aniilisis de las pruebas. Algunos operan a reconocer palabras o sltuaciones que puedan tener
primordialmente durante Ia elaboraci6n y otros, en cual- un grado de familiaridad o significado diferentes para
quier momenta en que se presenten preguntas acerca un grupo particular. Con esa informaciOn, el creador de
de su usa con dlferentes grupos de examinados. Si to- Ia prueba trata de eliminar el material potenclalmente
mamas cuaiquier nlimero de una revista, como Psycho- problemiltico o equilibrar Ia suficiente el material en los
logical Assessment, es muy prohable que encontremos distintos grupos, de modo que, en promedio, ninguno
varies estudios que analizan Ia neutralidad de una prue· quede en desventaja. El cuadro 6-12 contiene extractos
ba para este o aquel grupo de examlnados. de manuales de pruebas que se usan con mucha fre-
cuencia; en elias se habla sabre el proceso de revisiOn
RevisiOn de panel de panel. Estas revlsiones ahara son una pr8ctica casi
universal en Ia elaboraci6n de nuevas pruebas.
El primer metoda y el mils sencillo para examinar Ia neu- El metoda de revisi6n de panel tiene dos incon~
tralidad de una prueba es Ia revisiOn de panel, Ia cual venientes. El primero se relaciona con el nUmero de
implies reviser los reactivos par su representatividad de grupos representados: t_cuEmtos incluir?, ,:_quien po-
varies grupos, que par lo comlin se refieren a grupos drfa faltar? En realidad, no hay lfmlte para el nUmero
raciales, etnicos, culturales, socioecon6micos, con dis- de grupos que podrfamos identificar. Para tamar un
capacidad y regionales. Los revisores tratal) de recono- ejemplo quiza tonto: t_que hay de Ia gente zurda de
cer reactivos que puedan contener frases o situaciones Wichita, Kansas?, t_podrfan estar en desventaja (a en
con diferente significado, connotaci6n o grade de fami- ventaja} debido a un reactive particular? Es evidente
Jiaridad para grupos espedficos. Una prueba de lectura que este inconveniente exige al creador de Ia prueba
integrada en su totalidad par pasajes sabre futbol pro- usar su juicio.
bablemente ponga en desventaja a las mujeres, mien- El segundo inconveniente de Ia revisiOn de panel
tras que un exceso de pasajes sabre danza ponga en es que sus miembros se basan par completo en sus

Cuadro 6-12. Afirmadcnes muestra acerca de Ia revisiOn de panel de reactivos para eviler sesgos
"Panel de sesgas: Seis personas examine ron las !areas y los reaclivos del MMSE-2 para detector posibles sesgos o
palo bros ofensivas para grupcs protegidos espedficos. El panel incluy6 un neuropsic6logo cauc6sico, un psic6logo
hispono, un psic6logo asiOtico y Ires prolesionales no clinicos con diversos antecedentes etnicos: un couc6sicc, un
"afroomericono y un notivo americano.u Fuente: Folstein, M. F. el ol. {2010, p. 17). Mini-Menlo/ State Examination,
2nd edition: User's Manual. Lutz, Fl: PAR.
"los formes de prueba de reactivos se enviaron al Bias Review Advisory Panel de educodores de minorias cuya
principal preocupoci6n fue eli minor cuolquier posible fuente de sesga ... El panel reflejabo diversos antecedentes
y represent6 a varies etnios, incluyendo ofroomericanos, hispanos, asi6tico-americanos, omericanos notivos y del
Media Este." Fuente: Otis, A S. & lennon, R. T. (2003, p. 13). Otis-Lennon School Ability Test, Eight Edition: Techni-
cal manual. Son Antonio, TX: Harcourt Educational Measurement.
"Experlos en investigaci6n transcultural y/o pruebos de inteligencio llevaron a cabo revisiones formales en Ires oca-
~iones. Durante lm foses inicioles del proyeclo, !ados ... los·reoctivos fueran~revisodos-por·personos externas e in-
ternes para detector posibles sesgos, obsolescencio cultural... Durante Ia fase de prueba, y otra vez durante Ia de
estondorizoci6n, expertos en el contenido y en sesgos revisaron los reoctivos e identificoron los que eron paten~
ciolmenle problem6ticos." Fuente: Wechsler, D. (2008a, p. 23). Wechsler Adult Intelligence Scale- Fourth Edition:
Technical and interpretive manual. Son Antonio, TX: Pearson.

ElaboraciOn de pruebas. ana !isis de reactivos y neutralidad 163


f
"
propias opiniones. Par un !ado, un miembro puede y 80% del grupo 8 respondieron de manera correcta,
identiticar un reactivo o situaci6n como problemSticos Ia cual no signifies que el reactive tenga un sesgo en
cuando, de heche, puede no presentar ninguna ven- contra del grupo A. Supongamos que, en algUn crite-
taja o desventaja para ningUn grupo. Par el otro, tam- ria externo del desempefio en el rasgo, determinamos
bi€n puede pasar par alto un reactive o situaci6n qUe que el grupo 8, en efecto, tiene mils del rasgo que el
sf Jo son. De heche, Ia investigaci6n ha mostrado que grupo A. Par ejemplo, podemos saber que el grupo A
los juicios -de los miembras del panel acerca de que tiene un Grade Point Average (GPA) de 2.75, mientras
reactivos podrfan causar sesgos (desventajas) no sOn que el grupo 8 tiene un GPA de 3.68; entonces, espe-
muy exactos (Engelhard, Davis, & Hansche, 1999; En- rarfamos que el grupo 8 tuviera un mejor desempeP'lo
gelhard, Hansche, & Rutledge, 1990; Plake, 1980; San- que el grupo A en el reactive 23. Para nosotros, Ia dife-
doval & Miille, 1980). No obstante, Ia pn3ctica continUa. renda entre 60% y 80% serfs reflejo de una diferencia
real en el rasgo; par el contrario, estarlamos descon-
Funcionamiento diferencla/ de los reactivos certados si los dos grupos tienen el mismo desempe-
(FDR) fio en el reactive 23. Supongamos. par otro lado, que
de acuerdo con el criteria externo, los grupos A y 8 son
La etapa de analisis de reactivos ofrece et contex- iguales en el rasgo que tratamos de medir: ambos tie-
to para estudiar el funcfo~amiento dlferencial de los nen un GPA promedio de 3.20; entonces, no espera-
reactivos, al que, por to general, nos referimos em- rlamos que los grupos dif1eran en el reactive 23 y, par
pleando su acr6nimo FOR. El sesgo en los reactivos Ia tanto, no estarfamos indinados a incluir este reactivo
es un viejo termino para este tema, perc en Ia litera- en Ia prueba finaL
tura actual se prefiere el term ina, mas neutral y quiza Se han propuesto numerosos m€-todos para estu-
mas descriptive, funcionamiento diferencial de /as re- diar ef FDR. En este campo a lin nose ha consolidado
activos. El FORse refiere a Ia cuesti6n de si Ia prueba uno solo de estos enfoques. Una revisiOn de todos
individual funciona de manera diferente para distintos los metod as, o lncluso de Ia mayorfa de ellos, nos lie-
grupos de examinados par razones distintas a las dl- varia mas all;§ de un texto introductorio como este,
ferencias reales en el rasgo que se mide. De interes Sin embargo, mendonaremos-brevemente dos de los
particular son las diferencias par raza, origen etnico y metod as del FOR mils populares.
genera; sin embargo, Ja cuesti6n basica puede referir-
se a cualquler comparaci6n grupal, por ejemplo, entre
personas de diferentes edades, estatura y lateralidad.
Mientras que los procedimientos de revisiOn de panel
eran Unicamente cuesti6n de juicio, los del FDR bus-
can detectar sesgos mediante ani31isis estadfsticos .
... se dice que el tuncionomiento diferenciof de Jos
reoctivos ocurre cuando examinados igualmente ca-
paces difieren en sus probabilidades de responder
de manera correcta un reactlvo en funci6n de Ia per-
tenencia a un grupo. El FOR se puede evaluar de
varias maneras. Detectar el FDR no siempre indica
sesgo en unreactive, sino que es necesaria una ex- En el ejemplo anterior con los grupos A y B, esta-
pl!caci6n adecuada y sustanclal del FOR para con- blecimos Ia equivalencia de los grupos en el rasgo en
clu'rr que el reactiVo liene un sesgo. terminos de un criteria externo. En las aplicadones
Standards ... (AERA, APA, & NCME, 2013) mas usuales del FDR, Ia equivalencia de los grupos
se·basa-elTia puntuaci6n total de Ia prueba a en the-
El punta mas importante para comprender Ia discu- ta estimada (vease definiciOn de theta en las pp. 49-
si6n sabre el funcionamiento diferencial de los reacti- 50). Por lo comlin, e/ grupo mas grande o mayoritario
vos es que una simple dJferencia en las dificultades del se denomina grupo de referencia, mientras que el
.
ll,
.. reactivo no necesariamente indica fa presencia de un
.
"· sesgo. Consideremos este caso. Examinamos el des- se aplican igualmente a las medidas de personalidad, intere-
empefio en un reactive. el 23, de una prueba de apti- ses y actitudes. De ahi que aquf decimos "responde de mane-
tudes acad€micas; en el reactive 23, 60% del grupo A 11 ra correcta~ pero tamblen podriamos decir s61o "responde de
man era afinnativa" o "responde Si': Podemos notarque Ja afic-
11
Una vez mfis, Ia tenninologia b<isica viene del campo de las maci6n del Standards se refiere a una "capacidad igual~ pero,
pruebas de capaddad y aprovechamiento, pero los conceptos por extensi6n, significa uigual en el rasgo':

164 Pruebas ps·lcol6gicas. Una introducci6n pri3ctica


Cuadra 6-13. Parle de las datos del onOiisis Montei-Haenszel del FDR
Grupo de puntuaciones totales 1-10 11-20 21-30 31-40 41-50
Desempefio en el reactive 23a + + + + +
Grupe de referenda 14 16 30 30 56 28 64 22 10 2
Grupe focal 10 12 20 20 15 B 10 4 5
"+ = Correcto, - = lncorrecto.

mas pequei'\o o minorltario se denomina grupo focal, pendiente y adivinaci6n- tambi€n pueden examinar-
es decir, el grupo en el que centra mas nuestra aten- se para determinar el FDR. La figura 6-12 ilustra esta
ci6n. Entonces se exam ina el desempefio en los reac- aplicaci6n. Las CCR que se superponen, o casi lo ha-
Uvos individuales. El procedimiento Mantei-Haenszel cen, Indican falta de FOR, como en el reactive 19. El
empieza dividiendo ,ros grupos de referenda y focal reactive 27 muestra una CCR notablemente distinta,
en subgrupos con base en Ia puntuaci6n total de Ia es decir, un FOR sustanclal. El reactive 36 ilustra un
prueba. Pensemos en una prucba de 50 reactivos; reactive con un FOR notable en los niveles inferiores
dividamos Ia puntuaci6n total en intetvalos como se del rasgo (9), pero sin diferencias en los niveles su-
muestra en el cuadro 6-13. Entonces se determina el periores. Podemos notar que estes am11Jsis no dicen
nUmero de casas de los grupos de referencia y focal nada acerca del desempefio general de los dos gru-
que tuvieron correcto o incorrecto cad a uno de los re- pos; puede ser que las puntuaciones promedio de los
aclivos. EJ estadfstico Mantei-Haenszel deriva de este dos grupos sean dlferentes par 20 puntas.
tipo de datos; dentro de un intetvalo de puntuacio- Los anill1sis del FOR en el caso de diferenclas ra-
nes, par ejemplo 31-40, los dos grupos se conside- ciales, etn!cas y de g€nero, por lo general, se !levan
ran iguales en el rasgo. La pregunta es si dlfleren en a cabo en Ia etapa de an.Siisls de reactivos durante Ia
el desempefio en un reactive individual. Los grupos elaboracl6n de Ia prueba. Sin embargo, muchos estu-
completes. combinadas a lo largo de todos los inter- dios del FORse reafizan despues de que Ia prueba se
vales, bien pueden tener una diferencia media en el publicO. Algunos de estos estudios aplican metodos
rasgo y aun asf permitir un ana !isis de las diferencias del FOR nuevas o revisados, mientras que otros apli-
~ en reactivos Unicos. Par ejemplo, en el cuadro 6-13, el can las metodologfas existentes a subgrupos nuevas.
::J desempefio promedio es mayor en el grupo de refe- El nUmero de subgrupos que se pueden analizar es
§ rencia que en el grupo focal. Sin embargo, dentro de practicamente infinito.
!"! cualquler range de puntuaciones, Ia raz6n entre res-
~- puestas correctas e incorrectas es casi Ia misma en Predicci6n diferencial
~-- los dos gruposP El caso mas obvlo esta en el rango
~ de puntuaciones 11-20, donde Ia raz6n entre respues- En el caso de las pruebas disefiadas para hacer pre-
~- tas correctas e incorrectas es exactamente Ia misma dicciones. los metodos de validez de criteria, como
en los dos grupos. Cincuenta par ciento de las pun- se describieron en el capitulo 5. ofrecen un mecanis-
tuaciones del grupo focal esta en este range inferior, me importante para estudiar el sesgo de las pruebas.
mientras que s61o 22% del grupo de referenda esta ,!_Las pruebas funcionan de Ia misma manera con di-
en este ran go. Sin embargo, el valor p del reactive es ferentes grupos, aun si los grupos varfan en su des-

j
'l:-
:
exactamente .50 en los dos grupos yen ese range.
Esta Ultima descripci6n suglere un analisis mucho
mas pare.cido_a_la__cunm..ccu:ac:tedstlca_del-r-eactivo
empefio promedlo relacionado con diferencias reales
en el rasgo subyacente? Una prueba sin sesgos debe
produGir-prediGGiones-igualmeAte-buenils-Ele--varios
I (CCR) descrita antes en este capitulo. De heche, en Ia grupos, lo cual no significa que el desempeflo predi-
~,; metodologfa de Ia TRR es una de las principales apro· cho en el criteria sea el misme, sino que Ia predicci6n
~
r
~--
ximaciones al FOR. En particular se desarrollan CCR
de cada reactive para los grupos que se est8n com-
parando. Los parametres de estas curvas -dificultad,
sera igual de acertada para los dos (o mc'is) grupos.
En Ia siguiente d1scusi6n, siempre nos referiremos al
contraste entre dos grupos, aunque Ia metodologla

••
con facilidad se extiende a comparaciones de cual-
12
Tecnicamente, el procedimiento Mantel-Haenszel realiza un quier cantldad de grupos .
anaJ.isis de chi-cuadrada con los datos. Los lntervalos de pnn- Eltermino sf?sgo prl?dictivo puede usarse cuando se
tuaciones, par lo comUn, serfan m;is restringidos que los del encuentra evidencia de que existen diferencias en
cuadro 6·13 y pueden estar en intervalos de unidades a Jo largo los patrones de asociaciones entre las puntuaciones
de toda Ia distribuci6n. de Ia prueba y otras variables en distin!os grupos, lo

Elaboraci6n de pruebas. analisis de reacuvos y neutra!idad 165


'I
fi
tL:.-:
100

90 Reaclivo 27 Reo<::livo 36

•< 80
0
v
0 70
•,• 60 ''
~ '
''
•"
50 ' ' '
-" '
''
~ '' ' '
''
40
~
' ''
''
0
:;g 30 __ , /
J5
0
~ 20
0
d:
10
R "' Grupe de referenda F = Grupo local
0

-3 -2 -1 0 2 3
Theta

Figura 6-12. An6lisis del FDR via CCR de los des grupos en Ires reoctivos.

que ocasiona preocupaci6n par el sesgo en las lnfe- pendientes de las lfneas son igusles en los dos gru-
rencias basadas en las puntuaclones de Ia prueba. La pos. Como su nombre Ia sugiere, el sesgo de Ia pen-
predlccl6n diferencial se examine usando el analisis dlente signifies que las pendientes de las lfneas de
de regresiOn. Un metoda examine Ia pendiente y las regresi6n difieren en los grupos. La figura 6-14 mues-
diferencias de Ia lntersecci6n entr~ dos grupos meta. trs un ejemplo de este sesgo.
Standards •.• (AERA, APA, & NCME, 2013) Consideremos estes des eonceptos con mayor
detalle; usamos un ejemplo de predeeir el GPA a par-
En el contexte de Ia validez de criteria, en especial tir de una prueba de admisi6n. En Ia figurs 6-13, po-
Ia validez predictive, identificamos dos tipos de ses- demos notar c6mo difieren las intersecciones; Ia del
go potencial: el sesgo de Ia intersecci6n y el sesgo grupo A esUi alrededor del 2.8, mientras que Ia del
de Ia pendlente. Podemos notar que estes terminos grupo B, alrededor del1.9. Par lo tanto, sl una persona
se relacionan con los dos parametres de Ia ecuaci6n del grupo A obtiene una puntuaci6n de 30 en Ia prue-
de regresi6n (fOrmula 5-1). El sesgo de Ia intersec:ci6n ba de admisi6n, predeeirfamos una puntuaci6n del
signifies que las intersecciones de las lfness de regre- criteria (GPA) de cerca de 3.5; .en cambia, si una per-
sl6n difieren en los dos grupos. La figura 6-13 mues- sona del grupo B obtiene Ia misma puntuaci6n en Ia
tra un ejemplo de este sesgo; podemos notar que las prueba, 30, predeciriamos una puntuaci6n del criteria

4,0
3,7

< 3.4

.
~

0 3.1
.g 28
'

~
"' u 2.5
"'
."
~~
"
2,2
L9
""
" Puntvad6n de Ia pruebo
Ji,
II
" Figura 6-13. lluslroc.i6n del sesgo de lo intersecd6n.

166 Pruebas psicol6gicas. Una introducci6n pn§ctica


4.0
3.7
3.4
.g 3.1

t5 ~-8
2.5
2.2
1.9

10 20 30 40 50 60 70
Punii.JociOn de Ia pruebo

Figura 6-14. lluslraci6n del sesgo de Ia pend~ente .

.. Ji~C">>c"c\;,Cf•y;.;,'[)~:Jbc'-'t(~' -.'-t/·~'~'Ntr%/'7-'/W"'\'.'!\ '-··· '\•""'·' '' •''


de cerca de 2.8. Esta es Ia situ.:; ciOn mils indeseable.
Resumen de pun"tos clave 6-4 ·
Por lo comUn, Ia lfnea de regresi6n estarfa determi-
nada en los grupos combinadas. Sin embargo, esta
Tres metodos para estudlar
valldez dlferenclal esta escondida detras de los resul-
Ia neutralidad de las pruebas
tados grupales globales. Podemos notar que Ia corre-
RevisiOn de panel
lacl6n entre Ia prueba y el criteria, en este caso, serfa
Funcionamiento diferencial de los reactivos
Ja misma en los grupos A y B. Este es un ejemplo del
Predicci6n diferencial
sesgo de Ia interseccl6n.
Ahara consideremos Ia figura 6-14, donde se pre-
sents el caso del sesgo de Ia pendlente. Aquf Ia magni- ejemplo, 40, predice el mismo desempefio en el criteria
tud de Ia correlaci6n es diferente en los dos grupos. La sin importar Ia pertenencia grupal. ~ste es el caso de los
dlferencia en las pendientes signifies que habra sobre- alumnos que estudiaron y los que no estudiaron para ·su
predicci6n en algunos casas del grupo A yen algunos examen de pruebas psicol6gicas. El grupo A estudi6 y el
del grupo B. De manera semejante, habra subpredic- grupo B no estudi6, par lo que el grupo A tiene puntua-
ci6n en algunos casas de cada grupo. Tambi€n esta ciones superiores a las del grupo B. La prueba tiene Ia
situaci6n es muy indeseable. Este es un ejemplo del misma valldez en Ia predlcci6n del GPA.
sesgo de Ia pendlente; desde fuego, es posible tener
sesgo tanto de Ia pendlente como de Ia intersecci6n. lnvarianza de Ia medic/On
La figura 6-15 muestra el caso en que hay una diferen-
cia en el desempefio promedio de los dos grupos, pero Hemos bosquejado tres m€todos para estudiar Ia
no hay diferencias ni en Ia intersecci6n nl en Ia pendien- neutralidad de las pruebas: revisiOn de panel, fun-
te. Podemos notar que una puntuaci6n determinada, par cionamiento dlterenclal de los reactivos y predlcci6n

4.0~
3.7

.
.g
3 2.8
3.4
3 .1

2.5 '-....Grupo B
2.2
1.9 t
10 20 30 40 50 60 70
Puntuoci6n de Ia pruebo

Figura 6·15. llustrodOn de lo ousencio de sesgo en Ia volidez de criteria: pendienles e inlersecciones iguales,
pero diferencia en las medias.

Elaboracl6n de pruebas. an811sis de reactlvos y neutralidad 167


diferencial. Estos son los tres metodos que se consig- Ia adaptaci6n. En terminos tecnicos, una adaptacl6n en
nan en el Standards; todos buscan asegurar que una Ia aplicaciOn debe volver igualmente aplicables Ia vali-
prueba mida un construdo espedfico {p. ej., compren- dez y las normas a los examinados con y sin discapa-
si6n de lectura, pensamlento creative o depresl6n) de cidad. Asf, Ia versiOn de Jetra grande de Ia prueba de
manera equivalente en diferentes grupos. Estos tres comprensi6n de ledura ayuda a "igualar las condicio-
metodos son los que se e11cuentran comUnmente en nes" entre personas cony sin debilidad visual. Una per-
Ia literature profesional que se ocupa de Ia neutralidar:l. sona con visiOn normal no tendra un mejor desempefio
Sin embargo, otro grupo de ttknicas, par lo general, en Ia versiOn de letra grande que en Ia de letra normal.
clasificadas como am31isis de Ia invarianza de Ia medi- Asf, Ia versiOn de letra grande parece una adaptaciOn
ci6n, tiene exigencies mas estrictas para Ia noci6n de par complete razonable. Ahara consideremos el usa de
medir un constructe de manera equivalente en diferen- un Ieder, es decir, una persona que lea Ia prueba a Ia -
tes grupos {p. ej., exige la demostraci6n de Ia igualdad persona con debilidad visual; esta adaptaci6n bien pue-
analftico-factorial, entre otras casas). En Ia actualidad, de cambiar Ia naturaleza de Ia que se mide, pues ahara
las tlknicas de invarianza de Ia medici6n no se usan Ia prueba puede medir comprensi6n auditlva mas que
mucho y van mas alia de lo apropiado para este li- comprensiOn de lectura. Ademiis, cualquier persona -
bra; sin embargo, merece11 mencionarse porque pue- con o sin debilidad visual- probabiemente tendrti un
den volverse mas populares en el futuro. En Cheung y mejor desempefio con un lector.
Rensvold (2002), Haynes, Smithy Hunsley (2011) yVan- Tambh~n consideremos Ia cuesti6n de ampliar los
denberg y Lance (2000) se pueden encontrar discu- Ifmites de. tiempo en una prueba, adaptaci6n que a
siones sabre los analisis de invarianza de Ia medici6n. menudo se propane en clertos casas de problemas
de aprendizaje. Sl Ia prueba es de poder puro (vease
Adaptaciones y modificaciones ptigina 7 del capitulo 1), dar tiempo adicional a algulen
que Ia plde deberfa ser aceptabie; sin embargo, muy
Una caracterfstica clave de una prueba pslcol6gica o pocas pruebas son de poder puro. Los estudiantes
educativa es Ia estandarizaci6n como procedimiento, con problemas de aprendizaje pueden tener un me-
Ia cual lmplica usar los mlsmos reactlvos, las mismas jar desempef\o si tuvleran mas tiempo. pero lo mismo
condiciones de aplicaciOn. el mism? metoda de ca- ocurrirfa con otros examinados (o tal vez no).
lificaci6n ... Ia mismo de todo. e.Pero que pasa si esta Numerosos estudios han examlnado los efectos
"lgualdad" signifies que Ia prueba termina mldlendo de varias adaptaciones sabre ei desempefio. Clara-
constructos diferentes en distintos grupos? La versiOn mente, aUn tenemos mucho par aprender acerca de
con letra grande de una prueba de comprensiOn de este tema. Varlas fuentes han ofrecido Utiles resU·
lectura usada con d€biles visuales ofrece un ejemplo menes de practicas, regulaciones e investigaci6n sa-
Util. Esta versiOn con letra grande no es exactamente bre adaptaclones de varies tipos de evaluaciones
Ia mlsma prueba (estandarlzada) que Ia de letra nor- grupos, par ejemplo, estudiantes con problemas de
mal; sin embargo, brindar una versiOn con letra gran- aprendizaje, estudiantes de Ingles (Abedi, Hofstetter,
de ayuda a asegurar que Ia prueba mid a el constructe & Lord, 2004; Camara, 2001; ~ester, 1994; Pitoniak &
meta (comprensi6n de lectura). Para los d€biles visua- Royer, 2001; Sired, Li, & Scarpati, 2006; Thompson,
les, Ia versiOn con letra normal es una prueba de agu- Blount, & Thurlow, 2002; Thurlow, Elliott, & Ysseld-
deza visual, no de comprensi6n de lectura. yke, 1998; Thurlow & Ysseidyke. 2002; Willingham et
Nos referimos a los cambios en los procedimientos af., 1988). Entre los puntas importantes que se abor- ,
estandarizados de una prueba como adaptaciones. El dan en estas fuentes se encuentra los siguientes. Pri-
termino tiene su origen en los ajustes ambientales de mero, las prScticas y reguiadones estan en un flujo
personas con discapacidades ffsicas. Las rampas y los continuo, Ia que vuelve dificil hacer generallzaciones.
elevadores son adaptaciones evidentes para personas Segundo, los efectos anticipados de una adaptaci6n
con silla de ruedas. Las adaptaciones en las condicio- a veces se presentan, pero no siempre; par ejemplo, _
nes de aplicaciOn pueden implicar ediciones con letra un tiempo ampliado (o cualquier otro camblo) puede
grade de pruebas para personas con dificultades vlsua- no mejorar las puntuaciones del grupo meta; o el cam- _,
les. (V€ase en el capftulo 16 Ia descrlpciOn de algunas bio puede mejorar las puntuaciones de todos los -
leyes federales de EUA relacionadas con las adaptacio- tudiantes, no s61o las del grupo meta. En 'esta Ultima_
nes.) Una adaptaci6n partlcularmente controvertida es situaci6n, el cambia no "iguala las condiciones", sino
ampliar los lfmites de tiempo de las pruebas. La pregun- que, en realidad, ofrece una ventaja no neutral. AI--~
ta crucial es si una adaptaciOn "Jguala las condlclonesh gunas adaptaciones funclonan como se piensa, perG
para una persona con una discapacidad o le da una no todas Ia hacen. Tercero, estE Ia cuestiOn de sl Jas-
ventaja no neutral sabre las personas que no reclben puntuaclones derlvadas de una prueba aplicada con

168 Pruebas ps1col6gicas. Una introducci6n practice


adaptaciones deben "sefialarse", es decir, marcarse activa a finales de Ia d€-cada de 1960. En ese tiempo,
para indlcar que Ia apllcaci6n no fue estBndar. Este es las pruebas de capacidad mental estuvieron sujetas
un tema de polftica en el que los profeslonales de Ia a un examen, sabre todo par los sesgos raciales y
evaluaci6n no tlenen una posiciOn consensuada. etnicos, aunque el sesgo de genera tambiE!n fue un
La prcictica actual hace una dlstinci6n entre adap- tema. Una serie de estudios llegaron a Ia conclusiOn
{aci6n y modificaci6n de una evaluaci6n. En Ia adap- de que las pruebas no evidenciaban una valldez dife-
taci6n, una persona responde, en esencia, Ia misma rencial; los estudios tambi8n sugirieron que Ia estruc-
prueba que otras personas, pero con algunos cam~ tura de las pruebas, como se determina, par ejemplo,
bios en las condiciones de aplicaci6n, par ejemplo, mediante el analisis factorial, era sumamente simi-
una edicl6n con letra grande o con lfmites de tiem- lar en varies grupos. Ouizc'i Ia referencia citada con
po ampliados. Una mpdlficaci6n 11)1plica un intento de mayor frecuencia es Jensen (1980), quien concluy6,
medir cierta habilidad o rasgo, pero con una metodo- despues de una investigaci6n exhaustive sabre el
logfa, en esencia, dlferente. Por ejemplo. un maestro tema, que "las pruebas estandarizadas mas actuales
puede entrevistar a un estudlante con discapacida- de capacidad mental produdan medidas sin sesgos
des mUltiples para determiner elementos de Ia ca- en todos los segmentos angloparlantes natives de Ia
pacidad de solucl6n de prob;emas matemc'iticos del sociedad estadounidense actual, sin importar sexo,
alumna, porque nlngUn tipo de adaptaciones de Ia origen racial ni clase social. Las diferencias medias
prueba regular escrita serfa adecuado. observadas en las puntuaciones de Ia prueba entre
Aunque los t8rminos pueden tener slgnrflcados dife- varies grupos, par ro general, no son un artefacto de
rentes bajo las !eyes aplicables, como se usan en el las pruebas mismas. sino que son atribuibles a fac-
Standards, adoptocl6n denota cambios por los cua- tores independientes, en terminos causales, de las
les Ia comparabilidad de las puntuaciones se man- pruebas" {p. 740). Casi al mismo tiempo, Hunter, Sch-
tiene. y modlficaci6n denota cambios que pueden midt y Hunter (1979) hlcieron un resumen de 39 estu-
afectar el constructe que mlde una prueba. dios sabre Ia posible validez diferencial por raza en el
Standards ... (AERA, APA, & NCME, 2013) empleo de las pruebas. Concluyeron que "Ia verda-
dera validez diferencial probablemente no exlste" (p.
Como regia general, en Ia prc'ictica profeslonal los 721). Reynolds (1994) It egO a estas conclusiones: "SOlo
resultados de una prueba con adaptaciones se con- desde mediados de Ia decada de 1970 se han publi-
sideran comparables con los resultados de Ia apiJca- cado investigaciones considerables en relaci6n con
ciOn regular. De ahf que las normas puedan aplicarse a el sesgo racial en las pruebas. En su mayor parte, esta
Ia versiOn adaptada, cuyos resultados pueden incluirse investigaci6n no ha apoyado Ia hipOtesis del sesgo
en los resUmenes de los grupos. En contraste, los re- de Ia prueba, Ia que revela que a} las pruebas psico-
sultados de una modificaci6n nose consideran compa- 16gicas y educativas bien construidas y estandariza·
rables con Ia aplicaci6n regular. Las normas regulares das predicen el desempefio futuro de una manera, en
no deb en aplicarse a Ia modif1caci6n, cuyos resultados esencia, equivalente en distintas razas de minorias E>t-
no deben incluirse en los resOmenes de los grupos. nicas nativas de EUA, b) Ia estructura psicometrica in-
La literature profesional hace una clara distinciOn terns de las pruebas, en esencia, no esta sesgada en
entre adaptaciones y modificaciones. En realidad, las favor de ninguna raza y c) el contenido de los reacti-
dos categorfas probablemente representan un conti- vos en estas pruebas es casi igualmente apropiado
nuo subyacente de Ia desviaciOn respecto de Ia apli- para todos estos grupos" (p. 177). En una revisiOn mas
caci6n estandarlzada: desde Ia mas trivial hasta Ia mas reclente, Reynolds y Ramsay (2003) concluyeron:
extrema desviaci6n que hace irreconocible Ia prueba "Existe el sesgo de las pruebas, pero es pequeno ....
orJg Ina 1-(esta r:~d ar~zada}.--DeGi Q i r-GGme-tr-ataF-Ias-ada J;~--­ -A-me n~:~clo-sobfeesti ma-o-sob re pred i ce-ef-desem pe-
taciones y/o modlflcaciones requiere un juicio cuida- fio de las minorfas, de modo que sus repercusiones
doso y profesional. En "Guidelines for Assessment of sociales pueden ser muy diferentes de las que se le
and Intervention with Persons with Disabllities", de Ia suelen atribuir" (p. 87). Sin embargo, Ia cuesti6n de fa
American Psychological Association (2012), se pue- validez diferencial necesita, de manera continua, tra-
de encontrar una dlscusi6n de estos temas desde Ia tarse conforme.se.elaboran nuevas pruebas o surgen
perspectlva de Ia E!tica. preguntas acerca de Ia aplicabilidad de las pruebas
existentes en dlferentes subgrupos. La mayor parte
Algunas conclusiones tentativas de Ia investigaci6n temprana sabre Ia neutralidad de
las pruebas se concentr6 en las de capacidad y apro-
'j· La investigaci6n de Ia neutralldad de las pruebas, en vechamiento, pero vemos un creciente nUmero de
particular de las de capacidad mental, se volviO muy estudfos sabre las pruebas de personalidad.

Elaboraci6n de pruebas,.anBiisis de react1vos y neutralidad 169


Resumen

1. El primer paso en Ia elaborad6n de una prueba es redactar un prop6sito clara. En el enunciado se identi-
fies Ia variable a constructe que se qui ere medir y, par Ia general. se incluye una referenda al grupo meta.
2. Despues debe considerarse el disefio general de Ia prueba. Las consideraciones prelimlnares del disefio
• incluyen asuntos como Ia- extenslOn de Ia prueba, el formate de reactlvos, el nUmero de puntuaciones, los
procedimientos de califlcaci6n y Ia investigaci6n de los antecedentes de Ia variable.
3. Entre las pruebas actuales, muchas surgieron para satisfacer algunas necesidades prtlcticas, otras, para
prop6sitos te6ricos. Gran parte del trabajo de elaboraci6n de pruebas implica Ia adaptaci6n o revisi6n de
las pruebas actuales.
4. Los reactivos de respuesta cerrada, con diversos fermatas, se usan mucho en las pruebas. El formate de
opci6n mUltiple es el mas usado de este tlpo de reactivos.
5. Los reactivos de respuesta abierta tambien se usan mucho en forma de ensayos, respuestas orales o eva-
luaciones de desempefio. Estes reactivos presentan desaflos especiales al calificarlos.
6. Hay varias sugerencias para redactar buenos reactivos, tanto de respuesta cerrada como de respuesta abierta.
7. El anSI isis de reactivos ::a refiere al con junto de procedimientos para Ia prueba empfrica y el tratamiento es-
tadfstico de los reactivos individuales. Hay tres fases: programa de prueba de reactivos, an911sis estadfstico
y selecci6n de reactivos.
8. Los estadrstlcos tradicionales de los reactivos incluyen el In dice de dificultad del reactive (p) y el fndice de
discriminaci6n del reactive (D or).
9. En Ia metod alogia de Ia TRR, Ia curva caracterfst!ca del reactive y sus para metros. en especial los de difi*
cultad y pendiente, son factores importantes al seleccionar reactivos.
10. El anr:ilisis factorial a veces se usa como ttknica de an.llisis de reactivos.
11. Los datos del anc'ilisis de reactivos se usan, junto con otros criterios como las especificaciones del conte-
nido, con elfin de elegir los reactivos para Ia prueba final.
12. Hay una relaci6n entre el valor p del reactive y su fndice de discriminacl6n maxima posible.
13. Las normas se desarrollan para Ia prueba final en el program a de estandarizaci6n. Diversos programas de
investigaci6n pueden tener Iugar al mismo tiempo que el de estandarizacl6n.
14. La publlcaci6n final implica Ia prueba real, asf como manuales, servicios de calificaci6n y otros materiales
complementarios.
15. La investigaci6n sabre Ia prueba suele continuar despues de su publicaci6n. Parte de esta investigaci6n
sera realizada por el autor y Ia editorial de Ia prueba, perc otros investigadores independientes tambi€n ha-
rim investigaciones sabre ella.
16. La neutralldad y el sesgo de las pruebas, t€rminos alternos opuestos en su connotaci6n, tratan con Ia
cuestl6n de si una prueba mide el mismo constructe subyacente en diferentes grupos.
17. Los metod as para estudlar Ia neutralidad de las pruebas incluyen Ia revisiOn de panel.del contenido, el fun-
cionamiento diferenclal de los reactivos (FOR) y Ia predicci6n diferencial.
18. A veces, un examinado requiere adaptaciones en Ia prueba para ayudar a asegurar que €sta mida el mis-
mo constructe en ese lndlviduo que en los de mas.

adaptaci6n formato.Ukert programa.de-estandarlzaci6n


an.llisis de reactivos formulaci6n del prop6sito prueba fiicil
calificaci6n analftica funcionamlento diferencial de los reactlvos de respuesta abierta
calificaci6n automatizada reactivos (FOR) reactivos de respuesta cerrada
calificaci6n holfstica funci6n informativa del reactive revisiOn de panel
curva caracterfstica del reactive (CCR) grupo superior e inferior sesgo de Ia intersecci6n
cuestiones relacionadas con el tlisef\o modele de Rasch sesgo de Ia pendlente
diferenclal semiintlco modificaci6n sesgo de Ia prueba
dificultad del reactive neutralidad de Ia prueba sistema de puntas
discriminaci6n del reactive pan3metro de adivinaci6n tronco del reactive
escala de valoraci6n grSfica pendiente valor p
evaluaci6n del desempetio procedimiento Mantel*Haenszel

170 Pruebas psicol6gicas. Una introducci6n prilctica


consulta los enunclados de los prop6sltos de las pruebas del cuadro 6-1.LC6mo podrfas mejorar cualqulera
de esos enunciados?
. Planeas elaborar Ia mejor prueba del mundo, y Ia definitiva, de autoconcepto para estudiantes universita-
. rios. Responde las siguJentes.preguntas acerca del diseiio de tu prueba:
.=,cuantos reaCtivos tendri§? ___
lcuantas puntuaciones prodUciril? - - -
,sera de aplicaci6n individual o grupal? _ __
l.Cu8nto tiempo tamara su aplicaci6n? - - -
laue tipo de reactlvos tendril {opcl6n mUltiple, de respuesta abierta)? _ __
3 . D<.S~>ue•s de observar las directrices para redactar buenos reactivos, con el material de este capitulo:
Escribe cinco reactivos de opci6n mUltiple.
Escribe cinco reactivos de verdadero-falso.
Escribe ·cinco preguntas que se respond an con un ensayo.
Pide a un compaflero que critique tus reactivos.
4. Sup6n que quieres medir actitudes hacia Ia pena capital, es decir, ef grade en que una persona esta a fa-
vor o en contra de ella.
Escribe cinco reactivos de tipo Likert sabre este tema .
• Crea cinco reqctivos usando una escala de valoraci6n gratica .
• Pi de a un compaiiero que critique tus reactivos.
5. Observa de nuevo los datos del cuadro 6-9.
l.CuSI es el valor p del reactive 10?
4aue porcentaje de estudiantes del grupo inferior respondi6 el reactive 23 de man era correcta?
tCuSI es el reactive mas fc1cil del cuadro?
l.Cuc'il es Ia dlferencla entre los grupos superior e inferior en el porcentaje de respuestas correctas en el
reactive 29?
6. Vuelve aver el cuadro 6-13. Del reactive 23, determlna el valor p del grupo complete de referenda y fue-
go ei del grupo focal.
7. Revisa los datos del anaiisis de reactivos que aparecen abajo. Des el fndice de discriminaci6n y p es ei In-
dice de dlflcultad.
l.Cuales son los des reactivos que eliminarfas sJ quisieras hacer una prueba final mas f8cil?
.!,CUiiles son los dos reactivos que eliminarfas si qulsleras hacer una prueba final miis diffcil?
l.Cuilles son los dos reactivos que eliminarias para aumentar Ia consistencla lnterna de Ia prueba?

Reactivo p D
1 .60 .20
2 .75 .25
3 .55 .05
4 .90 .15
5 .35 .30
6 .65 .35
7 .60 .40
8 .40 .15
9 .80 .25
10 .85 .10
11 .70 .30
12 .50 .25

Elaboraci6n de pruebas, analisls de reactlvos y neutralidad 171


a. Observa de nuevo los estadfsticos de reactlvos del ejercicio 7. Sup6n que estas creando una prueba de
cinco reactivos y seleccionaste los reactivos 2, 4. 9, 10 y 11. Sup6n que los estadfsticos de los reactivos se
basan en una muestra representativa . .!,La distribuci6n de las puntuaciones de Ia prueba se parece mas a Ia
de Ia prueba A o a Ia deJa prueba B de Ia figura 6-10?
9_ Accede a una reseFia, en formate electr6nico o impreso, de cualquier prueba en una edici6n reciente del
MMY de Bures. l.Oue dice Ia resefla acerca del programa de estandarizaci6n de Ia prueba? l.De que tama-
r'iofue el grupo de eStandarizaci6n? l.Era representative de Ia poblacl6n a Ia que esta dlrlgida Ia prueba?
10. Con J~s datos de reactivos del apl?ndice D, genera los estadrsticos p y D con ayuda de algUn programs
de c6mputo.
11. Sup6n que estas construyendo una prueba de comprensi6n de Jectura como auxiliar en Ia evaluaci6n de
problemas de lecture. Quieres tener una revisiOn de panel del contenido de tus reactivos. Haz una Jlsta de
los tipos de personas que quieres que form en parte del panel. ·
12. Calcula el valor p global del reactive_ del cuadro 6-13 en los grupos de referencia y focal. (Para obtener p
en uno de los grupos, suma todas las respuestas "+" y divide el resultado entre Ia suma de todas las res-
puestas "+" y "-"del grupo.) l.C6mo se comparan los valores p globales? laue d1ce este ace rca de los gru-
pos de referencia y focal? Ahara obten el valor p dentro de cada range de puntuaciones de los grupos de
referenda y focal par separado. Divide eJ nUmero de respuestas "+" entre Ia suma de las respuestas "+" y
"-".~Que te dice esta informaciOn?
13. Accede a Ia heja de c8lculo "Generador de CCR.xlsx", disponible en el apEmdice D, junto con ef documento
de "Jnstrucciones para usar el Generador de CCR". La hoja de Excel te permite "jugar con" los va!ores en el
modele de Ia TRR de tres parametres. TU puede"s censtruir tu propla CCR, como se describi6 en este capitulo.
14. Entra al sltio http://www.metheval.uni-jena.de/irt!VisuaiiRT.pdf, que contlene u.na gran cantidad de app/ets
que te permiten variar los parametres para dlferentes funciones de Ia TRR. Sera muy divertido. •

l
>'
'

'
'

f
>>

§,
I>

rl
'
'

1'
I
l l
>>

'~:

.'
"

'
i
••
,,'
!
:;

·'
j
>

172 Pruebas psicoJ6gicas. Una introducciOn practica >

>
>

>
Aiken, L. (2003). Tests psicológicos y evaluación. México: Pearson

EQUIPO 3
Capitulo dos

Diseno y elaboraci6n de tests

La t.:antidad de esfuerlO invertida en Ia elaboraci6n de te ts psicol6gicos o educati,·os varia de acuerdo


con el tipo de instn1111ento y los prop6sitos para los cuales se crea. Es probable que la mayorfa de los
maestros de escuela pasen relativamente pot.:o tiempo en Ia preparaci6n de instrumenros de ensayo o
respucstas cortas para evaluar el progreso de los alunmos en una unidad de enseihnza. Por otra parte.
los tests de capacidad y personalidad que disei1anlos especialistas en mediciones psicol6gicas por lo
general requieren del esfuerzo 1.k muchas personas que trabajan durante periodos prolongados.
Los procedimientos empleados en Ia claboraci6n de un instrumento ram bien ,·arfan de acuerdo
con cltipo de te:-;t y objetivos de los usuarios. La prepara.:i6n d.: un inn!nrario de intereses o perso-
nalidad, de l:ipiz y papd. representa distintos problemas en Ia elaboraci6n asi como un instrumenro
de rcndimiento o aptitudes. De manera similar, los complejos procedimicntos que siguen los disena-
dores profesionales de tests son poco familiares para Ja mayorfa de los maestros. Cualquiera que sea
el tipo de instrumento o los objetivos de los usuarios, es necesaria cierta planeaci6n del contenidt)
antes de redactar los reactivos que esta comprende..

PLANEACION DE UN TEST

La elaboraci6n de un instrumento exige que: se tomen en cuenta. detalladamente. los prop6sitos


cspc:cfficos. Los tests cumplen con muchas fum:iones diferentes y el proceso de elaboraci6n varfa
de ucuerdo con los prop6sitos particulares del test. Por ejemplo. se siguen distintos proccdimientos
al claborar un test de habilidades, un rendimiento de intcligencia. un instrumento de aptitudes
cspcciales o un inventario de personalidad. Sin embargo. en teorfa, Ia e!nboraci6n de cualquier test
o instrumento psicometrico comien:z.a con Ia definicion de las variables o constmctos que se desean
meJir y el establecimiento del contenido propuesto.

Tests de observaci6n

La dat>oraci6n de unrest, instrumento. esc ala de aptitudes para observar a Ia~ personas que solicitan
un empleo en particular se inicia con un analisis detallado Jc In~ actividades que comprende eJ
tr.tbajo. C n an:ilisis do.: turcns. o alllilisis deltrabnjo. consiste en especificar los componentes de este

23
24 Metodologia de Ia evaluaci6n

de modo que puedan desarrollarse las situaciones o reactivos del instrumento para predecir e) de-
sempefio del empleado. Estas especificaciones pueden incluir incidentes crfticos. comportamientos
cruciales para un desempeno exitoso o no exitoso. a:::f como otros datos que describan las actividades
del trabajo. Ya que, por lo regular, Ia descripci6n de un empleo especifico es prolongado y requiere
de tiempo, el instrumento terminado no inedira todos los aspectos del desempefio del empleado.
Comprendeni s6lo una muestrade los comportarnientos importantes para el trabajo; una muestra que
debe, hasta donde sea posible, represenrar todas las tareas que comprende el trabajo.

Tests de lnteligencia

Los procedimientos para el disefio de instrumentos de inteligencia se describen con detalle en el


capitulo 6. AI igual que cuando se disefia cualquier otro test, se reunen una serie de itemes o reactivos
que se suponedeben medir algun aspecto del constructo ''inteligencia". Estos itemes o reacti vos pue-
den desarrollarse de acuerdo con una teorfa especffica de comportamiento inteligente o simple mente
haciendo referencia a los tipos de tareas que se supone las personas mas inteligentes realizan con
mayor eficiencia que aquellas menos inteligentes. La selecci6n de reacti\·os para cl tesr final puede
realizarse con base en las relaciones de las respuestas a los reactiYos con criterios como Ia edad
cronol6gica, asf como las relaciones entre los mismos conceptos del test .

Escalas e inventarios de personalidad

En Ia elaboraci6n de los inventarios de personalidad y escalas de calificaci6n se han ut:l:z.ado \·arios


planteamientos, algunos con base en el sentido comun, otros en teorfas de personalida.:i :- c-:rv$ mas
en investigaci6n empfrica. Como se describe en los capftulos 10 y 11, muchos inventarios de perso-
nalidad de publicaci6n reciente se han elaborado al combinarplanteamientos te6ricos, racionales} em-
piricos. Uno o mas deestos planteamientos puede emplearse en distintas eta pas del desarrollo de :ests.

Tests de rendimiento

Se ha prestado mas atenci6n a los procedimientos para elaborar los instrumentos de rendimiento
academicos que para cualquier otro tipo de instrum~ntos . Esto puede compreoderse cuando nos
damos cuenta que los instrumentos de rendimiento se aplican con mas frecuencia que cualquier otro
tipo de instrumento de evaluaci6n psicol6gica. A pesar del cl uso tan comun de los instrumentos de
rendimiento, los maestros de escuela, quienes se supone estan mas familiarizados con Ia mataia, por
lo regular dedican tiempo insuficiente a Ia evaluaci6n del progreso de los alumnos. Con demasiada
frecuencia, los profesores consideran los instrumentos como una consecuencia desagradable de Ia
docencia, en Iugar de verlo como pane integral y fom1ativa del proceso educativo. Sin embargo,
cuando se utilizan de manera efectiva, los resultados de los instrumentos no solo e\'aluan y motivan
a los alumnos, sino que ademas proporcionan informacion a los maestros, al personal administrativo
de la escuela y a los padres, con rcspccto al grado en el cual se han logrado los objetiYos educativos.
AI proporcionar datos sobre Ia efectividad del plan de estudios y los procedimientos de ensefianza
de Ia escuela, las calificaciones de los instrumentos pueden contribuir con Ia planeaci6n de Ia
ensefianza para los alumnos individualmente o para Lodo el grupo.
,. ,) :all K en de tests 25

Las personas que pl anean los instrumenros de rendimiento para un grupo deben empezar por
responder las siguientes preguntas:

I. (.Cuiles son los temas o el material sobre los cuales los alumnos presentanin Ia prueba?
2. (.Que clase de preguntas deben elaborarse?
3. (.Que reactive, formate o esquema de prueba debe utilizarse?
4. <,Cuando, d6nde y c6mo debe aplicarse La prueba?
5. (.C6mo debe cali ficarse y evaluarse Ia prueba completa?

L as preguntas I a 3 se analizaran en este capitulo y las preguntas .:1 y 5 se estudiaran en el capitulo 3.

T:aonomias de los objetivos educativos

A sf como Ia elaboraci6n de una escalade observaci6n utilizada en Ia selecci6n de personal requiere


de un analisis preliminar del trabajo. Ia preparaci6n de una prueba para medir los objetivos espe-
cfficos de ensenanza es mas efectiva cuando los comportamienros a evaluar se definen con claridad
en Ia etapa prelirninar. Desde mediados de Ia decada de los 50, se ha prestado mucha atenci6n a los
sistemas formal es y estandares para clasificar los objeti vos cognoscitivos, afectivos y psicomotrices
de Ia ensei'ianza. L as principalcs categorfas de cuatro de las taxonomias de objetivos cognoscitivos
se mencionan en el cuadro 2- 1. Las seis categorfas principales de Ia primcra taxonomfa; laTaxonomy
of Educational Objectii•es: The Cogniti1•e Domain (B loomy Krathwohl, 1956) se mencionan en

Cuadro 2·1 Perfiles que ilustran los objetivos cognoscitivos

Bloomy Krathwohl (1956) Gerlach y Sullivan (1967)


Conocimiento ldentificaci6n
Comprensi6n Clasificaci6n
Aplicaci6n Descripci6n
Analisis Elaboraci6n
Slntesis Ordenamiento
Evaluaci6n Demostraci6n
Educational Testing Service (1965)
Memoria
Entendimiento
Pensamiento
Ebel (1979)
Entendimiento de terminologla (o vocabulario)
Entendimiento del hec ho y principio (o generalizaci6n)
Capacidad p~ra explicar o ilustrar (entendimiento de las relaciones)
Capacidad para calcular (problemas numericos)
Capacidad para predecir (lo que es probable que suceda en condiciones especificas)
Capacidad para recomendar Ia acci6n apropiada {algunas situaciones de problemas prcicticos
especlficos)
Capacidad para hacer un juicio de evaluaci6n
26 Metodologl a de Ia evaluaci6n

Cuadro 2-2 Categorias de Ia Taxonomia de Objetivos Ed~ Domin io Cognoscitivo

I. El conocimiento comprende el recuerdo de hechos espec.' :::; :..OS IOerbals de muestra en los
reactivos de conocimiento son: definir, identificar, mencior::. - .• r:u-JII'Il'ltrcJr. Un reactive de
conocimiento es: "Mencione las seis categorlas principales oe :;. T.:tt~a de Objetivos
Educativos: Dominic Cognoscitivo" (The Taxonomy of Educationa C::.<ea~l'l'leS: The Cognitive
Domain).
=
II. Comprensi6n significa el entendimiento del significado o prop6sito de ?:: Los verbos de
muestra en los reactivos de comprensi6n son: convertir, explicary resumir ~- ·e.CiC'!JVo de com-
prensi6n es: "Explique lo que quiere decir el revisor de pruebas cuando dice ::.~ 1..na crueba no
es confiable''.
Ill. La aplicaci6n comprende el uso de informacion e ideas en nuevas situaciones. - =~ .erbos de
muestra en los reactivos de aplicaci6n son: ca/cu/ar, determinary resolver. Un rea:: . : je apli-
caci6n es: "Calcule Ia media y desviaci6n estandar del siguiente grupo de calificacic - ;s ·
IV. El ana/isis es dividir algo para revelar su estructura y Ia interrelaci6n entre sus partes. Lc s :e-bos
de muestra son: analizar, diferenciary relacionar. Un reactivo de analisis es: "Analice ;;s:a uni-
dad de instrucciones en las distintas categor'1as conductuales y de contenido".
V. La sintesis es combinar distintos elementos o partes en un todo estructural. Los ve·:.·:s de
muestra son : disefiar, desarrol/ar, formu/ar y planear. Un reactive de sintesis es: "Dise.:e una
tabla de especificaciones para una prueba sabre estadistica elemental".
VI. La evaluaci6n es realizar un juicio con base en el razonamiento. Los verbos de muesn. son:
comparar, criticar, evaluar y juzgar. Un reactivo de evaluaci6n es: "Evalue el proced - anto
utilizado para Ia estandarizac16n de esta prueba".

FUENTE: De Taxonomy of Educational Objectrves: The Classification of Educational Goals: Handboc~ The
Cognitive Domain por Benjamin S. Bloom et al.. Derechos reservados © 1956, 1984 por Longman. Lc·;;11an
Publishing Group.

arden de Ia menos compleja a Ia mas compleja. Estas categorfas no son exclusivas, sino m..:.; t>ien
inclusivas de manera progresiva. Por ejemplo, tanto el "Conoci miento" (categorfa I) ::::no Ia
"Comprensi6n" (categoria Tl) son basicas para Ia "Aplicaci6n" (categorfa III) y, portanto, se i:: .:.u~ en
en Ia tercera categorfa. El cuadro 2-2 muestra Ia descripci6n de las categorfas en esta ta~.0:1l'mfa.
Otra taxonomfa mencionada en el cuadro 2-1 , que propusieron Gerlach y Sulliv;;:: 1967),
enfatiza el comportamiento de Ia persona sometida a prucba en Ia identificaci6n, cla~:ri :aci6n,
descripci6n, elaboraci6n, on.lenamiento y demostraci6n de algo. En Ia identificaci6n el ~Uj~lo debe
indicar que miembros de un grupo pertenecen a una categorfa e n particular. En Ia clas((:c,;ci6n, el
sujeto debe proporcionar Ia clasificaci6n verbal para una rcferencia o un grupo de e~t;,.~. En !a
descripci6n, se reponan las categorfas relevanres de objetos, sucesos, propiedades o rel:.::.:-il1nes. En
Ia elaboraci611, se crea un producto de acuerdo con ciertas especificaciones. En el ordt-' I:..;."Jiento. sc
ordenan de manera especffica dos o mas referencias y, en Ia demostraci611 . el sujeto :e;;liza ciertas
acciones para complctar una tarea espedfica.
Scguir cualquiera de las taxonomias mencionadas en el cuadro 2-1 debe mo:i\·a~ a Ia persona
que diseiiael instrumento air mas a !lade los simples reactivos deconocimientoo memoria y elaborar
varios reactivos para medir objetivos educativos de arden mas a lto que n:quicren Jel pcnsamiento.
Los reactivos siguientes, que pueden presentarse ya sea en formato J~ ~1,,,~·o u de prueba objetiva.
ilustran lo anterior:
27

<,Cmll es Ia formul a para calcular el error estandar de medida? (Conocimiento)


Analice Ia grafica y determine cuamos reacti\·os dcben agregarse a un instrumento con 50
react1vos para aumentar Ia confiabilidad de 0.60 a 0.80. !Compreusi6n)
Calcule el error estandar para un instrumento con un coeficknte de 0.70 y un puntaje que tiene
una desviaci6n estandar de I 0. (Aplicaci6nJ
Distinga entre una prueba de rendimiento para el salon de clases y una prueba de rendimiento
estandarizada en terminos de lo que mide y como se utiliza cada una. (A ndlisis)
Formule una tcoria que relacione lo intereses con la personalidad; mencione la evidencia de
investigaci6n de apoyo apropiada. (Sfntesis)
Evalue las crflicas cle Ralph Na<.kr y Allen Nairn con respecto al Test de Aptitudes Academicas
(SAT). (Emluacion)

Gbjetivos afectivos y psicomotrices

Una funci6n importantc de Ia education es crear ciertas actitudes. \'a Iores y otros estados afectivos
en el educando. No existe un mctodo por complete satisfacrorio para clasificar los objctivos afecti-
vos de la ensenanza. pero pucden proponase varios sistemas de clasificaci6n. Uno de cstos sistemas
es Ia Taxonomy of Educational Objectil'es. Affectil·e Domain ( Krathwohl. Bloomy Masia. 1964).
Las categorfas principalcs de esta taxonomfa son: I. Recibi r y A tender: TT. Responder o Participar;
III. Valoraro Creer en el Valor de AI go: IV. Organizarlos Valoresen un Sistema: V. Caracterizaci6n
por un Valor de Compkjo de Valores.
Tambit:!n se han propuesto las taxonomfas de los objeti vos educativos en el area psicomotriz (por
ejemplo, Simpson, 1966: Harrow, 1972). Las seis categorias en Ia Taxonomf:-t del Area Psicomotriz
de Harrow, por ejemplo. son los Movimientos Reflejos. Movimicntos Basico~ Fundamentales.
~~ Capacidades Perccptuales. Capacidades Fisicas, Movimientos de Habilidad y Comun1caci6n No
Divagante.
l
t Taibla de especificaciones

i
i
La mayoria de to:; diseiiadores de instrumentos no se apegan de manera estricta a una taxonomia
!- formal al especificar los objetivos que debcn medirse. No obstante, en Ia pl:.J neaci6n de in ~t rurncn ­
•' - tos es utiI elaborar una tabla de especificaciones en dos direcciones. En Ia pn::paracion de csa tab ln.
los objetivos conductuales a eva luar se anoton como encabezodos de renglon y los objcti,·os tiel
contenido (tematicos) como encabezados de columna. Des pue~ . las descripciones tie los conceptos
1-- especfficos correspondientes a los encabczatios de rcngl6n y columna apropiados se c:scriben en el
i cuerpo (celdas) del cuadro.
tf C :1a toblu de especificacioncs debe ser bastante detallacto' en los ll~rminos del conocirniento y
las hat-ilidades que se espcra demuestren los sujetos, pero es importante no enfatizar demasiado un
oojeu' o en particular. Quiza sea mas facil elaborar los reactivos que evalUan el conocimicnto en
~inos ~ hed1os que aquellos que rniden Ia capacidad para analizar y t>valuar. pero tam bien de ben
ilmdui~ en c: in~mumcn to los reactivos en las ultimas dos catcgorfas.
El ...-u~n> :-: e~ una tabla de espel'ificaciones en una unidau para Ia prcparacion. aplicacion y
:li~Uib3"- de re:.t.:ti• ,,, c;: kh instrumentos. Observe qui.! el porcl.!ntajc de Ia cantid:.~d total ell! rl.!activos
~ Cuadro 2·3 Tabla de especificaciones para una prueba sobre Ia preparaci6n y administraci6n de pruebas

Contenido (lema)

I - Objetivo ·
:I
Preparaci6n de Ia Construcci6n de Ia Administraci6n Calificaci6n Ami/isis de itemes
:· conductual · prueba (16%) prueba (26%) (14%) (22%) o reactivos (22%)

Conocimiento de Analisis del . - -Reactivo de Armonla; efecto Clave de lista; Criteria;


terminologla trabajo; comparaci6n; de halo calificaci6n consistencia
I
incidentes colectivo en (2 reactivos) compuesta; intema;
cruciales;
muestra
- espiral; grupo de
rcspuestas
calificaci6n con
maquina
homogeneidad de
Ia prueba
representativa (5 reactivos) (3 reactivos) (3 reactivos)
(3 reactivos)

Conocimiento de Categorias en Ventajas y Factores que Reglas para Metodos para


hechos "Taxonomy of desventajas de afectan el calificar las determinar Ia
I especificos Educational los reactivos de desempeno en pruebas de validez de los
!
Objectives" ensayo y Ia prueba ensayo y reactivos;
(2 reactivos) objetivos (3 reactivos) objetivas prop6sitos del
(4 reactivos) (3 reacllvos) analisis de
reactivos
(3 reactivos)
.
Comprensi6n Explicaci6n de los (0 reactivo~ .) (0 reactivos) Efectos del valor Explicaci6n de Ia
prop6sitos de relativo sol>re Ia relaci6n entre p y
realizar un plan calilicaci6n total D (1 reactive)
para Ia prueba (1 reactivo)
(2 re activos)
·-
Aplicaci6n Especificaciones Ejemplosdo lnstrucciones para Correcci6n para Ia Calculo de los
para una unidad reactivos do una prueba adivinanza; valor indices de
en Ia prueba opci6n rnt"•ltiple (2 reactivos) relative de dificultad y
(1 reactivo) para medir Ia confianza: uso del discriminaci6n;
comprension, nomograma para distribuci6n de las
aplicaci6n, calificar los respuestas de los
analisis, sintesis y reactivos de distractores
evaluaci6n reorden amiento (4 reactivos)
(4 reactivos) (4 reactivos)

Tot: II (8 reactivos) (13 reactivos) (7 reactivos) (11 reactivos) (11 reactivos)


---
...
~

29
de instrumentos que debe dedicarse a cada tema se encuentra entre pan!ntesis debajo deltema en
particular. Una vez dete:rminado un grupo de objetivos para un curso de estudio_.y'se prepara un perfi I
tematico, pueden elaborarse los reactivos del instrumento para medir el grado en el cuallos alumnos
alcanzan los objetivos p laneados para cada tcma.
Ciertos reactivos de instrumentos son mas apropiados que otros para medir el logro de los
objetivos especfficos. Los reactivos de respuestas cortas y terminaci6n se pres tan para Ia medida del
COI}.9Cirniento de )a l~fnJi n Q}Qgfa, perO SOn inadecuados para eva)uar capacidades cognoscitivas de
orden mas elevado. Por esta raz6n, debe consultarse Ia tabla de especificaciones para un instrumento
a! decidir que variaciones de reactivos y cuantos son apropiados para un instrumento en p articular.
AI planear un instrumento. tam bien de ben tomarse en cuenta consideracion~s practiCJIC~o cos to.
tiempo.di~ponible para Ia aplicaci6n. or?en de los reactivos y condicion e.~ de Ia pruel-..

IPIREPARACION DE LOS REACTIVOS DEL INSTRUMENTO

El objeti vo principal de Ia planeacion de instrumentos es Ia preparaci6n de un perfil detallado, como


una tabla de especificaciones, que sin·a como gufa al elaborar los reactivos que van a evaluar o
predecir ciertos objetivos. Cna \·ez que se pre para una tabla de especificac iones o un perfil detallado
del contenido del instrumento. el paso siguiente es elaborar los reactivos o itemes reales. En los
inslrumentos u objetiYos. por lo general se recomienda que e n un principio se redacren alrededor del
20 por ciento mas de los reactivos o itemes necesarios. de modo que se cuente con una cantidad
adecuada para Ia ,·ersion fi nal del instrumento. Las organizaciones comerciales de tests, como el
Education al Sen·ice T esting. utilizan para Ia redacci6n de reactivos o itemes a personas que poseen
tanto cono-cimiento sobrc Ia materia como habilidad para redactarlos. Cualquier persona que desee
aprender a c laborar reactivos de prueba apropiados puede beneficiarse al estudiar una muestra de
reactivos de los instrumentos estandarizados publicados porque se cuentan entre los mejores.
Todos los rcactivos de pruebas representan procedimientos para obtener info rmacion sobre los
individuos. pero Ia cantidad y clase de informacion varfa de acuerdo con Ia naturaleza de las tareas
que implican los distintos tipos de reactivos. Pedir a los sujetos que comparenla Batalla Bulges con
Ia Batalla de Hastings exige una clase de respuesta diferente que aquella que se obtiene cuando solo
se les pide que indiquen de entre una serie de eventos aquellos que ocurrieron en cada batalla. El

II
primer reactivo o item requiere de capacidades cornplejas de integraci6n y organizacion, e n tanto
que para contestar el segundo solo se necesita memoria cognoscitiva.
Se han sugerido distintos mctodos para clasificar los reactivus de acuerdo con el formato. o Ia
forma en que se requiere Ia respuesta. Completamiento o 1/enado contra selecci6n, recuerdo contra
t conocimiento y cO/Istrucci6n de respuesta contra identificaci6nson man eras de diferenciarentre los
reactivos en los cuales se req uiere que los sujetos escliban o elaboren una respuesta y aqueilos en
los cuales se les pi de indiquen cu<ll es Ia alternati va correcta. Otro metodo popular para clasificar los
reactivos es ensayo contra objetii'O, algunos ejemplos se presentan en el cuadrQ2-4. T odos los reac-
tivos de ensayo son del tipo de completamicnto o llenado porque Ia respuesta del sujeto es una
respuesu construida.
Sin embargo. los reactivos objetivos pueden ser del ti po de lien ado, completamiento de selec-
,cilia.dependiendo de silos sujetos deben etaborar una respuesta o s6lo selcccionar Ia mejor respues-
!l:lileau sene de aJternativas. El rasgo crucial de los reactivos objeti vos noes Ia forma de respuesta,
llillolpi. arac:lit~::t.i\·amente pueden calificarse. Con frccuencia, dos o nuiscalificadores de unreactivo
·~estillcodcs.acuerdo hasta cierto punto sobre lo correcto de una respuesta determinada y
30 Metodologia de Ia evaluaci6n

Cuadro 2-4 Ejemplos de distintos tipos de reactivos de prueba

I. Reactivos de ensayo
lnstrucciones: Escriba una respuesta de media pagina para cada reactive.
1. Compare las ventajas y desventajas de los reactivos de ensayo y objetivos para pruebas.
2. Explique las razones para realizar un analisis de reactivos de una prueba aplicable en el
salon de clases.
II . Reactivos objeti~·os
A. Respuesta corta
lnstrucciones: Escriba la(s) palabra(s) apropiada(s) en cada espacio.
1. Lo u'lico que es objetivo sobre una prueba objetiva es el

2. i,C!.la• es el primer paso forma l en Ia elaboraci6n de una prueba para predecir el


graoo de exito en un trabajo en particular? - - - - - - - - -- - -- - -
B. Fa soy ;~erdadero
hs~ruccion es: Encierre en un circulo Ia V si Ia afirmaci6n es verdadera; encierre en un
c;rculo Ia F si se trata de una afirmacion falsa.
V F 1. El sistema de clasificaci6n de pruebas mas comprensivo es el de The Mental
Measurements Yearbooks.
V F 2. El grupo de respuestas de conveniencia social es Ia tendencia a dar una
calificacion alta a una persona en un rasgo o caracteristica solo porque se le
.:::a'mca asi en otra caracteristica.
C. Aparejam.!f?rrro
lnstrucciones Esonha Ia letra que oorresponde al nombre correcto en el espacio
adecuado at:. '!latgen.
1. prueba de ,r;;e~igemcaa de grupo A. Binet
_ _ _ 2 . prueba de ir::a·i~ncia individual B. Darwin
3. inventario de .n:::reses C. Galton
4 . inventario de perso1:a iidad D. Otis
5. correlaci6n productc--.:merno E. Pearson
6. pruebas sensoriomo:r.css F. Rorschach
G. Spearman
H. Strong
I. Woodworth
D. Opci6n multiple
lnstrucciones: Escriba Ia letra de :; ::-:<·:in cor·ecta en el espacio del margen antes del
item o reactive.
1 . Los adverbios como nunca, a veces .• s·'~·~. que reve lan Ia respuesta a una
persona sin informacion sobre Ia me.:&"~a :>: "?activo. se !Iaman
A. generalidades brillantes
B. adverbios de enlace
C. grupos de respuestas
D. determinantes especificos
2. Jimmy, que tiene 8 anos 4 meses de edad, o::n ene J na calif!cacion de edad mental
de 9 anos 5 meses. De acuerdo con el texto, (.Cual es su Cl promedio?
A . 88
B. 90
c. 113
D. 120
~ ....,j 1 e,aooraci6n de tests 31

..:uantos puntos debe rectbir. Pero. a cxcepci6n de los errore!> de oficina. los distintos calificadores
Je una prueba objeti,·::~ Jaran Ia misma calificaci6n a un reacti,·o dado.

Caracterfsticas de los reactivos o itemes de ensayo

La ventaja mas in:portante de los reacti,·os de ensayo es que puedcn medir Ia capacidad para
organizar, relaciur.ar y comunicar. comportamientos que no e,·aluan con facilidad los reactiYos obje-
tivos. Adem as. u:1 instrumcnto de ensayo requiere me nos tiempo para prepararse yes poco probable
que los sujetos contesr.en en forma correcta los reactivos de ensayo mediante Ia adi\'inaci6n . Una
desventaja de los instrumentos tk ensayo es que Ia cantidad de preguntas que pueden responderse
en un ticmpo Je clase regular (aproximadamcnte seis respuestas de media pagina en 50 minutos) tal
vez no proporeionen un muestreo adecuado del conocimienro sobre Ia materia que tienen las
personas. Otras des\·entaj as de cstos instrumentos son que Ia calific:acion es subjetiva: toma mucho
tiempo y son susceptibles a! engaiio por parte de sujetos con facilidad de palabra. pero que can:cen
de infonnaci6n.
Un profesor de historia que conozco. en una ocasi6n infom16 haber aplicado un instrumento
de ensayo que inclufa Ia prcguma, "<.Cu:iles fueron las causas y consecuencias de Ia Batalla de
Hastings?" Un alumno llojo que no habfa tenido tiempo de llegar mas atras del siglo xrv a! estudiar
Ia historia de lnglall~ITa cmpez6 Ia rcspur..:sta a csta pregunta con Ia afirmaci6n. "No puedo comentar
sobrc Ia Batalla 1.k Ha:-.tings. pcro prestemos arenci6n a Ia Guerra de los Cien Anos''. Este es un
ejemplo bastante flagra nte de Ia tendencia que pn.::scntan personas que no etten tan con informacion
suficientc al responder Je maner .J ligcramcntc diferente a Ia pregunta hecha con objeto de enfatizar
lo que ~~ sahen. cn ;ufar J~ i,1 \.jUe nv cvnocen. 1
Por rcgla general . no debeo u t ilizar~~ lo:> reactivos de ensayocuandoes posible realizar la misma
evaluacion con rcactivo objcti\ os. S1 se h:tcen prcguntas de ensayo. Ia persona que redacta los
reactivos debe tratar de realizar las pregunta~ objetivas. Esto puede lograrse a! I) definir Ia tarea y
redactar los reactivos en forma clara. por ejcmplo. pidiendo a! sujeto que ··compare'' y "explique"
en Iugar de que ··anal ice": 2) utili zaruna cantidad reducida de reactiYOS. que debenin responder rodas
las personas: 3) cstructurar los reactivos de manera que los expcrtos en Ia materia esten de acuerdo
en que una respuesta es mcjor que otra de formademostrablc. y 4) pedir a las personas que respondan
cada reactivo en un ~oja de papel separada.

Reactivos de respuesta corta, falso y verdadero y comparaci6n

Los rcacti vos objctivos no :-c limitan a las cuatru forma s tradicionaks (respuestacorta ~) tcrminacion.I
fa! soy \'Crdadcro. com parae ion y opcion multiple), pero estas son las m•ls popu l a rc~ . Algu nas de Ia~
ventaj a~ que prescnwn las pruchas objclivas son que puedcn ca lificarse con facilidad y de maneril
objeti,·a y que. wmo se ncccsiwmenos ticmpo para responder cada rcacti\·o. p::rmiten un muestreo
mas extenso del material que las prucbas de cnsayo. En Ia prcparaci6n de prucbas objetivas. debe
poncrsc especial cuidado en lograr que los reactivos scan clams. prec isu~ y t'LUTcctos en cl aspccto
gramatical. D.:l:>cn rcdactarsc con un lenguaje apropiado para el ni,·d Jc lcctura del grupo que

· !t- \ ·..:-it:.:..;~ :~ ~~: ~ .:: - "'· .: ;-· ·~ lL':;u. ;mnqut.• t.:t'r~ ...,.·n1., much'' tcat-Jj\"'12·:· :-4; .· .t .. ;· ~·i :-·:n.1 ... ~Jlll' pn:s~nliln Ia prw:ha, omu para4l11~nes
L1 ~•~ .., .... ~ ::~ !."' :~-r- .. ~ ...... ;·- 1:·. .: :. ·1:' ....l'.t' ·~ ~·, ... :n"·::-.· .. ~·r: ~·: ~ -~· ..... ·.,!~ ..: : .. . . ..J:.·:....... \fUL' •'-' "·-ribault)lh""~lt"l t.~tt-: )~bc..·n!
32 Metodologia de Ia evaluaci6n

presentan\ la prueba. Deben incluir en el reactivo todos los datos y requerimientos necesarios para
seleccionar una respuesta razonable, omitiendo las pal abras y frases :r:utiles o estereotipadas.
A pesar de que puede existir una tendencia a claborar los reactivo5 .:-t-_~-e~h·os con el uso de afir-
maciones de los )jbros de texto u otras fuentes, esto da mayor importancia aJ :>;:"Jreodiz.aje de memoria.
Las personas que redactan los reactivos tam bien deben tenercuidado deomitir lasdaves irrelevantes
para Ia respuesta correcra y evitar reactivos que se interrelacionen y se entrei.:..:-ea Los reactivos se
interrelacio11an cuando Ia redacci6n de uno de estos ofrece una clave para Ia re ~ de otro. Los
reactivos se entrelazan cuando es necesario saber Ia respuesta correcta de uno con objdode contestar
otro en forma correcta.

Reactivos de respuesta corta. Un reactivo de respuesta corta es una tarea de upo de comple-
tarniento en la cual se pide a las personas que completen o llenen uno o mas espacios ea blanco de
una afirmaci6n incompleta con las palabras o frases correctas o que den una respue:>ta breve a una
pregunta. En terminos de Ia longitud de Ia respuesta elaborada, los reactivos de respuesu corta se
encuentran entre los reactivos de ensayo y de conocimiento. Se cuentan entre los reactivos que
se elaboran con mayor facilidad , ya que requieren que las personas den Ia rcspuestacorre<:t.l·en Iugar
de limitarse a reconocerla. A pcsar de que los reactivos de respuesta corta son en especial tiriies para
evaluar el conocimiento de la terminologfa, tienen serias limitaciones. No son apropiados pan medir
objetivos de ensenanza complejos y, ya que puede haber mas de una respuesta correcta, Ia calificaci6n
no siempre es por completo objetiva.
En Ia elaboraci6n de reactivos de respuesta corta deben seguirse los linearnientos sig'Jientes:

1. Se prefieren las preguntas a las afirmacioncs incompletas.


2. Si se utiliza una afirmaci6n incompleta, debe redactarse de manera que el espacio e:J blanco
quede al final de esta.
3. Evitar varios espacios en blanco en el mismo concepto, en especial si hacen que el
significado de la tarea no sea claro.

Reactivos de fa/soy verdadero. Uno de los tipos de reactivos para pruebas que son mas s.encillos
de elaborar, pero que quiza sean los que menos agradan a los profesionales que aplican las pruebas,
son los de falso y verdadero. Estos reactivos pueden rcdactarse y leerse con rapidez y. por- tanto,
permiten un muestreo extenso del contenido. Una desventaja importante de estos reacti'os es que,
con frecuencia, se ocupan de informacion trivial o se elaboran con afirmaciones que se toman al pie
de la letra de los libros de texto. Como consecueocia, se dice que alientao el aprendizaje de memoria.
Otro motivo de crftica para los reactivos de falso y verdadero es que con frecuencia son ambiguos,
no pueden utilizarse para medir objetivos deensenanza mas complejos y, al basarse en elap£endizaje
de memoria, dan una direcci6n err6nea a los esfuerzos por aprender. Ademas, ya que la calificaci6n
total de una prueba de falso y verdadero puede verse afectada por la tendencia del sujeto a adivina.r
cuando tiene duda o a estar de acuerdo (o en desacuerdo), el significado de esta puede ponerse en
entredicho. 2
En promedio, los sujetos responderan en forma correcta el 50 por ciento de los reacrivos de una
prueba de falso y verdadero con solo adivinar. Las calificac iones pueden aumentar aun mas cuando
los reactivos contienen determinantes especificos; palabras como todos. siempre. nunca y s6lo, que

>La tendcncia a estar de acuerdocuando se tie non dudas (confonnidad) cs un ejemplode un gn.:ox- je ~<>puestas. Un grupodt r~sputstns
es Ia tendencia por par1c de Ia persona que prescnta Ia prueba a contestar los reacti,os con b~ a su it'nna. es dccir. eo Ia maoera que cstau
redactados, eo Iugar de su contenido.
,. ._..,.4!illllborac•6n de tests 33

indican que es probable que Ia afirmaci6n sea falsa, o confremencia, algunas l'eces y por lo general,
que indican que es probable que Ia afirmaci6n sea verdadera.
A pesar de estas desventajas, los reactivos de falso y verdadero no tie nen que ser triviales ni
ambiguos y no necesariamente da n una direcci6n err6nea a los esfuerzos por aprender. En defensa
de los reactivos de fal so y verdadero, Ebel (1970) sostiene que "el grade del dominic por parte de
los alumnos de un area del conoci miento en particular esta indicado por su exito aljuzgar lo cierto
o falso de las propuestas que se relacionan con esta" (pagina 112). Ebel argumentaba que estas
propuestas son expresiones del conocimiento verbal, que considera Ia esencia dellogro educative.
La defensa por parte de Ebel de los reactivos de false y verdadero puede ponerse en duda, pero
nose pone en duda el hecho de que los reactivos de fal so y verdadero puedan medir algo mas que
el aprendizaje de memoria. Por ejemplo, al incluir dos conceptos, condiciones o eventos en un
reactive de falso y verdadero, Ia persona que administra Ia prueba puede preguntar si es cierto que
estan relacionados de manera estrecha a moderada (Diekhoff, 1984). Otras posibilidades son
preguntar si: I) un concepto, condici6n o even to implica (es consecuencia de) otro; 2) un concepto.
condici6n o evento es un subgrupo. ejemplo o categorfa de otro. o 3) ambos conceptos, condiciones
o eventos son verdaderos. Estos reactivos pueden rnedir Ia comprensi6n, asf como el conocimiento
significativo de los conceptos y eventos.
Cualesquiera que sean los objetivos de una prueba de falso y verdadero, se aconseja tomar en
cuenta las sugerencias siguientes al elaborar reactivos de cste tipo:

1. Asegurese de que las afirrnaciones plan teen asuntos importantes (no triviales).
2. Redacte las afirmaciones relativamente cortas y verdaderas o falsas sin Iugar a dudas .
3. EYite los reactiYOS en forma negativa, en especial aquellos que contienen doble negaci6n.
4. E\'ite los reactivos ambiguos y capciosos.
5. Como regia general, evite los determinantes especfficos. Si se utilizan determinantes
especfficos para hacer que cometan errorcs las personas sin conocimientos pero Mbiles,
deben incluirse en los reactivos verdaderos con tanta frecuencia como en los falsos.
6. En las afirmaciones de opinion, cite Ia fuente o el texto del que provienen . ...
7. Redacte las afirmaciones verdaderas y falsas mas o menos con Ia misma longitud ~rocure
que Ia cantidad de afirmaciones verdaderas sea aproximadamente igual a Ia canfidad de
afirmaciones fals~j~ Puede argumentarse que, debido a que las afirmaciones falsas tienden
a ser mas discriminantes que las verdaderas, Ia cantidad de afirmaciones falsas deberfa ser
mayor que las verdaderas. Sin embargo, si el maestro sigue esta practica en pruebas
subsecuentes, cs probable que los alumnos se den cuenta de ello y empiecen a responder
''falso" cuando tengan duda sobre Ia respuesta.
8. Haga que las respuestas incorrectas sean mas atractivas al rcdactar los reacth·os de modo
que Ia 16gica superficial, los errores populaces y los determinantes especificos sugieran que
las respuestas err6neas son correctas. Las afirmaciones falsas que parecen verdaderas
tambien pueden hacer que se equivoquen las personas sin conodmientos.

Reactivos de sparejamiento. En cierto sentido, tanto los reacti,·os de false y verdadero como
los de opci6n multiple son una variedad de los reactivos de aparejamiento. En estos tres tipos de
reactivos, se compara un grupo de opciones de respuesta a un grupo de opciones de estimulo
(prernisas). La diferencia es que los reactivos de falso y ,·erdadero y de opci6n multiple tienen una
soia opci6n de estimulo (el tro11co de Ia rcspuesta) y dos o mas opciones de respuesta, en tanto que
los re.acti\>-os de aparejamiento til!nen opciones de estfmulo y de respuesta multiples. La tarea en un
34 Metodologia de Ia evaluacion

reactive de aparejamiento es indicar que opciones de respuesta corresponden a cualcs opciones de


estfmulo. Por lo general, Ia comparaci6n es de una a uno (una respuesta por estfmulo). pero tambien
puede ser de una a varios, de ,·arias a uno ode varias a varios. Desde 1uego. los sujetos deben estar
informados sobre cuales de estos proceJimientos se aplican a un reactive en particular.
Los reactivos de aparej amie n:o son faci les de elaborar y cubren el material con mas eficacia que
otros tipos de reactivos. perc pur to regular miden solo el aprcndizaje de memoria de los hechos.
Ademas. Ia necesidad de h<J.:er .:jiJI! b.5 opciones sean homogeneas (todas las opcioncs de Ia misma
c lase, como fechas.lugare:.o oombres 1 limita e\ tipo de material que puede adaptarse en un contexte
de comparaci6n. Los ~lgUlenk!s son algunos lineamiento:; para Ia elaboraci6n de reactivos de
aparejamiento:

1. Ordene las o~ ione~ je estimuto (premisas) y respuesta en un formato de columnas claro


y 16gico. cun !n.; 0p.:OlO:'le5 de esrimulo en Ia columna izquierda y las opciones de rcspuesta
en Ia ;:c-:umna Jere.:ha.
2. ~um:er:e las opciones ~e estimuio en forma sucesiva y co Logue letras (a. b, c. etcetera) antes
de las opciones de r~~r·Je~tJ..
3. Cti lice emre seis y 15 v (:'('i L'ne~ de estfmulo, que tengan de dos a tres opciones de respuesta
mas que las opciones ce
estimulo.
4. Especifique con claridaJ ~as bases de la comparaci6n.
5. Coloque 10do el reactivo e:1 una sola pagina.

Un tipoespecial de reactivode aparejanl.ientoesel reactivode reordenamientoojerarquizaci6n.


en el cual se pide a las personas que clasi:iquen un grupo de opciones en una cantidad fi ja decategorfas
determinadas previamente. Un tipo parti.:u:ar de reacti\'o dejerarquizaci6n es e l rea cti vo de ran go,
e n el cual se ordena un conjunto de opciones d.:: acuerdo con el rango de primera a ultima (vease el
cuadro 2-4).

Reactivos de opci6n multiple

Nadie sabe quien elaboro el primer reactivo de prueba de opci6n multiple. pero desde el punto de
vista de Ia evaluaci6n psicol6gica se trat6 de uneven to importante. 3 Los reactivos de o pcion multiple
son los mas versatiles de todos los reactivos para las pruebas objetivas en el sentado que pueden
utilizarse para n1edir los objetivos de aprendizaje complcjos y sencillos en todos los ni\·eJes y_ ~n
cualquier materia. A pcsar de que Ia elaboraci6n de una respuesta para un reactivo de cn 5a> o quiza
requiera de n1ayor habilidad para Ia organizaci6n que Ia respuesta para un reactivL~ Je opci6n
multiple, responder en forma correcta un reacti vo de opci6n multiple bien elaborado ro;:qu ::ere de gran
capacidad para 1a d iscriminaci6n y no solo para reconocer o recordar Ia resp ue~t.:. aJe ~uada. Las
calificaciones para estc tipo de reactivos sc ven menos afcctadas por la adivina.::ion ~ otros grupos
de respuesta que las catificacioncs para otros"tipos de rcacti vos objetivos. Adem:b. puede obtenerse
informacion de diagn6stico Uti! a part if de Un anal isis de las opciOIJC$ inCOfft!('L!~ I JiSf/'(lC/0 /'eS) que
cligen las personas.
Entre las de:.ventajas de los reactivos de opci6n multiple se encuo;:ntr~ guo::: i 1es diflci I e laborar
los reactivos adccuados, en especial aquellos donde todas las opciones ten~ar. el mismoatractivo para

' Es probabk queel crcdito por Ia ctCJJci<ln dd formawde reactivosde opdc'n "'- ·~; : : . :-c· ? · .:. ~;.: .;,cthurOtis, quien al par·ccerlo utiliz6
por primera ,·ez en su prueba de inte lig~ncia en grupo <n 19 16-191 :'.
-... ,..~~aoora:.on de tests 35
8os sujetos que no conocen Ia respuesta correcta; 2) enfatizan el reconocimiento mas que el recuerdo
~ organizaci6n de Ia informacion: y 3) requieren de mas tiempo para contestarse y quizas ofrecen
:ma muestra menos adecuada del area de Ia materia que los reacri\'OS de falso y verdadero. T am bien
sc establece, aunque nose ba comprobado, que las pruebas de opci6n multiple favorecen a los lectores
astutos, ingeniosos y rapidos y afectan a las personas que piensan con mayor profundidad las
respuestas (Hoffman, 1962).

Reg/as para Ia elaboraci6n de reacti vos de opci6n m ultiple. Los lineamientos siguientes
deben facilitar Ia elaboraci6n de reactivos de opci6n multiple de alta calidad:

I. Debe utilizarse como tronco una pregunta o afirmaci6n incompleta, pero se prefiere el
fomu1to de pregunta. En una afirmaci6n incompleta. coloque el espacio en blanco al final
de l reactivo.
2. Establezca en el tronco el problema especffico de la pregunta o afirmaci6n incompleta de
manera clara y en un ni\'el apropiado para las personas; evi.te tomar al pie de Ia tetra
prcguntas o afirmaciones de los li bros de texto.
3. Coloque Ia mayor parte del reactivo en el tronco. No tiene caso repetir las m.ismas pala-
bras en todos los conceptos para las personas es menos diffcil revisar las opciones mas
cortas.
4. Em p~ee pocas preguntas de opinion: cuando las uti lice. cite Ia fuente o ellibro de texto de
donde proviene Ia opinion.
5. Po r lo general se utilizan cuatro o cinco opciones, pero tambie n pueden redacrarse s61o dos
o tres opciones. Para los estudiantes de los primeros grados. tres opciones son preferibles
a cuatro o cinco.
6. Si las opciones tienen un orden natural, como fee has o epocas. se recomienda ordenarlos
de acuerdo con este. De otra man era. ordene las opcioncs de modo aleatorio o alfabeticamente
(si esta ultima no proporciona alguna clave para las respuestas correctas).
7. Redacte todas las opciones de modo que tengan una longitud mas o me nos igual. sean
correctas en c l aspecto gramatical y apropiadas en relaci6n con el !ronco. Sin embargo. no
pcrmita que cl tronco " revele" Ia opci6n correcta mediante asociaciones verbales u otras
c laves.
8. Haga que todas las opciones sean posibles para las personas que no conocen la respuesta
correcta, pero que s6lo una opci6n sea la correcl·a o "Ia mejor''. Los errores y afirmaciones
populares q ue son correctos solo de manera parcial constituyen distractores adecuados.
9. AI elaborar cada disLractor, formul e una raz6n por Ia cua1 un sujeto que no conoce la
respuesta correcta podrfa seleccionarlo.
I0 . Evite, o por lo n~enos reduzca almfnimo, el uso de expresiones como ··no'' tanto en e l tronco
como en las opciones.
11. A pesar de que es apropiada cierta cantidad de originalidad e incluso humor y puede servir
para interesar y motiv~r a las personas, no dcben milizarse tro ncos y opcioncs ambiguos ni
capciosos.
C. Use poco las expresiones "ninguna de las anteriores". "todas las anteriores" o "mas de
una de las anteriores''. Tambien evite los determinantcs especfficos como ··siempre" o
..nunca··.
a.3. Co!oq~ las opciones en formato (parrafo) de grupo en Iugar de una tras otra: uti lice numeros
p::w.li oik"'Si,;;nar
los reac1ivos y le tras para las opcioncs.
36 Metodologia de Ia evaluaci6n

14. Prepare la caotidad correcta de reactivos para el grado o oivel de edad que se pondra a
prueba, haciendo que cada reactive sea independiente de los demas (que nose entrelacen
ni se interrelaciooen 1. --
15. Haga que los niveles de dificultad sean tales que el porcentaje de personas que contesten
el reactive de manera correcta se encuentren mas o me nos a Ia mit ad entre el porcentaje de
probabilidad (adivinanza aka toria) y.el l 00 por cicnto: % correcto =50 (k +1)/k, don de k
cs Ia cantidad de distractores por reactive.

Con s6lo seguir estos l.ioeamientos, que son sobre todo producto de Ia 16gica y la experiencia
mas que de Ia investigaci6c!... no asegura la elaboraci6n de un prueba de opci6n multiple adecuada.
En Iugar de obedeceraciegas un conjunto de reglas, la capacidad para redactar reactivos adecuados
depende tanto o rruisdda.ocimiento de la materia que abarca Ia prueba, e ntender lo que los alumnos
deben saber, yes poco probable que sepan sobre Ia materia, el arte o habilidad para hacer preguntas.
Aun cuando los linw _, ·e-ns nose sigan con precision, los reactivos de opci6n multiple tienden a
ser bastante efic.1tts p1112 medir el conocimiento y la comprensi6n.

Elaboraci6n dec' I a • •es. Un proceso crucial para determinar Ia efecti vi dad de los reacti vos
de opci6n mUltiple c:s l;a .w:lecciOe o elaboraci6n de distractores (opciones incorrectas). En la
selecci6n de reactl"O:S ~ eaupkarse un planteamiento racional o cmpfrico. El planteamiento
racional requiere que ia p.!f$0U que elabora la prueba real ice juicios personales con respecto de los
distractores apropiados. Por el contrario, e; plameamieoto empfrico consiste en seleccionar distrac-
t ores de acuerdo con Ia cantidad de respuestas que se dan al tronco del reactive cuando sc aplican
como afirmaciones abiertas. No existe un consenso coo respecto de que planteamiento da como
resultado mejores distractores, pero el juicio de Ia persona que aplica el ex.a mcn parece ser por lo
menos tan efectivo como el planteamiento empfrico (Owens, Hanna y Coppedge, 1970; Hanna y
Jonhson, 1978).

Elaboraci6n de reactivos complejos_ Los creadorcs de pruebas por lo general tienen mas
problemas al elaborar los reactivos para medir la comprensi6n y el pensamiento que aquellos que
rniden el conocimicnto directo de Ia materia de la prueba. Se han propuesto distintas formas de
componcr reactivos objetivos para evaluar objetivos de enseiianza mas complejos. Las opciones
como " todas las anteriores", "ninguna de las anteriores", '·dos de las anteriores" y "todas las ante-
riores menos una" pueden hacerque la elecci6n sea mas diffcil. Ademas, hacer que todas las opciones
sean correctas (o incorrectas) y pedir que las personas seleccioneo Ia mejor o la opci6n mas apro-
piada para cada reactive complica Ia tarea. Otras formas de hacer que Ia decis.i6n del sujeto sea mas
diffcil son: 1) incluir reactivos de opci6n multiple en los cuales una cantidad variable de opciones
se~ correct a y en los que Ia persona deb a indicar cuales opciones son correctas o i ncorrectas (en caso
de haberlas); 2) hacer que scleccionen una respuesta y Ia mejoren, y 3) pedir que identifiquen el
planteamiento correcto (como por ejemplo una ecuaci6n o metodo de oluci6n) para las tareas de
soluci6n de problemas. En el cuadro 2-5 se ilustran procedimientos adicionales para aumentar Ia
complejidad de los reactivos de opci6n multiple. Todas estas tecnicas se diseiiaron para hacer que
Ia elecci6n de la opci6n eorrecta sea un proceso analitico y que requiera del pensamiento en el cual
se emplean distintas capacidades mentales, en Iugar de un simple proceso de memoria de reco-
nocimiento.
. . . .. ..-.ooracicin de tests 37
Cuadro 2-5 Algunas formas complejas de reactivos de opci6n multiple

I. Clasificaci6n. EL examinando clasifica una persona, objeto o condicion en una de las varias
categorfas mencionadas en el tronco:
Jean Piaget se caracteriza mejor como un psic6logo _ __ .
a. clfnico c. psicometrico
b. del desarrollo d. social
2. Condiciones si-enlonces. El examinando debe decidir Ia consecuencia CO/Tecta de una o mas
condiciones presentes:
Si Ia varianza real de una prueba aumenta pero Ia varianza de error permanece constante, l,CUcil
de las situaciones siguientes se presenta?
a. aumenta Ia confiabilidad c. disminuye Ia varianza observada
b. disminuye Ia confiabilidad d. no cambian nj la confiabilidad ni Ia
\'arianza observada
3. Condiciones multiples. El examinando utiliza dos 0 mas condiciones 0 afirmaciones menciO·
nadas en el tronco para llegat a una conclusion:
Suponiendo que Ia calificaci6n bruta de Mary en una prueba es 60. Ia media de Ia prueba es 59
y la desviaci6n est~ndar es 2, (.CU~l es la calificaci6n ::.de Mary?
a. - 2.00 c. 0.50
b. - 0.50 d. 2.00
4. Falso y verdadero multiple. El examinando decide si wza, todas 0 ninguna de las dos 0 mas
condiciones o afirmaciones mencionadas en eltronco es (son) correcta(s):
£,Es cierto que 1) Alfred Binet es el padre de las pruebas de inteligencia y 2) su primera prueba
de inteligencia se public6 en 1916'?
a. ambas, 1 y 2 ;;:. l no. pero 2 sf
b. 1 pero no 2 d. r.i 1 ni 2
5. Falta de correspondencia. El examinando indica cud! de las opciones flO perrenece almismo
grupo que las otras:
£,Cua1 de los nombres siguientes no corrcsponde con los otros?
a. Alfred Adler c. Carl Jung
b. Sigmund Freud d . Carl Rogers
6. Relaciones y correlaciones. El examinando detemril1<1 Ia relaci6n entre los conceptos 1 y 2 e
indica cual de los conceptos (a, b, c, d, ere.) mencionados en las opciones se relaciona cone/
concepta 3 de Ia mismaforma en que se relacionanlos conceptos 1 y 2:La media es a ladesviaci6n
estandar lo que Ia mediana es a:
a. desviaci6n promedio c. rango semiintercuarti lar
b. rango inclusive d. varianza

'I FOIWACION DE UNA PRUEBA

Despues de que se preparan los reactivos para una prueba, siempre es aconsejable hacer que o tra
persona con conocimientos los revise y edite. lncluso los mayo res esfuerzos no producen necesariamcnte
una buena prueba y un amigo o socio con frecuencia puede detectar errores y hacer sugerencias
\3lios::.s para mejorar los reactivos.
38 Metodologla de Ia evaluaci6n

Suponiendo que el disefiador de Ia prueba elabore una cantidad suficiente de reactivos satis-
factorios, antes de formar una prueba deben ton:arse las dccisiones finales con respecto de varios
aspectos:

1. {.La extension de Ia prueba es :.propiada para los lfmites de tiempo?


2. i,C6mo deben agruparse u order.~se los rcactivos en las paginas del folleto de prueba?
3. (,Las respuestas debenin ma;.I"C.::.r.>e en el fofleto de Ia prueba o se utilizara una hoja especial
de respuestas?
4. i,C6mo debe reprocu.:irse e~ fo!leto de la prueba y Ia hoja de respuestas':'
5. l,Que informacion de~ra induirse en las instrucciones para Ia prueba')

Extension de Ia prueba

La decision sobre ::uin:os reac:i\'C'~ .:!eben :ncluirse en una prueba depende de los Ifmites de tiempo,
e l grado y ni\·el de Jec:u:a de los sujetos ~ Ia extension y dificultad de los reactivos. Los reactivos
mas breves yto aquello5 que requieren 6lo del aprendizaje de memoria de los hechos pueden
responderse en menos tiempo que los rea.::ti\·os mas extensos que requiere n de calculos e laborados
y/o.~zonamiento abstracto. En las pruebas de dificultad moderada que se aplican a nivcl de escuela
secundaria o mas alto, una regia apropiada es dar l minuto para cada reactivo de opci6n multiple o
de respuesta co11a y 1 minuto para cada reacti\'o de falSo y vcrdadero. De manera que, una prucba
con 50 reactivos de opci6n multiple ode respuesta corta y una prueba con 100 reactivos de falso y
verdadero por lo regular son apropiadas para un periodo de clases de 50 minutos en el nivel de edu-
cacion superior. En este mismo periodo pueden respondersc cinco o seis preguntas de ensayo de
media pagina. Con estos Ifmites de tiempo, puede esperarse que por lo menos 80 por ciento o mas
de los alumnos en un grupo de escuela secundaria tfpico terminen Ia prueba. Estos lineamientos con
respecto de Ia extension y tiempo de aplicaci6n debenin revisarse y scr menos estrictos cuando Ia
prueba se apliquc a alumnos de escuela primaria.
Desde luego, existen diferencias entre los alum nos en el tiempo que ks Ue\ a t:!m1inar una
prueba. Podria esperarse que :o:; illumnos que tienen mas CO:lOcimiento:;;) h at>i!J.ia.ie;. en Ia materia
de la prueba lerminaran primero. perc eSte no 5iempre <!S e: .:~"1. E.; p~b::.:-:e .:j:Jt' ;vS alumnos que
tienen me nos informaci6n simp;ellll!ote adi\·ioen o"s.cde::. ;•:: ·.'!r..ci..i_:. s·· :· en:reguen Ia prueba antes
si se les permile hacerlo. Ade:n:is.. k>s b.;ibirtos il pres.c:t~ _;:.: ;::ueba de las personas con cali-
ficaciones mas altas quiza los hag::.n r.:>-lsar los re3.."1:' c~ . .:.:;.:.s \·eces para asegurarse que no les falta
algo o que no han entendido mal. Ta.'nb re:n pweJie ~~ -1'..::! .:ienos estudiantes, con calificaciones altas
y bajas. hayan escuchado que su primera re-spue >::: <:! ; mas probable que sea correcta y, por tanto. no
es buena idea revisar las respues~as inici;o.l6. Todo:> estos factores hacen que sea diffcil predecir
c uanto tjempo lc tomara a un alu::1r:o ::!r:-r.ir.ar una prueba. Depende de una interacci6n compleja
entre Ia preparaci6n , Ia personaliJ.;;d. e: estado emocional y ffs ico de la persona, Ia naturaleza y
dificultad del material de Ia prueb:l :· d ento rno en que se aplica (ruido y otros distractorcs, compor-
tamiento de !a persona que aplica d i r.s1rumento, el censor, etcetera). Es probable que quien aplica
Ia prucba pueda hacer que el tiempo real dedicado a Ia tarea sea mas uniforme en todos las personas
si les pide que permanczcan en su Iugar despues de terminar Ia prueba, pero incluso con estas
restricciones se prescntan1n diferencias individuales en el licmpo determinac ion del instrumento.
39
a 2 11iento de los reactivos

En ocasiones se afim1a que las personas muestran preferencias por las colocaciones a! responder
reactivos de opci6n multiple, por el hecho de que es mas probable que seleccionen como correctas
ciertas opciones (digamos by c) queotras (a y b). Aunque las investigaciones no han podido demos-
tear un efecto significative deesas preferencias por las colocaciones (Wilbur, 1970: Jessell y Sullins,
1975). es aconsejable ordenar los reactivos de opci6n multiple y de falso y verdadero de manera que
las respuestas no sigan ningun patron establecido. Esto puede lograrse al colocar las opciones para
los reactivos de opci6n multiple en orden alfabetico, pero una cstrategia mejores colocar las opciones
en orden aleatorio. AI seguir este procedimiento se asegura que porto menos Ia persona que elabor6
Ia prueba no tenga ni ngunn inclinaci6n al ordenar las opciones correctas. Desde luego. cuando se utili-
zan como opciones "todos los anteriores" y/o "ninguno de los anteriores". deben colocarse al ultimo.
Tambicn pueden ser utiles algunas recomendaciones para ordenar los tipos de reactivos. Por
ejemplo, colocar los reacti vos de respuesta corta en grupos de cinco o una cantidad parecida reduce
los errores al presentar y calificar Ia prueba. Para los reactivos de aparejamiento o reordenamiento.
es mas conveniente para los sujctos y facilita Ia calificaci6n que todas las opcioncs aparezcan en la

,
I'
misma pagina. Por ultimo. debe proporcionarse espacio suficiente para responder los reactivos de
respuesta corta y de ensayo, ya sea que las respuestas se escriban en el folleto de Ia prueba o en una
hoja de respuestas separada.
Con respecto del esquema de Ia prueba como un todo, puede esperarse que Ia tarea del sujeto
sea mas sencilla si se agrupan todos los reactivos del mismo tipo (opci6n multiple. falso y verdadero,
etcetera) y aquellos que tratan del mismo tema. A pesar de que es cierto que ordenar los reactivos
en grupos de acuerdo con ellipo o tema facilita Ia preparacion, aplicaci6n y calificaci6n de Ia prueba,
no hay evidencias de que esta pr~ktica mejore las calificaciones.
Tambien es razonable suponer que las calificac iones de u na prueba seran mas altas si los
subgrupos de reactivos se colocan del mas f:kil al mas diffcil. Puede suponerse que el exito al res-
ponder los reactivos mas faciles crea anticipaciooes positivas de exiro posterior y. por tanto. motiva
a los sujetos para esforzarse mas en los reactivos mas diffciles. Sin embargo, una vez mas,los descu-
brimientos no siemprehan confim1ado esta suposici6n (Allison. 1984; Gerow. 1980; Klimko.1984).
Es probable que un reactivo facil ocasional mejore el desempeno en los subsecuentes, pero, en gene-
ral. colocar los reactivos en orden dedificultad parece tenerpoco o ningun efecto en las calificaciones
de las pruebas de opci6n multiple. Hay excepciones para esta conclusion; por ejemplo, las pruebas
nipidas (Plakeet al, 1982) o muy diffciles (Green, 1984: Savitz, 1985). E n las pruebas nipidas o muy
diffciles, colocar los reacti vos di ffciles a! final de la prueba parecen mejorar todas las calificaciones.
Una conclusi6n 16gica en Ia busqueda de hallazgos sobrc los efectos de ordenaci6n de reactivos
conforme al nivel de dificultad, es que. en Ia elaboraci6n de pruebas de faciles a dificultad moderada.
los disenadores de tests harlan mucho para estar menos preocupados con las disposiciones de
re.acti,·os y mas interesados con cierta elaboraci6nde que los reactivos, esten bien escritos y medidos
pan que estos se presten a medici6n. Pero. cuando un testes muy diffcil o rapido. las disposiciones
de los reactivos seguin1n el orden del mas f:kil al mas diffcil pudiendo asegurar un uso mas eficiente
dd tiempo. asf como mejorar Ia rnotivaci6n y. por tanto, dar como resultado calificaciones mas altas.
s ":i; ..t~

;.,...
._.. *•••:-•a•
~ ..-...aa·..,..-...,aede las pruebas que se aplican en cl salon de clases, sobrc todo en los primeros
:.W ::. ~cs~ pc.dira los alum nos que marquen sus rcspuestas en los folletos de las pruebas.
40 Metodolog1a de Ia evaluaci6n

Esto da como resultado menos errores al responder. En los reactivos objetivos, pedir que los sujetos
escriban las tetras o respuestas apropiadas en los espacios del margen ala izquieraa de las preguntas
tambien facilita Ia calificaci6n.
Las hojas de respuestas separadas, que son mas sencillas para calificar, pueden utilizarse en los
iiltimos afios de primaria y grados posteriores. Si Ia prueba se va a calificar mediante una maquina,
de ben utilizarse las hojas de respuestas que se distribuyen en forma comercial (figura 2-2). En estas
hojas de respuestas, los sujetos indican sus respuestas alllenar el cfrculo con el numero o letra que
corresponde o el espacio cont:iguo al numero del reactivo. Si la prueba se va a calificar a mano, el
maestro puede elaborar con facilidad una hoja de respuestas y reproducirla. Como ejemplo, una hoja
de respuestas para una prueba con 50 reactivos de opci6n multiple puede tener el formato siguiente:

l.at>cde 26. a b c d e
2. a b c d e 27. a b c d e

25. a b c d e 50. a b .;: J e

Se indica a los sujetos que marquen con una diagonal (/) o una cruz (XJ la letra que ..:orresponda a
la respuesta correcta paracada reactivo. Las hojas de respuestas SCANTRON que pueden calificarse
mediante una maquina o a mano; pueden conseguirse con facilidad.

Reproducci6n de una prueba

Todas las instituciones educativas tienen instalaciones para la reproducci6n de materiales escritos
.o impresos que se utilizan en el salon de clases. En Estados Unidos, la mayor parte de las escuelas
y universidades ya remplazaron las maquinas de mirne6grafo y copia al carbon con maquinas
._ fotocopil!4?ras. Estas maquinas pueden utilizarse para copiar los folletos de las pruebas en un formato
de impresi6n con una o dos caras. Si se va a emplear el mismo tipo de hoja de respuestas para
diferentes pruebas, puede imprimirse una cantidad mayor ala vez y almacenarse para otras pruebas.
AI recibir Ia prueba, con frecuencia las personas "se adelantan" y empiezan a contestar los
reactivos sin leer prirnero las instrucciones generales. Esto es en especial cierto en las pruebas que
se aplican en el salon de clases, ya quemuchos alumnos suponen que conocen como realizar la prueba
'
y que leer las instrucciones es una perdida de tiempo. Por tanto, se aconseja que quien administra
Ia prueba lea a todo el grupo las instrucciones generales antes de distribuir los folletos de la prueba
y hojas de respuestas. Despues de leer las instrucdones generales y antes de responder las preguntas,
pueden distribuirse las hojas de respuestas y leer en voz alta las indicaciones para marcar las
respuestas. Despues, deben distribuirse los folletos de Ia prueba volteados y pedir que los alumnos
los vean hasta que se les indique que pueden empezar. De esta forma, todos empezaran Ia prueba al
mismo tiempo y ninguno podra argumentar que obtuvo una calificaci6n baja porque la persona que
aplic6 la prueba no explico como deb ian marcarse las respuestas, cuanto tiempo ten fa para responder
o algun otro aspecto.
Las instrucciones para una prueba deQen indicar a las personas lo que deben hacer y cuanto
tiempo tienen para hacerlo. De manera mas especifica, las instrucciones deben indicarse•.en lenguaje
rdativamente sencillo, el prop6sito de Ia prueba, los limites de tiempo, como deben registrarse las
• •aln de tests 41

~ 1: Vocabul~rio

r~ ~.OS .. 00~
2s(!)<2)<!)~ 39 -D®w® Prueba de R endimiento
· ~•® u®®0® 26@)®0® 40~®0®
• ~·b<D® 1 13 00<2>®
••<!>®CD®
27(!)0{!)0
28(§)00®
••W><Y0
4Z $~@
STANFORD
·.::~®® 15 0<00>0 29(!)®~0 43(!}0®0 B.ateria p~ra nivel intermedio II
z:!J®<D® 16 @®0® 30®®0® ··®~~®
l~ 17 <!><i>®® 31(i)q)OO 45~ Hoja de respucsus MRC
•000® 18 @®0® 32®00€> 46\!)@-1)®
S00@® 1900@0 33~0 4700®® Nombrc
6®®G)® 20 (!}(!XD® 3•®@00 •• ®00®
100®@ 21~ 350@(2)® 490 0<»0 Profesor
8@)®0@ 22 ®®0® 36@@0® 50 @)@0®
90@@0 23 (!)000 37 (i)(i}(OO)
10®@0® 24@<00)® 38@)®0®
EscueI> Grado
--
Cittdad Esudo _ _

l
PR UEBA 2: lectura de comprension

A~
£1EMPlOS
B@®CZ)€)
~ 17
16 0<!)@)@)
®@CD®
18@@0@
lS~
36@®0®
37 00®0
54 @XOO)®
ss (i)(OO)®
56@®0®
Fecha de !a prucbi

Feel~ de nacinuento
•fto mes dfa

19 0®@)0 38@)®<1)® S7 (i)(OO)® al\o n= dfa


•00<00:> 20®@00 390@®0 58®®<1)® NiiioO Ed>d
2®®00 21 00®® •o ®®G>® 5900@® NiA• O anos m~e.s

3(!)(00)0 22 @@0® •• 00<»0 60 @®0®


• 0000 2300®@ •z ®®<D® 61 (!)(00)® For10a dc Ia JlfUCbi AD BO co (marque uno)

s<D<V<Ml 24 ®®<D® &2®®0® ~~~0®0®0®6®® t-


&®COOl® 2500®0
43(!)0Q>®
44@)@)0® 63 00®® ~'---
~ r-
<>@>0600®®6®®
"'®Ele0®®®<9®® i ~ @0®00®®0®®
--
7 <D<!>®@
•®®<D®
26®®0@
27 0<00>0
45 (!)®®®
46 @)(00)@
64 ®®<D@
65~0
~®eeee@®e®®
2 t- c@0@000@t:J®®
~f-
" ..~"'~0®@
1--®0®000®0®® -
9 <D<i>®0 21 ®@0® ., 00@0 66®®0® gl- "'@10®00®®0®® i·..®066®0®6®® -
29 (!)~ 48@{)1)® 67 (!)(00)0
gt- "'®0~0e<:l®® ~~0®®®@90®@;
~ 1~··®0@00®@0®® -
•o®®G>® ... ®0000®®6®®
t1(!)®®® lO®®(i)® 49(!)®®® 6$@)@00
~f- "-®0080000®@ "'
12®®®®
u(j)Q)®®
31 <D®\t~
32@®0®
50~-@0®
51.::;-~
69 0 0®0
10~®
"r- --. .. .. .,
000000000000 ·~
" 0~<9®@ . .
~ @@>®®® :--
• O •fiiM · Ih~"' ·l!l

~~
14 ®®<!)® 3300®@ Si ~~ ,,~

34@@00
IS (!)(00}0 53 (i)(i)~@
~~ ~ ! :iih hiih~h !! ®00000®0®@
-
PRUEBA 3: Capacidades para el e studio de p•l• bras
,.,.." 12®®CD@ 1 80~:2)~
:1 .. "' w. c
J Z 0 L

- ,:.~0@®®06®~®~0@®@0~00@0@
.
0 ®0®0
~ ., ...
I
s<D®Q)®
~ Ill ~ .. -~®~®0<&
r-
fJEMPlO
A~
•0®<00>
I 6®00®
70®@0
8~
130cr>(D0
14@)®0®
15(!)®®®
~o®®0®
21 0<00)0
22~ ml

u
-

~ :::~~8~®000~~@0® 1--
• • C o •• O• •••~>
f-
•• r-
~ oe:!-s~~·S®%'33~G~®®0@®®0<3>~®0<9 r-
2@Ci)(i)@
3~0
9 0®(2)0
10 <i)(i)(i)®
16®®0®
17 00<»0
23 0 0®®
24 @)@(!)® • y . ... 0 - · .. .. " - Z 0 L It Oil ~ ., > ...
•®®CD® 11~ II ®<!Xi)® 2!i(!)OO@) 0®®®@~~~3~Z2:l~@0@J~
• .., .. .., .. - .. ? .... 0 "' 0C140..~> )C~N
r-
r-

f
PaJte 8 43 (i)(i)(l)<!)® O®®®~®e®~ ;:.sg 2.t ~~0@®®0<3>00®0® 1--
36@®0®® 44<i)~ 0-~ ~ "- .. c ~-:> > >
l:·~CD®e
fJEMPlOS 0<000®
30~ 37~
·~ <.i>®<1>®® 3 9®@®®®®®-~ .s.! z ~l:~@®@®GXOOl0CJ>®0® r-
c(l)®(!)®e a• <D®®®® 38@@0®® 46®@®®® ~ ~@)€)€)® )( )- N
1-
32@®0®® 39(j)(i)@®® 47 <D<i>®®® ~p®®®®®®®®0S Z3~~~®®0@0CJ>®0®
26®®<D®E> 33 0®<2>0® 40 ®®<i>®® 48 ' , U w..{,) - .. v _ ZO• ~ ._. > ,_~
r-
27(!)0@®® 34 ®®CD®® r-
•• 00<2>0® 49 G)(i)@0® 0®®®®®®®®06®0®®®@@®®8@0®®0® r-
28@@0®® 35 0@®0® 42 ®®0®® so<i)<i)(i)<f)® ~" ~ :>>)II>

PltUEBA 4: Conceptos malematioos


~to-IPtO • 000® 60(!)®0 ••®®00 1600®® 210000 26 00®® 310@00
0eE)® 200®® 7®@0@ 12 (!)0®@ 17 0®€}0 2200®0 27 <!)®(D® 320<!>®®
30®€)@) 80<00)@ llCD®®@ 1800®0 23 0®®® 28 00®® 330®®0
4 <!>0®® 9®@00 14 (!)(!)®@ 19 0 @(!)@) z•00®® 29 0@00 340(!)@)0
S(!)00@ 1000®0 150000 20 (.o0<!)0 250®0@ 3000®0 350@00

Figura 2-1 Hoja de respuestas que puede ser calificada con maquina.
(Reproducci6n de MRC Answer Sheet for Stanford Achievement Test: septima edici6n. Derechos
reservados © 1982 por Harcourt Brace Jovanovich, Inc. Reproducci6n con autorizaci6n especial del
editor.)
42 Metodologia de Ia evaluaci6n

respuestas y como va a calificarse. Ademas. estas deben indicar si se aconseja adivinar cuando se
tenga duda sobre alguna respuesta. Cn ejemplo de instru.::iL1nes detalladas para una prueba acerca
de la preparaci6n, aplicaci6n y calificaci6n de est.: es ei ;..;,;uiente:

Escriba su nombre en Ia esquina superior der-e.::ha de:.:: hc:1.;; je ~= : ; ::e; :.J.s. ;:;C' escriba nada en el folleto de Ia
prueba. El prop6sito de esta prueba ~s det~r.ru:-.:;: s:.:s :.:::.:·: ::::::.-n:.2.; :· : ~ ::-.;:- ~ensi6n de Ia preparaci6n,
aplicaci6n y calificaci6n de prue~J£. Ha; 5f · te.::! .:~:~·.:-. ;. ire:nes y tend ri 50 m::n;:.:-i' ;-.::;.:: terminar Ia prueba. En
Ia hoja de res puestas, indiq'.le su respu~c.; p.:~ cJda reactivo llenando el espacio q t.:e s-e encuentra debajo
de Ia letra que corresponde a LJ. xsp~;es~. S:; : alificaci6n sera Ia cantidad total de reac ti,·os que responda e n
forma correcta. Por tant0. deberi :~::.:::.; j e adiv inar cuando tenga duda sobre una respuesta. :\o deje ningt'J n
reactivo sin contestar. Si te::rr.:na ::.:He; de l tiempo establec.ido, por favor permanezca sentantlo eo siiencio hasta
que todos terminen.

PRUEBAS ORALES

Las pruebas orales se definen como una situaci6n de evaluaci6n en Ia cual los s ujetos dan las
respuestas a las preguntas oralmente ; las preguntas se presentan en forma oral, escrita, o en ;1m bas.
Las pruebas de rendimiento orales son mas comunes en instituciones educativas europeas que en
Estados Unidos, dondeel uso de pruebas orates seha reducido a traves de los afios yes menos comun
en los grados superiores que en los elementales (Graham, 1963: Hitchman, 1966).
Se afirma que a los alumnos no les agradan las pruebas orales y creen que son medidas injustas
del conocimiento y comprensi6n. Por otra parte, los maestros de ortograffa, arte dramatico, ingles
e idiomas extranjeros con frecuencia lamentan Ia falta de atenci6n actual a Ia evaluaci6n de habili-
dades dellenguaje hablado y creen que Ia consecuencia de este dcscuido es que muchos ciudadanos
no pueden hablar de manera correcta, comprensible y c6mocla. Mientras que muchos maestros de
idiomas y otras materias en las cuales el desarrollo de las habilidades dellenguaje hablado es impor-
tante admiten Ia conveniencia de los ejercic:ios y evaluaciones orales, tam bien reconocen que las
pruebas orales son ineficaces y subjetivas (Platt, 1961; Crowl y McGin itie. 1974).
Desde los primeros afios de este siglo, las pruebas de rendimiento orales se han considerado
ineficaces y con faltas de exactitud psicometrica. Tam bien han recibido crfticas por consumir mucho
tiempo, proporcionar una muestra limitada de respl•es tas y estar mal planeadas en muchos casos.

Ventajas de las pruebas orales

A pesar de las desventajas de las pruebas orales, incluso sus criticos admiten que poseen algunas
ventajas sobre las pruebas escritas. Una deestas es lasituaci6n social interactiva que ofrecenlos .exa-
menes orales, permitiendo Ia evahJ.~9i6n de cualidades person ales como Ia apariencia, el estilo y la
fo"fnia de hablar. La situaci6n cara a cara tambien hace que sean me nos p robable los engafios y quiza
ias falsas aparienc.ias. Otras ventajas de las pruebas orales so~1 que con frecucncia requieren ~·es­
puestas en un nivel intelectual mas elevado que las pruebas escritas y ofrecen una pnictica en Ia
comunicaci6n oral y Ia interacci6n social (Peterson, 1974). T ambien motivan una revision mas
detallada del material y pueden terminarse en menos tiempo que los examenes escritos. Las personas
que administran pruebas orales pueden seguir los procesamientos de peosamiento de los sujctos y
localizar con mayor facilidad los Ifmites de su conocimiento y comprensi6n . Estos lfmites pueden
determinarse aJ pe9:ir a las personas que expliquen, defiendan o amplfen sus respuestas. Por ultimo,
- ----
· · -- I!Xl·· a:lc5n de tests 43
ef trempo necesario para preparar y evaluar las respuestas orales puede sermenorque para las pruebas
es.:-ritas (Glovrozov, 1974: Plan. 1961 ).
Las pruebas oralcs son en especial apropiadas para ninos de escuela prim aria y para aquellos q ue
tiene n defici enci as para Ia lectura o e c ri tura. Incluso en grados mas ahos. se justifica Ja apl tcaci6n
de un examen oral ocasional c uando nose cuenta con mucho tiempo y/o instalaciones para copiar
los materiales de pruebas (Green. 1975). En las materias como ort?graffa. idiomas extranjeros y arte
dr~matico, los examenes o rales :.on cruciales.

orales contra escritos

El que las calificaciones e n pruebas de reodimiento orales tengan s61o correlaci6n moderada con las
calificaciones en pruebas escritas sugi~re que ambos tipos de evaluaci6n m iden distiutos aspectos
del rendimiento. En general, el conocimiento de hechos especificos puede evaluarse rapidamente con
pruebas de rcndimiento escritas, de modo que los examenes orales no deben contener gran cantidad
de estas preguntas. Por otra parte. igual que sucede con pruebas de ensayo, las pruebas orales son
mas apropiadas cuantlo las preguntas requie ren de respuestas extensas (Green, 1975).
Ya q ue los rendimientos o comportan1ientos que evaluan las pruebas orales son qu iza tan
importantes como aquellos que miden las pruebas escritas. puede argumentarse q ue debe prestarse
mas atenci6n a Ia principal fuen te de CrTor en las pruebas orales: las personas que aplican Ia prueba
o evaluadores. Quienes aplican pruebas orates necesitan un conocimiento muy am plio de Ia materia
y una conciencia muy aguda de las respuestas apropiadas. Ademas, las categorias queemplean para
describir o cali ficar las respuestas de Ia personas deben citar comportamientos especf:icos y
ol?servables. en Iugar de conceptos poco claros como potencial creativo, ca rticter, capacidad &'el/eral
o efectividad inte1personal. Estos conceptos, que quiza no pueden definirse, no se eval(lan uin
f;kilmente por medio de pruebas orales como mediante las escritas.

Este capftulo se ocupa sobre todo de los procedimientos para elaborar y calificar las pruebas je ren-
dimiento, pero much us de los princi pios estudiados tam bien pueden aplicarse a otras clases de instru-
mentos de evaluaci6n psicol6gica y educativa.

' . El primer paso en la e laborac i6n de una prueba de rendimiento es preparar un~Jista de objeti-
vos conductuales a evaluar. Asf, debe elaborarse una tabla de especificaciones que proporcione la
..-antidad de reactivos necesarios en cada categorfa de contenido (tematica) para cada obj etivo
conductual. Se han propuesto distintas taxonomias. o metodos para c!asificar los o~jetivos
~onductuale s en areas coguoscitiva. afectiva y psicomotriz. La taxonomfa mas popular de los
objeli \'OS educativos es Ia Truonomy of Educmional Objecti1•es: Cognitive Domain de Bloom y
Krathwohl.
Tan to las pruebas de ensayo como las objetivas poseen ventajas y desvcntajas. Los reactivos de
cnsa~ o ,on mas faciles de elaborar, pero los reactivos objetivos puedencalificarse con mayor rapidez

-
y pr-ttls,o::;. Las pruebas objctivas tam bien ofrecen una muestra mas rcpresentativa del contenido de
b~na _ Las preguntas de rcspuesta corta, falso y verdadero. opci6n m ultiple y aparejamiento son
!\e.- · ...-i.:aci<mes de ios reactivos de pruebas objetivas. De estos, los reactiYos de opci6n multiple son los
_ . ,·ers.itilcs ~ popularcs.
44 Metodologia de Ia evaluaci6n

En Ia fom1aci6n de una prueba, debe prestarse atencion a facto res como Ia extension y el form a-
to. el metodo para registrar las respuestas, las instalaciones para reproducirla y las instrucciones para
la aplicacion. Las instrucciones para aplicar una prueba incluyen informacion sobre el(los)
proposito(s), lfmites de tiempo, procedirniento de calificacion y si se aconsej!l adivinar cuando se
tenga duda. Las pruebas orales no se utilizan con tanta frecuencia como las escritas, pero cuando
se planean, aplican y evaluan con detenimiento, pueden proporcionar informacion que por Jo regular
nose obtiene mediante otros metodos de evaluaci6n.

EJERCICIOS

1. Elija un tema para una prueba en un area de interes para usted, establezca sus objetivos
conductuales y de contenido, elabore una tabla de especificaciones y disciie una prueba
objetiva sobre el tema, que dure 1 hora y en Ia que utilice varios tipos de reactivos.
2. Diseiie su propio sistema de salon de clases para los objetivos educativos en el area
cognoscitiva. £,En que fo1ma difiere su sistema de aquellos descritos en el texto? £,Que
ventajas o desventajas particulares posee?
3. Describa las cualidades y debilidades relativas a las pruebas de eosayo objetivas. i,Para que
prop6sitos yen que circunstancias es apropiado cada tipo de prueba?
4. i,Por que casi siempre se considera que los reactivos de opci6n multiple son superiores a los
otros tipos de reactivos? ~Puede imaginar alguna situaci6n en Ia cuallos reacti vos de falso
y verdadero, terminacion o aparejamiento sean preferibles a los de opci6n multiple?
5. Redacte cinco reacti vos de respuesta cona 1tcnn.i.naLiOn '· ci.aco de fal.so ~ Yerdadero y cinco
de opci6n multiple sobre la sda:rioo sigwente:

Una raz6n eu Ia escasez de datos .,sicornet.1icos sobre an cianos es que, su comporlamiento es menos susceptible de ser
conlrolado porpsic6logos y educado::es. f:o::uenlemente se muestran renuentes a some1erse a pruebas. l:::xisten varias razones
para Ia falta de cooperaci6n por pa:te de lo~ ancianos, entre ~stas Ia escasez de liempo, el entender o percibir pruebas como
triviales o sin importancia y e! temcr a hacer mal las cosas y parecer absurdos (Welford, 1958). Los adullos mayores. mucho
m~s que los adultos j6venes que estan consciemes de las posibJlidades de las pruebas. no desean realizar tareas que los hagan
parecer ridfculos o que no tengan imporlancia en su vida.
Ya que., desde un principio, los ancianos demuestran poca molivaci6n para some1erse a prueba. se requiere sensibilidad
y tacto por parte de las personas que administran las pruebas psicol6gicas para obtener respuestas v6lidas. Por desgracia, con
frecuencia es moli vo de duda si las personas cfkientes en el aspecto t~cnico pero j6venes pueden establecer Ia armonia necesaria
con los ancianos. transmilir las inslrucciones adecuadarnente y estimularlos para que pongan todo su esfuerzo (Fletcher. 1972).
Relativamente pocas personas que aplican pruebas mentales parecen tener Ia capacidad y experiencia suficiente en el examen
psico16gico de ancianos. Sin embargo, Ia mayor parte sedan cuen1a de que, una vet que los ancianos acceden a someterse a
prueba. se muestran tan motivados como las personas j6venes (Welford, 1958).
lncluso cuando los ancianos cooperan y estrul molivados para esforzarse, los IImiles de tiempo para mucbas pruebas, Ia
disminuci6n en sus senlidos. Ia dis1racci6n y f4cil cansancio de muchos de ellos hacen que se les dificulte tene1 un desempeiio
satisfactorio. Por ejemplo. una de las caractensticas mas comuoes en los ancianos es que sus reflejos y movimientos fisicos
I tienden a ser mas lentos. Por esta raz6n, las explicaciones de Ia redueci6n en las calificaciones de los ancianos en Areas como
aprenditaje y memoria deben tomar en cuenta esle becho. A pesar de que, por lo regular, los ancianos tienen desventaja en las

I pruebas con lim tie de tiempo. su desempei\o mejora significativamente cuando se Jes da 1iempo suficiente para responder.
Como consecuencia, en las pruebas sin limite de liempo, los ancianos muestran poca o ninguna diferenc ia en relaci6n con los
j6venes.
La disrninuci6n de los senlidos. en especial el visual y el auditivo, pueden interferir con el desempeilo en Ia vejez. Pueden
ser uliles los materiales de prueba especiales. como letras grandes, y personas capacitadas que est~n pendientes de estas
carencias. No obstante, en ocasioues, Ia disminuci6n de los seutidos puede ser en realidad la fotma de ocultar un problema en
Ia lectura y Ia comprensi6n auditiva. Por ejemplo, el au tor tuvo Ia experiencia de preparar para una prueba a un anciano quien,
45
~::ado por su faha de capacidad para La lectura. olvid6. por convenienci a. sus anteoj os y. por tanto, no pudo leer el material
~ AJI:en. 1980. p4ginas 120-121 ).

6. ~ Cuales son las ventajas y desventajas de las pruebas orales en comparaci6n con las pruebas
escritas? (.En quecircunstancias son apropiadas las pruebas orales? (.Como deben diseiiarse,
aplicarse y calificarse?
7. Uti! ice el programa 4 ("Preparaci6n de una prueba objeti va") en Ia categorfa 2 ("Program as
sobre Ia elaboraci6n, aplicaci6n y calificaci6n de pruebas") de Computer Programs for
Psychological Assessmellt para preparar una prueba corta (1 0 reacti vos) de opci6n multiple
sobre uri a materia que le interese. Despues, uti lice el programa 6 en Ia misma categorfa para
I aplicar su prueba a varios compaiieros de clase y califfquela. La palabra clave para el
programa 4 es makit y para el programa 6 es taki1.

I BIBLIOGRAFfA

Aiken. L. R. (1982). Redacci6n de reactivos de elecci6n multiple para medir objetivos educativos

I de orden elevado. Educational and Psychological Measurement, 42, 803-806.


- - - (1987). Tests con reactivos de tests multiples. Journal of Research and Development in
Education, 20(4), 44-58.
Albrecht, J . E. y Carnes, D. ( 1982, noviembre). Panunetros para desarrollar y administrar el test de
ensallo. NASSP Bulletin, 66, 47-53.
Cirn, J. T. (1986, invierno). Tests de falso o verdadero contra preguntas de respuesta corta. College
Teaching, 34, 34-37.
Diekhoff, G. M. (1984, abril). Tests de falso o verdadero que cuantifican y promueven la comprensi6n
estructurada. Teaching of Psychology, 11, 99-101.
Gerow, J. R. (1980). Desempefio en tests sobre logros como una funci6n del orden de dificultad de
los reactivos. Teaching of Psychology, 7, 93-94.
Golden, C. J.. Sawicki. R. F. y Franzen, M. D. (1990). Elaboraci6n de tests. En G. Goldstein y M .
Hersen (editores). Handbook of psychological assessment, segunda edici6n. paginas 21-40.
Nueva York: Pergamon Press.
Nitko, A. J. (1989). Diseiio de tests que se integra con instrucciones. En R. L. Linn (editor),
Educational measurement, tercera edici6n, paginas 447-474. Nueva York: Macmillan.
Thissen, D., Steinberg, L. y Fitzpatrick, A. R. (1989). Modelos de elecci6n multiple: los distractores
tambien son parte del reactivo. Journal of Educational Measurement, 26(2), 161-176.
Weiten, W. (1984). Violaci6n de los principios de elaboraci6n de reactivos scleccionados en la
cuantificaci6n educativa. Joumal of Experimental Education, 52, 174-178.
EQUIPO 4
Hogan, T. (2004). Pruebas psicológicas. Una
introducción práctica. México: Manual Moderno.

Objetivos
1. Defin'rr conflabilidad tal como se usa el termino en las pruebas psicol6gicas.
2. Refrescar tu conocimfento de conceptos estadfsticos b8sicos relacionados con Ia correlaci6n y pre-
dicci6n, incluyendo factores que afectan Ia magnitud de las correlaciones.
3. Distinguir entre confiabilidad y validez, entre distintos usos cotidianos del termino C?nfiab/Jidad, entre
cambios reales y fluctuaciones temporales, y entre errores constantes y errores no sisteml:lticos.
4. ldentificar las principales fuentes de fa Ita de confiabilidad de las puntuaciones de las pruebas.
5. Describir los componentes de Ia teorfa de Ia puntuaci6n verdadera.
6. Para cada uno de estos metodos de confiabilidad, decir cOmo se !leva a cabo un estudio y que fac-
tores que afectan Ia confiabilidad atacan: test-retest, interjueces, formas paralelas, consistencia interna.
7. Definir y calcular el error estandar de medici6n y los intervalos de confianza.
8. Distinguir el error estandar de medic16n del error estandar de Ia media y del eJTOr estandar de estimaci6n.
9. Definir que significa precisiOn de Ia medici6n en Ia TRR.
10. Describir que teorla de Ia generalizabilidad se describe.
11. Detenninar cOmo los factores que afectan el coeficiente de correlaci6n influyen en los datos de confiabilidad.
12. Ofrecer puntas de referenda de los niveles aceptables de confiabilidad.

lntroducci6n
Juan hace Ia prueba de admisi6n a Ia universidad el formas. Lla calificaci6n de Tomas sera muy distinta si
silbado 2 de octubre, despues de una dura semana le toea Ia forma A o Ia forma 8?
en Ia escuela, coronada par un partido de futbol Ia l.Oue tanto fluctCJan las puntuaciones en una
neche del viernes. Tambien RaUl hace Ia prueba el 2 prueba de personalidad de un dfa a otro? LOue tan
de octubre; se siente filoso como cuchillo y dispues- parecidas son las calificaciones de un ensayo depen-
to a comerse el mundo. LJuan y RaUl obtendr8n pun- diendo de quiEm lo califique? Cuando dos cllnicos
tuaciones considerablemente distintas si presentan el emplean una forma pars valorar Ia gravedad de un
exam en el sc'ibado 9 de octubre, cuando sus circuns- desajuste psicol6gico, l.€5 probable que concuerden
tancias personales sean diferentes? en sus valoraciones?
La clase de qufmica de Tomas incluye a 700 de Todas estas preguntas se relacionan con el tema
nuevo ingreso. Para evitar que hagan trampa durante de Ia confiabilidad. Este capitulo considera cOmo res-
el examen, el profesor toma 100 problemas y los divi- ponder a esta clase de preguntas. Antes de empezar
de en cuatro para tener las formas A, 8, C y D del exa- nuestro tratamiento formal de Ia confiabilidad, debe-
men, con 25 problemas cada una. Reparte al azar las mas hacer cuatro dlstinclones importantes.

75
··1@!r··.·
\;}'

Cuatro distinciones importantes ,-----~~-----=~1


Resumen de puntos ~lave 4-1
Primero, debemos distinguir entre confiabilidad y va- Cuatro distinciones importantes de Ia confiabilidad
lidez de las medidas. La vaHdez se tratara de manera 1.Confiabilidad frente avalidez
mas completa en el siguiente capitulo. pero Ia defini- 2. Usos cotidianos en oposiciOn a definiciOn tecnica
remos brevemente aqui para contrastarla con Ia con- 3.Cambio real frente a. cambia temporal
fiabilidad. La validez se ocupa de lo que mide una 4. Errores sistem8ticos 9 constan.tes contra errores
prueba, es decir, si mide lo que pretende medir; en no sistem.3ticos
cambio, Ia confiabilidad se ocupa sOlo de Ia consis-
tencia de Ia medida, sin importar que es, con preci-
siOn, lo que se esta midiendo. Una medida puede ser
-
confiable sin ser valida; por ejemplo, Ia prueba de qui- debidas a quien se encarga de calificarla. Los cam-
mica a Ia que nos referfamos antes- puede ser muy bios reales no son fuente de falta de confiabilidad,
confiable, pero puede ser mas una medida de habili- mientras que los otros factores silo son, a menos que
dad matemStica que de conocimiento sabre quimica. estemos tratando de medir cambios en el estado de
Puede haber un excelente consenso entre los clinicos animo o emocional. No hay una clara demarcaciOn
que valoran un desajuste, pero Ia forma de valoraci6n entre los cam bios temporales a corto plaza y los cam~
puede ser mas una medida de habilidad verbal pobre bios reales a largo plaza, pero Ia distinci6n es impor-
que una de desajuste. Aunque una prueba puede ser tante en terminos conceptuales.
confiable sin ser viii ida, no puede ser val ida a menos Cuarto, necesitamos distinguir entre errores sis·
que sea confiable. En este capftulo, nos ocuparemos temclticos o constantes y errores no sistemciticos en
s61o del tema de Ia confiabilidad. nuestras mediciones. Un error constante lleva a que Ia
Segundo, debemos estar conscientes de las dife- puntuaciOn de una persona sea sistemiiticamente alta
rencias entre los usos cotidianos de Ia pafabra con- o baja, sin importar Ia constancia en el rasgo que se
fiabilidad y su uso tecnico en el campo de las pruebas esta midiendo en !a condici6n que Ia persona este pre·
psicol6gicas. En lenguaje cotidiano. Ia palabra confia- sentando. Par ejemplo, consideremos el nivel de inteli-
bilidad tiene varios significados relacionados entre sf. genda de un niii.o cuya lengua materna es el espaf'lol,
Una maquina confiable inicia y funciona de manera pero a quien se aplica Ia prueba en ingles. Es proba·
continua cuando oprimimos el bot6n ON. Un emplea- ble que el nivel de inteligencia del nii'io se subestime,
do confiable II ega con puntualidad y casi nunca falta pero esta subestimaci6n sera relativamente constan-
al trabajo. Una "fuente par lo general confiable~ pro- te si el niFio es evaluado el mattes o el miercoles. 0
porciona informaciOn exacts en Iugar de rumores. Un consideremos a Jessica, que es buena pera responder
vendedor de autos confiable ha estado en el negocio pruebas, pues sabe detectar pistas para encontrar Ia
par aflos, se espera que continUe ahf y de un buen respuesta corrects incluso cuando no sabe much a del
servicio a los clientes. tema en cuesti6n. Jessica tiende a obtener puntuacio-
Todos estos significados cotidianos son pertinen- nes superiores a lo que su conocimiento le permitirfa, y
tes para el concepto de confiabilidad en el campo de esto sucede sin importar cuando hace las pruebas, La
las pruebas psicol6gicas. Sin embargo, Ia confiabill- confiabilidad no explica estos errores constantes, pues
dad de las pruebas tiene un Significado mas tecnico y s61o trata con errores no sistem8ticos. Podemos notar
cuantitativo. Los mejores sinOnimos en espaii.ol para que lo que llamamos errores "constantes" no son en
el termino tecnico de confiabilidad son consistencia, rea lid ad constantes, sino que son tendencies que mo·
replicabilidad y fiabilidad. Una prueba confiable, en difican las puntuaciones en cierta direcci6n.
sentido-psicometrico, produce de manera consisten-
te Ia misma puntuaciOn o una similar para un indivi- Revision de estadfstica:
duo. La puntuaci6n puede rep/icarse al me nos dentro Parte 2 - Correlacion y prediccion
de cierto margen de error. Nos podemos fiar de que
una prueba confiable producira Ia misma puntuaci6n Los coeficientes de correlaci6n y sus derivaciones
para un individuo. Este capitulo se ocupa del significa- -errores estandar y fOrmulas de predicci6n- son
do te·cnico, psicometrico, de Ia palabra confiabilidad. elementos cruciales en nuestro estudio de Ia confla-
Tercero, debe hacerse Ia distinci6n entre un cam- bilidad y Ia validez, temas de este y el slguiente capi-
bio real en el rasgo que se mide y fluctuaciones en las tulo. De ahf que sera Uti I hacer una rapid a revisi6n de
puntuadones que se pueden atribuir a cambios pa- conceptos y procedimientos clave relaclonados con
sajeros en las circunstandas personales, Ia "suerte" estos metodos estadfsticos. AI igual que en Ia revi-
de cada quien mientras hace Ia prueba o diferencias siOn de estadfstica en el capitulo anterior, suponemos

76 Pruebas psk:ol6gicas. Una introduccl6n practica


50 40 49

4i
40 30
,_
• 33 ~

~ 30 20 r- ... 25 •
j!
20 10
17 -
.
1~0 20 "30 '
40 50 oo 10 20 30 99 17 25 33 41 49
Variable X Variable X Variable X
r=+l.OO r= .00 r=-1.00
c ...,.
A
'
24 30 30
20
,_ 16 20 20
-'!
~
Q 12
j! 8 10 r- 10
4
'
26 12 18
Variable X
24 30 36 '• 17 25 33
Variable X
4i 49 'o 10 20
Variable X
30

1"'.30 r=.60 rm .90


0 E F

Figura 4-1. Eiemplos de distribuciones bivariodas y sus correspondientes r.

que el lector ha tenido una introducci6n complete a


este material, pero puede necesitar refrescar su co- DefiniciOn FOrmula 4-1
nacimiento para actfvar sus viejos recuerdos.

Distribuci6n bivariada y coeficientes


de correlaci6n FOrmula de c6mputo r= rF.~N~L~X~,~~~<~X~J~IL<Jl"-e:o:c:CC
[N.[ X2.. (.[X J'J[N .[ yl_ ( ;[ y )' J
La relaci6n entre dos variables puede representarse FOrmula 4-2
par media de una distribuci6n bivariada, tambh2n co-
nocida como dispersograma. La figura 4-1 presenta
varias de estas distribuciones: en cada caso, Ia va- El valor de r puede varier de -1.00 a +1.00. Una r
riable X esta en el eje horizontal y Ia variable Yen el de +1.00 represenfa una relaci6n lineal positiva per-
eje vertical. Cada punta (o) de una distribuci6n corres- tecta entre dos variables, como se muestra en Ia gr8-
ponde a las coordenadas (X, Y} de un Unico caso; par ffca A de Ia ftgura 4-1. Una r de -1.00 represents una
ejemplo, sl Xes una puntuaci6n de Ia forma X de una relaci6n lineal negative periecta entre dos variables,
prueba y Yes una puntuaci6n de Ia forma Y de una como se muestra en Ia gr.Sfica C. En cambia, una r
prueba, entonces las coordenadas (X, Y} representan de .00 represents Ia ausencia de relaci6n entre las
las puntuaciones de un Jndividuo en las formes X y Y. dos variables, como se muestra en Ia gn§fica B. En Ia
EJ coeficiente de correlaci6n r de Pearson brinda mayor parte del trabajo pr.Sctico en el campo de las
un resumen numerico de Ia relaci6n representada en pruebas pslcol6glcas, encontramos r que estan lejos
una distribuci6n bivariada. AI presenter las fOrmulas de ser perfectas. La figure 4-1 muestra distribuciones
de t, so Iemos distinguir entre una definiciOn basica de bivariadas de distintos valores intermedios de r: .30,
r y un c6mputo o fOrmula de puntuaciones naturales. .60 y .90. La mayor parte de las correlaciones que en-
Las sigulentes suelen emplearse como definiciones y contramos en las pruebas psicol6gicas, asl como en
versiones de cOmpute de las fOrmulas. Sin duda, las otras obras del area de las ciencias sociales y de Ia
viste en tu curso de estadfstica bSsica. conducts, son correlaciones de Pearson.

Confiabi!idad 77
Las fOrmulas de r que presentamos antes son de esta co- Cuadro 4·1. Eiemplos de los tipos de coeficientes de co-
rrelad6n. Sin embargo, existen otros tipos de coeficien- rrelaci6n distintos del de Pearson
tes de correlaci6n, algunos de los cuales son variantes J
Biserial r (rb1 Biserial por puntas r(rpb1,)
del de Pearson y se pueden aplicar cuando Ia naturaleza Tetrac6rico r (r ,) Coeficienle phi (8)
1
de Ia escala permite Ia simpllficaci6n camputacianal de Ia
Coeficiente de Correlaci6n por rangos ordenodos
fOrmula. Par ejemplo, cuando una variable es dicat6mica
r.:ontingencia (C) de Spearman (Rl "
y las Lmicas puntuaciones poslbles son 0 y 1, entonces
[l:]X IN"' p, el porcentaje de casas con puntuaci6n de 1. Correlar.:i6n Ela (1"])
Esto permite simplificar Ja fOrmula de c6mputo de r. Otros intrar.:lose (C/C)
tipos de correlad6n no son simples variaciones del coe- Kappa (l<) Tau de Kendall (<}
ficiente de Pearson, sino que se han obtenida par otras
vias. Sin embargo, todos los coeficientes de mrrelaci6n .'
pueden interpretarse de Ia misma manera que el de Pear-
son. Hay unas pocas excepciones a esta generalizaci6n, Supongamos que tenemos una correlaci6n entre.
pero las excepciones rara vez tienen implicaciones prEcti- una prueba de admisi6n a Ia universidad (X) y el gra-
cas importantes. El cuadro ~ ·1 enumera los distintos tipos de point average (GPA [promedio de las calificaciones
de coeficlentes de correlaci6n bivariada. A menos que se de un grade]) (Y). Ahara tenemos Ia puntuaci6n X de
especifique otra cosa, a Ia largo de este libra suponemos un estudiante y deseamos pr~decir su y· del GPA (usa-
que una correlaci6n es Ia de Pearson. En el capitulo 5, mas 'para indicar que se trata de una Ypredicha y no
examinaremos Ia correlacl6n multiVariada, en particular, de una Y conocida). La forma general de Ia ecuaci6n
Ia correlaci6n mUltiple y Ia correlaci6n parcial. de predicci6n es:
Y'=bX+a
Regresi6n lineal donde b es Ia pendiente de Ia linea de regresi6n 1 y a
es Ia Jntersecci6n con el el eje y u ordenada al origen.
Una vez establecida Ia correlaci6n r entre dos varia- Esta es Ia lfnea mas adecuada de acuerdo con el cri-
bles X y Y, podemos usarla para predecir et valor de teria de los mlnimos cuadrados: minimiza Ia cantidad
Y si conocemos el de X (o viceversa).
L(Y- Y')'

Una fOrmula de c6mputo conveniente, y equiva-


lente en terminos algebraicos a Ia Ultima fOrmula, es:

Y'= rxy(g~:) (X-X) +V


FOrmula 4-3

r;ry = correlaci6n entre X y Y


DE"= desviaci6n estS.ndar de X
DE = desviaci6n est<'indar de Y
X=' puntuaci6n en X de una persona
X= media de las puntuaciones X
Y =media de las puntuaciones Y
La-figur.a 4-2 presenta un ejemplo de una linea
de regresi6n. Cada punta de Ia figura represents las
coordenadas X y Y de una persona. Usamos esta lf-
nea para predecir los valores de Y a partir de los de
X; par ejemplo, Ia linea punteada en el cuadrante

1 El termino linea de regresiOn no es muy descriptive; seria


miis agradable llamarla "linea de predicd6n': Sin embargo,
el termino regresi6n se adopt6 en etapas tempranas del desa-
rrollo de esta metodologia, lo que se origin6 con el trabajo de
Francis Galton. El termino ha tenido un poder impresionante,
pero desaforrunado, para sobrevivir.

78 Pruebas psirol6gicas. Una introducci6n prilctica


,----------,--, 90,----------------------,

Y' •
I\. Y'"' bX +a
60
60f.-

y
y
...
306.~---~~.L-, 30

. '• . .: .,'' ' ..


''
o L-------~,~oc-------,+.o,-------~,o
0 X
0 o~------,,~o-------o,~o------~,o
X

Figure 4-2. Unea de regresi6n poro predecir Figura 4-3. Distribuci6n de puntuociones reoles
Yo partir de X de Y alrededor de Y'.

Inferior de Ia figura. En el case de una persona con


una puntuad6n X de 9, podemos predecir una pun-
tuaci6n Y de 29.
Desde luego, no todas las puntuaciones reales de
Y coinciden de manera exacta con Ia lfnea de predic-
cl6n (a menos que 1= +1.00 o -1.00). Entonces, hay cier-
ta dispersiOn de estas puntuaciones de Yalrededor de
Ia Hnea. Mientras mas alta es r, menor es Ia dispersiOn,
y mientras mas baja es r, mayor es Ia dispersiOn. Pen-
semos en Ia dispersiOn en un punta de Ia linea de pre-
dicci6n, en un valor espedfico de X. Suponemos que
Ia distribuci6n de las puntuaciones Yes normal; de he-
cho, asumimos distribucianes normnles equivalentes a
las puntuaciones Y' par cada valor de X a lo largo de
toda Ia linea de predicci6n. La distribuci6n de Ia figura Factores que afectan los coeficientes
4-3 ilustra esta situaci6n. La distribuci6n tiene una des- de correlaci6n
viaci6n estBndar, a Ia cual llamamos error estimdar de
estimaci6n o error est8ndar de predicci6n. Usando las Necesitamos tener presentes varios factores que afec-
caracteristicas de Ia distribuci6n normal -par ejemplo, tan Ia magnitud de las correlaciones y, por tanto, su in-
el hecho de que 68% de los casas se encuentran dentro terpretaciOn. Primero, el coeficiente de correlaciOn de
de +/-1 desviaci6n estiindar-, podemos hacer afirma- Pearson, el cual es par muciJo_el mils...llsa.do, ..explica
ciones acerca de Ia probabilidad de que las puntuacio- sOlo el grado de Ia relacl6n lineal entre dos variables.
nes reales difieran de las predichas en cierta magnitud. Si hay derto grado de no linealidad, Ia correlaci6n de
La fOrmula para el error est8ndar de estimaci6n es: Pearson subestimar<§ el verdadero grado de Ia rela-
ciOn. La figura 4-4 muestra una distribuci6n bivariada
EEy· =DEy~ FOrmula 4-4 que tiene cierto grado de curvilinealidad. Una correla-
ci6n de Pearson explicara Ia parte lineal de Ia relaci6n,
como Ia muestra Ia lfnea recta, pero no explicara Ia ten-
donde DEY es Ia desviaci6n est8ndar de Ia prueba dencia no lineal que se muestra con Ia lfnea curveada.
que estamos prediciendo y rxr es Ia correlaci6n entre Segundo, como sefialamos, suponemos que las pun-
Ia prueba que se intenta predecir y Ia prueba a partir tuaciones Ytienen una distribuciOn normal alrededor de
de Ia cual se hacen las predicciones. Ia puntuacf6n predicha Y' y que el grado de dispersiOn

Confiabilidad 79
30
. "
25
" "
'20
" "
u

"".0 15
~
..
g "
10

5 ..
0
..
0 5 10 15 20 25 30 35 40
Variable A

Figura 4·4, Dislribuci6n bivariodo que mueslra una relaci6n curvilineo.

es igual para cualquier punta a lo largo de Ia lfnea de


Resumen de puntos clave 4-2
predicci6n. Esto se conoce como ei' supuesto de ho-
mocedasticidad {en griego, de igual dispersiOn). Sin
Cuatro factores que afectan el coeficiente de
embargo, es posible que Ia distribuci6n bivariada mues-
tre heterocedasticidad (dispersiOn diferente), como se
correlatiOn f
0

muestra en Ia figura 4-5. Podemos notar que los puntas


'I
1. Unealidad ~
de los datos se agrupan de manera mils estrecha en Ia
parte inferior de Ia distribuci6n; en cambia, se dispersan
2. Heterocedasticidad
3. PosiciOn relativa (no absoluta) :~
mas en Ia parte alta de Ia distribuci6n. En este caso, el
4.Heterogeneidad grupal ~
error esti3ndar noes igual en todo el range de las varia- 0

bles, aunque lo calculamos como silo fuera.


Tercero, Ia correlaci6n es estrictamente una cues-
"---------------------------------------- •"'
ti6n de Ia posiciOn relativa dentro de cada grupo, de
modo que no requiere ni implies puntuaciones abso- estclndar o varianza define Ia variabilidad de un gru-
i
'
~~·..
lutes iguales. consideremos los datos del cuadro 4-2;
si obtenemos las correlaclones entre las puntuacio-
nes de estas pruebas de inteligencia de 10 casas, en-
po; en este contexte, Ia variabilidad a menudo se de-
nomina heterogeneidad (diferencia), mientras que su
opuesto se denomina homogeneidad (iguafdad)....Un !
'"-
contraremos que Ia correlaci6n entre las pruebas A
y B es casi perfecta y sus medias son iguales. En el
caso de las pruebas By C, Ia correlaci6n es Ia misma,
pero sus medias difieren por 10 puntas. Podrfamos
grupo muy heterogeneo produce una correlaci6n in-
flada y uno muy homog€neo, correlaciones reduci-
das. Consideremos los datos que se muestran en Ia
figura 4-6; si calculamos Ia r del grupo mas heterog€-
I•
~
inclinarnos a decir que Ia prueba C nose correlaciona neo incluido en el marco A, obtendremos una r muy
muy bien con Ia prueba B; sin embargo, rAs"' r8c = .94. alta. Si hacemos lo mismo con el grupo mas homage.
Las posiciones relatives de los casas son iguales en-
tre A y B, y entre B y C aun cuando las puntuaciones
neo incluido en el marco C, obtendremos una r mu-
cho menor. De los casas en el marco B, obtenemos

absolutas sean superiores en C. un valor intermedio de r. El ejemplo de Ia flgura 4-6
Cuarto, consideremos el efecto de Ia variabilidad es un poco artificial, porque implica restringir el ran-
grupal en el coeficiente de correlaci6n. La desviaci6n goal mismo

80 Pruebas psicol6gicas. Una introducci6n pr8ctica


Cuadro 4-2. La correlaci6n es cuesti6n de posiciOn relotivo, no de puntuoci6n obsoluto

Coso 1 2 3 4 5 6 7 8 9 10
Pruebo A 80 85 92 90 86 96 100 105 107 110
Pruebo B 80 86 85 92 90 96 105 100 107 110
Pruebo C 90 95 102 100 96 106 110 115 117 120
r "'.9A r8,"'.94
" 95.1
MA"' M8 =95.l Mc=l05.l

Figura 4-5, Distribuci6n bivariada que presenta heterocedasticidad.

,;.C6mo se podrfan presentar estas situaciones nifios de los grados 1 al 8, un grupo muy heteroge-
en Ia pr.3ctica? Supongamos que calculamos Ia neo. Podrlamos obtener una correlaci6n mucho mas
correlaci6n entre las puntuaciones del SAT y del alta que si hubi€ramos llmitado Ia correlaci6n de Ia
GPA s61o en estudiantes que se han graduado con talla de los zapatos y Ia prueba de lectura s61o a ni-
los maximos honores, es decir, con GPA superiores fios de octavo grado.
a 3.90. Este grupo es muy homog€neo con respecto Las diferencias en Ia variabilidad grupal pueden
a! GPA, par Ia que es probable que obtengamos una tener una influencia considerable en Ia magn!tud de
correlaci6n muy baja, quiz8 casi de cera, entre el SAT Ia correlaci6n. Necesitamos estar slempre pendientes
y el GPA en este grupo. Sin embargo, serfa temerario de esta influencia. Hay fOrmulas que permit en Ia co-
concluir que, por regia general, el GPA no esta rela- rrecci6n de r si Ia variabilidad del grt.!PO ha aumenta-
cionado con las puntuaciones del SAT. Si calculamos do o se ha reducido; se denominan "correcciones par
Ia correlaci6n entre el SAT y el GPA de estudiantes restricci6n de ran go". Aquf proporcionamos las f6rmu-
de todo el espectro de puntuaciones del GPA, obten- las mas usadas para tales correcciones. Ell ector que
dremos un resultado muy diferente. 0 supongamos desee conocer una multitud de variaciones de las f6r-
que calculamos Ia correlaci6n entre Ia talla de zapa- mulas para casas especializados puede consultar Sa-
tos y Ia puntuaci6n de una prueba de lectura para ckett y Yang (2000). Supongamos que conocemos las

Confiabilldad 81
1
i

A
.. .....•
• ••
B
rc----------------~~·,·

...: ..••·
II

• • •• • • •
•• •....

r=-c:,,,.r. -.••.•.~.1 •••·: ••


C


e
II
01 &

e • e •e
6
II
, .
.... :,~~~-:£~~;)~~~'" .
•''~·-- _·
e -

•• ••
• '~·~·------------------_J
•••
.. •
•• • •
X

Figura 4~6. Ejemplo del efecto de Ia restric:ci6n del ron go en el coe~dente de correloci6n_

varianzas (o desviaciones est€tndar) de los grupos con efecto de Ia homogeneidad grupal en el coeficiente
varlabilldad restring ida y variabilidad no restrfngida (o de correlaci6n (r). Sin embargo, es mas f<3cil si inserts-
que conocemos una de las varianzas y podemos ha- mas valores en las fOrmulas y observamos los resul·
cer una estimaci6n razonable de Ia otra). luego, co- tados. Ahara trabajemos con Ia f6rmula 4-5; esta es Ia
nociendo Ia r para el grupo restringido, podemos que mas se emplea, ya que los proyectos de investi-
estimar que r habrfa en el grupo no restringido. Asi- gaci6n usan grupos que son mr:Js homageneos que
mismo, conociendo Ia r del grupo no restringido, po- Ia pob1aci6n general. Queremos saber c6mo puede
demos estimar que r habria en el grupo restringido. cambiar r en nuestro proyecto si llevamos o cabo un
Para estimar que r pod ria haber en un grupo mas he- estudio con poblaciones enteras. Fijemos los valores
terog€neo a partir de una r abter1ida de Ufl grupo mils de r en .20, .50 y .90; luego, fijemos Ia DE del grupo
homogeneo, usamos Ia f6rmula 4-5. Para estimar que mas restringido alSO%, 70% y 90% de Ia DE del grupo
r habrfa en un grupa mas hamagenea a partir de una menos restringido. Par ejemplo, digamos que Ia DE
r obtenida de un grupa mils heterag€neo, usamos Ia del grupo menos restringido es 10 y que Ia DE del gru-
f6rmula 4-6. En Glassy Hopkins (1996) aparecen mas po mas restringido asume los valores 5, 7 y 9, suce-
ejemplas de las efectas de Ia restricci6n de rang a sa- sivamente Par Ultimo, aplic:amos Ia fOrmula 4-5 para
bre el coeficiente de correlaci6n. determiner que r habra en el grupo menos restringi·
do. El cuadro 4-3 muestra los resultados.
Con base en los datos del cuadro 4·3, asi como
FOrmula 4-5 de simulaciones adicionales, concluimos lo siguien·
te. Primero, Ia correcci6n para Ia heterogeneidad del
grupa tiene efectos considerables cuando Ia variabi-

..",.
lidad es mucho menor en el grupo restringido que en
FOrmula 4-6 el grupo no restringido. Par ejemplo, cuando Ia DE en
" el grupo restring ida es s61o la mitad de Ia DE del gru·
po no restringido, r puede aumentar en mas de 20
r Me= correlaci6n en el grupo menos restringi_do puntas. Sin embargo, cuando Ia DE del grupo restrin·
rMo = correlaci6n en el grupa m6s restringida gido alcanza 90% de Ia DE del grupo no restringido, el
DEMe= desviacf6n estandar del grupo menos restring ida efecto sabre res mfnimo. Segundo, el efecto de Ia co-
DEMo= desviaci6n estilndar del grupo m6s restringido rrecci6n es mas pronunciado con niveles moderados
de correlaci6n. Esta es una conclusiOn importante,
Para los mortales ordinaries, examiner las fOrmu- porque Ia mayorfa de las correlaciones con que tra·
'··· las 4-5 y 4-6 no a porta nada significative en cuanto al bajamos en psicologia son moderadas. Correlaciones

82 Pruebas psicol6gicas. Una introducci6n prilctica


Cuadro 4-3. Volores de muestra para aplicar Ia correc-
ci6n par homogeneidad grupal (fOrmula 4-5)
Resumen de puntos clave 4-3
DE en un grupo mOs r en. un r en un Principales fuentes que afectan Ia confiabilidad
restringido como grupo mas grupo menos Calificaci6n de Ia prueba
porcentaje de Ia DE en el restringido · resfringido Contenido de Ia prueba
grupo me nos restringido Condiciones de aplicaci6n de Ia prueba
.20 .38 Condiciones personales
50%
50% .50 .76
50% .90 .97
70% .20 .28
70% .50 .64 Calificaci6n de Ia prueba
70% .90 .95
90% .20 22 La variaci6n en Ia calificaci6n de Ia prueba, como una
90% .50 .54 fuente que afecta a Ia confiabilidad, es una de las mas
90% 90 .92 filciles de entender, pero tambien es de gran impor-
tancia histOries. La preocupaci6n per las diferencias en
las puntuaciones de un juez a otre -induse en prue-
bas sencillas como las de ortograffa o c81culo aritm€ti-
muy bajas (p. ej., debajo de .10) y muy altas (p. ej., arri- co- fue Una fortaleza importante en el desarrollo de los
ba de .90i son poco afectadas par Ia correcci6n para reactivos de opci6n mUltiple para las pruebas de apro-
Ia homogeneidad grupal. En caso de que esto no sea vechamiento y de capacidad.
evidRnte de inmediato, debemos sefialar que Ia co- Consideremos los casas sencillos que se presen-
rrecci6n nunca results en un cambia de Ia direcci6n tan en los cuadros 4-4 y 4-5. En el case de las respues-
de Ia relaci6n. tas de una prueba de ortograffa del ingl€-s resumidas
en el cuadro 4-5, ambos jueces, 1 y 2, concuerdan en
Principales fuentes que atentan que las dos primeras palabras estan escritas correcta-
contra Ia confiabilidad mente y que Ia tercera nolo esta. Sin embargo, eljuez 1
concede cr€dito a ~colour" como una variante legitima
Antes de formular los metodos espedficos para expre- de ~color", mientras que el juez 2 nolo hace. En cuanto
sar Ia confiabilidad de las pruebas, es importante con- a "achievement", el juez 1 le concede al estudiante el
siderar las fuentes potenciales que atentan contra Ia "beneficia de Ia duda" par las ambiguas "ie" a mitad de
confiabilidad. ,1.0ue factores o condiciones llevaran a Ia palabra, pero el juez 2 noes tan am able. As(, Ia pun-
una medici6n menos confiable? Justo estos factores tuaci6n de estos cinco reactivos varia en dos puntas
son los que los Indices de confiabilidad deben abordar. (i40%!) dependiendo de quien calific6 !as respuestas.
Cualquier cosa que resulte en una variaci6n no siste- El cuadro 4-5 muestra ejemples de respuestas de
matica de las puntuaciones de Ia prueba es una fuente una prueba de cEiculo aritmetico sencillo. Los jueces
de falta de confiabilidad. Ninguna lista puede ser ex- t y 2 concuerdan en que las respuestas a los prime-
haustive, par Ia que aquf identificamos cuatro catego- res des reactivos son correctas y que Ia del tercero
ries principales de estas fuentes. es incorrecta.

Cuodro 4-4. Respuestas a Ia pruebo dictoda de orlogrofio de ingle5


Palabrc dictada Respuesta del estudiante Juez 1 Juez2
reliability c c
testing c c
psychometrics
color c
achievement c
Puntuoci6n total 4 2
C = correcto, I= incorrecto.

Conflabilidad 83
Cuadra 4-5. Respuestas de Ia prueba de c6lculo oritmetico
Reactive Respuesta del estudiante Juez 1 Juez2
6+2 i:i c c
10-5 5 c • c
3>3 £
4+3 c
35- 12 c
Puntuad6n total 4 2
C- correclo, I- incorrecfa.

Sin embargo, en el tercer reactivo, el juez 1 concede


crl?dito al7 invertido, pues nota que el estudiante ob-
viamente sabe el resultado de Ia operaci6n, pero tuvo
dificultades para escribir el nUmero de Ia manera co-
rn~cta. El juez 2 insiste en que el resultado est€ ex-
presado correctamente. En el quinto reactive, el juez
1 nota con generosidad que Ia respuesta del estu- En resumen, Ia falta" de acuerdo entre los jueces
diante es tecnicamente correcta aunque no este ex- puede resultar en una variaci6n no sistematica en las
presada de una manera est<3ndar. El juez 2, adusto, puntuaciones de las pruebas. Las m8quinas que cali-
encuentra esta expresi6n por complete inaceptable. fican reactivos de "opci6n" por lo general eliminan tal
Estos ejemplos muestran c6mo las variaciones en variaci6n, pero ni siquiera elias est<'in par completo
los criterios de calificaci6n pueden afectar incluso los exentas de errores. Mientras mayor criteria se requie-
reactivos mas sencil!os. Consideremos cuanta varia- re para califlcar, confiabilidad. Cuando se requiere un
ciOn puede encontrarse al callticar respuestas a reac- criteria para calificar una prueba, Ia meta es tener ins-
tivos como las preguntas abiertas en una prueba de trucciones de calificaci6n que sean suficientemente
intelrgencia de aplicaci6n individual, una escala para claras y explicitas para que Ia var"1aci6n debida a los
valorar creatividad o una prueba proyectiva de perso- jueces se reduzca al mfnimo.
nalidad. Por ejemplo, muchas pruebes de inteligen-
cia lncluyen reactivos de vocabular"ro: el examinador Contenido de Ia prueba
dice una pal abray el examinado debe dar una defini-
ciOn aceptable. El cuadro 4-6 muestra dos ejemplos Las variaciones en el muestreo de los reactlvos de una
de palabras y varias respuestas para cada una; cada prueba pueden resultar en un error no sistematico en
respuesta se califica con 0 (claramente incorrecta), 1 las puntuaciones. Consideremos una prueba de mate-
(parcia!mente C01recta) u 2 (._iararnente corrects). m<§ticas usada para ubicar estudiantes en los curses

Cuadro 4-6. Respuestas muestra o los reoctivos de Vocabulario


Palabro Respuestas de examinados Puntuaci6n 0, 1, 2
Con~able >como, tU sobes, ser consistente, cumplidor I I
>duro, difkil I I
> ser lo mismo, identico I I
'
"''
'r-,: >usual I
.,
'' > un edifrcio I I
I,'·' > un Iugar o donde van los estudianles o aprender I I
f > un grupo de lipos I I
> un mont6n de Iibras I
> donde viven las maestros I I

84 Pruebas psico!6g1cas. Una introducci6n pr8ctica


de matemilticas. de una universidad, Ia cual tiene 10 Si se le aplica Ia prueba el martes, Luis puede obtener
versiones ligeramente dlstintas para usar!as con los una puntuaci6n alga Inferior porque esta un poco res~
alumnos de nuevo ingreso a Ia largo de las sesiones friade. Si Ia prueba fuera el miercoles, cuando se sien-
de orientaci6n de verano. Una versiOn tiene dos reac~ ta much a mejor, podrfa obtener algunos puntas extra.
tivos sabre el teorema de Pitilgoras. mientras que otra Jen esta de pesimo humor el viernes, cuando le apli-
vers16n s61o ~iene un reactive sabre este tema. Un es- caron un inventario de personalidad; si se lo hubieran
tudiante que t'enga un particular dominic del teorema aplicado el sSibado, ··cuando ya estaba mas relajada,
puede ebtener una puntuaci6n ligeramente mas alta su puntuaci6n habrfa sido diferente. En ambos casas,
en Ia primera versiOn que.en Ia segunda. 0 conside~ no hay diferencia de un dia a otro en el rasgo subya~
remos a dos estudiantes preparandose para un exa~ cente que se mide, pero Ia situaci6n personal influye
men de historia; el examen abarcara seis capftulos. La en las puntuaciones.
profesora incluira en Ia prueba cuatro preguntas abier~ Las variaciones en los factores que hemos consi-
tas de un nUmero petencialmente infinite que tiene en derado no dan par resultado, de manera autom.:itica,
mente. Un estudiante se cencentra en los primeros falta de confiabilidad; par ejemplo, variaciones en Ia
cuatro capftulos y da un repaso superficial a los otros iluminaci6n del cuarto o un resfriado sln importancia
dos. otro estudiante lee rc'ipid(' los prlmeros dos capl~ pueden no afectar el desempefio en Ia prueba. El gra-
tulos y se concentra en los Ultimos cuatro. Para el exa~ do en que estes factores afectan Ia puntuaciOn es una
men, los dos estudiantes saben Ia misma cantidad de cuestiOn empfrica, Ia cual abordaremos en Ia siguien-
material: sin embargo, tres de las cuatro preguntas pro~ te secciOn al considerar los metodos con que se de-
vienen de los Ultimos cuatra capftulos . .:.COmo afecta termine y expresa Ia confiabilidad de Ia prueba. Ahara
Ia variaciOn del contenida las puntuaciones de ambos trataremos formal mente estos metod as.
estudiantes? l,Due pasarfa si tres de las cuatro pregun~
tas fueran tomadas de los primeros cuatro capftulos? Marco conceptual:
Estas ligeras variaciones en el muestreo de los reac- teorfa de Ia puntuaci6n verdadera
tivos de una prueba producen errores no sistemilticos.
Las puntuacianes de los individuos aumentan o dis- La confiabilidad de las pruebas puede farmularse
minuyen, quiza s61o par pocos puntas, quizil par mas, dentro de tres contextos te6ricos en cierto modo di~
pero no a causa de diferencias reales en el rasgo que ferentes: teorfa d§sica de las pruebas (TCP), teorfa de
se mlde, sino debido a camb·1os mas o menos aleatorios Ia respuesta al reactive (TRR) y teorfa de Ia generali~
en el con junto de reactivos que constltuyen Ia prueba. zabilidad (TG). La gran mayoria de Ia informaciOn sa-
bre confiabilidad que encontramos actualmente en
Condiciones de aplicaci6n de Ia prueba los manuales de las pruebas, revistas cientfficas e in-
formes de evaluaci6n se apoya en Ia TCP. Par ella,
Una prueba debe tener procedimientos estandariza- en este capitulo nos concentramos en esta teoria; sin
dos para su aplicaci6n, los cuales incluyen instruccio- embargo, Ia TRR y Ia TG estan ganando popularidad,
nes, lfmites de tlempo y condiciones ffsicas del Iugar. asf que las presentamos al final de este capitulo.
Sin embargo, es imposible controlar todos los deta- La teorfa clilsica de las pruebas comienza con un
lles imaginables de Ia aplicaci6n aun sabiendo que marco conceptual interesante y Uti!. Las palabras cla-
tend rein alguna influencia en las puntuaciones finales. ve de este marco son puntuaci6n observada (0), pun-
Par ejemplo, el ruido de una avenida o iluminaci6n tuaci6n verdadera {\/) y puntuaci6n de error (E). La
insuficiente durante Ia aplicaci6n pueden afectar de puntuaci6n observada es Ia puntuaci6n real de una
manera negative Ia puntuaci6n de Ia prueba. Si una persona en una prueba; podemos pensarla como Ia
prueba tiene un lfmite de tiempo de 30 minutes, un puntuaci6n natw:al -por_ejemplo,.30 reactivos correc~
aplicador puede ser un poco mas generoso y con- tos de 45 en una prueba de soluci6n de problemas
ceder quiz.:§ 31 minutes, mientras que otro puede aritmeticos- aunque el concepto se aplica iguat de
ser bastante estricto y dar 29.5 minutes. Todas estas bien a las puntuacianes normativas tales como lases-
pequefias variaciones en Ia aplicaci6n de Ia prue- tandar. La puntuaci6n observada puede ser afectada,
ba pueden ser fuentes de varianza inestable en las en sentido positive o negative, par V!Olrias fuentes que
puntuaciones. afectan a Ia confiabilidad; par ejemplo, esta puntua-
ciOn puede ser un poco alta debido a Ia buena suer-
Condiciones personales te al responder preguntas de las que nose conoce Ia
respuesta correcta, o puede ser un poco baja debido
Las condiciones temparales del examinado pueden a que el examinado estuvo demasiado cansado du~
tener influencias no sistemilticas en sus puntuaciones. rante Ia aplicaci6n.

Confiabilidad 85
La puntuaci6n verdadera es Ia que una persona
obtendrfa si todas las fuentes que afectafl a Ia coflfia- ..---- Varionzo observada total
bindad pudlerafl ser elimifladas o canceladas. Podria-
mos pensarla como Ia puntuaci6n promedio obtenida Vorianza de error
en muchas aplicaciones (efl teorfa, un nUmero infinite •·
de elias) de Ia prueba en distifltos mementos yen con-
diciones ligeramente diferentes. Cada variaci6fl en Ia
aplicaci6n puede introducir cierta falta de confiabili-
dad, pero cuando todas las pufltuaciones reales u ob-
servadas se premedian, !a media podrfa ser igual a Ia Panel A
puntuaci6n vE>rdadera. Esta es Ia que en realidad que-
rem as conocer, aunque en Ia priictica nunca podemos / Vorianza abservodo total
estar par complete seguro.s, pues s61o tenemos una
puntuaci6n observada. Varianzo de error
Decir que una puntuaci6n incluye error implica· que
hay un valor hipotE>tico libre de errores que caracte-
Vorianza verdadera
riza Ia variable que se evaiUa. En Ia teorfa cl.3sica de
las pruebas, este valor se denomina puntuaci6n ver-
dadera de Ia persona en Ia prueba. Se conceptua-
liza como el promedio hipotetico de puntuaciones
obtenidas de una serie infinita de replicas del proce- Panel B
dimiento de aplicaci6n.
Standards ... (AERA, APA, & NCME, 2013) Figura 4-7. Relaciones ente los varionzas observada,
verdodera y de error.
La puntuaci6n de error es sOlo Ia diferencia entre
Ia puntuaci6n verdadera y Ia puntuaci6n observada. E
puede ser positive a flegativo. Es Ia sumatoria de to- varianza es s61o Ia desviaci6n estiindar elevada al
das las influencias no sistemc3ticas en Ia puntuaci6n cuadrado. En esta formulaci6n,
real de una persona que abordarnos en Ia secci6n de
factores que atentan contra Ia confiabilidad. La fOrmu- F6rmula 4-9
la 4-7 expresa las relaciones entre las puntuaciones
observada, verdadera y de error. 0

V=O±E FOrmula 4·7


Es decir, Ia varianza de las puntuaciones observadas
La fOrmula tamb'H~n podrfa escribirse como: es Ia suma de Ia varianza de Ia pufltuaci6n verdadera y Ia
varianza de Ia puntuaci6n de error, o bien. Ia varianza de
0= V±E FOrmula 4-8 Ia puntuac:i6n verdadera es igual a Ia varianza observada
0 menos Ia varianza de error. Estas relaciones se represen·
±E=V-0. tan en Ia figura 4-7. El pane! A muestra una prueba en la
que Ia varianza verdadera represents s6!o Ia mitad de !a
Oesde fuego, las tres fOrmulas son equivalentes en varianza observada; el resto es varianza de error. El panel
l'il
terminos algebraicos, perc cada una ofrece un modo li- B muestra una prueba en Ia que Ia varianza de error es
'" geramente distinto de pensar Ia relaci6n. Podemos notar una fracci6n relativamente pequefia del total de Ia varian-
que Ia puntuaci6n de error puede ser positiva o negative? za observada; par Ia que Ia mayor parte es varianza ver-
La teorfa de Ia puntuaci6n verdadera tambien dadera. En otras palabras, Ia prueba del panel B tiene una
",,," puede expresarse en terminos de las varianzas de confiabilidad mucho mejor que Ia del panel A.
las puntuaciones de Ia prueba. Recordemos que Ia Con base en Ia notaci6n adoptada aqLif, podemos
definir Ia conf1abilidad (r) como:
2 Ya que el error {E) puede ser pos.itivo o negativo, algunas
fttt'ntes escrihen Ia fOrmula 4-7 como T "' 0 + E, con los cam- r=
ol
bios correspondientes en las otms versiones de Ia f6rmula. No- Ob
sotros usamos. el slmbolo "±"conE por ser, quiz8, una versiOn es decir, como Ia proporci6n de varianza observada
mas a.ccesible d<> Ia~ fOrmulas. de Ia puntuaci6n que es varianza verdadera. Otra forma

86 Prdebas psicoi6gicas. Una lntrocJucciOn pr8c:tica


.· .. •.
. ... . . t.
,. ........ ~0
,
............
..... '.... .
.. . •, ...... .
' ... ' ·, ' ~ •. ',• \
. . ' . . . . '., ....... .
. ... . . . ..... , .
. .' '. .. . . . ., ·..., .. ·' .
v v
Prueba A: Canfiabilidod olio Proebo 8: Connobilidad bota

Figura 4-8. Dislribuciones hipol81icos de puntuociones observadas (OJ alrededor de punluaciones verdaderas (V).

en que se puede presenter esta Ultima fOrmula es: Metodos para determinar Ia confiabilidad
o1 ~ o,'
0
r ~ -"'-,-'-" FOrmula 4-11 Pueden usarse diferentes m€todos para determiner Ia
ob confiabilidad de una prueba; cada uno de elias trata
Esta fOrmula sera importante en algunos trata- una o mas de las fuentes que afectan a Ia confiabilidad
mientos mas avanzados de Ia confiabilidad. y que describimos antes. Aquf consideraremos los me-
Como sugerlmos antes, es conveniente pensar en todos que se utilizan con mayor frecuencia. A Ia largo
Ia puntuaci6n verdadera de una persona como el pro- de toda esta secci6n, nos situaremos dentro del marco
media de muchas puntuaciones obseiVadas. La figura conceptual de Ia teorfa cl.3sica de las pruebas.
4-8 muestra ejemplos de distribuciones que resultan de
muchas aplicaciones de dos pruebas. En la grafica A, Ia Confiabilidad de test-retest
prueba es muy confiable, pues las puntuaciones obser-
vadas se agrupan de manera estrecha alrededor de Ia Uno de los tipos mas fSciles de entender es Ia con-
puntuaci6n verdadera V. En Ia gr8fica B, 1a prueba no fiabilidad de test-retest. Como lo sugiere su nombre,
es muy confiable, pues las puntuaciones obseiVadas se este coeficiente de confiabilidad se obtiene apllcan-
dispersan ampliamente alrededor del promedio o pun- do Ia misma prueba a los mismos individuos en dos
tuaciOn verdadera V. La diferencia entre cualquier pun- ocasiones diferentes, que, par lo general, pueden es-
tuaciOn 0 y V en esta distribuci6n es error de medici6n E. tar separadas desde un dfa hasta un mes. Este coe-
Sotemos suponer que las puntuaciones obsetvadas tie- ficiente consiste simplemente en Ia correlaci6n (casi
nen una distribuci6n normal alrededor de la puntuaci6n siempre Ia de Pearson] entre las puntuaciones de Ia
verdadera. La figura 4-8 pmte de este supuesto, lo que prim era aplicaci6n y las de la segunda. A me nuda se
tendr8 consecuencias convenientes mas adelante en le llama coeficiente de estabilidad temporal. El cuadro
este capitulo (vt?ase Error estandar de medici6n, p. 93).
Par Ia comUn, en situaciones practicas de eva- Cuadro 4~7. Datos para determinar Ia conflabilidad de
luaci6n, obtenemos sOlo una puntuaci6n observada, test-retest
de modo que Ia distribuci6n de puntuaciones ob-
servad.3S, como Ia que aparece en Ia figura 4-8, es Excminado Primera Segonda
meramente hipotetica. Ese es el modo en que las aplicaci6n aplicaciOn
puntuaciones observadas se distribuirfan, supone- 85 81
mos, si obtuvh§ramos muchas de elias de un solo in- 2 92 79
dividuo. Nuestro estudio de Ia confiabilidad ayudara a
3 76 75
operacionalizar este supuesto.
Como sefialamos antes, nunca podemos saber Ia 4 61 69
puntuaci6n verdadera de una persona aunque eso es 5 93 93
Ia que queremos. Siempre tenemos s6lo una puntua-
ci6n obs'ervada. Los distintos metodos para determi-
ner la confiabilidad, que revisaremos a continuaci6n,
estc'in diseliados para estimar que tanta diferencia
puede haber entre la puntuaci6n observada y Ia pun- 100 BO 82
t tuaci6n verdadera de una persona, es decir, cuimto
r= .85
error puede haber en Ia medici6n.

Confiabilidad 87
4~7 presents un conjunto de datos que pertenecen a Conflabilidad interjueces
un estudio de confiabilidad de tesHetest.
~oue fuentes de las que describimos antes afectan La coniiabilidad interJueces se puede entender con
este tipo de confiabilidad? Es evidente que evaluar fadlidad. EvaiUa +a variaci6n no sistematica debida sim-
Ia influencia de los cambios en las condiciones p!emente a quiE!n califica Ia prueba. "QuiE!n" se refiere.
Qersonales ayuda; tambiE!n es evidente que nose tra- par lo com (in, a dos personas diferentes, aunque tam-
ta de Ia influencia de los cambios en el contenido de bien podrfa referirse a dos maquinas o a una persona
Ia prueba, ya que seem plea exactamente Ia misma. La y una mclquina, o cualquier otra combinaci6n. Este tipo
confiabilidad test-rete.st puede o puede no relacionar- de confiabilidad tambiE!n se podrfa denominar inter-
se con·variaciones debidas a Ia aplicaci6n de Ia prue- observadores o inter-evaluadores de acuerdo con lo
ba, dependiendo de si Ia prueba es aplicada por Ia que en rea lid ad se hace en Ia situaci6n de prueba. Por
misma persona, en el mismo Iugar, etc., en ambas oca- ejemplo, dos personas pueden valorar Ia creatlvidad
siones. Adem as. puede o puede no indicar variaciones o Ia gravedad del desajuste del examinado. TambiE!n
interjueces, dependiendo de slla prueba es calificada se usan formas alternas para denominar esta confiabi-
par Ia misma persona o siguiendo el mismo procedi- lidad: confiabilidad de jueces, confiabilidad de obser-
miento en ambas ocasion'"s. vadores o confiabilidad de evaluadores.
Determinar Ia confiabilidad mediante este metoda tie- Le confiabilidad interjueces se obtiene con facili-
ne tres inconvenientes principales. Primero, el mE!todo dad. Sea plica una prueba a un grupo y se califica dos
obviamente no toma en cuenta el error no sistematico de- veces. La confiabilidad interjueces es slmplemente Ia
bide a las variaciones en el contenldo de Ia prueba. Se- correlaci6n, casi siempr.e Ia de Pearson, entre las ca-
gundo, en cualquier prueba, excepto las mas sencillas y lificaciones del primer juez con las del segundo. Los
breves, obtener Ia confiabilided de test-retest es un festi- datos del cuadro 4M7 pueden usarse para este tipo de
dio, l.OuiE!n quiere hacer Ia mlsma prueba de cuatro horas confiabilidad slmplemente cambiando el encabezado
dos veces en un perlodo de dos semanas? Tercero, existe de las columnas Primera aplicaci6n y Segunda a plica-
clerta preocupaci6n acerca del efecto de Ia primera apll- ciOn por Juez A y Juez B.
caci6n en Ia segunda; quiz8 et examinado recordari§ las Es importante que los dos (a mils) jueces trabajen
respuestas de Ia primera aplicaciOn y, de manera delibe- de manera independiente, es decir, ninguno de elias
rada, darci las mismas respuestas en Ia segunda buscen- debe influir en el otro o los otros jueces. Por ejemplo,
do ser consistente aun cuando piense de modo diferente. si el juez 8 sabe que puntuaci6n asign6 el juez A a
Esto tiende a inflar el coefidente de confiabilidad. Si un un reactive o a Ia prueba enters, podrfa inclinarse a
reactlvo demanda una soluci6n de problemas novedosa asignar Ia misma calificaci6n o una parecida, Ia cual
y el examinado falla en Ia primera aplicaci6n, es posible inflarfa el coeficiente de conflabilidad resultante. Des-
que mas tarde se le ocurra otra soluci6n que te permi- de luego, tambl€n podrfamos lmaginar que el juez 8
ta responder correctamente ese reactive en Ia segunda detesta al juez A, por lo que estara en desacuerdo
aplicaci6n. En los reactivos que demandan informaci6n, de man era deliberada al asigner callflcaciones, lo cual
el examinado puede buscar Ia respuesta correcta entre disminulrfa el coeficlente de confiabilidad. Cualquie-
ta primers y Ia segunda aplicaci6n. El gredo en que estos ra que sea el caso, Ia influencia de un juez sabre otro
factores pueden influir en las puntuaciones de Ia segunda contamina el estudlo de Ia confiabilidad, por lo que
aplicaci6n es, en gran medida, cuesti6n de criteria. los jueces deben trabajar de manera independiente.
El tiempo entre Ia primera y Ia segunda apl!cacl6n es En algunos estudios se requlere de mas de dos
....'. motivo de preocupacl6n para Ia confiabilidad test-retest . jueces; por ejemplo, despues de Ia entrevista inicial
~~:: Par un lado, los intervalos deben ser suficientemente con 50 cllentes, cuatro cllnicos de manera indepen-
.
":·:·
largos para que Ia primera aplicaci6n tenga una lnfluen- dlente valoran el grade de desajuste en una escala
"'''' cia mfnima sabre Ia segunda. Par otro !ado, el intervale de 20 puntas que va de "grave mente desajustado" a
no debe ser tan largo como para que el rasgo que se
mide pueda sufrir cambios reales. Portomar un ejemplo
extrema, si el intervale entre dos aplicaclones fuera de
Resumen de puntos clave 4·4
cinco aflos, podr·ramos suponer que Ia carrelaci6n en~
tre Ia primera y Ia segunda estarra en funcl6n de cam-
Metodos para determinar Ia confiabilidad
bios reales en el rasgo mas que de Ia confiabilidad de Ia
• Test-retest
prueba. En Ia prclctica, los estudios de confiabilidad de
lnterjueces
test-retest, por lo general, emplean lntervalos de unos
• Formas alternas
cuantos dfas o semenas. Sin embargo, no hay una regia
• Conslstencia intema
definida en relaci6n con este asunto.

88 Pruebas p:;JCo16gicas. Una lntroducci6n prSctlca


Cuadro 4-8. Dolos poro e&ludior lo conflobilidod Ia confiabilidad de formas alternas consiste en aplicar
inlerjueces con m6s de dos jueces ambas formas de Ia prueba a los mismos examinados.
Clinico Este tipo de confiabilidad es Ia correlaci6n, casi siempre
Ia de Pearson, entre las pt.mtuaciones obtenidas en las
A B c D
dos formas de Ia prueba. Regresemos al cuadro 4-7; si
Cliente Valoraciones de desojustes cambiamos los encabezados de las columnas Primers
15 12 13 14 aplicaciOn y Segunda aplicaciOn par Forma 1y Forma 2,
tendremos el disefio bSsico para estudiar Ia confiabili-
2 8 7 7 6
dad de formas alternas.
3 12 18 8 10 las formas alternas de Ia prueba pueden aplicar-
4 14 10 14 9 se de man era inmediata una despues de Ia otra si son
relativamente breves y poco demandantes; de lo con-
tra rio, puede emplearse un intervale similar _al que se
usa para obtener Ia confiabilidad de test-retest. En el
50 6 4 5 3 caso mas sencillo de confiabilidad de formes altern as,
cuando las dos formes se ap!ican una inmediatamente
despu9s de Ia otra, el metoda s61o mide Ia falta de con-
"sin desajuste perceptible". El cuadro 4-8 presenta las fiabilidad debida al muestreo del contenido. Cuando
valoraciones de algunos clientes . .!,COmo se expresa se trata de pruebas mas extensas, las formas altern as
el acuerdo interjueces en esta sltuaci6n? Serra posi- suelen aplicarse a intervalos de algunos dfas o algunas
ble calcular las correlaciones entre todas las posibles semanas, en cuyo caso, el m9todo mide falta de con-
combinaciones de jueces {A y B, A y C, A y D, 8 y C, fiabilidad deb ida al muestreo del contenido y, como en
By D, C y D) y, luego, promediar las correlaclones. De Ia confiabilidad de test-retest. cambia con las condicio-
hecho, esto se hace a veces; sin embargo, el ancilisis nes personales y las variaciones en Ia aplicac16n.
mas apropiado para esta sltuac16n es el coeficlente La confiabllidad de formas alternas no se usa con
de correlaci6n intraclase, que se abrevia como r1 o mucha frecuencia par Ia sencilla razOn de que Ia ma-
p 1 en los Iibras de estadfstica, pero en otras fuentes yorfa de las pruebas no tiene form as alternas. Si crear
se escribe slmplemente CCI. El CCI se calcl.M a par- una buena prueba es bastante diffdl, crear dos o mas
tir de las medias cuadrciticas (MC) desarrolladas en el formas alternas, mas o menos equivalentes, Ia es alin
am'illsis de varlanza (ANOVA). Existe una sorprenden- mas. las formas a!ternas suelen ester disponibles s61o
te cantidad de maneras para definir y calcular el CCI, en el caso de algu11as de las pruebas mas usadas.
que se pueden consulter en Shrout y Flelss (1979} a Se reconocen tres amplias categorfas de coeficien-
Winer (1991). Para nuestros prop6sitos, el punta im- tes de conflabllidad: a) coeficientes derivados de
portante es que el CCI se interprets como el conocido Ia aplicaci6n de formas alternas en sesiones inde·
coeflclente de correlaci6n de Pearson (r). Tratandose pendientes (coeficientes de formas alternas), b) CO·
de confiabilidad, el objetivo de Ia aplicaci6n usual del etlcientes obtenldos aplicando Ia misma forma en
CCI es determiner Ia confiabilidad interjueces. ocasiones separadas (coeficiente-s de test·re-test) y
La conflabilidad interjueces obvlamente proporclona c) coeficiente-s basados en las relaciones /interac-
informaciOn sabre los errores no sistemciticos que sur- clones entre puntuaciones derivadas de reactivos
gen de los distintos jueces, pero de nlnguna otra fuente individuales o subconjuntos de elias dentro de una
de error. La informaciOn de este tipo de conflabllidad_ es prueba; todos los datos proceden de una sola apfi-
de particular importancia cuando el juicio de los evalua- caciOn (coeficientes de consistencia interna). Ade-
dores interviene en el proceso de ca!JflcaciOn. mcis, cuando Ia calificaci6n de Ia prueba implica un
elevado uso del de callficaci6n a traves de jueces,
Confiabilidad de formas alternas suelen oblenerse los Indices de Ia consistencia en-
tre jueces.
Tambh~n conocida como confiabilldad de formes parale- Standards ... AERA, APA, & NCME, 2013)
las o equivalentes, Ia confiabilidad de formas alternas
requiere que existan dos formas de Ia prueba. Estas de-
ben ser lguales o muy similares en t9rminos del nUme- nas, por ejemplo. formas csn'ictamente parale1as, equivalentes T y
ro de reactivos, lfmites de tlempo, especlflcaclones del esencialmente equivalentes T. Las diferencias entre estas formus
contenido y de otros factores de este tipo. 3 El estudio de tienen implicaciones para algw1ostemas de psicometrfa avanzada.
Para ahondar en estas distindones, se puede consul tar Lord y No-
l 'lecrllcamente, se distingue entre diversos tipos de formas alter- vick(l968), Feldty Brennan (1989) y Nmmallyy Bernstein {Hl94).

Confiabilidad 89
I
Confiabilidad de consistencia interna confiabmdad de Ia prueba entera. La correccirin de
I'
Spearman-Brown es Ia adecuada, y su fOrmula es:
La consistenda interna es uno de los metodos de con- 2rm
fiabllldad que se usa con mayor frecuencia. Existen nu- rc=-- FOrmula 4-12
1 + rm
merosos m€todos para determinar Ia confiabilidad de
consistencia interne de lJna prueba. Describiremos tres =
r, confiabilidad corregida de toda Ia prueba
de los metod as mas usados:. divisiOn par. mitades, Ku- r m"' correlaci6n entre las dos mitades de Ia prueba
der-Richardson y coefJclente alpha. TodoS los metodos
de consistencia interna, incluyendo los que no revisare- La fOrmula de Spearman-Brown tiene una forma
mos aqur. intentan medir las caracterfsticas comunes de mas general que permite determiner el efecto estima-
Ia consistencia interne de Ia prueba. do sabre Ia confiabilidad de consistencia interna de
Los metodos de consistencia interna, como otros cualquier cambia en Ia extensiOn de Ia prueba. La for-
que hemos considerado en este libra, producen un ma mas general es:
coeficiente de confiabilidad. Sin embargo, Ia que su-
nr.
cede con exactitud con estes metodos es menos evi- r,=---- FOrmula 4-13
dente que con otros metoc!os; una vez descritos, los 1 +(n-l)r,
metodos de test-retest, de interjueces y de formas
alternas parecen claros a nivel intuitive. Pero eso no
ocurre con los metodos de consistencia interna, par n =factor par el cual se cambia Ia extensiOn de Ia
Ia que tendremos que comenzar describiendo su 16gi- prueba
ca; el prim era sera el metoda de divisiOn par mitades. r, = confiabilidad corregida
r, = confiabilidad original
Confiabilidad de divisiOn por mitades En esta f6rmula, n puede ser una fracci6n; par
ejemplo, es posible estlmar Ia confiabilidad corregida
Recordemos el metoda de formes paralelas de Ia sec- de una cuarta parte (n = .25) de Ia prueba original. Tam-
ciOn anterior. Ahara pensemos en el case especffico en bien se puede estimar el efecto de triplicar (n = 3) Ia ex-
que las dos formas se aplican en suces16n inmedlata. tensiOn de Ia prueba. 0 se puede fijar r en algUn valor
Pensemos, entonces, en Ia aplicaci6n de una sola prue- deseado, y luego encontrar el valor den ' para determi-
ba, perc Ia cual califlcaremos par mitades, como si cada ner que cambia en Ia extensiOn de Ia prueba se requie-
una fuera una forma alterna de Ia prueba. Despues co- re para obtener rc dado el valor de inicio r,. Para todos
rrelacionamos las puntuaciones de las dos mitades de estes cambios en Ia extensiOn de Ia prueba, Ia fOrmu-
Ia prueba. Esto es como una medida de confiabilldad de la de Spearman-Brown supone que los reactivos alia-
"miniformas alternas", que es Ia que en esencia sucede didos (o eliminados en case de acortar Ia prueba) son
con Ia conflabilidad de divisiOn por mitades. equivalentes a los otros reactivos de Ia prueba.
Hay dos importantes desarrollos en este Ultimo es-
cenario. Primero, Ia prueba no suele dividirse en dos
tomando Ia primera parte y Ia segunda, porque a me-
nuda en Ia segunda parte de Ia prueba se encuentran
los reactivos mas dificiles. Los examinados pueden es-
tar mSs fatlgados al final de Ia prueba, y sf hay algUn
efecto del ttempo, es mas probable que su influencia
sea mayor en Ia segunda parte que en Ia primera. En-
tonces,-,!;C-Omo se divide poLia mitad una prueba? Un
",,'
;,,
metoda que se usa con frecuencia consiste en divi-
dir Ia prueba en reactivos pares y reactivos nones, en
,, cuyo case el resultado suele denominarse conflabili-
,,,
dad de pares y nones. Otros tipos de divisiOn pueden FOrmulas de Kuder-Richardson
,;.
ser Utiles con cierta clase de reactivos, pero el meta-
do de pares y nones es, par mucho, el mas empleado. Una serie de fOrmulas desarrolladas par G. Fredrick
Segundo, Ia correlaci6n entre las dos mitades de Kuder y M. W. Richardson (1973) proporcionan otras
Ia prueba no Indica Ia confiabilidad de Ia prueba en- medidas de consistencia intern a. Dos de estas f6rmu·
tera, sino de Ia mitad de Ia prueba en que estamos las, 20 y 21, par Ia general citadas como KR-20 y KR-
lnteresados. Por ella. debe aplicarse una correcci6n 21, se han usado mucho, por Ia que las presentamos
a Ia correlaci6n entre las mitades para obtener Ia aquL KR-20, Ia de mayor usa de las dos, se define as!:

90 Pruebas psirol6gicas. Una introducci6n prc'ictica


Cuadro 4-9. Datos muestra para determinar bajo el supuesto de que todas las "p" son iguales. Ia
Ia confiabilidad de KR-20 fOrmula KR-20 puede escribirse como Ia KR-21:
Readivos
1 2 3 4 5 Puntuaci6n
rxR. 21 = (K ~ l ) ( l - M~;Ei M)) FOrmula 4-15
Examine do total n = nlimero de reactivos
A 5 M= media de las puntuaciones totales en Ia prueba
0 4 DE~= desviaci6n estandar de las puntuaciones
B
de Ia prueba
c 0 i• 0 0 2
D 0 0 0 2 El supuesto de que todas las "p" son iguales es bas-
E 5 tante irreal. Si el supuesto se acercara a Ia verOad, el uso
de KR-21 podrfa ser muy atractivo, porque es mas facil
de calcularla que KR-20. La facllidad en los calculos fue
un criteria pertinente en Ia era previa a Ia computado-

( K)(
ra, pero ahara no es importante. De ahf que encontra-
TJ<R • 2o = ~ Lpq).
1 - DE; Formula 4-14 remos confiabilidades KR-21 en manuales de pruebas
y artfculos de revista antlguos, pero no en los trabajos
contemporaneos. No obstante, es Util recordar KR-21,
K = nUmero de reactivos de Ia prueba pues permite estimar Ia confiabilidad cuando s6lo M y
p = porcentaje de respuestas correctas DE~ estan disponibles (par lo general, lo est8n) y nose
q~[1-p) puede obtener ninguna otra estimaciiin de Ia confiabi-
DEx = desviaci6n est8ndar de las puntuaciones lidad. Tllomdike (1982) sef\aiO que KR-21 se aproxima
de Ia prueba mucho a KR-20 aun cuando las "p" varfan mucho.

,oue es pq? En los reactivos que se celifican de Coeficiente alpha


manera dicot6mica, los que tienen respuestas del
tlpo correcto-incorrecto o sf-no, las calificaciones po- Las fOrmulas de Kuder-Richardson requleren de reac-
sibles son 1 o 0. p es el porcentaje de reactivos cali- tivos que se califiquen de manera dicot6mica. Existe
ficados con "1" -es decir, cuya respuesta es correcta una fOrmula mas general que no tiene esta restrlc-
o "sf'- mientras que q es simplemente (1- p). Obte- ci6n, pues los reactivos pueden tener cualquier tipo
nemos pq para cad a reactive y luego sumamos estos de calificaci6n continua. Por ejemplo, los reactivos
valores de todos los reactivos de Ia prueba. El cuadro de ulla escala de actitud pueden calificarse con una
4-9 presenta un ejemplo sencillo. escala de cinco puntas que va desde "totalmente ell
He aquf una curiosa propiedad de KR-20. Recorde- desacuerdo" (1) hasta "totalmente de acuerdo" (5). La
mos Ia discusi6n acerca de dividir una prueba en mi- forma mas generales el coeflciente alpha, a menudo
tades. Un metoda muy com lin es dividir Ia prueba en llamado alpha de Cronbach (vease Cronbach, 1951).
reactivos pares y reactivos nones; sin embargo, exis- Se debe teller cuidado de no confundir esta alpha
ten muchas otras divfsiolles posibles. Par ejemplo, una con el alpha que usamos en las pruebas de signifi-
prueba de 10 reactivos podrfamos dividirla en reactivos cancia, porque no tienen nada que ver una con otra.
del1 al5 y del 6 al10, o 1, 2, 5, 6, 9 en una mitad y 3, 4, 7, Las dos versiolles equivalentes de Ia fOrmula del co-
8, 10 en Ia otra, o 1, 2, 3, 9, 10 y 4, 5, 6, 7, 8, y asf sucesi- eficiente alpha son:
vamente. La fOrmula KR-20 produce Ia correlaciOn pro-
media entre todas las posibles mitades de Ia prueba. a ""
K ) (DE'xDE~
(/{:1 ·I DE')
r F6rmula 4-16
AI empezar con Ia fOrmula KR-20, asumimos que
todas las "p" son iguales, es declr, todos los reactivos y
tienen el mismo porcentaje de respuestas "correctas"
o de "s.f". Recordemos que Ia suma de una constante a~(/~ 1)(1- ~~El)
(C) sabre n objetos es igual a n x C. Par ejemplo, su-
pongamos que Ia constante es 3; si sumamos Ia K = nlimero de reactivos de Ia prueba
constante sabre cinco objetos, obtenemos 3 + 3 + 3 + 3 DEx"" desviac16n estiindar de las puntuaciones
+ 3 "'5 x 3. Aplicando el principia a "pq" cuando todas de Ia prueba
las "p" soil iguales, [!)pq se convlerte en npq. Ya que DE,= desviaci6n estandar de las puntuaciones
np "' M (Ia media de las puntuaclones de Ia prueba). de los reactivos

Confiabilidad 91
Podemos observar Ia semejanza de Ia notaci6n Despu€-s, podemos sumar toda esta informaciOn en una
entre estas fOrmulas y Ia de KR-20. De heche, cuan- medida de confiabilidad de consistencia interne. En esta
do los reactivos se califican de manera dicot6mica, [a] fOrmula, r1 es Ia intercorrelacl6n promedio entre todos los
= rKR. o:Ya que para los reactivos que se califican de
2
reactivos. Sin duda, noes una fOrmula conveniente para
este modo (0, 1), Df2, =- pq, asi que [l:)D£, ""[I]pq. Re- prop6sitos de calculo practlcos.¢;in embargo, proporcio-
visa un libra de estadfstica b8sica para verificar que na una mejor idea de lo que indican fOrmulas anteriores
1"-1 varianza de un determinado porcentaje es pq o p(1 KR-20 y el coeficiente alpha.
- p). El coeficiente alpha es muy usado en las prue- Las apllcaciones de Ia Ultima fOrmula ofrecen cler-
bas contempor8neas actuales. Hogan, Benjamin y ta orientaciOn prcktica acerca de c6mo funciona Ia
Brezinski (2000) encontraron que el coeficiente alpha consistencia intern a de las pruebas. Introduce los va-
se inform a en mas de des tercer as partes de las prue- lores muestra para K y rij en Ia fOrmula y observa las
bas incluidas en el Directoy of Unpublished Experi- consecuencias. En el cuadro 4-10, asignemos a K los
mental Mental Measures. Asf, aunque el coeficiente valores 5, 20 y 50, y a rlf' los val ores .10, .25 y .40. En-
alpha no es tacil de comprender, es importante para tonces, calculamos [a]. tOue podemos abservar?
el estudiante de psicologfa estar familiarizado con e1. Primero, a medida que el nlimero de reactivos au-
(.,Que indica el coefic;ente alpha? Una forma menta, tambien aumenta Ia confiabliidad. Segundo, a me-
alternative de las que ya hemos presentado ayuda dida que Ia correlaci6n inter-reactive aumenta, tambien
a responder esta pregunta. Suponiendo que todos aumenta Ia confiabilidad. Adem8s, cuando hay relative-
los reaCtivos estSn "estandarizados", es decir, mente pecos reactivos (5, par ejemplo), Ia confiabilidad
convertidos en una forma que tenga una media 0 y = es muy baja si las corre\aciones inter-reactive son bajas;
una DE= 1, Ia siguiente fOrmula se puede aplicar: cuando las correlaciones lnter-reactlvo son altas, Ia con-
K (f;i) fiabilldad es mucho mayor, pero todavfa noes muy alta.
a FOrmula 4-17 Cuando hay un gran nUmero de reactlvos (digamos, SO),
-,+ ( K-1 )ru
Ia confiabilidad es muy respetable aun cuando las corre-
don de laclones inter-reactive sean relatlvamente bajas. Asf, Ia
r¥"" correlaci6n entre los reactivos i y j fOrmula muestra que alpha depende de Ia correlaci6n
=
K nlimero de reactivos promedio entre los reactivos. El nUmero de reactivos tam-
bh~n es muy importante; alpha indica el grado en que los
(.,Que hace esta f6nflula? Sin duda no es evidente reactlvos miden el mismo constructe o rasgo. A veces,
con s61o inspeccionar los elementos de Ia fOrmula. esto se denomlna medida de homogeneidod de reoeti-
Recordemos los fundamentos del metoda de divisiOn vos, es decir, el grade en que los reactlvos son iguales en
Por mitades; era como crear mlniformas alternas de Ia terminos de lo que mlden. Podemos notar que los reac-
prueba. Ahara extendamos este razonamiento a los re- ttvos individuales no son muy confiables par si mismos:
activos individuales; cada reactive puede pensarse como de ahf que Ia intercorrelaci6n entre elias parezca, par Ia
una minifarms de Ia prueba. Entonces, podemos pregun- general, baja Par ejemplo, una correlaci6n de .25 suele
tar c6mo cada una de estas miniformas (reactivos) con- considerarse muy baja, perc es un nlvel respetable sl se
cuerda con todas las dem8s miniformas de Ia prueba. trata de Ia correlacl6n entre reactiVos individuales,

Cuadro 4-10. Efeclo del nUmero de readivos (K) y Ia co-


rreloci6n promedio inter-reoctivos (r3) en el coeflcienle alpha
En relaci6n con las fuentes que atentan contra Ia
confiabilldad que esbozamos anterlormente, el coefi-
ciente alpha-se relaclona con el muestreo del conteni-
do. No mide Ia falta de confiabilidad debida a cambios
I
I

,,
K
5
i'iJ
.iO
a.
.3 6
en Ia aplicacl6n de Ia prueba, condiciones personales o
calificac16n. Esta misma generalizaci6n se puede aplicar f
5
5
.25
.40
.63
.77
a todos los metodos de consistencia interna para deter-
miner Ia conflabilidad. He aqu( Ia cuesti6n prtktica: las
medidas de confiabilidad de consistencia interna son ta- I
20 .10 .69 cHes de obtener y, per lo tanto, se dtan mucho en los
informes, a menudo como Ia confiabilidad de Ia prue-
"
20 .25 .87
ba, Sin embargo, no dicen nada acerca de otras fuentes
20 .40 .93 que afectan Ia confiabilidad, como inestabilldad tempo-
50 .10 .85 ral debida a fluctuaciones normales en las condiciones
50 personales. Asr que, cuando veamos, par decir algo,
.25 .94
el coeflciente alpha, no debemos asumlr que nos dice
50 .40 .97 algo sabre Ia establlidad temporal.

92 Pruebas ps-col6gicas. Una introducci6n prSctica


Tercero, Ia correlacl6n entre los reactivos es impor-
tante. Podemos observer el efecto de Ia correlaci6n in-
ter-reactive promedio en el cuadro 4-10. La ensefianza
pr.3ctica que debemos recorder es esta: para obtener
una buena confiabilldad de consistencia interna, debe-
mas usar reactivos que mig an un rasgo bien definido.
!,.as dlversas medidas de consistencia interna no
son apropiadas para pruebas-de veJocidad; de hecho, Error estandar de medici6n
son par complete inapropiadas si Ia prueba es primor-
dialmente de velocidad, cori-10 las de velocidad de lec- Un coeficiente de confiabilidad proporciona informa-
tura o velocidad en tareas de oflcina. Algunas pruebas ciOn valiosa sabre una prueba. Sin embargo, sus im-
de "poder" son, en parte, de velocidad, pues algunos plicaciones pr<:'icticas para interpreter Ia prueba no
examinados no terminan todos los reactivos. El grado son de inmediato evidentes. Para Ia interpretaciOn
en que Ia velocidad afecta Ia puntuaci6n. es tambiE!n el pn§ctica, dependemos del error estandar de medl-
grado en que las medidas de conslstencla lnterna pro- ci6n (EEMj, el cual se define asf:
ducir8n estimaciones infladas de Ia confiabilidad. Para
tratar este problema, es posible dividir las pruebas en F6rmula 4-18
tE!rminos de tiempo mas que de ndmero de reactivos,
perc esto tiende a crear una situaciOn de prueba un donde r es Ia confiabilidad de Ia prueba y DE, Ia
M "
tanto artificial. Cuando Ia velocidad es un factt?r impor- desviaci6n estilndar en el grupo en que se determin6 r.
tante para determiner las puntuaclones, es mejor usar El EEM es Ia desviad6n estandar de un ndmero hi-
simplemente otros mE!todos de confiabilidad. poteticamente infinito de puntuaciones obtenidas al-
rededor de Ia puntuaci6n verdadera de una persona.
Tres conclusiones importantes Regresemos a Ia flgura 4-8. Cada una de estas dis-
tribuciones tiene una desviaci6n estandar. Este tipo
Como sefialamos antes, no es tclcil ver que es exac- de desviaci6n est8ndar se denomina error estimdar
tamente Ia que hacen las fOrmulas de con.sistencia in- de medici6n. La distribuciOn de Ia derecha en Ia fi·
lerna. Sin embargo, es tacll deduclr tres conclusiones gura 4-8 tiene un EEM relativamente grande. La dis-
importantes al inspeccionar dichas fOrmulas. Primero, Ia trlbucl6n de Ia lzqulerda tiene un EEM relativamente
~
0
extensiOn de Ia prueba es importante; e! nUmero de re- pequefio. Podemos observer algunas de las conse-
,c activos siempre forma parte de las f6rmulas. En general, cuencias de Ia fOrmula del EEM: si Ia confiabilldad de
•• mientras mils extensa sea Ia prueba, mils confiable seril; Ia prueba es perfecta {r= 1.00), el EEM = 0, es decir, no
~~ las que son muy cortas a menudo no son conflables. En hay error de medici6n . .:.Cuiil es el EEM si Ia confiabl-

~, el case de una prueba corta en extrema, los reactlvos


Unicos casi siempre tienen una confiabilidad limitada.
lldad de Ia prueba es .00, es decir, noes confiable en
absolute? En este cas a, el EEM es Ia DE deJa prueba.

·'•"" Como regia general, para aumentar Ia conflabllidad se


debe aumentar Ia extensiOn de Ia prueba.
'
0
La segunda conclusi6n es que Ia confiabilidad se
~ maximlza cuando se acerca a .50 el porcentaje de
~
examinados que responde de manera correcta en
! una prueba de capacldades cognltlvas o que res~

i
I• ponde en clerto sentido (p. ej., "sr') en una prueba no
cognitive. Podemos notar que pq alcanza su milximo

I
cuando p = .50; pq dlsminuye conforme p se aleja de

I .50. Esta es Ia raz6n de que las pruebas estandarlza-

I
t
-
~
.!

~
das del campo de Ia cognici6n a menudo parezcan
tan diffclles: el creador de Ia prueba trata de maximi-
zer Ia confiabilidad. En realidad, tomando en cuenta el
efecto de adivinar Ia respuesta corrects, el valor meta
lntervalos de confianza
I ~
I @ de p para los reactivos suele fijarse par arriba de .50, El EEM puede emplearse para crear un intervalo de con-
'' pero a lin asf a un nivel dlffcil. Sin embargo, Thorndike fianza, que en ellenguaje de las pruebas a veces se de-
(1982) mostr6 que se sacrlfica una pequefia parte de nomina banda de confianza, alrededor de Ia pur.t:uaci6n
I Ia confiabilidad al desviarse de manera considerable
de p =.50. Retomaremos este lema en el capftulo 6.
observada. Ya que el EEM es una desviaci6n estilndar de
una dlstribuci6n que, suponemos, es normal, se pueden
I
I Confiabilidad 93

l
~r
Ii

~ -<---- 1 EEM
Puntuoci6n natural
(M=75, DE~S} 60 65 70 75 BO 85 90
Puntuad6n est6ndor
IM = 500, DE= 100) 200 300 400 500 600 70 800

Percentiles 2 16 50 84 98 99

Figura 4-9. EEM en diferentes unidades de puntuod6n.

aplicar todas las relaciones habituates. Regresemos a Ia EEM debe convertirse en normalizada. Esto se puede
curva normal de Ia figura 3-10b para refrescar Ia memoria. hacer con facilidad sl las puntuaciones normalizadas
Par ejemplo, en 68% (cerca de dos terceras partes) de los son conversiones lineales de las naturales, como las
casas, Ia puntuaci6n verdadera estan§ dentro de +/-1 EEM puntuaciones estandar lineales. La tarea es mucho
de Ia puntuaci6n obseNada. A Ia inversa, en cerca de una mas complicada si se trata de conversiones no linea-
tercera parte de los casas, Ia puntuaci6n observada dife- les. Par ejemplo, los ranges percentiles son conver-
ririi de Ia puntuaci6n verdadera por al menos 1 EEM. siones no lineales a causa de Ia marcada desigualdad
Los informes sabre las puntuaciones generados de las unidades percentiles (suponiendo una distribu-
por computadora a menudo uti!izan Ia banda de con- ci6n mas o menos normal de las puntuaciones).
fianza. El cuadro 4-11 muestra un ejemplo. La banda El error est13ndar de medici6n ... debe proporclonar-
de confianza de Ia prueba A varfa de 9 a 17, alrededor se en unldades de Ia puntuaci6n que se informa.
de Ia puntuaci6n observada 13. La prueba B tiene una Standards .•. (AERA, APA, & NCME, 2013)
banda que vade 24 a 36, alrededor de Ia puntuaci6n
observada 30. Tales informes suelen citar Ia "banda" Consideremos los siguientes ejemplos de una
como +/-1 EEM, en esencia un intervale de confianza prueba de 100 reactivos. La figura 4-9 muestra Ia dis-
de 68%, aunque tambien es fScil emplear una banda tribuci6n de las puntuaciones naturales de esta prue-
de 95% (+/~1.96 EEM) ode 99% (+/~2.58 EEM). ba (M = 75, DE= 5), las puntuaciones estSndar (M =
500, DE= 100) y los percentiles. La confiabilidad de
Unidades apropiadas para el EEM Ia prueba es .80; asi que, en unidades de puntuaci6n
natural, el EEM = 5-J1-.80 = 2.2. Esta puntuad6n es
El EEM debe expresarse en las unidades emplea- igual a 44 unidades en el sistema de puntuaciones
das en fa interpretaciOn. Los manuales de las prue- est81ldar, es decir, 100,)1~.80 . Es evidente que el
bas a menudo citan el EEM sOlo en unidades de EEM de Ia puntuaci6n natural no es Uti! si Ia interpre-
puntuaci6n natural. Si en Ia interpretaciOn se habra de taciOn se basa en las puntuaciones est8r1dar. No hay
puntuaciones normalizadas, Ia puntuaci6n natural del una conversiOn sencilla para los rangos percentiles;

Cuadro 4-11. Muestro de un informe de puntuaciones con ban des de conflanza


Prueba A <<<<>>>>
Prueba B <<<<<<>>>>>>
0 5 10 15 20 25 30 35 40 45 50
PuntuadOn de lc prueba

94 Pruebas psiccl6gicas. Una introducci6n prSctica


sin embargo, podemos estimar el efecto de aplicar Resumen de puntos clave 4-5
+/-1 EEM en las unidades de puntuaci6n natural en
varios puntas a Ia largo de Ia escala de percentiles. Tres tipos de errores estandar
Alrededor del percentil 5 (o 95), +/-2.2 unidades de 1. Error estandar de medici6n:
puntuaci6n natural cubren casi 10 pu~tos percentiles, fndice del error debido a Ia falta de confiabilidad
mientras que alrededor del percent1l 50, j+/-2.2 de (formula 4·18)
estas unid'ades cubren 34 puntas percentiles! Esta di- 2, Error estandar·de Ia media:
ferenda surge par Ia misma raz6n que discutimos en fndice del error debido al muestreo aleatorio
el capitulo 3 en relaci6n con Ia interpretaciOn de los per- (formula 4·21)
centiles, pero aquf se aplka a Ia interpretaciOn del EEM. 3.Error est8ndar de estimaci6n:
[ndice del error en Ia predicci6n de Ya partir de
Error estcindar de Ia diferencia X (formula 4-4)

En Ia secci6n anterior, describimos el error estiindar de


rnedici6n para una puntuaci6n Unica. ~Que pasa cuan* psic6metras novatos, sabre todo porque cada una de
dose comparan dos puntuacio~es? ,;.COmo debe apli- estas entidades puede nombrarse de manera abreviada
carse el concepto de error de medici6n en tal caso? sOlo como "error estandar" y se espera que sepamos,
tSe suman los errores estiindar de puntuaciones sepa- con base en el contexte, cuat de elias puede aplicarse.
radas? ~Se toma su promedio? Para responder a estas Las tres son, en verdad, desviaciones estiindar, pero lo
preguntas, las cuales no son evidentes para el sentldo son de diferentes casas. Bosquejaremos brevemente
comUn, presentamos Ia siguiente fOrmula: las diferencias entre estes tres tfpos de errores est8ndar.
El error est9ndar de medici6n es Ia desviaci6n es-
EEM dif ""~EEMf + EEM~ FOrmula 4*19 tclndar de una poblaci6n hipotEitica de puntuaciones
observadas distribuidas alrededor de Ia puntuaci6n
donde verdadera de un individuo. En Ia figura 4-8 presen-
EEMm1 = error estlmdar de Ia diferencia entre tamos ejemplos de estas distribuciones. La fOrmula
dos puntuaciones pertinente es Ia 4-18. El error estc:lndar de Ia media
EEM 1 = error estiindar de Ia prim era prueba es Ia desviaci6n estiindar de una poblaci6n hipot€tica
EEM2 = error estiindar de Ia segunda prueba de medias muestrales que corresponde a muestras
~
TI
{de cierto tamaf\o) distribuidas alrededor de Ia media
,
0
Recordemos que EEM1 = DE1..j1-r11 y EEM2 = DE2 ~)1-r2 ,. poblacional. El error estt§ndar de Ia media se usa en
~ A menu do sucede que r11 = r22 y 0£1 = OE 2 • S! ese es las pruebas de significancia estadfstica, par ejemplo.
0
•O
·o el caso, Ia fOrmula de EEMdir se simplifica de Ia si- prueba t, prueba z, y para los intervalos de confianza
~
·o guiente manera: de las medias muestrales. Recordemos de Ia estadls-
~ tica be\ sica que el error estimdar de Ia media es:
£
• EEM dif "" DE~2{ 1 - r) FOrmula 4*20
• EE = DEx FOrmula 4-21

I"0
don de
DE= desviaci6n estiindar comUn
=
donde
X VN

•~ r coeficiente de confiabilidad comUn DEx = desviaci6n est8ndar de las puntuaciones


N = tamaiio de Ia muestra
~ Suponemos que Ia distnbuci6n de diferencias entre

-~
!
puntuaciones.es_normal y que...EEMa.r es Ia desviaci6n
estandar de esta distribuci6n. De ahf que todas las afir-
El error estiindar de estimaci6n (a veces tambiEm
llamado error estiindar de predicci6n) es Ia desvia-
~ maciones habituales acerca de Ia desviaci6n est8ndar se
puedan aplicar aquf: 68% de los casas caen dentro de
ci6n est<'indar de las puntuaciones Y reales alrededor
de las puntuaciones Y predichas cuando Y se predi-
~
+/-1 DE, 5% caefuera de +/-1.96 DE, y asf sucesivamente. ce a partir de X. Encontramos el error estclndar de es-
~ timaci6n en nuestro repaso de estadfstica antes en
·•~' Tres tipos de errores estimdar este capitulo. Su fOrmula es Ia 4-4.
@ Es importante tener en mente estas distinciones.
' El error estdndarde medici6n debe distinguirse con cui- Las diferencias entre estos tres tipos de errores es-
I' dado de otros dos tipos de errores estiindar: el error es* tclndar tienen consecuencias reales en Ia practice. No
! tdndar de Ia media y el error est6ndar de estimaci6n. se trata de una sutileza acad€mica ni de ser quisqui-
'' Estas distinciones son fue-nte de gran confusiOn para los llosos por el puro placer de serlo.
'

Confiabilidad 95
Algunos temas especiales relacionados grupos de, digamos, tres o cuatro reactivos es notable-
con Ia confiabilidad mente baja, en el mejor de los casas alrededor de .30 a
Confiabilidad en los informes interpretativos .40. Por lo general, no considerarfamos usar una prue-
ba con una confiabilidad de .30. Lamentablejllente, los
La informaciOn de Ia confiabilidad suele aparecer en grupos de reactivos con confiabilidad'es e"n este range
terminos cuantitativos prec~sos, es decir, en forma de aparecen de manera cotid!ana en los informes. El des-
coeficientes de confiabilidad y errores estandar de empefio en los reactivos individuales es aun menos con-
mediciOn. Sin embargo, cada vez mas· el desempefio fiable. ]Hay que ser cuidadosos con esto!
en Ia prueba se inforn;a con una narraci6n, a menudo
llamada informe interpretative, el cual puede aligerar Confiabilidad de los perfiles
mucho Ia tarea de interpreter las puntuaciones de Ia
prueba. Desafortunadamente, los informes narratives Los perfiles de las puntuacior:~es a menudo son Ia base
no se adaptan con facilidad a las herramientas tradi- para interpreter las pruebas. En Ia figure 4-10 aparecen
cionales del an.:llisis de confiabilidad. Algunos infor~ perfiles de muestra de una baterfa de cuatro pruebas. La
mes narratives incorporan con claridad los conceptos que puede ser interesante aquf noes el nivel absolute de
de confiabilidad y errores rie medici6n, pero otros no. las puntuaciones de las pruebas, sino los potrones que
Los informes pueden dar Ia impresi6n de que Ia confia~ se despliegan en los perfiles. Par ejemplo, Ia "V" formada
bilidad no es importante, aunque en realidad siempre par las puntuaciones en las pruebas A-C de Sue y Fred
lo es. Ellector del informe narrative debe asegurarse puede ser de especial interes. La confiabilidad de tales
de que a) conoce Ia informaciOn de conflabilidad acer~ patrones nose puede representar con facilidad, pero, sin
ca de Ia prueba y b) utilize Ia informaciOn cuando inter~ duda, es menos confiable que las pruebas individuales.
preta el informe. lncluso los informes narratives deben Este tema se relaciona con el error est8ndar de Ia dife-
!ncorporar el concepto de error de medici6n. rencia tratado antes; sefialamos que el error de mediciOn
en el caso de las diferencias combine los errores en las
Confiabilidad de subpuntuaciones y reactivos puntuaciones indivlduales. Esta composici6n de Ia falta
individua/es de confiabilidad es aUn mayor cuando un perfil de tres o
mas puntuaciones es Ia base de Ia interpretaciOn.
Debe proporcionarse Ia informaciOn de confiabilidad de
Ia "puntuaci6n» que, en realldad, se est8 interpretando. Confiabilidad de las pruebas con referencia
Consideremos el siguiente ejemplo. Una bateria tiene a un criteria
cuatro pruebas separadas; el manual de Ia prueba ofre~
ce informaci6n de confiabilidad de cada prueba; todas Recordemos Ia distinciOn entre pruebas referidas a un
tienen una buena confiabilidad, digamos r > .90. Sin em~ criteria (PRC) y pruebas referidas a una norma (PRN), Ia
bargo, los informes de puntuaciones de Ia baterfa pue~ cual vimos en el capitulo 3. La diferencia clave esta en el
den dar informaciOn sabre el desempefio del individuo metoda de interpretaciOn. Los m€todos para determiner
en grupos de reactivos o, incluso, en reactivos indivi~ Ia confiabilidad pueden no ser diferentes para las PRC,
duales de las pruebas. No podemos asumir que estos dependiendo de Ia distribuci6n de las puntuaciones de
grupos o reactlvos individuales tienen Ia misma confia- Ia prueba y de los usos de dichas puntuaciones. Los en~
bllidad que las puntuaciones totales de las pruebas. De foques cliisicos de Ia confiabilidad revisados en este
hecho, es muy cierto que el desempefio en los grupos capitulo suponen una distribuci6n normal de las puntua~
o reactivos indMduales sera, por mucho, menos confia- ciones. AI menos, debe haber una distribuci6n razona~
ble que las puntuaciones totales. La confiabilidad de los ble de las puntuaciones; de lo contrario, el coeficiente

..·
,.,lll
,,_,.
.. i
"...,1

A B C D A B C D A B C D
Soo Fred Bill

Figura 4~ 10. Perflles muestra de las punluaciones de las pruebos A, B, C y D_

96 Pruebas pslcol6gicas. Una introducci6n practice


de puntos clave 4-6 Ia TRR los reectivos funcionan de manera independiente,
mientras que en el antilisis de Ia consistencia interna de
Temas especiales relacionados con Ia confiabilidad Ia TCP, los reactivos son interdependientes.
• lnformes interpretativos En Ia TRR, el error est<§ndar se express como:
• Subpuntuaciones y reactivos individuales
Perfiles
EE(9) = -1- FOrmula 4--22
.,f/(8)
Pruebas referidas a un criteria
donde 9 es Ia puntuaci6n (theta) de Ia capacidad o
v'-__ , rasgo, descritos en el capitulo 3, e 1(9) es Ia funci6n de in-
de confiabilidad no funciona: Consideremos el caso ex- formaciOn de Ia prueba, Ia cual es simplemente Ia suma
trema en un estudio de test-retest donde todas Ia£ pun- de las funciones de Ia informaciOn de los reactivos; estas
tuacioneS son las mismas, digamos que son perfectas, + Ultimas surgen de las caracteristicas de los reactivos, las
en Ia segunda aplicaci6n. La fOrmula del coeficiente de cuales se describen con mayor detalle en el capitulo 6.
correlaci6n nos llevara a r= .00. El error estandar EE(6) en Ia TRR se menciona a me-
La preocupaci6n par Ia variabilidad inadecuada en nuda como un fndice de Ia precisiOn de Ia medici6n.
las puntuaciones de Ia prueba IJuede ser aplicable a Tlene una ventaja importante sabre el EEM en Ia TCP,
algunas situaciones de dominlo de las pruebas donde donde se supone que el EEM es el mismo en todos los
las distribuciones de puntuaciones tienen una marcada niveles de puntuaci6n. 4 Consideremos una prueba de Cl
asimetrfa negativa, es decir, una acumulaci6n de pun- con DE"' 15 y [a]= .89, de modo que EEM= 5. Este EEM
tuaciones en Ia puntuacl6n periecta o cerca de: ella. La se aplica en todo el rango del Cl, 80, 100, 150, etc. Ade-
distribuci6n de las puntuaciones de PRC en relaci6n con mas, depende no sOlo de Ia homogeneidad de los reac-
un "punta de corte" tam bien puede afectar Ia interpreta- tivos de Ia prueba, sino tambh~n de Ia heterogeneidad de
ciOn de una PRC. Se han desarrollado numerosos mE!to- los individuos con los que se determin6 [a]. EE(S) no tie-
dos para expresar Ia confiabilidad de las PRC en estas ne estas limitaciones, pues se determine para cada nivel
circunstancias especiales; se pueden consultar en Berk especffico de las puntuaciones, es decir, para cada nivel
(1984), Crocker y Algina (1986), Feldt y Brennan (1989) de theta. Asl, para una prueba particular, EE(e) puede ser
y Nunnally y Bernstein (1994}. No encontramos con fre- relativamente menor en el caso de las puntuaciones ba-
cuencia estos metodos espedalizados en Ia prilctica. jas y relativamente mayor en el caso de las altas, o vice-
versa, dependiendo de c6mo funcionen los reactivos en
Confiabilidad en Ia teoria de Ia respuesta varies niveles del rasgo. En el capitulo 9 (p. 97), presenta-
al reactivo mos un ejemplo de esta aplicaci6n con el GRE-General
Test, en el cual el error es mayor en las puntuaciones de
La confiabilidad es todo un tema en las pruebas cons- nivel media que en las puntuaciones extremas. En otras
truidas de acuerdo con Ia teorfe de Ia respuesta al pruebas, EE(B} puede ser menor en las puntuaciones de
reactive (TRR), del mismo modo que en las pruebas nivel media. En Hambleton y Swaminathan (1985), Ham-
elaboradas de acuerdo con Ia teorfa cUisica de las bleton, Swaminathan y Rogers (1991) y deAyale (2009)
pruebas (TCP). Nuestro tratamiento dele confiabilidad se pueden encontrar mas detalles en relaci6n con Ia
se ha concentrado en el enfoque de Ia TCP, porque Ia confiabilidad en Ia TRR, mientras que en Thissen (2000)
gran mayorfa de las pruebas existentes sigue este en- se puede consultar un tratamiento detal!ado de Ia con-
foque. Sin embargo, cada vez mas pruebas siguen el fiabilidad de pruebas de ap!icaci6n adaptable par com-
enfoque de Ia TRR; de ahf que debamos examinar Ia putadora basadas en Ia TRR
confiabilidad en el contexte de Ia TRR. Primero, note-
mas que el enfoque (mica de Ia TRR en relaci6n con Ia Teorfa de Ia generalizabilidad
confiabilidad se ocupa s61o de Ia consistencia interna.
Aun cuando una prueba sea construida y calificada De Ia revlsi6n de los distintos tipos de confiabilidad que
de acuerdo con Ia TRR, si Ia preocupaci6n gire en tar- presentamos en este capitulo, deberla ser clara que no
no a Ia estabilidad temporal o a Ia consistencia entre existe atgo que pueda considerarse fa confiabilidad de
los jueces, deben usarse los m€todos descritos antes una prueba. Hay muchas fuentes que atentan contra Ia
en este capitulo para determiner Ia confiabilidad. confiabilldad. Cada metoda para determiner Ia confiabi-
Para los prop6sitos del aniilisis de Ia consistencia !n- lidad intenta tratar una o unas pocas de estas fuentes;
terna, Ia TRR proporciona un enfoque diferente de los que de ahf que podamos decir que una prueba tiene una
ya hemos descrito. Como el coeficiente alpha, el aniilisis
de la confiabilidad en Ia TRR depende del funcionamien- 4Thorndike (1982) sugiri6 un procedimiento para evirar esta
to de los reactivos dentro de Ia prueba. Sin embargo, en suposici6n, pero su sugerencia nose us6 mucho.

Confiabilidad 97
\ '

confiabilidad de test-retest de .85, una confiabil!dad de estudiar Ia varianza debida a cada factor, asf como a las
'f
form as alternas de .78 y un coeficiente alpha de .92. Cad a interacciones entre los factores.
una de elias puede determinarse en un estudio separa-
do. La teorfa de Ia generalizabilidad (TG) intenta evaluar
varias fuentes de falta de confiabilidad al mismo tiempo.
La literature de Ia TG distingue entre un estud_io de
generalizabilidad (estudio G) y un estud!o de decisiOn
(estudio D). El estudio G analiza los componentes de Ia
I
La TG empieza con Ia misma noci6n bi:'isica que' Ia varianza, incluyendo·las interacciones, mientras Clfue el
teorfa d3sica de las pruebas, es decir, que cada perso- estudio Dutiliza los resulta"dos d~ estudio G para dedtlir
na tieQe una puntuaci6n verdadera, Ia cual, en Ia TG, se cOmo podrfa mejorarse Ia mediciOn hacienda ca.rntiios
denomina a menudo puntuad6n de universo o pun- en uno de los componentes. Pensemos en nuestro
tuaci6n de dominic. Pensemos en una persona que estudio sabre Ia ansiedad. Usamos cuatro jeleceS;"
es evaluada en varias ocasiones con muchas formas y Leso ofrece suficiente estabilidad en los resultadOs?
puntuaciones diferentes. La puntuaci6n verdadera de Ia ~Tendrfamos suficien'te estabilidad si usBramos sOlo
persona o puntuaci6n de universe es Ia puntuaci6n pro- des jueces? Las respuestas a eStas preguntas pueden
media de todas las ocasiones en que se aplicaron las ayudar a retinal' Ymejorar el proceso de mediciOf).
pruebas. Ahara imaginemos 500 personas respondien- Los detalles para llevar a cabo un anillisis de gene-
do estas evaluaciones mUitioles. En el case de cualquier ralizabilidad estiin fuera del alcance de este libra, perc
par especffico de evaruaciones, podrfamos determiner ellector interesado en este tema puede consulter Sha-
una de las medidas cliisicas de confiabilidad; par ejem- velson, Webb y Rowley (1989) para tener un buen pa-
plo, Ia correlaci6n entre puntuaciones de des ocaslones norama de €1, Shavelson y Webb (1991) para reviser un
serfa Ia confiabilidad de test-retest. Sin em)?argo, serfa tratamiento miis detallado y Brennan (2001b) para leer
muy Util si pudi€ramos determiner, en un solo estudio, Ia una exposici6n complete. Brennan (2001a, 2011) ofre-
confiabilidad para varias ocasiones, varias formas y va- ce un anSI isis hist6rico que muestra el desarrollo de Ia
ries jueces. Esto es lo que Ia TG intenta hacer. TG desde los primeros metodos de aniilisis de confia-
El aniiHsis de varianza (ANOVA) brinda el marco bilidad. Brennan (2000) tambir:?n advierte que el marco
b8sico para el estudio de generalizabilidad (estudio del ANOVA anteriormente descrito para Ia TG puede
G). Recordemos que el ANOVA permite estudiar el ser tornado con demasiada literalidad. No obstante,
efecto de diversas variables independientes de ma- este marco constituye una buena introducci6n a Ia TG.
nera simultanea sabre una variable dependiente y las La teorfa de Ia generalizabilidad ofrece un marco de
interacciones, es decir el efecto Unico creado par Ia excepcional utilidad para pensar en Ia confiabilidad de las
combinaci6n de dos (o m8s) variables independientes medidas. Sin embargo, hasta ahara, no se ha empleado
muy aparte de sus efectos par separado. mucho en aplicadones pr<'ictlcas, probablemente porque
... Ia teorfa de Ia generalizabilidad impulse a! investi- es un fastidio llevar a cabo incluso los estudios sencillos de
gador a especlficar y estimar los componentes de Ia confiabilidad (excepto los de consistencia interne). L0ui€n '00
varianza de Ia puntuaci6n verdadera, Ia varianza de quiere hacer Ia misma prueba en des ocasiones diferen- !
Ia puntuaci6n de error y Ia varianza de Ia puntuacl6n tes? <_0 responder dos formas distintas de Ia misma prue- ~
observada, y a calcular los coeflclentes con base en ba? Uevar a cabo un estudio que varfa en, digamos, tiempo
estas estimaciones, las cuales suelen realizarse apli- de aplicaci6n, n9mero de formas y procedimientos de cali- ''
~
cando tecnicas del aniilisis de varlanza. ficaci6n se vuelve muy diffcil desde un punta de vista pr8c-
Standards ... (AERA, APA, & NCME, 2013) tico. Sf encontramos estudios de generalizabilidad de unas j
pocas pruebas y, quiz€!, podamos ver, al menps, cierto au- .
Supongamos que estamos midiendo ansiedad. Tene- menta en el usa de esta metodologfa en el futuro. Schmi-
'
! mos una muestra de 50 personas y las examinamos en
cinco ocasiones diferentes. En cada una, les presentamos
dt, Le e !lies (2003) sugirieron un lntento en derta forma
mas prSctico de establecer mUltiples fuentes que atentan 1
"' dos tareas que podrfan aumentar su ansiedad. Tenemos contra Ia confiabilidad, perc ese metoda no ha conseguido ~
cuatro jueces valorando el grade de ansiedad manifiesta
Este disefio nos permite investigar Ia consistencia:
much a atenci6n. Por el momenta, el punta mas importante
es Ia perspective que Ia metodologfa nos ofrece acerca del
ei
A lo largo de las cinco ocaslones (como en Ia con- campo entero de Ia confiabilidad. i
fiabilidad de test-retest) '
0

Entre las tareas (como en Ia confiabilidad de for- Factores que afectan leis coeficientes ~
mas alternas)
Entre los jueces (como en Ia confiabilidad interjueces)
de confiabilidad
••
Recordemos nuestra discusi6n en este capitulo sabre
Esto da origen a un disefio factorial ANOVA de 5 x 2 x los cuatro factores que afectan los coeficientes de
4: ocasiones x tareas x jueces. Con este diseiio, podemos correlaci6n_ Ya que Ia confiabilidad suele expresarse

98 Pruebas psicol6gicas. Una introducci6n prc'ictica


como un coeficlente de correlaciOn, estos factores confiabilidad puede ser suficiente. Si Ia prueba se usa
pueden afectar los datos de confiabilidad. Considere- en un proyecto de lnvestigaci6n en el que los prome-
mos cada uno de estes factores. dios grupales son el centro de atenci6n, entonces un
Primero, el hecho de que Ia correlaciOn sea una grade de confiabilidad aun menor sera suficiente.
cuesti6n de posiciOn relativa mas que de puntuaciones Todo mundo esta de acuerdo con las generalizacio-
absolutas no es una preocupaci6n importante para Ia nes que acabamos de citar: sin embargo, aQn es Util tener
confiabilidad. Segundo, Ia curvilinealidad no es, por Jo en mente algt:mos puntas de referenda de 18: confiabili-
general, un tema para los datos de confiabilldad. Aun- dad, los cuales podemos encontrar en numerosas fuen-
que en teorfa es poSible ten"?r una tendencia curvflineal tes (vease Charter, 2003: Groth-Marnat 2009: Hunsley &
en los datos de confiabilidad, esto no suele ocurrir en Ia Mash, 2008; Kapl'eln & Saccuzzo, 2013; Murphy & Davids-
pr8ctica. En cualquier caso, es fiicil verificar el supuesto hater, 2001: Nunnally & Bernstein, 1994). Aqui presents-
de linealidad examinando una distribuci6n bivariada de mas nuestro resumen de lo que parece ser un consenso
los datos de confiabilidad. Cualquier paquete estadfsti- respecto al tema. Un coeficiente de confiabilidad de al
co est<lndar desarrolla una distribuci6n bivariada para menos .90 es excelente; se requiere este nivel o incluso
rnspeccionarla. .95 cuando Ia prueba tiene un gran peso para tamar una
Tercero, Ia heterocedasticid.-:d bien puede ser un decisiOn importante, como ubicaci6n en curses. exame-
problema para el error estiindar de medici6n. Otra vez, nes para autorizar el ejercicio profesional o Ia clasificaci6n
Ia soluci6n es realizer una grafica bivariada y verificar de una persona como intelectualmente discapacitada en
el supuesto de llomocedasticidad. Debemos hacer no- un caso forense. La confiabilidad de .80 a .89 es buena;
tar que Ia precisiOn de Ia medici6n estadfstica en Ia cuando una prueba tiene una confiabilidad en este ran·
TRR, EE(8), proporciona errores est8ndar diferentes de go, debe tomarse en cuenta otro tipo de informaciOn.
los distintos niveles de puntuaci6n, de modo que se Suponiendo que Ia otra informaciOn tiene una confiabi-
ajustan para cualquier falta de homocedastJcidad. Jidad respetable, Ia combinaci6n de ambas fuentes tiene
Par Ultimo, Ja variabilfdad grupal es o menudo un una confiabilidad mayor: La confiabilidad de .70 a .79 es
problema cuando se interpretan datos de confiabili~ adecuada, pero el usa de Ia puntuaciOn de Ia prueba re-
dad, pues estos se han desarrollado para un grupo quiere mucho cuidado y, sin duda, debe complementarse
mucha mas homogeneo y miis heterog€neo que el con informaciOn de otras fuentes. El uso de pruebas con
grupo conslderado pertinente para nuestro marco in- confiabilidades en el rango de .60 a .69 deberii limitarse,
terpretative. La soluci6n para este problema es usar quizS, a Ia investigaci6n. Si Ia confiabilidad estii par de-
las fOrmulas 4·5 y 4-6 para corregir Ia homogeneidad bajo de .60, deberfamos buscar otra prueba con una me-
o heterogeneidad excesiva. Esta correcci6n con fre- jar conf!abilidad. Sin embargo, podemos notar el principia
cuencia se usa en el trabajo prSctico. En ef capitulo general de que reunir diversas fuentes con confiabilidad
9, mostraremos dicllas correcciones al usar pruebas limitada produce una combinaci6n con mayor confiabili-
para predecir el E!xlto escolar, acad€mico y Ia bora I. dad, una especie de versiOn generalizada de Ia fOrmula
de Spearman-Brown.
zOue tan alta debe ser Ia confiabilidad? Aquf presentamas cinco puntas importantes que
complementan Ia discusi6n sabre que tan alta debe ser
Despues, incluso, de Ia miis breve exposici6n al tema Ia confiabilidad. Primero, Ia mayorfa de los informes de
de Ia confiablfidad, nos sentimos inclinados a pre- confiablidad cubren s61o una fuente (p. ej., consisten-
gunter: .:_que tan alta debe ser Ia contiabilidad de una cia interns o test-retest), pero en nuestra prilctica de-
prueba? No hay respuesta mas sencilla a esta pre- bemos tamar en cuenta mUltiples factores que influyen
gunta que: depende. En particular, depende de que en Ia confiabilidad (como en el an81isis de Ia teorfa de
queremos hacer con Ia prueba. Es como pr.eguotar Ia generalizabilidad, que casi nunca -estii disf')enible).
".:_que tan alta debe ser una escalera?" Depende. .:_Es Asf, cuando encontramos un coeficiente alpha de, diga-
para camblar un foco que no alcanzas o necesitas su- mos, .90, nos engafiariamas si pensamos que "tenemos
bir al techo de un edificio de tres pisos? todo resuelto" con respecto a Ia confiabilidad. Segundo,
Si necesitamos tamar una decisiOn muy importante muchos usos de las pruebas tienen que ver con las di-
en Ia que Ia informaciOn sobre_la prueba tenga mucho ferencias entre puntuaciones, sea de manera directa o
peso -par ejemplo, otorgar una licencia de ejercicio en Ia forma del perfil. Estas diferencias casi siempre son
profesional en algUn campo-, vamos a requer"1r de una menos conf1ables que las conf1abilidades de las prue-
prueba con una confiabilidad alta. Si Ia prueba es s61o bas que forman parte de las diferencias o los perfiles.
una de muchas fuentes de informaciOn que nos daran Tercero, a veces nos encontramos con el argumen-
una idea aproxlmada acerca del nivel general de ajus- to de que Ia confiabilidad no es un tema importante para
te de una persona, entonces un grado moderado de clerto tipo de pruebas o para cierta puntuaci6n particular

Confiabilidad 99
'l
'

de una prueba. jNunca debemos creer en tal afirmaci6n! autores de pruebas informan Ia significancia estadfstica
La confiabilidad siempre es importante. La informaciOn de los coeficientes de confiabilidad sef\alando, a menu-
que no es confiable o cuya confiabilidad es desconocida do con malicia, que el coeficiente es sumamente signifi-
no debe utilizarse. Cuarto. recordemos nuestra discusi6n cative. Tales informes no son muy Utiles, pues tenE>mos
de Ia relaci6n entre Ia extensiOn de Ia prueba y Ia confia- estimdares mas elevados para los coeficientes de confia-
bilidad: las pruebas cortas suelen ser mas bien no confia- bilidad que Ia sola significancia estadfstica.
bles. A veces nos encontramos con que el autor de una Mils importante que Ia confiabilidad de Ia prueba es
prueba o incluso de una reseFia dice que Ia prueba tiene su validez. Atmque ~na prueba sin confiabilidad no pue-
una confiabilidad ba5;tante buena tomando en cuenta Ia de tener validez alguna, es posible tener pruebas muy
breve que es. Debemos tener cuidado con esta afirma- confiables que no sean villidas para los prop6sitos que
ci6n. Una prueba con una confiabilidad de .60 -breve o tenemos en mente. Ademas. una prueba con una confla-
extensa- es una prueba con una confiabilidad de .60, Ia bilidad y validez moderadas es preferible que una prueba
cual noes muy buena. Siesta prueba se tuviera que usar con una confiabilidad alta y una validez baja. Estas breves
para prop6sitos serios, su confiabilidi;:!d deberfa aumen- observaciones constituyen una transici6n hacia el tema
tarse. quiz8, hach~ndola mas extensa. Quinto, algunos crucial del siguiente capitulo: Ia validez de las pruebas.

Resumen

1. La conflabilidad. uno de los conceptos mils importantes en el campo de las pruebas, se ocupa de Ia consls-
tencia o replicabilidad de las puntuaciones de las pruebas.
2. Dlstinguimos entre confiabilidad y validez, el sentido psicometrico de Ia confiabilidad y diversos usos coti-
dianos del t€-rmino, cam bios reales y fluctuaciones temporales en las medidas, y errores constantes y erro-
res no sistemi3ticos.
3.EI coeficiente de correlaci6n (r} es el metoda mas comlin para expresar Ia confiabilidad; de ahf Ia importan-
cia de comprender las correlaciones y los factores que influyen en elias.
4. Las principales fuentes de varianza que afectan Ia confiabilidad son Ia calificaci6n de Ia prueba, su conte-
nido, las condiciones de aplicaci6n y las condiciones personales del examinado.
5. La teorfa ciS sica de las pruebas utiliza los conceptos de puntuaci6n verdadera, puntuaci6n de error y pun-
tuaci6n observada.
6. Entre los metodos de usa comUn para determinar Ia confiabilidad estan el de test-retest, formas alternas,
interjueces y varias medidas de consistencla interna. Cad a metoda se ocupa de una o algunas fuentes que
atentan contra Ia confiabilidad, pero no de todas.
7. El error estandar de medici6n (EEM) y los intervalos de confianza ayudan a traducir los coeficientes de con-
fiabilidad en interpretaciones pnkticas.
8. EJ concepto de error esti3ndar se a plica no s61o a Ia interpretaciOn de puntuaciones linicas, sino tambi€n a
las diferencias entre puntuaciones y perfiles de puntuaclones.
9. El error est8ndar de medici6n debe distinguirse del error estilndar de Ia media y del error estandar de
estimaci6n.
10. Los conceptos de confiabilidad y error estandar se aplican igualmente a los informes interpretativos y
cuantitativos del desempefio en las pruebas.
11. La confiabilidad es importante para Ia interpretaciOn con referenda a un criteria, pero Ia situaci6n a veces
requiere modificar el metoda usual para determinar Ia confiabilldad.
12. La teorfa de Ia respuesta al reactive (TRR) em plea el concepto de precisiOn de Ia medici6n, el cual puede
diferir en varies puntas a lo largo de Ia escala.
13. Usando tecnicas de an81isis de varianza, Ia teo ria de Ia generalizabilidad intents abordar las diversas fuen-
tes de falta de confiabilidad en un solo estudio.
14. Los factores que afectan los coeficientes de corre!aci6n, en especial Ia varfabilidad grupal, deben tomarse
en cuenta allnterpretar los datos de Ia confiabilidad.
15. El uso que se !eva a dar a Ia prueba determina el nivel de confiabilidad que se requiere. Para tamar deci-
',, siones importantes, Ia confiabilidad debe ser deal menos .90. En casas en que Ia prueba es una de varias
fuentes de informaciOn que se consideran en conjunto, Ia confiabilidad deseada es deal menos .80.

100 Pruebas I)Sicol6gicas. Una introducCion pr8clica


alpha de Cronbach consistencia interna homocedasticidad
cambia real correcci6n de Spearman-Brown homogeneidad
coeficiente alpha dispersograma intervalos de confianza

I coeficiente de correlaci6n
coeficiente de correlaci6n
intraclase
confiabilidad
distribuci6n bivariada
error constante
error estan!!lar de estimaci6n
error est8ndar de Ia diferencia
KR-20
KR-21
linea de regresi6n
precisiOn de Ia medici6n
confiabilidad de divisiOn par mitades error estimdar de Ia media puntuaci6n de error
coflfiabilidad de formas alternas error estandar de medici6n puntuaci6n de universe
confiabilldad de pares y nones error no sistem.Stico puntuaci6n observada
confiabilidad interjueces heterocedasticidaq, puntuacr6n verdadera
confia bilidad_ test-retest heterogeneidad teorfa de Ia generalizabilidad

! Ejercicios
' 1. Usa algUn program a de c6mputo con el que estes familiarizado (p. ej., SPSS, Minitab, SAS o Excel) para ob-
tener Ia correlaci6n de estes datos.
Examinado Prueba X Prueba Y
1 20 24
2 18 12
3 23 27
4 34 37
5 19 15
6 33 45
7 16 10
B 35 42
9 15 10
~0 10 22 24
TI
,0
2. Prepara una distribuci6n bivariada para las puntuaciones del problema anterior.
I 3. Utilizando cualquier base de datos de tu biblioteca, haz una bUsqueda par palabras clave introduciendo
0

'i test reliability [confiabilidad de Ia prueba]. £,0ue clase de referencias encontraste? (Nota: es probable que
~
0 encuentres referencias de otros campos aparte de los relacionados con las pruebas psicol6gicas).
~ 4. Usa la fOrmula de Spearman-Brown (p. 90) con los siguientes ejemplos. Una prueba de 20 reactivos tlene

E una confiabilidad de consistencia intern a original de .75.
• a.£,Cu81 es rc si Ia prueba cuadruplica su nUmero de reactivos (80 reactivos, n .. 4)?
I
I l
~
b.l,Cu81 es '~ si Ia prueba reduce a Ia mitad su nUmero de reactivos (10 reactivos, n "'.5)?
c. Quieres que '" sea de .90. i_Cuimtos reactivos deberfa tener Ia prueba? (Encuentra el valor de n, luego

I
!
!•
~
~
!
multi plica n par 20, Ia extensiOn original de Ia prueba) .
5. Calcula 'xR-:m con los siguientes datos. Los nUmeros del cuadro indican respuestas correctas (1) e incorrec-
tas (0). Algunos de los c81culos ya est<ln hechos.

Reactivo 1 2 3 4 5 Puntuaci6n total

'
~
~
'~
Examinado
A I 5
'
~ B 0 4
~ c 0 0 0 2
• D 0 0 0 2
E I 5
F 0 4 (conlinlio)

Confiabilidad 101
'
y/,-

(continuoci6n)
Reactive
Examincdo
1 2 3 4 5 PuntuaciOn total

G I 0 I 4
H 0 0 0 I 0 I
0 I 0 0 • 0
J 0 0 0 0 0 0
p= 7 .6 .6 .5 .4 M=28/ 10=2.8
p = 1.81

(usando n- 1 en el
denoniinodor)

LPq = l7x.31 + l.6x41 + [.6x.41 + 1.5x.5J + [.4~.61 =I. 18


6. Con base en los ciat% del cuadro 4-9, .i,CU81 es Ia p del reactive 2? l,CuSI es pq?
P' pq'--
7. Catcula el coeficiente alpha de los siguientes datos. Los nUmeros son las respuestas a reactivos de actitud,
cada uno calificado en una escala de 5 puntas.
Reactive 2 3 4· 5 PuntuaciOn total
Examinado
A 5 4 5 3 5 22
B 4 4 3 4 4 19
c 4 3 3 4 4 18
D 3 3 3 4 3 16
E 3 3 3 3 3 15
F 3 3 3 2 2 13
G 2 2 2 2 2 10
H 2 2 2 B
2 2 7
J 2 6
Pr= Px=

8. Usando Ia fOrmula 4-17 de [o], completa el sigulente cuadro. (Esto requerir8 de un poco de Elgebra sencilla.)
K
'., a
10 .15
.,
• 25 .90

......., .20 .BO

..• 9. C.onsideremos estes datos de una prueba: confiabilidad .90, DE= 15. =
a.l,CU81 es el error estiindar de medici6n (EEM)? i

~
b.,tCuiil es Ia probabilidad de que Ia puntuacl6n verdadera de una persona se encuentre dentro de +H
..
'"'
EEM con respecto a Ia puntuaci6n obtenida?
c.zcual es el intervale de confianza de 95% para estos datos? i
=
10. SupOn que dos pruebas tienen Ia misma DE"" 10 y Ia mlsma confiabllidad {r) .80. ,cual es el EEM<i1,de estas prue-
bas? (Usa Ia fOrmula 4-20). Sup6n una DE"" 10 y una r= .60 en comUn. Ahara, ,;.cual es el EEMdj{ de estas pruebas?

11. Usa los datos del a pen dice 02 para determinar Ia confiabilidad de test-retest de las medides. Simplemen-
te obtfm las correlaclones entre Ia primera aplicaci6n y Ia segunda utilizando tu programs de c6mputo de
estadfstica. l,Ou€ concluyes ace rca de estas conflabllidades?

102 Pruebas psicol6gicas. Una 1ntroducci6n prBctica


EQUIPO 5
Hogan, T. (2004). Pruebas psicológicas. Una
introducción práctica. México: Manual Moderno.

$-'>''<-,'C .\/•"'<'- ',•'

rPbjetivos
~ 1. Comparar las definiciones ~estandar" y "refinada" de Ia validez de las pruebas.
~ 2. Usar los conceptos je subrepresentaci6n del constructe y varianza irrelevante para el constructe
" para definir Ia validez de las pruebas.
i~-
3. ldentificar las tres categorias tradicionales para describir Ia evidencia de Ia validez.
f~· 4. Definir validez aparente.
'

iI
5. Definir validez de contenido y discutir sus usos tfpicos.
6. Definir validez de criteria y discutir sus tres usos tfpicos.
7. Discutir los efectos de Ia confiabilidad de Ia prueba y del criteria sabre Ia validez de criteria.
i\l:
8. llustrar el uso de Ia correlaci6n mUltiple para demostrar Ia validez incremental.
!y, 9. Definir validez convergente y discriminante y usar Ia matriz multirrasgo-multimetodo.
10. En el contexte de Ia validez de criteria, ilustrar los conceptos de positives falsos, negatives falsos,

fndice base, selectividad y especificidad.
11. Definir validez de constructe y dar varies ejemplos donde se aplique este concepto.
12. Describir el objetivo del anal isis factorial.
13. Definir el papel de estudiar los procesos de respuesta en Ia validez de constructe.
14. Discutir el significado de Ia validez consecuencial.
15. Discutir el significado de generalizaci6n de Ia validez y metaanalisis al considerar Ia validez de una prueba.

lntroducci6n
Empecemos con estas situaciones y preguntas prEicti· y ansiedad. i_Oue evidencia deberfa emplear el Dr.
cas relacionadas con Ia valldez de las pruebas. Ally para decidir si Ia prueba hace lo que €-1 espera?
• El Colegio Ivy em plea el Western Admissions Test El recien publicado Disgnostic Wonder Test [Prue-
(WAT [Prueba de Admisi6n del Oeste]) para elegir ba Diagn6stica Maravillosa] promete identificar
a los asplrantes que pueden tener exlto en sus ~s­ nifios con problemas de aprendizaje de las mate-
tudios. i_Oue tipo de evidencia deberfa buscarse mclticas. l,C6mo sabremos si Ia prueba hace esto
para determiner si el WAT cumple su prop6sito? o es sOlo una prueba de capacidad general publi·
• El Dr. Arias contempla usar el Scranton Depres- cltada con much a habilidad?
sion Inventory [lnventario Scranton de Depresi6n] • Miguel revisa un informe narrative de sus puntuacio-
para ayudar a identlficar Ia gravedad de Ia depre- nes en el Nifty Personality Ouestfonnoire (NPQ [Cues-
si6n y, en especial, para distinguir entre depresi6n tionario Sensacional de Personalidad]. El informe dice

103

i
que €1 es excepcionalmente introvertida y poco cu- SAT es viii ida para predecir el GPA de un estudiante
riosa frente al mundo que lo rodea. ,:.Miguel puede al final del primer a flo en Ia universidad?
canfiar en estas afirmaciones? ;_0 debe hacer caso Segundo, Ia validez es una cuesti6n de grado, no
omiso de elias como si se tratara de lecture de Ia de todo o nada. Algunas pruebas pueden no tener
mana en un Iugar m8gico? validez para prop6sitos especfficos; de hecho, es pro.
Un sistema escolar quiere usar una baterfa de bable que no existan puntuacior1es de alguna prueba
aprovechamiento que medira el grade en que los que_seafl perfectamente v€!1idas para cierto prop6si-
, estudiantes aprenden lo que marca el psograma to. La mayorfa de las puntuaciones que usamos tle-
de Ia escuela. ,:.COmo debe proceder el sistema nen cierto grado de validez, que puede ser leve,
escolar para reviSar las pruebas de aprovecha- moderada o coflsiderable. Nuestro interes determina.
miento disponibles? rE el grado de validez; desde el punta de vista pn§c.
·uco, queremos saber si Ia validez es suficiente para
Refinando Ia definiciOn de validez hacer buen usa de Ia prueba. Asf, refinaremos mas
nuestra pregunta del siguiente modo: Len que grado
Todas estas preguntas se relacionan con Ia validez de el fndice de Depresi6n de Rorschach es v81ido para
I
las pruebas. En este capitulo, refinaremos nuestra forma determiner Ia gravedad de una de presiOn? 0 ~en que I
de pensar sabre este tema y examinaremos metodos grado Ia puntuaci6n de matem8ticas del SATes v81i- I
empleados para responder a estas preguntas. La defi· da para predecir el GPA de un alum no de primer alia? I
nici6n habitual de validez es el grado en que Ia prueba
mide Ia que pretende medir. Citamos esta definiciOn en
Tercero, debemos distinguir entre validez y exactitud
de las normas de una prueba. Es muy posible tener una
I
I
I
el capitulo 1 al discutir las preguntas fundamentales en prueba con una buena validez, pero tambi€n con nor- I
el campo de las pruebas psicol6gicas. Esta definiciOn mas bastante inexactas. Cuando esto ocurre, algunas
se usa, a menudo, en los Iibras introductorios de psico- personas concluyen, de manera err6nea, que Ia prueba
logfa. En ese nivel elemental, propusimos plantear esta
pregunta: Lesta prueba es valida? Sin embargo, ahara
que tenemos Ia oportunidad de tratar el tema de Ia va·
no es v81ida. Consideremos los siguientes escenarios.
Las pruebas A y B son de "CI" y se usan para predecir
el GPA en Ia universldad: ambas pruebas tienen una co-
II
lidez con mayor detalle, necesitamos reflnar nuestras rrelaci6n de .65 con el GPA. En los dos casas, el prome-
ideas reformulando Ia pregunta de tres maneras. dio del GPA es 3.0; en Ia prueba A, el Cl promedio es
Lo que se evaiUa en Ia validez de una prueba, es Ia 110, mientras que en Ia prueba 8, el promedio es 80, El 0

interpretaciOn de las puntuaciones de Ia prueba, re- usuario podrfa concluir que Ia prueba B "no es vi31ida", !
querida para los prop6sitos que se le pretende dar, porque no tiene sentido pensar que estudiantes con un "'
'
no Ia prueba en si misma. Cuando las puntuaciones Cl promedio de 80 puedan tener un GPA de 3.0 en pro- ••
se usan o se interpretan en mc\s de un modo, cada media. Sin embargo, como mencionamos, el coeficiente ~
'
interpretaciOn tiene que ser validada. de validez (r = .65) es el mismo en am bas pruebas, por ••
Standards ... (AERA APA & NCME, 2013) lo que tienen Ia misma validez para predecir el GPA. El !
problema estB en Ia exactitud de las normas, no en Ia '''
Primero, debemos sefialar que es imprecise re- validez de Ia prueba. Desde luego, lo contrario tambien '·~
ferirse a Ia validez de una prueba; lo que necesita- puede ser cierto, es decir, que una prueba pueda tener 80
mos es determiner Ia validez de Ia puntuaci6n de una normas excelentes, pero poca o ninguna validez. 0
prueba cuando se usa con un prop6sito espedfico. "•
E
,,,,
."' Con mayor exactitud alin, debemos referirnos a Ia in- Subrepresentaci6n del constructo y varianza
•e•
terpretaci6n de una puntuaci6n con un prop6sito o irrelevante para el constructe
usa especffico. Notemos que en los escenarios es-
>.1'
' bozados al principia de este capitulo siempre de- Conforme formalizamos nuestro tratamiento de Ia yali- i
claramos un prop6sito para Ia prueba. El usa de una
puntuaci6n puede ser apropiado para cierto prop6s1-
dez, dos terminos tecnicos seran de ayuda para nues-
tras ideas. Pero antes de introducirlos, consideremos Ia
superposici6n entre el constructo que deseamos medir
••'•
to, pero no para otro, par Ia que no podemos definir Ia
validez de Ia puntuaci6n de una prueba en lo abstrac- y Ia prueba que esperamos que lo mida. El constructo
~
to, sino sOlo con respecto a un usa especifico. Asf, no es un rasgo o caracteristica: par ejemplo, el constructe ••'
w
debemos hacernos preguntas como: Lei Rorschach
es vSiido? 0 Lei SATes v€!1ido? En cambia, las pregun-
podria ser depresl6n o capacidad de razonamiento ma-
temiltico. Podemos tener un cuestionarlo sencillo de 20

tas deben plantearse asf: L.el fndice de Depresi6n del reactivos para medir depresi6n y una prueba de 50 re-
Rorschach es v€!1ido para identificar Ia gravedad de activos de opci6n mliltlple para medir el razonamiento
una depresi6n? 0 ,:.Ia puntuaci6n de matem€!ticas del matematico. Representamos Ia relaci6n entre constructe
"'

104 Pruebas ps1co!6gicas. Una introducci6n practice


.,.,
Constructo

I
Subrepresenlaci6n I
'
del conslructo Medici6n
v61ida Vorionza irrelevanle
para el conslruclo

·'\\\ir·
Prueba

Figura 5-1. Represenlaci6n geometrica de los conceptos de subrepresentaci6n del constructo


y varionzo irrelevonle para el conslruclo.

y prueba superponiendo formas geomo2tricas como en (Suponemos que el razonamiento en problemas nove-
Ia figura 5- t Ia superposici6n entre constructe y prueba doses no tiene una correlaci6n perfects con el razona-
represents Ia validez: medir Ia que queremos medir. La miento en problemas convencionales. 51 su correlaci6n
parte del constructe que no esUi cubierta por Ia prueba fuera perfecta, o casi perfecta, no haria ninguna dife-
es Jo que llamamos subrepresentaci6n del constructo. rencia el tipo de problemas que usamos.) Adem8s, Ia
Ef constructe de interes no esta cubierto en su totalldad prueba requlere un nivel muy alto de capacidad de lec-
par Ia prueba. Par otro lade, Ia prueba, ademas de medir tura, perc no queremos que Ia prueba sea de lectu-
una parte del constructe de interes, puede medir algu- ra. La parte de las puntuaciones determinada mas par
nas caracterfsticas diferentes de las que queremos me- esta capacidad que par Ia de razonamiento matemati~
dir; esta ~otra" medici6n se llama varianza irrelevante co constituye Ia varianza irrelevante para el constructe.
para et constructe. Podemos tener una variedad infinite de relaciones
Prlmero, consideremos algunos ejemplos concre- entre constructe y prueba. Esta puede cubrir gran parte
tes para, fuego, examiner c6mo pueden representar- del constructe, y ademas tener mucha varlanza irrele-
se de manera gratica. Supongamos que el concepto vante; o Ia prueba puede tener poca varianza irrele-
de depresl6n consta de tres componentes: cogniti- vante, pero cubrir una parte mfnima del constructe. La
ve (pensamientos ace rca de Ia depresi6n), emocional figura 5-2 muestra varias de estas posibilidades. Des-
(sentirse deprimido) y conductual (hacer o no hacer de fuego, Ia ideal serfs Ia superposici6n total del cons-
casas sintomilticas de Ia depresi6n). Nuestro cues- tructe y Ia prueba, pero lomas comUn en Ia prc'ictica es
tionario puede hacer un trabajo excelente abordan- no alcanzar este ideal. Las nociones de subrepresenta-
do los componentes cognitive y emocional, al mismo ci6n del constructe y varianza irrelevante para el cons-
tiempo que deja fuera Ia informaciOn sabre el com- tructe serc'in muy Utiles cuando examinemos diferentes
ponente conductual. Asl, el constructe complete de metodos de investigar Ia validez de las pruebas.
depresi6n es subrepresentado par Ia prueba, en par- La subrepresentaciOn del constructo se refiere at gra-
ticular, par Ia omisi6n de su componente conductual. do en que una prueba no logra capturar aspectos
Este aniilisis supone que los tres componentes son, al importantes del constructe... La irrelevancia para el
menos parcialmente, independientes y no s61o nom- constructe se refiere al grado en que las puntuacto-
bres diferentes de Ia misma caracteristica. Tambien nes de Ia prueba son afectadas par procesos exter-
puede ocurrir que, en cierto grade, las puntuaciones nos al constructe para el que fue pensada Ia prueba.
del cuestionario reflejen una tendencia en las res- Standards ... (AERA, APA, & NCME, 2013)
puestas hacia Ia deseabilidad social. Esto noes lo que
queremos medir, par Ia que este aspecto de las pun~
tuaciones es varianza irrelevante para el constructe.
Apliquemos estos conceptos a Ia prueba de razo-
namiento matemStico; esperamos que este constructe
se manifieste en Ia capacidad para resolver problemas
convencionales y novedosos. Sin embargo, los reacti-
vos de Ia prueba s61o incluyen problemas convencio-
nales, par Ia que Ia parte del constructe relacionada
con los problemas novedosos estil subrepresentada.

Validez 105
1

Constructo Conslruclo Con~lru~lo

sc sc sc

VIC
VIC
PrLJeba
VIC Pruebo
Prueba
A B c

Conltrudo Construdo

sc sc
~,+_,
VIC
Prueba ~--'
Prueba L__lhj
Prueba

D E

SC = Subrepreseni~:JCi6n del conslructo VIC= Varionzo irrelevanle pore el construct a

Figura 5~2. llustrad6n de los grodos variables de Ia subrepresenlaci6n del c;onstructo


y Ia varianzo irrelevanle para el constructo.

La cuesti6n bclslca en Ia literatura pslcometrica. Standards de 1999 a ban-


donO, en parte, este sistema en favor de una repre-
La cuesti6n bi3sica es proporcionar evidencia de que sentaci6n mas diversificada de los tipos de evidencia;
las puntuaciones de una prueba son indicios del ras- en su edlciOn mas reciente, continuO con este nue-
go o constructe de interes. Esta evldencia constltuye vo sistema practicamente sin cambios. Sin embargo,
el fundamento de Ia interpretaciOn de las puntuacio- el sistema tradiclonal ha demostrado tener una vitali-
nes de Ia prueba. Nuestro tratamiento de Ia validez dad sorprendente. Aqul presentamos tanto el sistema
de las pruebas toma en cuenta los tlpos de eviden- tradicional como el mc'is reciente; en el cuadro 5-1 se
cia que parecen ser convincentes en relaci6n con bosquejan. El lector contemporiineo debe estar fami·
esta cuesti6n b8sica. Revisamos los trpos de eviden- liarizado con Ia terminologfa de ambos sistemas.
cia que se requiere presentar para establecer Ia vali- Trataremos cada una de estas categorfas en sec-
dez de una prueba y, por fuerza, tambiE'!r. discutimos clones subsiguientes de este capftulo, pero primero
el cuidado especial que se debe tener al interpreter presentamos, en el cuadro 5-1, una comparaci6n de Ia
dicha evidencia e introducir los terminos especializa- terminologfa que se usa en el sistema tradicional y en
dos que los psic61ogos han desarrollado para este el miis reciente. La validez de contenido tiene, en- gran
tema. Existe un consenso general de que Ia validez es parte, el mismo significado en los dos sistemas. En el
Ia caracteristica mas importante de una prueba. Bue- sistema tradicional, Ia validez de criteria corresponde
nas..normas,.confiabilidad alta y otras caracterfsticas de manera muy cercana a Ia nueva categorla "relacio-
,,.,
deseables son importantes, pero no tienen senti do si nes con otras variables", sabre todo a Ia subcategoria i
no hay una buena validez.
La validez es ... Ia miis importante que hay que consi-
"relaclones con otras pruebas-criterio". Los conceptos
de validez convergente y discrlminante se reflejan en
~
;
derar al elaborar una prueba y evaluarla. el sistema tradicional, pero son mucho mas explfcitos
Standards ... (AERA, APA, & NCME, 2013)

Clasificaciones tradlcionales y nuevas de los


tipos de evidencia de Ia validez
en el sistema mc'is recieJlte. Asimismo, los estudios de
los procesos de respuesta y estructura interna se re~
presentan en el sistema tradicfonal, pero bajo Ia cate-
gorfa general de validez de constructe, Ia cual no es
I'
una categoria principal en el sistema m<ls reciente aun-
! Hay un sistema tradicional tripartite para clasificar los ti- que las ediclones recientes de Standards estan per-
..... pos de evidencia de Ia validez que esta muy arraigado meadas par Ia noci6n de validez de constructe.

106 Pruebas psicol6gicas. Una introducci6n pri:'ictica


como seiialamos mas adelante en este capitulo, con personas reales en el mundo real. Debemos tener,
las ~consecuenciasH son todo un nuevo tema. sin duda, una validez demostrada emprricamente; sin
En las siguientes secciones de este capitulo, cubri- embargo, en Ia mayorfa de las circunstancias, tambien
remos todos los elementos importantes de ambos sis- es Util si Ia prueba tlene Ia aparlencia de una medida
temas; sin embargo, aqui hacemos hincapiE!, al igual valida.
que al final del capitulo, en que establecer Ia validez no Hacemos Ia siguiente recomendaci6n acerca de
· es cuesti6n de pasar Hsta a los elementos del esque- Ia validez aparente. Esta nunca puede ser un sustituto
ma de clasifica!:i6n, sino que lmplica presentar un arre- de Ia validez empfrica, es decir, no podemos nada mas
glo integrado multifac€ticq de evidencia con respecto ver una prueba y saber si tiene algUn grado de validez.
a Ia interpretaciOn adecuada de Ia puntuaci6n de una Sin embargo, Ia validez aparente puede ser Util; si dos
prueba. Ademas de Standards, una fuente esencial sa- pruebas tienen una validez empfrica equivalente, suele
bre todos los lntentos de validaci6n en el contexte de ser preferible usar Ia que tiene mejor validez aparente.
Ia contratad6n de empleados es Principles for the Va- Cuando se construye una prueba, es prudente bus-
lidation and Use of Personnel Selection Procedures car Ia validez aparente. pero nunca a expensas de Ia
[Principles de valldaci6n y usa de procedimientas de validez empfrica. Quizcl mas importante, necesitamos
selecci6n de personal], preparcdo par Ia Society for In- tener siempre presente Ia dlferencia entre validez apa·
dustrial and Organizational Psychology, Inc. [Sociedad rente y validez demostrada empfricamente.
de Psicologfa Industrial y Organizacional] (SlOP, 2003).
Validez de contenido
·Cuadro 5-1. Esbozo del sistema tradidonol y el m6s re-
cienfe pare clasif1cor los tipos de volidez La validez de c:ontenido se ocupa de Ia relaci6n entre
el contenido de una prueba y algUn dominio bien defi·
Closiflcaci6n ClasiflcaciOn reciente
nido de conocimiento o conducts. Para que una prue-
tradicional ba tenga validez de contenido, debe haber una buena
De contenido De contenido correspondencia entre el contenida de Ia prueba y el
De criteria Relaciones con otras variables contenido del dominic pertinente. La obtenci6n de
Ia validez de contenido a menudo lmplica Ia noci6n
Concurrente Convergenle y discriminante
de muestreo, es decir, el contenido de Ia prueba cu-
Predictivo Relociones con pruebas-crilerios bre una muestra representative de todos los posibles
De canstructo Procesos de respuesto contenidos del dominio. Esto no siempre deb~ ser
asi, pues Ia prueba puede cubrir todo el material del
Estructura inferno
dominic; sin embargo, lomas habitual es que el domi~
Consecuencias nio sea demasiado grande para que se pueda cubrir
todo. Es entonces cuando nos apoyamos en el mues-
La cuesti6n de Ia valldez aparente treo, La validez de contenido tiene dos aplicaciones
primarias: pruebas educativas de aprovechamiento y
Cuando los psic61agos se refieren a Ia validez de las pruebas de reclutamiento !aboral. En cad a una de es-
pruebas, hablan de una demostraci6n empfrica de que tas areas, hay un cuerpa bien definido de contenido.
una prueba mlde Ia que se propane medir y, de mane- Oueremos determinar el grade en que el contenido
ra mas especlfica, de que las puntuaciones de Ia prueba de Ia prueba se ajusta al contenido del area educati-
pueden interpretarse de manera significativa con algUn va o puesto de trabajo pertinentes.
objetivo particular. Contrastamos este enfoque empfrica
con Ia validez aparente, Ia cual se refiere.a si la.prueba Aplicaci6n enJas_pr.uebas_de apro:v..ecbamjento
tlene Ia apariencia de medlr el constructe meta. La va-
lidez aparente tlene defensores y detractores; estos Ul- Par lo general, Ia validez de contenido se conside-
timos se burlan de ella, porque a menudo se usa como rs el tipo mas importante de validez para las pruebas
sustituto de Ia demostracl6n empfrica de Ia validez. Pue- de aprovechamiento. El prop6sito habitual de estas
de ser seductora y engaFiosa. El autor de una prueba pruebas es determinar el grado de conocimiento sa-
puede decir: uLa inspecciOn de los reactivos de Scran- bre algUn material. El cuadro 5-2 presents ejemplos
ton Anxiety Test [Prueba Scranton de Ansiedad] indica de los materiales que pueden ser el objetivo de una
con claridad que Ia prueba mide las principales facetas prueba de aprovechamiento.
de Ia ansiedad". Ante Ia ausencia de cualquier otro apo- El proceso de establecer Ia validez de contenido
yo, esta afirmaci6n no ayuda. Par atro lado, las defense- empieza con una definiciOn cuidadosa del contenido
res de Ia validez aparente hacen notar que trabajamos que se desea cubrlr. Este proceso suele resultar en un

Validez 107
cuadro de especificaciones o un anteproyecto. Con- escritos sirvan de base para el cuadro de especifica-
r
I
sideremos algunas de las entradas del cuadro S-2: el
cuadro de especificaciones para "qufmica de nivel ba-
chillerato" puede surgir de examinar el contenido de
los cinco libros mas usados en este campo. El cua-
ciones. El cuadro 5-3 cita afirmaciones sabre las ba-
ses del contenldo de dos pruebas estandarizadas de
aprovechamiento: Major Field Tests, pruebas de apro-
vechamiento de nivel universitario en 14 disciplinas, y
I
dro de especificaciones para ucapftulo 5 de este libra" Stanford Achievement Test, baterfa multinivel para los
puede surgir de Ia lista de objetlvos y de palabras cla- grados K-12. Podemos notar c6mo las referenclas al
ve que aparecen al inicio y al final del capitulo, respec- contenido definen fa orientac16n de las pruebas.
tivamente. "Conceptos matematicos de 1 a 3 grado" En much as casas, un area de contenido se repre-
pueden definirse coil las gufas curriculares de distln-
tos estados. La mEs frecuente es que los documentos
sents por media de un cuodro de especificociones
de dos vfas. La primera dimensiOn del cuadro cubre I
II
los temas del contenido, mientras que Ia segunda re~
presenta los procesos mentales. como el conoclmien~
Cuadra 5-2. Ejemplos de compos' de conocimiento to objetivo, comprensi6n de conceptos y capa~idad
como objelivo de los pruebas de oprovechomienlo para aplicar o sintetizar material.
El esquema mas conocido para representar los
Conceptos matemOiicos de 1 a 3 grodo procesos se denomina taxonomfa de Bloom. Esta es
Guimtco de nivel bochilleroto una ramificaci6n del trabajo de Benjamin Bloomy sus
Primer curso de pruebas psicol6gicas colegas, quienes elaboraron tres taxonomfas a es-
Capitulo 5 de esle libra quemas de clasiflcaci6n: una en el dominic cognitive
lecciones de geogroffo de Ia dose de Ia maestro V6s- (Bloom, 1956), otra en el dominic afectivo (Krathwo-
quez de Ia semono posado hl, Bloom, & Masia, 1964) y una mas. poco usada, en
Ortogroffa Iipka de escuelos primaries el dominic psicomotor (Harrow, 1972). El cuadro 5~4
Adici6n, sustracci6n, multiplicad6n y divisiOn en situacio- bosqueja las principales categorfas de Ia taxonomfa
nes numericas cognitive, Ia cual es Ia mas citada de las tres y, tam-
Historic de Ia Guerra Civil biE!n, Ia mas pertinente para nuestra discusi6n sabre
Habilidodes b6skas de escrituro Ia validez de contenido de las pruebas de apravecha-
miento. Aunque a veces se usa Ia taxonomfa cognitiva
complete, se suele reducir a tres categorfas prlncipa~
les, de las seis que Ia integran, con el mismo nom-
Cuadra 5-3. A~rmociones del prop6sito de Ia prueba
bre: taxonomfa de Bloom. Los esfuerzos par validar
orientadas hocia Ia validez de contenido
las distinciones de Ia taxonomfa cognitiva de Bloom,
" ... Major Field Tests [Pruebas de los Campos Principales] es decir, para mostrar que las distintas categorlas re-
son evoluaciones de resultados... completos para nivel deli- presentan procesos mentales refativamente distin-
c:enciotura diseFiado~ para medir el conodmienta y Ia com- tos, han fracasado {Kreitzer & Madaus, 1994; Seddon,
prensi6n critic:os de los estudiontes en un campo lmportonte 1978). No obstante, esta taxonomfa a una variaci6n de
de estudio. Los Major Field Tests van m6s oliO de Ia me- ella se encuentran con frecuencla en las discusiones
dici6n de conodmienfo objelivo, pues ayudon o evaluor sabre Ia validez de contenido.
lo capocidad del estudionte para onolizor y resolver pro- Nosotras usamos un sistema reducido tipo Bloom
blemas, comprender relociones e inlerprelor material de su en el cuadro 5~5 para ilustrar un cuadro de dos vfas
campo de estudio." (Educational Testing Service, 2012) con las especificaciones sabre el contenido del capi-
tulo 4 de este libra: confiabilidad. las entradas en las
"La serie de Stanford Achievement Test [Pruebo_Siarlford caslllas del cuadro 5~5 muestran el peso relativo..aslg-
de Aprovechomiento] ... evoiUo el oprovechomiento esco~ nado a cad a cas lila en forma de porcentaje.
lor del alumna en lecturo, motem6ticas, ortogrofia, len- Por ejemplo, cerca de 10% del contenido se ocupa
guaje, ciendo, ciendas sociales y comprensi6n auditive ... de conceptas relacionados con Ia consistencla inter-
Los reoctivos induidos en Stanford 10 reflejon Ia exten- ns: par lo tanto, cerca de 10% de los reactivos debe
so revisiOn de los est6ndares de enseiian:z.a nocionales y
eslatales, los curricula de confenido espedfico y las fen-
dendas educolivas tal como fueron desorralladas par or- Cuadro 5-4. Principoles c:ategorlos de Ia toxonomla de
'•
'" goni:z.odones educotivos profesionales a nivel nocional." Bloom para el dominic cognilivo
~Harcourt Educational Measurement, 2003, p. 5) Conocimiento Comprensi6n Aplicoci6n
An61isis Slntesis Evoluaci6n

108 Pruebas psicol6gicas. Una introducciOn prclctica


Cuadra 5-5. Ejemplo de un cuodro de dos vlos con los especificociones del contenido bosados en el material del capitu-
lo 4 de este libra: confiabilidad
Proceso
Contenido Hechos Conceptos Aplicociones Totol
Fuentes que atenion contra Ia conflabilidad 5 5 10
Metodo de test-retest 3 5 5 13 -
Confiobilidad interjueces 3 3 3 9
Consislencio inferno 5 10 5 20
Error est6ndor 5 5 5 15
Pruebas con referenda a un criteria 3 3 2 8
Teorlo de Ia generalizabilidod 2 3 5
faclores que afectan r 5 5 10 20
Total 31 39 30 100

abordar conceptos relacionados con Ia consistencia Dada Ia manera en que determinamos Ia validez
interna; en una prueba de 50 reactivos, significarfa in- de contenido de una prueba de aprovechamlento,
cluir cinco reactivos sabre este tema. Si hubiera s61o podrfa pensarse que podemos resumir los resultados
un reactlvo sabre este tema, o 20, Ia prueba tendrfa de man era num€rica, es decir, que podrfamos expre-
una validez de contenido pobre. En terminos de los sar el porcentaje del dominic cublerto par los reac·
totales marginales del cuadro S-5, esperarfamos que tivos y el porcentaje de reactivos que no reflejan el
cerca de 20% de reactivos (10 en una prueba de 50 dominic. En Ia prilctica, esto se hace rara vez; en su
reactivos) abordara el tema "factores que afectan r~. Iugar, despues de ajustar el contenido de Ia prueba
Despues de preparar un cuadro de especifica- al dominic, se emite un juicio acerca de Ia validez de
ciones sabre un Srea de contenldo, determinamos contenido: suficiente o insuflclente.
Ia validez de contenido de una prueba cantrastan-
do su contenido con el cuadro de especificaciones. Validez instrucclonal
Esto suele hacerse reactive par reactive: este anc'ili-
sis debe mostrar a) areas de contenido que Ia prue- Una aplicaci6n especial de Ia valldez de contenido
ba no cubre y b) reactivos que no se ajustan a las es Ia noci6n de valldez instruccional, tambien cono-
especificaciones del contenido. Podemos notar que cida como validez curricular. Mientras que Ia validez
estas dos areas corresponden en gran medida a las de contenido pregunta si el contenido de Ia prueba
nociones de subrepresentaci6n del constructe y va- se ajusta bien a cierto contenido, Ia validez instruc-
rianza irrelevante para el constructe de las que habla- cional pregynta si el contenido ha sido, en verdad,
mos antes. ensefiado. Para que una prueba tenga validez ins-
La Ultima descripci6n sea plica al determinar Ia va- truccional, debe haber evidencia de que el contenido
lidez de contenido de una prueba existente; se usa se cubri6 de manera adecuada en un programa de
un proceso similar cuando una prueba de aprove- ensefianza. A veces llama mas a esto "oportunidad de
chamiento se estil elaborando. Sin embargo, ahara aprender". En algunos contextos, preguntamos si los
nosotros preparamos los reactivos de Ia prueba de estudiantes que responden Ia prueba_en_r.e.alld.ad..ban
man era espedfica para que se ajusten al anteproyec- sido expuestos al material que cubre Ia prueba.
to del contenido. En las p8ginas 135-147 del capitulo El concepto de validez instruccional se aplica pri-
6 se describe el proceso de elaboraci6n de pruebas mordialmente a las pruebas de aprovechamiento
con mayor detalle. educative. Consideremos el tema de Ia rafz cuadra-
Los creadores de pruebas a menudo trabajan a par- da; este puede aparecer en Ia gufa curricular de Ia es-
tir de una especificaci6n del dominic de contenido. cuela y en el libra de matemc'iticas que se usa en Ia
En estas especlflcaciones se describe de manera escuela. Par Ia tanto, Ia prueba de apravechamiento
cuidadosa y detallada el contenido, a menudo con de Ia escuela incluye reactivos sabre Ia rafz cuadra-
una clasilicacl6n de las areas de contenido y los tl- da. Esa es una buena validez de contenido. Suponga-
pos de reactivos. mos, sin embargo, que ninguno de los maestros de Ia
Standards ... (AERA. APA, & NCME, 2013) escuela cubri6 ese tema en clase ni en las tareas para

Validez 109
casa. Entonces los reactivos sabre Ia rafz cuadrada no encontrar una descripci6n detallada de este proce-
tienen validez instruccional: no hubo "oportunidad de so en Knapp y Knapp (1995); estos autores tambien
aprender" acerca de Ia rafz cuadrada. presentan una Util revisiOn de casas de tribunal rela-
La noci6n de valldez instruccional no esta bien cionados con Ia necesidad de validez de contenido
establecida como alga distlnto de Ia validez de con- y un aniilisis de puesto adecuado. Segundo, aunque
tenido. Standards no incluye el termino validez ins- rara vez se usa cifra del porcentaje de acuerdo en las
truccional, pero hay una pequelia discusi6n sabre el pruebas de aprovechamiento, en las de reclutamien-
concepto de oportunidad de aprender. En efecto, Ia to sf se usa para su evaluacl6n. Lawshe (1978) pre-
noci6n de validez ins~ruccional hace referenda sim- sent6 una metodologfa para expresar el porcentaje
plemente al "contenido bien definido" que es en ver- del contenido de Ia prueba que un panel de exper-
dad ensefiado mas que el que se supone que d~be tos juzg6 esencial para el desempei'io en un trabajo;
haberse ensefiacto. Esta es una distinci6n Uti I, pero no su resultado Ia denomin6 raz6n de validez de conte-
introduce una validez par complete nueva; no obstan- nido. Schmidt, Ones y Hunter (1992) y Borman, Han-
te, el termino validez instruccional o valldez curricu- son y Hed~e (1997) presentaron una revisiOn Uti! de
lar ha aparecido. Fue un concepto destacado en un Ia investigaci6n relacionada con el aniilisis de pues-
famoso caso en Ia corte, IJebra P vs. Turlington, que to. Raymond (2001, 2002) aplic6 este concepto a los
veremos en el capitulo 16. examenes de certiflcaci6n y licencias.
La evidencia basada en el contenido tambl€n puede
Aplicaci6n en las pruebas de reclutamiento venir de julc!os de expertos acerca de Ia relaci6n en-
tre partes de Ia prueOa y el constructe. Por ejemplo,
La segunda aplicaci6n de Ia validez de contenido es al desarrollar una prueba para conceder una c€du-
en las pruebas de reclutamiento o selecci6n de per- la profeslonal, pueden especificarse las principales
sonal. Las nociones esenclales son las mismas que facetas que son pertinentes para el prop6sito de Ia
las de las pruebas de aprovechamiento educati- profes!6n que se regula, y se les puede pedir a los
ve. En las pruebas de reclutamiento, el dominic de expertos de esa profesi6n que clasifiquen los reacti-
contenido consiste en los conocimientos y habilida- vos de Ia prueOa de acuerdo con las categorfas de~
des requeridos para un trabajo espedfico. Cuando flnldas por dlchas tacetas.
se construye Ia lista de especificaciones sabre el tra- Standards ... (AERA, APA, & NCME, 2013)
bajo, es habitual restringlr Ia lista a los conocimien-
tos y habilidades que se requieren, espedficamente
para el nivel inicial. los factores como motivaci6n y
Validez de contenido en otras areas t
j
caracterlsticas de personalidad no suelen incluirse, Como seflalamos antes, Ia validez de contenida tiene I
'
pues pueden evaluarse en el proceso de seleccl6n su principal aplicaci6n en las pruebas de aprovecha- ~
mediante otras pruebas que aquf no dlscuttremos. mlento educative y de reclutamiento. Su apHcaci6n en ~
Ademcls, estas otras pruebas tendrfan que validarse
siguiendo metodos dlferentes de Ia validez de con-
atras areas, par ejempla, Ia inteligencia y Ia persona-
lidad, es tlmltada, porque poc;:;~s areas son suscepti-
l
~
tenido. El proceso de desarrollar una lista de cono- bles de hacer especificaciones claras de los dominies
cimientos y habilidades necesarios para un trabajo a que se deben cubrir. Par ejemplo, LCU81 es el content-
menudo se denomlna anallsls de puesto. Despues
de hacer el aniillsis de puesto, ajustamos el content-
do de Ia intellgencia o Ia extroversiOn? Aunque pede-
mas tener definiciones sencillas de estos constmctos,
f
do de Ia prueba al contenido del puesto. AI igual que
con las pruebas de aprovechamiento, podemos ajus-
tar una prueba exlstente a un conjunto de especifica-
es difi'cil especificar un bosquejo detail ado de Ia que
comprenden. De ahf que Ia validez de contenido no
se apllque con claridad a elias. Sin embargo, en al-
l
,,,., ''
ciones de un puesto, o podemos construir una nueva
prueba que se ajuste a dlchas especificaclones.
Aunque hay muchas similitudes al aplicar Ia vali-
dez de contenido a las pruebas de aprovechamiento
gunos casas, Ia validez de cantenida puede tener un
usa llmitado en estas areas; par ejemplo, puede ser
Util para mostrar que una prueba disefiada para me-
dir cierto trastarno de personalidad cubre todos los
I
i

'"
y reclutamiento, existen dos dlferenclas lnteresan-
~es. Prlmero, en el caso de las pruebas de aprove-
chamiento, los documentos impresos, como Iibras de
texto o guias curriculares, par lo general sirven como
rasgos especlficados d.e dicho trastorno en el DSM
Manual diogn6stico y estodfstica de los trastornos.
Tratamos justa este punta en algunas de las prue·
bas que presentamos en el capitulo 13: lnstrumentos
I•
base de las especificaciones del contenida, mientras y metodos clfnicos. Sin embargo, par Ia general, nos
que en las de reclutamiento, a menudo un panel de apoyamos en otros metodos para demostrar Ia vali-
expertos desarrolla las especificaciones. Se puede dez de dichas pruebas.

110 Pruebas psicol6gicas. Una introducci6n practice


problemas con Ia validez de contenido categoria de contenldo usada aquf -operaciones de
multiplicaci6n b8sica- es sencillo. lmaginemos cu8n-
Establecer Ia validez de contenido siempre parece un to mas compllcada se vuelve Ia situaci6n con un tema
proceso muy senclllo. En terminos conceptuales, es mas complejo, como el conocimiento de Ia Guerra Civil
muy b8sico: especificar el contenldo del dominio y, o las habilidades b8sicas de escritura. En una lista de
Juego, revisar que tan bien se ajusta Ia prueba a este contenido de Ia prueba, todos los reactivos del cua-
contenido. Sin embargo, en Ia pr8ctlca, el proceso casi dro 5-6 podrfan categorizarse como "operaciones de
siempre resulta ser mucho mas complicado, lo cual se multiplicacl6n bc'isica~. La persona que juzga Ia validez
deriva de tres fuentes. Pri[llero, excepto en algunos de contenido debe examinar los reactivos reales de Ia
casas muy senclllos, a menudo es diffcll obtener una prueba y no basarse s61o en una lista de categorfas.
especificaci6n clara del dominic de contenido. Consi- En el aniillsls final, Ia validez de contenido requiere un
deremos los ejemplos del cuadro S-2. Dijimos que el juicio y no s61o pasar lista a los elementos que incluye.
contenido de "conceptos matem8ticos en los grados Una ten~era dificultad con Ia validez de contenido
1 a 3" podfa determinarse revisando las guias curricu- es que no haCe referenda en ningUn sentido al des-
lares de varios estados, pero estas gufas difieren un empefio real en Ia prueba. Todos los demas metod as
poco de un estado a otro. Supo:-:gamos que revisamos para determinar Ia validez se refieren, al menos en
las gufas de cinco estados; tres pueden incluir cono- cierto sentido, al desempelio empfrico. Asf, Ia validez
clmiento de las unidades m€tricas en los grades 1 a de contenldo nos deja desanclados del mundo real
3, pero otras dos pueden posponer este tema hasta de Ia interacci6n entre el examinado y Ia prueba.
el grado 4. ,!.C6mo manejamos esto? AI especificar el
contenido del "capitulo 5 de este libra", que nivel de
profundidad del conocimiento queremos: tun conoci-
miento pasajero de los temas prlncipales o una com-
prensi6n completa de cada detalle? Podemos hacer
preguntas slmllares acerca de los conoclmientos y ha-
bilidades enumeradas en las especificaciones de una
prueba de reclutamlento.
La segunda dificultad para apllcar Ia validez de con-
tenldo proviene de juzgar que tan bien los reactivos Validez referida al criterio
de Ia prueba cubren los elementos de las especiflca-
ciones del contenido. Los reactivos con una clasifica- La caracterfstica esencial de Ia validez referida al cri-
ci6n comlrn pueden variar mucho en las habilidades teria es establecer Ia re/oci6n entree/ desempefio en
que demandan. Consideremos los ejemplos del cua- Ia prueba y a/gUn otro criteria que se considers un in-
dro S-6; muchos reactivos diferentes se aplican a una dicador importante del constructe de inter€s. Hay tres
categorfa de contenido como "operaciones de multl- aplicaciones comunes de Ia validez de criteria en dos
pl!caci6n b8sica". tTodos estes reactivos son igual de contextos generales. En todos los casas, tratamos de
apropiados? ,;,Todos miden Ia categorfa de contenido establecer Ia relaci6n entre el desempefio en Ia prue-
igual de bien? Probablemente no. El ejemplo de una ba y su condici6n segUn algUn otro criteria.

Cuadro 5-6. Dlversos reoctivos que corresponden a uno solo cOtegorfo de contenido
Contenido meta: Operodones de mul!iplicod6n b6sica

Posibles-reac;tivos-de-la-prueba
J.Sx4o _ _
2.Sx[]=20
3. 5 X 4"' [o)9 [b)20 [o)25 [d)7
4.Sx[]=20 [] = [o)lS [b)4 IdS [d)25
5. Jack compr6 cuotro dulces o 5 pesos coda uno. aCu6nto dinero gast6?
6. Jack compr6 cuotro dulces o 5 pesos coda uno. zCu6nto dinero gos16?
{a) 9 (b) 20 (c) 25 {d) Ninguno de los onleriore~
7. Jock pag6 20 pesos par cualro dulces. aCuOnto le costO coda uno?

Validez 111

-·- ·- ·---~- .
Los dos contextos generales de Ia validez de crite- ahara, el estatus en que se encontrar8 Ia persona en
ria son Ia validez predictiva y Ia validez concurrente. En el futuro en relaci6n con ese criteria. Segundo. puede
Ia validez predictiva, Ia prueba busca predecir el esta- ser que obtener informaciOn del criteria requiere dema-
tus en alglin criteria que sera alcanzado en el futuro; siado tiempo o recursos y nos gustaria usar un metoda
par ejemplo, podemos usar una prueba de ingreso a mas sencillo para estimar cucll podria ser el estatus de
Ia universidad, aplicada en el Ultimo aflo de bachille- Ia persona. En cualquiera de los dos casas, determina-
rato:p_ara predecir el GPA al final del primer afio en Ia remos si Ia prueba proporciona informaciOn Util acerca
universidad. 0 podemos usar un inventario de perso- del probable estado de Ia persona en relaci6n con el cri-
nalidad para predecir Ia probabilidad de un intento de teria externo. Consideremos primero algunos ejemplos
suicide en algUn momenta futuro. En Ia validez con- de este tipo de validez de criteria y luego examinemos
currente, verificamos Ia concordanda entre el desem- con exactitud c6mo se expresa el grado de validez. El
peilo en Ia prueba y el estatus actual en alguna otra cuadro 5-7 presenta diversos ejemplos del usa de una
variable: par ejemplo, podemos determiner Ia relaci6n prueba para estimar el estatus ell relaciDn con alglin cri-
elltre el desempefio en una prueba estandarizada de teria externo. Par ejemplo, como sefialamos .antes, po-
aprovechamiento y una prueba hecha par el profesor, demos usar una prueba de ingreso a Ia universidad para
para lb cual ambas deber1 aplicarse casi al mismo tiem- predecir el GPA al final del primer a flo en Ia universidad.
po. 0 podemos determinar Ia relaci6n entre Ia puntua- Del mismo modo, podemos usar Ia prueba para prede-
ci6n de una prueba de depresi6n y Ia valoraci6n del cir el desempeflo en un trabajo de acuerdo con las va-
cllnico acerca del nivel actual de de presiOn. La diferen- loraciones del supervisor al final de los primeros seis
cia entre validez predictive y concurrente es estricta- meses en el puesto. QuizS queramos determinar Ia gra-
mente temporal en relaciDn con la variable criteria. Par vedad de una depresi6n; podriamos tener tres clfnicos
Ia demas. los dos conceptos sonIa mismo. que entrevistan, por separado, a un cliente durante una
A lo largo de Ia historia, dos diseF\os, a menudo lla- hora y juzgan su grado de depresi6n. Esto es muy caro;
mados predictive y concurrente, se han distlnguido par ella, queremos saber que tan bien una prueba de 15
por evaluar las relaciones entrt<? prueba y criteria. minutes indicara el grado de Ia depresi6n. En cada uno
Standards ... (AERA, APA, & NCME, 2013) de estos casas, tenemos un criteria externo que define
Ia que en realidad queremas saber. Podemos conside·
Las tres apllcaciones comunes de Ia validez de crite- rar Ia prueba que estamos validando como un potencial
ria implican el usa de a) un criteria externo y factible que sustltuto del criteria externo.
defina el constructe de interes, b) contrastes grupales y En estas situaciones, par lo general expresamos Ia
c) otra prueba. En lo fundamental, estos tres enfoques validez de Ia prueba por medio de Ull coeficiente de
se reducen a lo mismo; sin embargo, tienen algunas di- correlaci6n. Casi siempre usamos el ya familiar coefi·
ferencias practices, asf que lostrataremos par separado. ciente de correlaci6n de Pearson, aunque otros tipos
de coeficientes tambiEm pueden usarse dependlendo
Criterio externo y factible

En algunas circunstancias, tenemos un criteria externo Cuadro 5·7. Ejemplos de crilerios externos usodos para
que proporciona una definiciOn factible del constructe estoblecer lo volidez de criteria de uno pruebo
de lnteres. El criteria externo es aquello sabre lo que Prueba Criterio
nos gustarfa tener fnformaci6n: Ia pregunta natural es: Pruebo de odmisi6n a lo GPA ol h§rmino del primer ofio
si en verdad queremos informaciOn de un criteria ex- universidad en lo universidod
terno, ,:par que no obtenerla en vez de depender de
lnYentorio de depresi6n Voloroci6n del dinico sabre Ia
la-prueba?-Hay-dos rezones; primero, puede-ser- que
gmvedod de lo depresi6n
no podamos obtener Ia informaciOn sabre el criteria
sino despues de cierto tiempo y nos gustarfa predecir, Prueba de habilidades Voloroci6n del supervi-
de o~dna sor ocerco del desempeFio
loborol
Resumen de puntos clave 5-1 Pruebo de pensomiento Voloroci6n de un panel ocer-
creatiYo co de lo crealividad mo-
Tres enfoques comunes de Ia validez de criterio nifestado en producciones
1.Criterio extemo y factible
ortlsticos
2.Contrastes grupales
3.Qtra prueba Escolo de personolidod Dinero de seguros vendidos
del vendedor en un ai'io

112 Pruebas r)sicol6gicas. Una introducci6n Dr3ctica


10_0
• • M OE
• Pruebo I X) 5.68 2.25
8.0 • • • • Criteria~ Y) 5.20 2.37

0
• • • • • • N-50
2
l5
6.0 •• •• • • • r=_606

• • ••
• • • • • •
.• • ••
4.0
Nolo: En algunos ocosiones,

_,
·• • • • un sOlo punta de Ia disiribuci6n
puede repreoenlo~-~6~ de un coso.
2.0

2.0 4.0 6.0 8.0 10.0


Pruebo

Figura 5·3. Distribuci6n bivoriado que ilustro Ia reloci6n enlre uno pruebo y un crilerio externo.

de Ia naturaleza de las escalas que constituyen el cri· DEx= desviaci6n est:3ndar de Ia prueba
terio y Ia prueba. Cuando se usa el coeficiente de co· X= puntuaci6n de Ia prueba
rrelaci6n de esta manera, se denomina coeficiente Mx= media de Ia prueba
de validez. Par Ia comUn, un coeficiente de validez My= media del criteria
es un simple coeficiente de correlaci6n usado para
expresar Ia validez de una prueba. De a hi que todo lo Usar esta ecuaci6n de regresi6n a menudo es des-
que hemos aprendido acerca de los coeficientes de concertante para los estudiantes. Se preguntan: si ya
correlaci6n se pueda aplicar a los coeficientes de va- tenemos las puntuaclones de X y Y para determinar
lidez. La figura 5-3 muestra una distribuci6n bivariada 'xr· war que necesitamos hacer una predicciOn deY?
y el coeficiente de correlaci6n resultante que expresa La respuesta es que determinamos rxr en una investi-
Ia validez de una prueba de ingreso a Ia universldad. gaci6n; luego, en otra situaci6n, cuando no tengamos
Recordemos de nuestra revisiOn de las correlaciones las puntuaciones Y, podemos usar Ia informaciOn que
del capitulo 4 que, una vez que conocemos Ia correla- obtuvimos en Ia investigaci6n y nuestro conocimiento
ci6n entre dos variables, podemos usarla para predecir de Ia ecuoci6n de regresi6n para predecir Y.
el valor de Ia variable Y a partir del valor de Ia variable Recordemos tambiE~n el concepto de error est:3n-
X. (Usamos Ia palabra predecir para referirnos tanto a Ia dar para Ia ecuaci6n de Ia regresi6n. Este es el error
forma predictiva como a Ia concurrente de Ia validez de estimdar de estimaci6n (EEE;J, que se expresa asf:
criteria.) En el contexte de Ia validez de criterio, Yes el
criteria externo y X es Ia prueba; par lo tanto, podemos EEEr =DE·nf 1 - r~~' FOrmula 5-3
aplicar Ia ecuaci6n de regresi6n comUn:
DEy= desviaci6n est:3ndar de las puntuaciones
Y'=bX+o FOrmula 5-1 criteria
rXY= correlacl6n (coeficiente de validez) entre
Y' =valor predicho del criteria el criteria {Y) y Ia prueba (X)
X= puntuaci6n de Ia prueba
b = pendiente de Ia lfnea de regresi6n Esta_es_lguaLaJaJ6rmula-AA...deLcapftulo-4.-Re-
{a]= interseccf6n en Ia variable Y cordemos que debemos distinguir entre los tres tipos
de error est:3ndar que hemos encontrado hasta aquf:
Cuando tenemos las medias y desviaciones estan- el error est:3ndar de Ia media usado en relacl6n con
dar de las variables X y Y, asf como Ia correlaci6n en- Ia variabilidad del muestro, el error estandar de me-
tre elias, Ia fOrmula mils conveniente para Ia ecuaci6n dici6n usado con Ia confiabilidad y el error estandar
de Ia regresi6n es: de estimaci6n. La comparaci6n entre las fOrmulas se
puede ver en Ia pilgina 95.
Y'= rxy(DE/DE) (X- M) +My FOrmula 5-2 El error est:3ndar de estimaci6n es una desviacl6n
est.3ndar de las pur1tuaciones reales del criteria alrede-
rXY= correlaci6n entre prueba y criteria dor de las puntuaclones predichas. De acuerdo con el
DEy= desviaci6n est:3ndar del criterio supuesto de homocedasticidad y nuestro conocimiento

Validez 113
Regre>i6n lineal
10.0 • • Criterio (YJ = 1.56 + 0.64 • PmebCJ {XI
• r = .606
8.0
• • ./

0
• • •
~ 6.0
u • • ••
• y
4.0

• •
DEy•

2.0
• •
4.0 6.0 B.O 10.0
Prueba

Figura 5-4. Unea de predkd6n y dispersiOn alrededor de ella.

de Ia curva normal, podemos aplis:ar esta fOrmula para programaci6n de computadora, mientras que el grupo
estimar las probabilidades de que los casoslndividuales B consta de 35 individuos que no tuvieron un buen des-
est€n par encima o par debajo del estatus predicho del empefio en todo el curso. Habfamos aplicado una prue-
criteria externo en dertas cantidades. La figura 5·4 pre· ba de aptitud de programaci6n de computadoras a los
senta el model a para hacer tales predicciones. 70 individuos antes de empezar el curso. Oueremos es-
tablecer que Ia prueba de aptitud puede distinguir con
daridad entre los exitosos y los no exitosos del curso.
AI ver los resultados de un estudio sabre grupos
contrastados en relaci6n con Ia validez, es importan-
te considerar el grado de separaci6n entre los gru-
pos. No es suficiente limitarse a informar que hubo
una ''diferencia estadistlcamente slgnificativa" entre
los grupos, como se hace a menudo en los manua-
Grupos contrastados les. Si el estudio incluye un gran nUmero de casas, no
es diffcil obtener una diferencia significativa entre los
El segundo metoda para demostrar Ia validez de crite- grupos; lo fmportante es si Ia prueba distingue entre
ria es el de grupos contrastados. En este caso, el crite· elias hasta el grado de ser Util en Ia prilctica. La signi-
rio es Ia pertenencia a un grupo. Queremos demostrar ficancia estadistica es una condici6n necesaria, pero
que Ia prueba diferencia un grupo de otro. Par Ia ge- no suficiente para ser Util con fines pnkticos.
neral, mientras mejor es Ia diferenciaci6n entre grupos, Conslderemos el grado de diferenciaci6n entre gru-
mils v;§lida es Ia prueba. Suponemos que Ia pertenen- pos en los dos ejemplos de Ia figura 5·5. En el·ejemplo
cia grupal es una buena definiciOn del criteria. Pode- A, aunque hay una diferencia significativa en las pun-
mos ilustrar este metoda con unos pocos ejemplos. tuaciones de las medias del criteria y los grupos con-
En el primer ejemplo, ef grupo A consta de 50 indi- trastados, hay una superposlcl6n casl completa en las
viduos diagnosticados con esquizofrenia; el diagn6sti- distribuciones de las puntuaciones. En el caso de casi
co se basa en entrevistas exhaustlvas llevadas a cabo cualquier puntuaci6n de Ia prueba, es diflcil conjeturar
•H.' par tres clfnicos independientes, par lo que podemos si el examinado es mas como el grupo criteria o como
confiar en er. El grupo B consta de 50 individuos sin el grupo de contraste. En el ejemplo B, hay una buena
un historial con problemas psicol6gicos importantes diferenciacl6n entre l'?s grupos; un examinado con una
y, segUn se sabe, su funcionamiento es normal en el puntuaci6n dentro del rango 0 tiene una puntuaci6n
ambiente familiary !aboral. Aplicamos un inventario de como el grupo de contraste, no como el grupo criteria.
'. personalidad a los 100 individuos para mostrar que Ia Un examlnado con una puntuaci6n dentro del rango S
prueba distingue finamente entre ambos grupos. tiene una puntuaci6n como el grupo criteria, no como
En el segundo ejemplo, el grupo A consta de 35 in- el grupo de contraste. S6Jo en el rango R, Ia informa-
dividuos que han terminado exttosamente un curso de ciOn de Ia prueba es inUtil.

114 Pruebas psicol6gicas Una introducci6n practice


Grupo de Grupo
controste crilerio

Ejemplo A Ejemplo B

Figura 5·5. Eiemplo~ de uno diferencior:i6n pobre y olra buena al usor el metoda de grupos conlrostodos.

Los ejemplos de Ia figura 5·!', par supuesto, hacen Correlaciones con otras pruebas
pensar en Ia noci6n de tamaflo del efecto de esta-
distica basica. Seria Util aplicar esta noci6n a los es- Un tercer metoda para establecer Ia validez de criteria
tudios con grupos contrastados sabre Ia validez de es mostrar Ia correlaci6n entre Ia prueba que se desea
criteria. Desafortunadamente, las medidas del tama- validar y alguna otra que se sabe o se supone que es
fio del efecto casino se emplean para ese prop6sito; una medida villida del constructe pertinente, Par simpli-
sin embargo, encontraremos algunas nociones anBio- cidad, nos referiremos a Ia prueba que se desea validar
gas en Ia secci6n sabre teorfa de Ia decisiOn mas ade· como "nueva". En esta aplicaci6n, Ia otra prueba se con-
!ante en este capitulo. vierte en el criteria, anillogo al criteria externo que tra-
Como seflalamos en el capitulo 3, los resultados tamos antes. AI encontrarse par primera vez con este
de los estudios con grupos contrastados constituyen metoda, tendemos a preguntar: si se sabe o se supone
Ia base de algunas afirmaciones en los infarmes inter- que Ia otra prueba es valida, war que no usarla en vez
pretativos sabre las pruebas. Par ejemplo, "las per- de Ia nueva prueba? Hay varias razones par las que de-
sonas con puntuadones como Ia de Juan a menudo seariamos estabfecer Ia validez de Ia nueva prueba: esta
muestran dificultades en las relaciones interperso- puede ser mils cotta o menos costosa que Ia prueba cri-
nales" es una afirmaci6n que probablemente surgi6 teria. Par ejemplo, podriamos tener una prueba de inte-
de un estudio que muestra diferentes distribuciones ligencia aplicable en 15 minutes que queremos validar
de las puntuaciones de personas con y sin relacio- frente a Ia Escala Wechsler de lnteligencia para Nii'ios,
nes interpersonales dificiles.1 Una afirmaci6n como ~Ia cuya aplicaci6n toma alrededor de una hora. La nueva
puntuaci6n de Luis en Ia escala A sugiere un pron6s- prueba puede tener mejores normas o procedimientos
tfco favorable en una terapia de corte plazon proba- de calificaci6n mils eficientes; par ejemplo, podemos
blemente se basa en un estudio de diferencias en Ia querer mostrar Ia correlaci6n entre una nueva edici6n de
escala A en personas que se beneficiaron o no de una prueba de depresi6n -ahara calificada par compu-
una terapia de corte plaza. Es evidente que Ia validez tadora, reactivos actualizados y nuevas narmas naciona-
de estas aflrmaciones depende, en parte, de que tan les- y Ia edici6n anterior de Ia prueba.,;,Por que? Porque
bien Ia prueba diferencia los grupos. tenemos 20 ailos de investigaci6n sabre Ia edici6n an-
EJ lector perspicaz natarii que el enfoque de los terior, pues se trata de una medida respetable que ha
grupos contrastados puede convertirse en una forma resistido Ia prueba del tiempo y muy arraigada en Ia lite·
del enfoque del criteria extern a y factible con el sim- ratura de Ia investigaci6n sabre Ia depresi6n. Esperamos
ple hecho de asignar valores de 0 y 1 a Ia pertenencia que nuestra nueva edici6n tenga una correlaci6n alta
a los grupos. Una persona con inclinaci6n a Ia esta- con Ia anterior. Par cualquiera de estas rezones u otras
distica puede hacer con facilidad Ia conversiOn; sin similares, podemos querer establecer Ia validez de Ia
embargo, en Ia pnktica, los das enfoques sue len tra- nueva prueba en vez de depender de Ia prueba criteria.
tarse como casas distintos. Usar otra prueba para establecer Ia validez de crite-
ria es sendllo y un metodo muy empleado (Hogan & Ag-
1
En estos ejemplos, suponemos que los autores de informes nello. 2004). La correlaci6n (casi siempre Ia de Pearson)
interpretativos emplean ev:idencia empfrica para hacer las afir- entre Ia nueva prueba y Ia prueba criteria express esa
maciones. Sin embargo, algunos informes se basan en ilusio· validez. Asf, fa metodologia es Ia misma que se descri-
nes o hipOtesis mas que en evidencias. bi6 antes en el case del criteria externo y factible.

Va!idez 115
AI considerar Ia validez de una prueba, debemos numerosos problemas y cuestiones que merecen
estar alerta de no confundir las palabras con Ia rea- especial atenci6n. Ahara nos ocuparemos de esas
lidad. Hace muchos alios, Kelley (1927) describi6 lo cuestiones especiales.
que llam6 falacia del retintfn y falacia del tintineo. En
terminos sencillos, Ia falacia del retintfn es Ia idea ·de Condiciones que atectan el coeficiente
que usar las mismas o similares palabras para nom- de corre/aci6n
brar dos casas significa que en verdad son Ia mismo.
Aplicada a las pruebas, esta falacia impliCa creer que AI reviser el coeficiente de correlaci6n (r) en el capi-
el Wisconsin lntelfigence Test [Prueba Wisconsin de tulo 4, seflalamos varias condiciones que afectan su
lntellgencia] y el Scranton fnte/Ngence Test [Prueba magnitud. Ya que el coeficiente de validez es simple-
Scranton de lnteligencia] miden el mismo rasgo s61o ~ mente un tipo de coeficiente de correlaci6n, puede
porque ambos incluyen Ia palabra "inte!Jigence" er1 ser pertinente considerar todas estas condiciones en
su nombre. Estas pruebas pueden no medir el mis- relaci6n con Ia validez de criteria: en particular, linea-
mo rasgo; par ejemplo, pueden tener una correla- lidad, homogeneidad del grupo y heterocedasticidad
ci6n de sOlo .45, lo que sugerirfa que al menos en son cuestiones importantes.
parte miden rasgos dif'"'rentes. La falacia del tintineo Si Ia relaci6n entre prueba y criteria es no tinea!,
es Ia idea de que des casas son en verdad diferen- Ia correlaci6n de Pearson subestimara su verdadera
tes, porque se usan palabras distintas para nombrar- magnitud. AI usar el coeficiente de correlaci6n para
las. Apllcada a las pruebas, esta falacla implies creer expresar Ia validez de criteria, siempre debemos
que eJ Non-Verba! Test of Intelligence [Prueba de examinar Ia distribuci6n bivariada (diagrama de dis-
lnteligencia No Verbal] y el Test of Verbal Fluency persiOn) de las dos variables. La no linea lid ad en Ia re-
[Prueba de Fluidez Verbal] miden rasgos diferentes lacl6n no es un problema com lin cuando estudiamos
porque tienen palabras distintas en sus nombres. Es- Ia validez de las pruebas, pues las correlaclones de
tes des pruebas pueden o no medir rasgos distintos; las pruebas con otras variables no son, por lo comUn,
par ejemplo, su correlaci6n podria ser de .95, lo que lo suflcientemente fuertes para poner de manifiesto
sugerirfa con fuerza que ambas miden el mismo ras- tendencies claramente no lineales. No obstante, es
go. Para protegernos de estas fa)aclas, es necesaria fitcll revisar Ia distribuci6n blvariada para determiner
Ia evidencia empfrica; Ia informaciOn sabre las corre- Ia presencia de una tendencia no lineal. Lo Unico que
laciones entre las pruebas es en especial pertinente, hay que hacer es examinar Ia gratica bivariada (dis-
aunque no es Ia (mica. persograma), que por lo general se puede crear en
El fndice mas comUn para informar Ia validez de cri- SPSS, SAS, Excel o program as similares, y determiner
teria es el coeficiente de correlaci6n, cuyo grade puede si existe una tendencia no lineal.
representarse por media de distribuciones bivariadas, La diferencia en Ia heterogeneidad de grupo es un
como las que se presentan en las figuras 5-3 y 5-4_ Una problema comUn cuando interpretamos los coeficien-
aplicaci6n especial de esta disposici6n es el cuadro de tes de validez. Un estudio sabre Ia validez puede lle-
expectativas. que tiene una estructura muy similar a Ia varse a cabo con un grupo muy heterogEmeo, lo que
de Ia gn§fica bivariada. Las entradas de cada fila en el producira un coeficiente de validez relativamente alto,
cuadro de expectativas son porcentajes de los casas cuando queremos aplicar el resultado a un grupo mu-
en ella. Asf, entradas y combinaciones de entradas se cho mas homogeneo. Por ejemplo, Ia validez de una
pueden traducir con facilidad a probabllidades. En Ia era prueba de admisi6n a Ia universidad para predecir el
previa a Ia computadora, los cuadros de expectativas fa- GPA de alumnos de primer af'\o puede establecerse en
I • J1
.: ' cilitaron Ia interpretaciOn de los datos de Ia validez de un estudio en varies campus, que incluya un amplio
1.. I
1:.;~10; criteria. La disponibilidad de las predicciones generadas rango de capacidades. Queremos usar Ia prueba en un
"'": por computadora, usando los metodos antes descritos solo campus, donde el rango de capacidades es mu-
'''"""'
l«i<l
I,.,., en este capitulo, volvi6 obsoletes los cuadros de expec- cho mils limitado. Casi con toda certeza Ia validez sera
."'"-
;•,_,'"l'l. tativas. Sin embargo, los manuales de pruebas de tiem- menor en nuestro Unico campus. Par el contrario, po-
·'f•l po atnls aUn contienen dichos cuadros. demos llevar a cabo un estudio en un sOlo campus con
I''"''
:.,;.,·,
:,,,,
..
:~
un rango limitado de talento; con seguridad, Ia prue-
', '.~.
Consideraciones especiales para interpreter Ia ba tendra una mayor validez predictiva en las escuelas
·""
~ ""
va!idez de criteria con un rango mas amplio de capacidades. En el capi-
'•,,,.,
tulo 4, presentamos las fOrmulas para hacer los ajustes
~" !'
A primers vista, Ia validez de criteria parece clara y apropiados respecto de las diferencias en Ia heteroge-
',."_{i sencilla, y de heche Ia es de varias maneras. Sin em- neidad grupal. Estas fOrmulas se usan de manera ruti-
bargo, bajo esa apariencia de sencillez se esconden naria en el estudio de Ia validez de criteria.

116 Pruebas Dsicol6gicas. Una introducci6n prilctica


EQUIPO 6.

La homacedasticidad, descrita en el capitulo 4, se a "reducci6n". A partir del coeficiente de validez obte-


refiere al supuesto de que los puntas de los datos es- nido, podemos calcular el coeficiente de validez des-
tan disperses de un modo aproximadamente igual al- atenuodo, que tambiE'n se denomina coeficiente de
rededor de Ia lfnea de predicci6n a Ia largo de todo validez correglda par falta de confiabllidad. Podemos
el rango. vease Ia figura S-4. Par lo general, esto no correglr o desatenuar el coeficiente de validez par fal-
es un problema cuando examinamos Ia validez de Ia ta de confiabilidad tanto de Ia prueba como del cri-
prueba. Las correlaciones entre las puntuaciones de teria. Estas correcciones proporcionan el coeflciente
Ia prueba y otros criterios a- menudo no son lo sufi- de validez estimada si Ia confiabilidad (de Ia prueba,
cientemente altas para tener que preocuparnos par del criteria ode ambos) es perfecta, es decir, +1.00.
ella. Sin embargo, al igual que con Ia no linealidad, es Estas son los sfmbolos que usamos en las fOrmulas
fScil revisar el dispersograma para determiner si hay de correcci6n:
un problema al respecto.

Relaci6n entre confiabilidad y validez


Y =criteria
X= prueba
EQUIPO 6
'xy"" correlaci6n entre prueba y criteria (coefi-
La validez de una prueba depe11de en parte de su con- clente de validez)
fiabilfdad y, en parte, de Ia confiabilidad del criteria. Asl, =
rxx canfiabilidad de Ia prueba
una confiabilidad timitada, sea de Ia prueba a del criteria, ryy = confiabilidad del criteria
limltara Ia validez de criteria. Estas relaciones entre con-
fiabilidad y validez suelen abardarse en el contexte de Y E>stas son las f6riT)ulas apropladas. Utilizamos el
Ia validez de criteria, una costumbre que aquf tambh§n sfmbolo de prima ('}en X, Yo am bas para indicar que
adoptamos. Sin embargo, las nociones fundamentales hemos corregido Ia correlaci6n par falta de confiablli-
se eY.tienden mils ampliamente a todo tipo de validez. dad en la(s) variable(s).
Los conceptos que revlsamos en esta secciOn estc'in en-
rxr
tre los mas importantes de !ada Ia teorfa psicomE'trica. FOrmula 5-4
Primero, expresamos algunas relaciones entre
..; rxx
confiabilidad (tanto de Ia prueba como del criteria) y La t6rmula 5-4 proparciana el coeficiente de vali-
Ia validez en una forma narrativa. Despues, examina- dez corregido parfalta de canfiabilidad en Ia prueba (X).
li remos las relacianes de una manera mas formal con Una modificaciOn a esta fOrmula origina Ia generaliza-
1' 'iii las fOrmulas que las expresan. Si una prueba no tiene ci6n cancisa de que el coeficiente de validez no puede

ll
u
,0 ninguna confiabilidad -las puntuaciones de Ia prueba exceder Ia rafz cuadrada de Ia conflabllidad de Ia prue-
m son s61o error aleatoric-, tampaca puede tener vali- ba (X). Ouiza es mas importante s61o recorder que Ia va-
;I 0
dez; sin embargo, una prueba puede ser par com pie- lidez de una prueba estil limitada par su canfiabilidad.
~ l

'"0
I
~,
to canfiable y, aun asf, carecer de validez; es decir, rxy
l Ia prueba es confiable midiendo alga diferente de Ia rxr· =- -
{rYY
'5 que queremos medir. Si el criteria no tiene confiabi-
'' ' lidad -su estatus es sOlo error aleatoric-, Ia prueba La fOrmula 5-5 proporciona el coeficiente de va!idez
~
i" j
no puede tener validez respecto del criteria, aunque corregido por falta de confiabilidad en el criteria (Y).
Ia prueba sea par complete confiable. He mas formu-
~ rxy
lado las Ultimas afirmaciones en tE>rminas de extre- rx'Y = r~~~ FOrmula 5-6
! ' .J rxx ryy
!I I
••

mes: nada de confiabilidad y par complete confiable .
Desde luego, en Ia pr<'ictica, Ia usual es encontrar ca- La fOrmula 5-6 praporciona el coeficiente de va-
> sos men as extremes, pues las pruebas y los criterlos lidez corregido par falta de confiabilidad tanto en Ia
! ! suelen tener algUn grado de confiabilidad. ,!_Oue ha- prueba como en el criteria. En Gulliksen (1950), Lord y
•'
E ~ cemos en estos casas intermedios? Novick (1968) y Nunnallyy Bernstein (1994) se pueden

•{ ~
'~
Par fortuna, existen fOrmulas que expresan el
efecto de una confiabilidad limitada sabre Ia validez
encontrar mcls detalles sabre estas fOrmulas.
Consideremos este ejemplo. La correlaci6n entre
! de criteria y que, tambi8n par fortuna, son sencillas una prueba (X) diseFiada para predecir el exito en un

• !'
; aunque no obvias para el sentido comUn. Antes de ci- trabaja, el cual es definido par Ia valoraci6n del super-

'I • tar las fOrmulas pertinentes, presentaremos los termi-


nos especializados que usamos para hablar de este
visor del desempefio (Y, el criteria), es .60. La confia-
bilidad de Ia prueba es .75. Si Ia prueba tuviera una

II lema. Atenuaci6n es un termino teen leo que se refie-


re aI limite impuesto a Ia validez debido a Ia canfiabili~
confiabilidad perfecta, Ia correlaci6n entre prueba y cri-
teria (el coeticiente de validez) seria .60/~ .75. =
' ded imperfecta; significa sencillamente "disminuci6n" Supongamos que Ia confiabilidad de Ia valoraci6n del

II Validez 117

,J.'
!?'!

supervisor es .65. La correcci6n por falta de confiabfli- Cansideremos algunos ejemplos. Oueremos que
dad tanto en Ia prueba como en el criteria produce un una prueba de admisi6n a Ia universidad prediga el
coeficiente de validez de .60!-./.75x.65 = .86. Asl, el co- "E§xito academico~. Utilizamos el GPA como defini-
eficiente de validez (.60), que es moderado, estc'i limite- ciOn operacional de! €xito en Ia universidad. ~Que tan
do considerablemente porIa confiabilidad imperfects buena es esta definiciOn operacional? El GPA de los
de Ia prueba y el criteria. alum nos de primer afio es s61o una posible deffnici6n
En Ia mayoria de las aplicaciones prc'icticas de del ex ito en Ia universidad. Otra posibilidad es el GPA
estos procedimientos, corregimos s61o por falta de tras Ia graduaci6n. Una posibilidad mds es Ia partici-
confiabilidad en Ia pr':Jeba. Suponemos que Ia confia- paci6n activa en actividades extracurriculares a una
bilidad del criteria es irreprochable o, de modo mas calificaciOn compuesta par el GPA y Ia participaci6n
. realista, que no hay nada que hacer i31 respecto. Sin extracurricular. ,:_Que hay del €xito como vendedor?
embargo, a veces es Util aplicar Ia correcciOn tam- El volumen total de dOiares vendidos podrfa ser una
bien al criteria. Es importante hacer hincapie en que buena definiciOn de ex ito, perc quizc'i no sea Ia mejor.
aplicar estas correcciones no cambia en realidad el Algunos vendedores pueden ser asignados a areas
coeficiente de validez determinado en un estudio es- del mercada que par supuesto tienen un alto volu-
pecffico. No obstante, las correcciones nos ayudan a men. Quiz8 el nUmero de nuevas cuentas adquiridas
pensar en los efectos de Ia confiabilidad imperfecta serfa una mejor definiciOn de exito, o Ia valaraci6n del
sabre el coeficiente de validez. jefe de vendedores podria servir como definiciOn de
exito. Obviamente, podriamos dar mUltiples ejemplos
de distintas maneras de definir cualquier criteria que
pudiera usarse para Ia validaci6n de una prueba. Lo
importante aqui es que al considerar Ia validez de cri-
teria de una prueba, tambien necesitamos pensar en
Ia validez de Ia definiciOn operacional del criteria.

Contaminaci6n del criteria

La correcci6n por falta de confiabilidad suele apli- Cuanda tratamos de establecer Ia validez de una
carse para llevar Ia prueba a un nivel de confiabili- prueba correlacionSndola con un criteria externo, Ia
dad perfects (1.00). Aunque este procedimiento es contaminaci6n del criterio se refiere a una situaci6n
Uti I para prop6sitos te6ricos, es muy poco realists. Es en Ia que el desempeiio en Ia prueba influye en el
mas realista fijar Ia confiabilidad en una cifra como .85 estatus del criteria. Un ejemplo pondrc'i en clara el
o .90, lo cual puede hacerse incluyendo una citra mas concepto. Con una muestra de 50 casas, intentamos
realista como multiplicador en el denominadar de las establecer Ia validez del Cleveland Depression Sca-
fOrmulas citadas antes. Por ejemplo, Ia prim era fOrmu- le (CDS [Escala Cleveland de Depresi6n]) mostrando
la puede escribirse como que tiene una correlaci6n alta con las valoraciones de
Ia depresi6n realizadas par tres clfnicos. Estes tienen
rxy acceso a las puntuaciones, porIa que basan su valo-
rx·y = 7o§~=c FOrmula 5~7 raci6n, al menos en parte, en elias. Esto conduce a
..j .90{rxx I
inflar Ia correlaci6n entre Ia prueba y el criteria. Tam-
Esto nos darc'i un coeficiente de validez estima- bien es posible que Ia influencia sea en Ia direcci6n
da V=<rl con el supuesto de que Ia confiabilidad de Ia contraria, es decir, que la correlaci6n disminuya; par
prueba (rx_,) es elevada a .90. ejemplo, si los clfnicas desprecian el CDS, podrfan
estar en desacuerdo con €-1 de modo deliberada. Sin
,,,,,,
'" Validez del criteria
..... embargo, esto es poco probable; Ia contaminaci6n
'] del criteria, par lo general, !leva a aumentar Ia carrela-
'"'·' AI discutir Ia validez de criteria, tendemos a centrar Ia ci6n entre prueba y criteria.
•'1 1-
."" . atenci6n en Ia prueba. ~Que tan bien Ia prueba pre- Cuando se lleva a cabo un estudio de validez de
... dice o se correlaciona cor, el criteria? De hecho, Ia criteria, es importante que el disefio evite Ia canta-
........,;;:
,""·· prueba debe ser el centro de atenciOn, porque trata- minaciOn del criteria. Cuando se revisa uno de estes
,., ... mas de evaluar su validez. Sin embargo, desde otra estudios, debemas estar alerta para detectar Ia posible
" perspective, necesitamos examinar Ia validez del cri- presencia de Ia contaminaci6n del criteria. No existen
~,,
. teria, en especial Ia definiciOn operacianal del criteria:
,:_es apropiada?
m€todos analiticos ni fOrmulas que estimen el etecto
de esta contaminaciOn.

118 Pruebas p~··cologicas. Una in1raducCI6n pract1ca


Vafidez convergente y discriminante se usan estos conceptos en el campo de Ia personali·
dad; supongamos que intentamos establecer Ia validez
oos conceptos L'itiles para pensar acerca de Ia validez del Scranton Test of Anxiety (STA) tratando de mostrar
de criteria son Ia validez convergente y Ia validez discri- que su correlaci6n con otras medidas de ansiedad es
minante. La validez convergente se refiere a una corre- alta y que con medidas de depresi6n no. Aplicamos el
lac:i6n relativamente alta entre Ia prueba y aJgUn criteria STA junto con el Taylor Manifest Anxiety Scale [TMAS
pensado para medir el mismo constructe que Ia prueba; [Escala de Ansiedad Manifiesta EJe Taylor]) y el Beck De-
por ejemplo, para demostrar Ia validez de una prueba pression Inventory (801) suponiendo que son medidas
de depresi6n, podemos qu~rer mostrar que esta tiene razonablemente v€1iidas de ansiedad y depresi6n, res-
una correlaci6n alta con otra prueba reconocida como pectivamente. Un resultado favorable serfa encontrar
una buena medida de depresi6n. En contraste, pode- correlaciones de .75 entre STAy TMAS tvalidez conver-
mos querer mostrar que nuestra prueba de depresi6n gente) y de .20 entre STAy BDI (validez discriminante).
noes una simple medida de inadaptaci6n general, por Pero sl Ia correlaci6n entre STAy BDI fuera de .75, con-
to que queremos mostrar que no tiene una correlaci6n cluirfamos que el STA no discrimina entre ansiedad y
alta con constructos como ansiedad o estn?s. Esta es Ia depresi6n. Este tipo de am§lisis y razonamiento es muy
validez discriminante, Ia que ffi11€Stra que una prueba comUn en las discusiones sabre Ia validez de las prue-
tiene una correlaciOn relativamente baja con construe- bas de personalidad. En el cuadro 5-8 se encuentran
los diferentes al que se pretende medir con ella. afirmaciones en las que se emplean estos conceptos.
las relac·1ones entre las puntuaciones de Ia prueba
y otras medidas del mismo constructe, o similares, Matriz multirrasgo~multimetodo
proporclonan evidencia convergente, mientras que
las relaciones entre las puntuaciones de Ia prueba y Una aplicaci6n especial de los conceptos de val1dez
medidas de constructos manifiestamente diferentes convergente y discriminante es Ia matriz multirras-
proporcionan evidencia discriminante. go-multimetodo. En un articulo cliisico, Campbell y
Standards ... (AERA, APA, & NCME, 2013) Fiske (1954} recomendaron el usa de esta matriz para
analizar Ia validez convergente y divergente de va-
Los conceptos de valldez convergente y discriminan- rias pruebas. La matriz es justa una matriz de corre-
te se usan mucho en el campo de Ia medici6n de Ia per- laciones, donde las variables incluyen pruebas que
sonal1dad, pero se usan poco en el de las pruebas de pretenden medir diferentes rasgos -par eso es mul-
capacidad y aprovechamiento en Ia priictlca, aunque es- tirrasgo- par media de distintos metodos -par esc es
tos conceptos, sin duda, tienen aplicaciones potenciales multimetodo. Los distintos rasgos podrlan ser ansiedad
en estas iireas. Aquf presentamos un ejemplo de c6mo ydepresi6n, como en ef ejemplo anterior, mientras que

Cuadro 5~8. Afirmodones muestra de Ia volidez convergente y discriminants provenien!es de monuales de pruebas

"Es de especial importancia el hallazgo de que el BDI-11 [Beck Depression lnvenlory-11] tuvo uno correloci6n po-
sitive m6s alta (r = .71) con el Hamilton Psychiatric Rating Scale for Depression (HRSD [Escalo Hamillon de Vo-
lorad6n Psiqui6trico de De presiOn]) ... que con el Hamilton Rating Scale for Anxiety (HRSA [Escala Hamilton de
Voloraci6n de Ansiedad]) (r = .47) ... Estes hallazgos indican una validez discriminanle robusto entre depres"16n y
ansiedad." (Beck, Steer, & Brown, 1996, p. 28)
"Las correladones de los escalos STAI [State-Trail Anxiety Inventory {lnvenlario de Ansiedod Rmgo-Estado}] y
otros medidos de personalidad propordonon evidencia de Ia validez convergente y discriminante del STAI. En ge-
neral, se esperorion correlaciones moyores con los medidas de perturboci6n emocionol y psicopatologio, y corre-
locioneS"TilellOTes--.:on consiructos no relacionodos." {Spielberger, 1983, p. 35)
"Un estudio... compar6 el Piers-Harris [Children's Self Concept Scale {Escolo Piers-Harris de Autoconcepto ln-
fantil}] con el Cooper-Smith Self-Esteem Inventory [lnventorio Cooper-Smith de Autoeslima] ... las dos medidos
tuvieron una correlaci6n de r= .78, que estoblece lo validez convergenle. la validez discriminonte se evalv6 co·
rrelacionondo los pvntuaciones del outoconcepto con variables que represenlan el aprovechomiento academico,
el eslalus.socioecon6mico, ubicoci6n-en educod6n especial, origen etnico, grodo, gEmero y edod.los coeflcien-
les de correlaci6n mUltiple con estes variables conceptual mente distintos no superoron el .25, Ia que consliluye evi-
dencia de Ia volidez discriminanfe." [Piers & Herzberg, 2002, p. 66)
~EI hecho de que los escolos NEO PI-R se correlacionen con medidos olternotivm de construe/as similares es uno
evidencia de su volidez convergenle ... Lo validez discriminonle se observo conlrastondo sus correlaciones con as-
pectos diferentes denfro del mismo dominio." (McCrae & Costa, 2010, p. 74)

Validez 119
los distintos metodos podrfan incluir cuestionarios de El cuadro 5~10 presenta datos ilustrativos de Ia ma-
autorreporte, tecnicas proyectivas y vatoradones ba- triz multirrasgo-multimetodo de nuestro ejemplo. En
sadas en entrevistas clfnicas. EJ prop6sito esencial del €1, las corre!aciones se reflejan de manera favorable
am'ilisis multirrasgo-multJmetodo es demostrar que en las pruebas, es decir, muestran una validez con-
las correlaciones dentro de un rasgo utilizando distin- vergente y divergente apropiada.
tos metodos son mas altas que las correlaciones den- Queremos hacer hincapie en que este es un ejem-
tro de un rrietodo con distintos rasgos y, desde luego, plo muy sencJIIo empleado con fines didacticos. Cam-
que las correlaciones que combinan distintos rasgos pbell y Fiske (1954) em plea ron ejemplos que inclufan
y metodos. El cuadr'? 5-9 presenta un esquema para tres rasgos y tres m€todos o mas; Ia matriz de correla-
comprender Ia matriz multirrasgo-multlmetodo. En este ciones puede volverse muy grande con rapldez. Este
ejemplo, intentamos medir depresi6n y ansiedad (dos metoda se cita mucho en Ia literature psicometrlca;
rasgos supuestamente distintos). De cada rasgo tene- sin embargo, en Ia practica nose usa tanto. En un ar-
mos una medida proyectiva, digamos una puntuaci6n ticulo posterior al de 1954, Fiske y Campbell (1992) la-
de Ia prueba de manchas de tinta Rorschach, y Ia pun- mentaron que, mientras que su artrculo de 1954 fue
tuaci6n de un inventario de autorreporte, digamos el -:itado miles de veces, "aUn nos queda por ver una
MMPJ-2. Llamemos los rc>5gos D y A, y los metodos 1 matrlz en verdad buena" (p. 393). No obstante, este
y 2. En el cuadro 5-9, las correlaciones (r) en diagonal enfoque nos ayuda a pensar coh mayor claridad acer-
son los coeficientes de confiabilidad. las otras entra- ca de nuestros met ados para validar pruebas.
das tambien son correlaciones codlflcadas en terminos
de nuestras expectativas acerca d~ sus niveles. "CA" Combinaci6n de informaciOn de diferentes
slgnifica que esperamos encontrar correlaciones altas; pruebas
par ejemplo, queremos obtener una correlacl6n alta
entre las dos medidas de depresi6n a pesar de que Hasta ahara, nos hemos referido a !a validez de cri-
son medidas derlvadas de metodos diferentes, en este teria como Ia relaci6n entre una sola prueba y un cri-
caso, et Rorschach y el MMPI-2. YCB" y "CMB" signlfi- teria; sin embargo, en algunos contextos queremos
can que esperamos encontrar una correlaci6n baja y usar varias pruebas para predecir el estatus de un cri~
muy baja, respectivamente. Queremos encontrar una terio. El metoda usual para tratar con esta situaci6n
correlaci6n baja entre depresi6n y ansiedad aunque es Ia correlacl6n mUltiple, tecnica para expresar Ia
ambas sean medldas par el Rorschach. Desde luego, relaci6n ente una variable (el criteria) y Ia combina-
esperamos encontrar una correlaci6n muy baja entre c!6n 6ptima de dos o mas variables (en este caso, va-
depresi6n, medida con el MMPI-2, y ansiedad, medida rias pruebas). Par ejemplo, podemos querer predecir
con el Rorschach. el GPA de un estudlante de primer af'io a partir de Ia
combinaci6n de una prueba de admlsi6n, su rango en
el bachillerato y una prueba de motivaci6n acadE!mi-
Cuadro 5~9. Ejemplo sancillo de una motriz ca. El truco es definir los pesos 6ptlmos de las varia-
multirrosgo-multim9todo bles para maximizar Ia correlaci6n entre el criteria y Ia
D-1 D-2 A·l A·2 combinaci6n de pruebas. Estes pesos dependen no
s61o de las correlaciones de las pruebas con el crite-
D-1 ;
ria, sino tambiE!n de las relaciones entre elias.
D-2 CA c Hay dos prop6sitos principales de los procedi-
A-1 CB CMB ; mientos de correlacl6n mUltiple. El primero es muy
practice; se trata de obtener Ia mejor predicci6n po-
A-2 CMB CB CA
sible de una variable dependiente, como el E!xito en
un trabajo o en el desempeiio academico, a partir de
Cuadro 5~ 10. Dotos ilustrativos de una matriz otras variables y de Ia manera mcls econ6mica posi-
multirrosgo-multim9todo ble, es decir, sin incluir ninguna variable mas que las
necesarlas. El segundo prop6sito es comprender a nl-
D·l 0·2 A·l A-2 vel te6rico que variables contribuyen efectivamente a
D-1 .84 Ia predlccl6n de una variable dependiente y que va-
D-2 .75 .87 riables son superfluas .
' Hay dos productos finales de los procedimientos
A-1 .32 .17 .79 de correlaci6n mUltiple. El prlmero es un coeficien-
te de correlaci6n mUltiple, representado mediante R
A-2 .09 .49 .65 .81
(mayUscula). R se escribe acompaFiada de subindices

120 Pruebas po,icol6gicas. Una introducci6n prSct!ca


A 8 c
1 I

.
. . . 4

23
4 2 3

Figura 5·6. llustraci6n de las posibilidades de Ia regresi6n mUlti plot


para indicar lo que se predice y a partir de~ que se Consideremos los ejemplos de Ia figura S-6. El mar-
predlce; par ejemplo, si Ia variable 1 se predlce a par- co "1" represents el criteria que tr?tamos de predecir;
tir de las variables 2, 3 y 4, escribimos Rt 234 • Esta R se el grado en que los marcos (2, 3 y 4) se superponen al
interpreta de Ia misma manera que Ia r de Pearson, a marco 1 es proporcional a sus correlaciones respectivas
Ia que ahara llamaremos coeficiente de correlaci6n con el criteria. Es decir, el grad a de superposici6J1 con el
de arden cera. criteria corresponde a f de cada una de las otras varia-
El segundo producto de los pracedimientos de co- bles. De manera similar, ~I grado de superposici6n entre
rrelaci6n mUltiple son los pesos asignados a las varia- las cajas 2, 3 y 4 es proporcional a sus respectivas in-
bles predictoras. Estas tienen dos formas: las b y las tercorrelaclones. En estos ejemplos, queremos usar las
[j3] (beta). Las ~b" se aplican a las puntuaciones natu- pruebas 2, 3 y 4 para predecir el criteria (1).
rales. mientras que las "[J3r, a las puntuaclones Hes- Ahara consfderemos el ejemplo A. las pruebas
tandarizadas", es decir, puntuaciones z. La ecuaci6n 2 y 3 muestran una superposici6n considerable con
que muestra una predicci6n a partir de una correla- el criteria: sin embargo, entre sf tienen una correla-
ci6n mUltiple, llamada ecuaci6n de regresi6n mUlti- cl6n alta. Despues de que introduclmos una de elias
ple, es como esta si incluye tres predictores: en Ia fOrmula para predecir el criteria (es decir, en Ia
Forma con puntuaciones naturales: ecuaci6n de regresl6n mUltiple), Ia otra af'iade poca
l ~ informaciOn nueva. Supongamos que Ia prueba 2 se
'' !ncluye primero en Ia ecuacl6n; esta tendrS el mayor
I
'" peso ([[3]). La prueba 4 tendrS el siguiente peso de
l Forma con puntuaciones z: mayor magnitud aunque Ia prueba 3 tenga una corre-

l' 1
.,"' •''
lacl6n mas alta con el criteria que Ia prueba 4, pues
esta Ultima agrega mBs informaciOn nueva o (mica
despues de que Ia prueba 2 ya estS en fa ecuaci6n.
• Podemos notar Ia diferencia entre las b y las (j3]; Podemos notar que Ia prueba 4 no estB correlaciona-

1' I las prlmeras s61o nos dicen cu6nto peso dar a cada
variable de puntuaci6n natural y compensan las dlfe-
rencias en las escalas empleadas en las puntuacio-
da con las pruebas 2 y 3 (y no se superpone a elias).
En el ejemplo C, las pruebas 2, 3 y 4 tienen casf
el mismo grado de correlacl6n (superposici6n) con

!i nes naturales. las variables con nUmeros "grandes"


par lo general obtrenen pesos pequef1os, y a Ia Inver-
sa, variables con nUmeros ~pequeflos" obtienen pe-
el criteria. Adem8s, las tres pruebas tienen correla-
clones altas entre sf, como lo Indica el grado en que
se superponen una a otra. Oespues de que introdu~

I
l
• sos grandes. En Ia forma con puntuaci6n z, todas las clmos una de elias en Ia ecuacl6n, las otras dos agre~

I' variables tienen M = 0 y DE= 1, par lo que los pesos


beta pueden compararse directamente, pues indican
gan poca InformaciOn nueva. Desde un punta de vista
i ~ pnktico, no valdrfa Ia pena apllcar estas tres pruebas
l., de man era lnmedlata que variables reciben Ia mayor con el fin de predecir el criteria. Par ejempla, para

' I'
0 parte del peso. predeclr el GPA de un estudlante de primer afio, no
• Tambht!n usamos R cuadrada (R"), es decir, el por- seria UUI apllcar tres pruebas separadas de capacl-
' centaje de varianza en Y explicado par Ia varlanza de dad verbal general aunque las tres tengan una corre-
' ' los predictores o que se superpone a ella. Esto nos laci6n considerable con el GPA.
!leva a una manera lnteresante y Utll en termlnos dl- las cuestiones lmportantes de Ia metodologfa de
dScticos de interpreter las contribuclones de dlferen- correlacl6n mUltiple son: 1) el arden en que las varia-
tes variables en R. bles se lntroducen en Ia ecuacl6n, 2) Ia superposlcl6n

Validez 121
entre los predictores y 3) cuando nuevas variables
no aportan ningUn poder predictive. Asf, los procedi·
serEifl "significativas" o tendr8n pesos extr·anamente
grandes (o pequefios), pero s6fo por azar. Una priicti-.
r
j
mientos de correlaci6n mUltiple pueden mostrar que ca deseable es el usa de Ia validaci6n cruzada, que
ciertas variables no son predictores vafiosos una vez se refiere a determiner fa ecuaciOn (y R) en una mues-
que se han tornado en cuenta otros predictores. tra, y luego aplicar Ia ecuaci6n en una nueva muestra
La correlac~6n mUit'1ple es un.a tE!cnica crucial para para ver qu€ R emerge. La pi?rdida de validez (es de-
deter~nar Ja validez incremental, que se refiere a cir, reducciOn de {f) de Ia primera a fa segunda mues- ~.
cUanta informaciOn nueva y Unica aporta wla prue- tra se conoce por ef curiosa n6mbre de encogimiento ..
ba (u otra fuente de informaciOn) a Ia informaci6n de Ia validez. El problema del encogimiento de fa vali-
existente. La nociOn geileral de validez incremental dez -y, par fo tanto, Ia necesidad de validez cruzada-
es importante-muy aparte de Ia correlaciOn mUltiple. puede ser de especial seriedad cuan.do Ia muestra
Siempre tratamos de determiner cuEinta informaciOn inicial es j)equeila. El problema disminuye conforme
nueva ofrece una prueba o un procedimienta, cuan ef tamafiO de Ia muestra au menta.
dificil y costoso es obtener informaciOn nueva y si Esta operaci6n del azar no es extlusiva de fa corre-"
esta vale el esfuerzo y costa extras. En afgunas cir- laci6n mUltiple. fnvitamos a regresar al capitulo 4, donde
cunstancias, podemos estar interesados en tener una discutimos Ia confiabilidad de las diferencias: si exami-
prueba con validez buena, pero no necesitamos usar namos un nUmero suficiente de diferencias entre pun-
Ia prueba, porque ya tenemos informaciOn buena tuaciones, casi es seguro que encontraremos algunas
acerca del rasgo de interes. En otras circunstanclas, "diferencias signiflcativas" sOlo par azar. Volveremos a
podemos no tener priicticamente ninguna informa- ver este fen6meno en.el capitulo 6 al elegir reactivos
ciOn sabre el rasgo de interes, par fa que nos alegra para una prueba basada en informaciOn del anclfisis de
poder usar una prueba que tenga sOlo una validez reactlvos. Ef problema de sacar provecho del azar es
modesta, pues al menos nos da alguna informaciOn pernicioso cuando tratamos con muchas variables.
Uti!. En Hunsley y Haynes (2003) podemos encontrar
aplicaciones prclcticas de Ia nociOn de validez incre- PredicciOn estadfstica freote a predicciOn
mental en contextos cllnicos. clfnica
Los procedimientos de correlaciOn y regresi6n mUl-
tiple proporcionan los detalfes matemEiticos de los con- En Ia secciOn previa, describimos fa metodofogfa esta-
cept as que hemos ilustrado en Ia f1gura 5-6. Podemos distica para comblnar informaciOn. Con las tecnicas de
entender los conceptos generales imp!icados sin un correlaci6n mUltiple, determinamos de manera empf-
fntimo conocimiento de los procedimientos matemEiti- rica que informaciOn usar, que pesos apllcar a lo que
cos: esto es suficiente para nuestros prop6sitos. Los usamos y que informaciOn descartar. Otra alternative
procedimientos de regresiOn mUltiple permiten dife- es combinar Ia informaciOn basada en fa intuici6n y ex-
rentes modos de afiadir variables en fa ecuaci6n, tema periencia cJinica . .:.aue metoda es mejor para combi-
que va rniis ana de nuestros objetivos en este libra. nar informaciOn: el estadfstico o el clinico? En algunas
La correlaciOn mUltiple es Ia tecnica estadlstica fuentes se denomina a esto Ia cuesti6n de Ia estadfs-
multivariada que se usa con mayor frecuencia cuan- tica contra Ia clfnica, mientras que en otras se llama Ia
do se combina informaciOn de distintas pruebas. Sin cuesti6n de Ia actuarial contra fo clrnico. Consuftar a
embargo, no es Ia Unica tecnica multivariada para este los expertos clinicos no esta limitado a los psfcOiogos
propOsito, pues existen otras, como las funciones dis- clfnicos, sino que incluye cualquier tipo de profesi6n,
criminantes, las correfaciones can6nicas o los modefos par ejempfo, consejeros a expertos en justicia criminal.
de ecuaciones estructurales que estiin miis all€! del al- Consideremos los siguientes dos escenarios.
cance de este libra. En Tabachnick y Fidefl (2007) se Primero, queremos predecir ef GPA-de-un grupo
puede encontrar mas informaciOn sabre estas tecnicas. de 100 estudiantes de primer afio. Podemos hacer
una predicci6n estadistica basada en los ranges de
Validaci6n cruzada y encogimiento bachlllerato y las puntuaciones del SAT utilizando Ia
de Ia validez metodologfa de Ia correlaciOn mUltiple. Tambi€n po-
demos pedirle a un grupo de consejeros de admi-
Si dejamos que ef azar opere en un nUmero suficiente siOn que haga predicciones. Los consejeros tienen el
de eventos, de seguro observaremos algunos resulta- rango de bachillerato e informaciOn del SAT; tambi€n
dos inusuales. Eso es lo que sucede con los eventos tienen los fOJderes de los estudiantes con cartas de
climiiticos, con una maned a lanzada al aire y con una recomendaci6n, transcripciones de los curses de ba-
correlaci6n mUltiple. Si introducimos suficientes va- chiflerato y registros de actividades y trabajo extra-
riables en Ia ecuaciOn (fOrmula 5-8), algunas de elias curricular. Los consejeros pueden combinar toda esta

122 Pruebas psicokrqicas_ Una introducci6n p1·actica


·r·· informaciOn de Ia manera que deseen y hacer un jui- eva!uaci6n, Ia decisiOn implica usar pruebas, sabre
do cJfnico sabre el probable exito, definido como el todo en el contexte de Ia validez de criteria, para pro-
GPA. ,;_Qu€ predicci6n sera mas exacta: Ia puramente p6sitos como setecci6n, certificao6n y diagn6stico. AI
estadfstica, basada en Ia regresi6n mUltiple, o Ia clfni- aplicar Ia teorfa, par lo general queremos optimizar
Ga, basad a en el usa intuitive de Ia informaciOn? los resultad0s Qe nuestras decisiones de acuerdo con
Aquf esta el segundo escenario. Ter1emos un grupo cierto\ criterios, los cuales pueden implicar ahorros
de 50 pacientes en un hospital estatal; Ia mitad de elias en costo.s o tiempo. Las aplicaciones formales de Ia
ha side diagnosticada con el padecimiento A y Ia otra teorfa de Ia decisiOn se vuelven con rapidez bastante
mitad, con el padecimiento j3. Estes diagn.ctst\c?s se be- complejas en terminos matematicos y estan mas all a
san en una evaluaci6n extensa y en entreVistas mUlti- del alcance de este libra. Sin embargo, una sencilla
ples con varies psic61ogos. Tenemos mucha confianza introducci6n de algunos conceptos y terminos basi-
en que los diagn6sticos son correctos, pero ahara que- cos de esta teorfa ayudara erl nuestra reflexiOn·sobre
remos ver c6mo podemos claSiflcar con exactitud a es- Ia validez, en especial Ia validez de criteria.
tes individuos par media de a) metodos estadfsticos y
b) entrevistas dfnicas. Desarrollamos una ecuaci6n de Aciertos, positives falsos y negatives falsos
regresi6n mUltiple sOlo con el :;:Jel'fil de puntuaciones
del MMPI para obtener Ia predicci6n estadfstica de per- Primero, vamos a familiarizarnos con las nociones de
tenencia grupal, A frente a B. Tenemos tres psic61ogos aciertos, positives falsos y negatives falsos. Observe-
dinicos que entrevistan a los paclentes para tamar una mas el arden de los datos de Ia figura 5-7. Como en
determinaci6n. Ademas de Ia informaciOn de las entre- Ia figura 5-3, empleamos una prueba de admisi6n a Ia
vistas, los clfnicos tambien tienen las puntuaciones del universidad para predecir el GPA de estudiantes de
MMPI. i_Cual sera mejor predicci6n de Ia pertenencia primer af\o. En muchas universfdades, tener un GPA
grupal: Ia fOrmula estadfstica o el juicio clfnico? debajo de 2.0 resulta en una situaci6n academics
Se han realizado numerosos estudios con un disei'io condidonal; asf que 2.0 es un punta de corte natural
similar al de estos dos escenarios. En general, las predic- para el GPA, que en este caso es el criteria o varia-
ciones estadfsticas son iguales o, muchas veces, mejores ble Y. La prueba de admisi6n es Ia variable X, y tie-
que las predicciones clfnicas. Los clfnicos hecen muecas ne una media de 50 y una desviaci6n esttindar de 10.
frente a estos hallazgos. y los estadfsticos sienten verti· Decidimos usar una puntuaci6n de 40 para elegir es-
,I
!I i
go. Meehl (1954) fue el primero en documentar Ia supe-
riorldad de las predicciones estadfsticas sabre las clfnicas
tudiantes para Ia clase de reel en ingresados del prOxi-
mo a flo. Asf, 40 es el punta de corte.
",' Un acierto es un caso que tiene el mismo estatus
g!
en varios estudios. Otros informes han confirmado sufi·
$ cientemente este resultado. Dawes (1994, en especial el respecto de Ia prueba y el criteria: es decir, los acier-
j ~ capitulo 3) presenta una revisiOn complete y amena de tos incluyen casas que excedieron el punta de corte
' I
:2'
Ia literature sabre este tema. LPodemos sustituir a los clf- del criteria y de Ia prueba {acierto positive), a sf como
~, nicos con fOrmulas? A veces sf, a veces no. EJ desarro- casas que estuvieron par debajo del punta de corte
'' • llo de fOrmulas requiere de una base de datos adecuada del criteria y de Ia prueba {acierto negative). Estes ca-
•"'•
:n'
:; en Ia que podamos apoyarnos, pero no siempre Ia tene- sas se ubican en los cuadrantes superior derecho e

II ~
mos. En ese caso. debemos apoyarnos en el juicio clfnico inferior izquierdo. de Ia figura 5-7. Evidentemente, un

q
E •
~ para hacer lo mejor posible en cada situaci6n. Ademas,
necesitamos clfnicos para desarrollar nociones originales
fndice alto de aciertos indica una buena validez de
criteria de Ia prueba; sin embafgo, a me nos que Ia co-

:I
1'
i
Il de Ia que se debe medir para dedicarnos a las fOrmulas.
Tambien puede haber situaciones en que el juicio clfnico,
guiado con firmeza par las fOrmulas estadfsticas. puede
ser mejor que las fOrmulas por sf mismas. Grove y Meehl
rrelaci6n entre prueba y criteria sea perfects (1.00),
habra algunos errores en las predicciones. Los erro-
res se clasifican de Ia sigulente manera. Los positivos
falsos son casas que superan el punta de corte pero
I' ~ (1996). Grove, Zald, Lebow, Snitz y Nelson {2000), Klein· nose ajustan al criteria; estos casas se encuentran en
i ~ muntz (1990) y Swets, Dawes y Monahan {2000) presen- el cuadrante inferior derecho de Ia figura 5-7. Los ne-
'
~ ~
tan una discusi6n detallada de este tema. gativos falsos son aquellos en que Ia puntuaciOn de
• ~ !a pru~ba esta debajo del punta de corte, pero tienen
' ~ Teorfa de Ia decision: conceptos exlto en el criteria; estos casas se encuentran en el
=
• • y terminos biisicos · cuadrante superior izquierdo de Ia figura 5-7.
Nota: Es fc1cil que los psic6metras novatos ubiquen
La teorfa de Ia decisi0n es un cuerpo de conceptos, los "aciertos" en una grc1fica como Ia de Ia figura 5-7,
t€rminos y procedimlentos para analizar los efectos pero confunden a menudo los positives falsos y los ne-
CU<Jntitativos de nuestras decisiones. Aplicada a Ia gatives falsos. Aquf presentamos una manera de tener

Validez 123
Nega!ivo~
. .
Acierto
fabos
.. .. • • . Ex ito so
.. .• •
.
• •• . • •

. •
• •• .•
. •
. - Punta de corte del

. .
. .. • •
• •
criteria

• • .. • No exitoso
. •• • • Posi!ivos
Acierto folsos
No paso t Paso
Punta de corte de Ia pruebo
Pruebo

Figura 5·7. Aciertos, positives falsos y negatives folsos en Ia relaci6n entre pruebo y criteria.

claros estes t8rminos. Siempre dibuja Ia grafica de de positives falsos y el de negatives falsos. AI fijar el
modo que Ia prueba quede en el eje horizontal y el cri- punta de corte de Ia prueba, el usuario de Ia prueba
teria en el eje vertical. Entonces dibuja las lfneas de los puede decidir que resultado es preferible: un fndice
puntas de corte. Ubica las zonas de "aclertos", lo cual relativamente alto de positives falsos o de negatives
es f<kil. Para ubicar los positives falsos y los negatives falsos. Par ejemplo, at usar una prueba para elegir
falsos, recuerda que en una lfnea num€rica, los valores buenos pHotos de lineas comerciales, podriamos es-
"positives" slempre van a Ia derecha y los "negatives", a tar interesados en minlmizar los positives falsos: los
Ia izquierda. Asf, en los dos cuadrantes que quedan, los que pasan Ia prueba, pero no estan calificados para
positives falsos van a Ia derecha y los negatives falsos a volar. Esto resultaria en un nUmero mayor de positi-
Ia izquierda. Desafortunadamente, no todas las fuentes ves falsos, es decir, los que estEm calificados para vo-
ublcan Ia prueba en el eje horizontal y el criteria en el lar, pero no pasan Ia prueba. Par otro Iado, en algunas
vertical, sino que las invierten, lo cual provoca cam bios circunstancias, podrfamos querer minimizer los nega-
en el arden de los cuadrantes y migrafias en las perso- tives falsos (p. ej .. personas que probablemente co-
nas que intentan comparar grancas de distlntas fuentes. metan suicldio, pero con puntuaciones bajas en una
Dos factores afectan los porcentajes de aciertos, prueba de tendencies suicidas), al mismo tiempo que
positives falsos y negatrvos falsos. El primer factor es se permite un aumento en los positives falsos.
el grado de correlacl6n entre Ia prueba y el criteria.
Los casas extremes son los de correlaci6n perfecta indice base
o de correlaci6n cera. En el caso de una correlaci6n
perfecta, no habra positives falsos ni negatives falsos, El fndice base es un concepto crucial para compren-
pues todos seriin aciertos. En el de una correlacl6n der Ia validez de una prueba, sabre todo en relaci6n
cera, Ia suma de positives falsos y negat'1vos falsos con el concepto de positives falsos y negatlvos falsos.
sera igual al nUmero de aciertos. El fndice base es el porcentaje de individuos de Ia po·
El segundo factor es Ia ubicaci6n de Ia puntuacl6n blaci6n que tienen alguns caracterfstica. 2 Por ejem-
de corte en Ia prueba. Los cambios en esta puntua- pio, el fndice base de Ia esquizofrenia en Ia poblaci6n
ci6n afectan el porcentaje-relativo de posltlvos falsos general es de casl1%, el de hombres solteros entre
' y negatives falsos. Regresemos a Ia figura 5-7 para 25 y 29 ail as de edad es de 45% y el de adultos con
ver Ia ubtcaci6n de los posltlvos fafsos y negatives grado de llcenciatura es de casl 21%. Cuando el (ndice
falsos; ahara movamos un par de centfmetros a Ia base es extrema, muy alto o muy bajo, es ditrcli mos-
derecha el punta de corte. Los positives falsos dismi- trar que una prueba tiene una buena validez al iden-
nulriin, pero aUmentaran los negatives falsos. Pero si tiflcar lndlviduos del grupo meta. Consideremos una
desplazamos el punta. de corte un par de centrmetros caracterfstica que s61o 0.5% de Ia poblaci6n posee (1
a Ia lzqulerda de su posiciOn original, veremos el efec- de cada 200 personas). A menos que Ia prueba para
to. La regia general aquf es que Ia correlacl6n entre
prueba y criteria no sea perfecta (en Ia pr8ctica, siem- 1
La literatura clinica prefiere el t~rmino indtce de prevalencia
pre es asQ: hay una comjj-cnsaci6n entre el fndlce de a indice base.

124 Pruebas psicol6gicas. Una introducci6n pr8ctica


'dentificar a a tales individuos tenga una validez ex- contraste. Sensibilidad y especificidad suelen expre-
~epcionalmente alta, minimizamos los errores en Ia sarse como meros porcentajes. En el lenguaje de Ia
lasificaci6n simplemente declarando que nadie tie- secci6n previa, estes dos conceptos corresponden a
~e Ia caracteristica. sin importar Ia puntuaci6n de Ia los "aciertosn.
prueba. Una buena validez es Ia mas fiicil de alcanzar Los datos del cuadro 5-11 ilustran Ia sensibilidad
cuando el in dice base se acer@"<:!, a 50%. Es importante y especificidad de las distribuciones de las puntua-
notar que el fndice base puede cambiar dependiendo ciones en una prueba de personas.que han intents-
de cOmo se defina Ia poblaci6n: por ejemplo, el fndi- do sulcldarse y de personas que no Ia han intentado.
ce base de un trastorno p~icol6gico puede ser de 1% Los cuatro ejemplos muestran dos grados diferentes
en Ia poblaci6n general, pero de 30% en una pobl": de separaci6n entre los grupos. Los ejemplos A y B
ciOn de personas que par voluntad propia busca ayu- muestran una buena separaci6n, mientras que los
da en una clfnlca. "' ejemplos C y D muestran una separaci6n menor. Los
En una publicaci6n clcisica, Taylor y Russell (1939f ejemplos tambi€m muestran dos diferentes puntas
explicaron c6mo interactUa Ia validez de una prueba de corte en cada grado de separaci6n y los cambios
con los Indices base de una raz6n de selecci6n dada. efectuados par las modificaciones en los puntas de
Ofrecieron una descripci6n IUr:ida de Ia interacci6n, corte. AI comparar los ejemplos A y B (en los cuales el
asi como un conjunto de cuadros con valores selec- grade de separacl6n es el mismo), vemos que mover
tos. Los cuadros de Taylor-Russell indican el grade de el punta de corte de +6 a +5 aumenta Ia sensibilldad
mejora en Ia selecci6n que resulta del aumento en de 74% a 88%, mientras que Ia especificidad dismiM
Ia validez de Ia prueba. En esta particular aplicaciOn, nuye. La combinoci6n de sensibilidad y especlficldad
necesitamos un coeficiente de validez. una raz6n de es mejor en los ejemplos A y B que en C y D, porque
selecci6n conocida y un fndice base. Par ejemplo, Ia Ia separaci6n de los grupos es miis notable en A y B.
raz6'l de selecci6n puede ser elegir 40% de candida-
tes a un trabajo o admitir 80% de aspirantes a Ia uni-
versidad. Tambien necesltamos saber el lndice base
del exito, par ejemplo. el porcentaje de casas que se*
rfan exitosos en un trabajo o en Ia universidad si no
se utilizara ninguna prueba. Con esta informaci6n, los
cuadros indican cuiinto se puede mejorar usando una
prueba con determinada validez en comparaci6n con
no usar ninguna prueba.
Los dos factores que afectan Ia sensibilidad y espe-
Sensibilidad y especificidad cificidad de una prueba son el grade de separacl6n en·
tre los grupos y Ia ublcaci6n de los puntas de corte. Par
Sensibilldad y especificidad son terminos que tienen Ia general, mientras mayor es el grado de separaci6n
una estrecha relaci6n con las nociones de positivos entre los grupos, mejor es Ia sensibllldad y Ia especiM
falsos y negatives falsos. Aplicamos estos terminos ficidad; es decir, mientras mejor discrimine Ia prueba
cuando una prueba se·usa para clasificar fndividuos entre los dos grupos, mas alta es Ia sensibllidad y Ia
en dos grupos, como alcoh61icos y no alcoh61icos a especificidad. Con un grado fijo de separaci6n entre
con riesgo suicida y sin riesgo suicide. Supongamos los grupos, mover el punta de corte hara que sensibill·
que queremos usar una prueba para identificar a per- dad y especificidad varfen de manera lnversa, es decir,
sonas con probabilidades de cometer suicidio; nues* mientras una au menta Ia otra dismlnuye.
tro grupo criteria para validar Ia prueba es un grupo AI considerar Ia discriminaci6n entre grupos, es
de personas que, en realidad, intentaron suicidarse. lmportante tener contrastes significatlvos; por ejem-
Tenemos un grupo de contraste de individuos que plo, es mcis Util contrastar los sulcldas con los no suiM
padecen depresl6n pero no han lntentado sulcldar- cidas que padecen depresi6n que contrastar sulcidas
se. Queremos una prueba y una puntuaci6n de cor* con Ia poblaci6n general. El primer contraste es mils
te que a) identifique a! grupo criteria (el de quienes Util porque corresponde al tipo de distinci6n que so-
hi:ln lntentado sulcldarse) y b) no identifique a! gru- lemos intentar hacer en Ia prcictica; sin embargo, esta
po de contraste (el de quienes no han intentado sui· distinci6n puede llevar a una menor separaci6n entre
cidarse). La senstbilldad de una prueba es el grado los grupos. Las distrlbuclones de las puntuaciones de
en que ldentlflca de manera corrects al grupo crite· los suicides en comparaci6n con las de los no sulciM
rio, mientras que Ia especlficldad es el grado en que das que padecen depresl6n pueden ser muy pared·
Ia prueba no identifies o evita identificar al grupo de das a las del ejemplo C del cuadro 5-11, mientras que

Validez 125
Cuadro 5-11. Di~tribucione~ que ilustron los grades variables de ~ensibi!idad y especiflcidad
EjemploA Ejemplo B EjemploC Ejemplo D
Puntuaci6n de Ia Suicide No Suicide No Suicida No Suicida No
prueba suicida suicide suicida suicide
10
-9 - ~
0
2
4
2
4 4
2
1
2
4
8
:;g 5 5 I - 5 3 5 3
j5
;;;
7 c 11 3 11 3 11 2 11 2
6
~• 15 2 15 2 15 8 15 8
5 7 8 7 8 7 14 7 14
4 3 14
m

~
ro
n
3 14· *3 11 3 11
3 2 11 S-J
n
2 11 2 4 2 4
2 4 0: 4 5 5
0
~

5 5 2 2
0 2 2
Sensibilidad 74% 88% 74% 88%
Especiflcidad 88% 72% 72% 54%
Hay 50 casas en cado distribud6n.
-*indica el punto de corte.

las distribuciones de los suicidas en comparaci6n con de los terminos con claridad, algunas tuentes utilizan el
Ia poblaci6n general pueden ser mas parecidas a las termino selectividad como equivalente de sensibilidad.
del ejemplo A. Serfa posible obtener una buena sepa- Las aplicaciones clfnicas de las pruebas diagn6s-
raci6n entre un grupo de suicides y otro de individuos ticas cada vez emplean mas los conceptos de poder
con una muybuena adaptaci6n. pero €sa noes Ia cla- predictive positivo (PPP) y poder predictive negativo
se de distinci6n que un clfnico hace en su prcktica coti- (PPN). Los cBiculos de PPP y PPN surgen del mismo
diana. Asf, cuando se examinan los datos acerca de Ia cuadro de cuatro cuadrantes de Ia figura 5-7 como
sensibilidad, debemos estar atentos a Ia naturaleza de selectividad y sensibilidad, pero configuran los datos
los grupos implicados en Ia comparaci6n. de modo diferente, como se muestra a continuaci6n:
Como seilalamos antes. sensibilidad y especifid- =
PPP Verdaderos positivos/Todos los positives
dad varfan a Ia inversa con un grado fijo de separaci6n. o Verdaderos positivos/{Verdaderos positives +
La pregunta naturales: .!,€S mejortener una sensibilidad Positives falsos).
relativamente alta y sacrificar un poco Ia especificidad? =
PPN Verdaderos negativos/Todos los negatives
.!,0 es mejor Ia contario? Desde luego, es una pregunta o Verdaderos negatives /(Verdaderos negatives+
similar a Ia de Ia compensaci6n entre positives falsos y Negatives falsos).
negatives falsos; y Ia respuesta es Ia misma: depende.
Depende de los riesgos y costos relatives y de otros Validez de constructo
factoresimplicados en Ia compensaci6n. En el caso de
los suicidas, probablemente optarfamos par aumentar Entre las categorfas tradicionales de Ia validez (vease
Ia sensib'llidad, pues preferimos identificar a Ia mayorfa cuadro 5-1), Ia validez de constructo, al principia, es Ia
de suicidas -y ofrecerles ayuda- aunque eso signifi- mas ditfcil de comprender. La noci6n b8sica de este
que captar mas no suicidas. En otras situaciones, po- tipo de validez puede describirse de Ia siguiente rna·
demos inclinarnos por Ia contrario, es decir, disminulr nera. Una prueba intenta medir aIgUn constructe que, a
Ia sensibilidad y aumentar Ia especificldad. veces, no tiene puntas obvios de referenda, como un
Nota: Para el psic6metra novato, los termlnos sensi- cuerpo de contenido definido con claridad o un crite-
bi!idad y especmcidad son desafortunados, pues seven ria externo. No obstante, se pueden aducir varias cra-
y suenan de modo muy parecido aunque su significa- ses de evidencia para apoyar Ia proposici6n de que Ia
do casi sea opuesto. Para hacer mas difi'cil Ia retenci6n prueba mlde el constructe. La validez de constructo

126 Pruebas psicol6gicas_ Una introducci6n pnktica


r
I' abarca todos estos metodos; 3 de heche, empezando
por esta lfnea de razonamiento, podemos pensar Ia
del an8lisis factorial tiene una reiaci6n fntima con los de-
bates clilsicos sabre Ia naturaleza y medici6n de Ia inteli-
validez de constructe como un concepto que incluye gencia. Es dificil comprender el mundo de Ia evaluaci6n
Ia validez de contenido y Ia valldez de criteria. La co- de Ia personalidad o de Ia inteligencia sin conocer un
rrespond en cia del contenido que esta implicada en Ia poco del an8iisis factorial. Cuando decimos que se trata
i validez de contenido y Ia correlaci6n entre prueba y de una "familia" de t€cnicas, usamos esta palabra en un
I- criteria son s61o casas -relativamente claros- que de-
muestran el grad a en que Ia prueba mide el construe-
sentido amplio -como de Ia familia extensa- para incluir
lo que se denomina an81isis de los componentes princi-
~

to. Las ediciones recientes de Standards no incluyen paleS, varios procedimientos de rotaci6n, reglas de inte-

I ia validez de constructe cofno una categorfa importan-


te, sino que presentan diferentes metodos para de-
mostrar Ia validez ademas deJa validez de contenido y
rrupci6n y temas reladonados.
Las t€cnicas del an81isis factorial pueden volverse
bastante complejas, par lo que una exploraci6n detalla-
Ia de criteria. El cuadro 5-1 presents una lista de otras da esta mas ailS del alcance de este libra. Sin embargo,
fuentes de evidencia; en realidad, Ia lista de "otras" podemos resumir su prop6sito y el metoda general sin
fuentes es interminable. Cualquier evidencia que de atorarnos en los detalles. Bryant y Yarnold (1995) pre-
modo plausible apoye Ia proposici6n de que Ia prueba sentan una excelente descripci6n semitecnica del ana-
mide el constructe meta es pertinente. Sin embargo, lisis factorial, mientras que Tabachnick y Fidel! (2007)
hay ciertos tipos de evidencia que se vuelven a pre- ofrecen un deta!lado tratamiento tecnico del tema.

I senter en las discusiones sabre Ia validez de construe-


to, y nosotros presentamos esos tipos e~ esta secci6n.
El anillisis factorial, como tadas las tecnicas esta-
dfsticas, empieza con los datos crudes; sin embargo,
desde el punta de vista prEctico, podemos pensar ei

II Estructura interna

En el contexte de Ia validez, Ia consistencia Interne


significa Ia mismo que cuando Ia tratamos al hablar
de confiabilidad en el capitulo anterior (cf. pp. 89-93).
an81isis factorial empezando con una matriz de corre-
laciones. Consideremos las correlaciones del cuadro
5-12. Las variables A y B tienen una intercorrelaci6n
de .95, asf que bien podrfamos tambien hablar de una
dimensiOn subyacente en estas dos variables. No es
! Un nivel alto de consistencia interne, P.or ejemplo, Uti! ni econ6mico pensar en dos variables diferentes
I una KR-20 o un coeficiente alpha altos, indica que Ia aquf. Ahara extendamos el caso a cuatro variables. La

I ~
prueba mide olga de una manera consistente. Asf, Ia
consistencia interna alta apoya Ia afirmaci6n de que
correlacl6n 'co tambi!§n es muy alta, .93; otra vez, con-
sideremos que es una sola variable o dimensiOn. las
I' "c 0

••c
Ia prueba mide un constructe o rasga particular. A Ia
inversa, es diffcil mantener tal afirmaci6n si Ia consis-
r' de A y B con C y 0 son bastante bajas, par ejemplo,
rAe= .20, asr que no podemas conjuntar A y B con c
I' :g

tenda interne es baja. y D. Pero voivimos a empezar con cuatro variables y
La consistencia interne proporciona s61o una evi-
I ~• dencia d!§bil y ambigua en relaci6n con Ia vaiidez.
concluimos que hay, en realidad, s61o dos dimensio-
nes subyacentes. Esto es, a nivel intuitive, lo que hace
II
I
•!
8
Ouiz8 Jo mejor es pensar en Ia conslstencia interna
como un prerrequisito de Ia validez miis que como
evidencia de validez par sf misma. Una consistencia
el aniilisis factorial. Si expandimos este caso a 20 va-
riables y todas sus interrelaciones, podemos ver que
nuestra capacidad para seguir Ia pista de las casas

I ~•e interne alta indica que un constructe se esta midien-


do, pero se requiere otra evidencia que sugiera de
que constructe podrfa tratarse.
muy pronto se deteriorarfa. En estos casas mas ex-
tensos, necesitamos Ia ayuda de procedimientos ma-
temilticos form ales, es decir, los del anEilisis factorial.
~ Es Util construir algunas versiones geom€tricas
~ An.11isis factorial de io que hace el amllisis factorial. Cansideremos los
~
! ejempios de Ia figura 5-8. En Ia distribuci6n bivariada

~
E! analisis factorial es una familia de teknicas estadfsti-
~ cas que ayudan a identificar las dimensiones comunes Cuadra 5-12. Matriz de correlociones muestro
'~ que subyacen en ei desempeAo en muchas medidas di- de Ia discusi6n sabre el on6lisis factorial

••
~
terentes. Estas tecnicas se usan mucho en Ia construe-
ciOn y validaci6n de pruebas; tienen un papel destacado
Variable A B c D

• en los inventarios de personalidad yen las pruebas de


inteligencia. De hecho, el desarrollo de Ia metodologfa
A
B
.95 .13
.20
.03
.17

3
c .93
Wase Kane (2001) para consultar un Uti! resumen de la
evoluci6n deJ concepto de validez de constructo. 0

Validez 127
AB c

Pruebo A Pruebo A

Figure 5-8. AnOli~i~ !octo rial representada en forma geometrica.

de Ia izquierda, las puntuaciones de las pruebas A y 8 Cuadro 5-13. Matriz factorial muestra
tienen una correlaci6n tan :~Ita que necesitamos sOlo
Prueba Fedor I Factor II Factor Ill
una dimensi6n -el vector AB- para describir el desem-
pefio. Es decir, no necesitamos dimensiones A y 8 se~ Vocobulario .78 07 .22
paradas. En el ejemplo de Ia derecha, sf necesitamos lectura .83 .13 .06
dos dimensiones -los vectores A y C- para describir
Problemas aritmeticos 54 .36 .16
Ia disposici6n de las puntuaciones. Aqui empleamos
los tEnminos dimensi6n yvector como equivalentes del C61culo .23 .89 21
t€-rmino factor del "amllisis factorial". Esta representa- Estimoci6n cuantitativo .46 .67 .09
ci6n geometries muestra, mas o menos, c6mo operan
los procedimlentos matemSticos del analisis factorial.
Los resultados del anfllisis factorial suelen repre- los reactivos par si mismos de acuerdo con las dimen-
sentarse como una matriz factorial, que muestra el siones subyacentes. Esta tecnica se usa mucho en Ia
peso que cada variable original Uene en los facto- construcci6n e interpretaciOn de inventarios de per-
res reciE>n establecidos. Los pesos son, en realidad, sonalidad e intereses. En el capitulo 6 se puede en-
correlaciones entre las variables originales y los fac- contrar Ia discusi6n sabre este punta.
tores. El cuadro 5-13 presenta una matriz factorial Hay muchas maneras diferentes de "extraer" los
muestra. En el lenguaje del aniilisis factorial, estas factores que difieren en los criterios matemclticos que
correlaciones se denominan "cargas" La habitual es emp!ean. Despu8s de que se extraen los factores, lo
considerar las cargas que superan el .30 como nota- habitual es "rotar" los ejes con elfin de facilitar Ia inter-
bles; desde luego, mientras mayo res sean las cargas, pretaciOn, para Ia cual tambi8n disponemos de varies
mas notables son. procedimientos. La rotaci6n varimax es !a mas comlin.
Los factores se "nombran" e interpretan de mane- Tambien hay diversos criterios para decidir cu8ndo
ra racional; par ejemplo, al examinarlo, el cuadro 5-13 dejar de extraer factores: los procedimientos compu-
sugiere que el factor I es una dimensiOn verbal, par- tacionales del an81isis factorial y Ia rotaci6n son compli-
que sus cargas mas grandes estan en Vocabulario y cados. Sin embargo, es f8cil realizarlos con un paquete
Lectura. Par su parte, el factor II parece ser una di- estad!stico como SPSS o SAS. No es f8cil interpreter
mensiOn cuantitativa. Es revelador que Problemas de los resultados, pero si lo es a menudo -de heche es
arltm8tica cargue..mucho_m.c'is_en el factor I que en el divertido- descifrar que factores hay. En este capitulo,
..
lJ
factor II, pues sugiere que comprender Ia presenta-
ci6n verbal de los problemas tlene mayor influencia
no estamos interesados en todos los procedimientos
posibles para llevar a cabo el an81isis factorial. El pun-
para determiner Ia puntuaci6n de una persona que Ia to importante es que esta familia de tecnicas nos ayu-
.,.< habilidad en matemclticas . da a entender Ia estructura de las pruebas. De ahf que
El factor HI puede descartarse po~que no es signi- las ttknicas son una fuente importante de informaciOn
'"
ficative: nada tiene una carga alta en 81. Asf, parece para Ia validez de constructe. Par ejemplo, los resulta-
que dos dimensiones subyacentes explican este con- dos del an81isis factorial pueden sugerir que una me·
junto de cinco pruebas. dida de depresi6n en realidad tiene dos factores: uno
Este Ultimo ejemplo ilustra el usa del anSI isis facto- definido par reactivos relacionados con el componen·
rial con pruebas enteras, pero tambh~n se a plica a los te emocional y otro, primordialmente, par reactivos re-
reactivos. Los resultados muestran c6mo se agrupan lacionados con los indicadores conductuales.

128 Pruebas p~tcol6gicas. Una introducci6n prclctica


r Procesos de respuesta tratamos antes al hablar de Ia validez de criteria. De
hecho, desde el punta de vista 16gico son lo mismo.
El estudio de Ia manera en que los examinados em~ Los estudios de grupos contrastados suelen emplear
prenden Ia tarea de responder una prueba, sus pro- grupos que se forman par sl mismos (p. ej., personas
cesos de respuesta, puede proporcianar evidencia deprimidas y no deprimidas), mientras que los grupos
r.elacionada con Ia validez de Ia prueba. Par ejemplo, que tratamos al hablar de Ia va!idez de cor.~structo se
al estudiar una prueba de razonamiento cuantitativo, crean espedficamente par@ estudlar Ia vali,Pez.

I puede ser Util saber que el examinado suele pasar


par diversas eta pas para flegar a Ia respuesta en vez
de aplicar una fOrmula merT10rizada. Podrfamos deter-
miner que el exam1nado emple6 un metoda de mUl-
tiples pasos si usamos una aplicaci6n "en voz alta"
Cam bios maduracionales o en el desarrollo

Otra potencial fuente de informaciOn con respecto


de Ia validez de constructe son los cambios madura-
de Ia prueba. Para investigar una prueba que preten- cionales o en el desarrollo. Esperamos que los niflos,
de medir Ia capacidad de pensamiento creative, una a lo largo de sus eta pas. tengan una capacidad men-
aplicacf6n en voz alta puede ayudar a apoyar el argu- tal mayor. Mostrar que una capacidad mental refle-
mento de que Ia prueba mide flexibil!dad de pensa- ja esta evoluci6n ayuda a establecer Ia validez de Ia
miento mas que Ia mer a riqueza de vocabulario. prueba. Sin duda, quedarlamos perplejos si una prue-
El estudio de los procesos de respuesta tambh~n ba de capacidad mental muestra las mismas puntua-
puede valerse de registros mecanicos o electr6nicos. ciones en promedio para niFios de 8, 9 y 10 aFios de
Par ejemplo, Exner (2003} inform6 su estudio de los edad. Uno de los principales metodos que us6 Binet
movimientos oculares mientras los examinados res~ para defender Ia validez de los reactivos de su prue~
pond fan Ia prueba de manchas de Rorschach. Los re- ba fue demostrar cambios en las puntuaciones pro-
sultados aportaron conocimientos sabre Ia manera media de niFios de distintas edades.
en que los examinados se aproximan a estfmulos am- El aumento en las puntuaciones de las pruebas y
biguos como las manchas de tinta. en el desempefio en reactivos lndividuales en arden
La evidencla proveniente de los procesos de creciente de dificultad sirvi6 para defender Ia validez
respuesta no suele ofrecer evldencia s61ida ni muy de las pruebas de aprovechamiento. Esperamos que

II persuasive en relaci6n con Ia validez de Ia prueba.


Adem as, dlcha evidencia nose usa mucho para esta-
blecer Ia validez. Sin embargo, estudiar los procesos
de respuesta a veces proporciona ideas Utiles ace rca
de lo que Ia prueba puede o no estar midi en do.
el desempeAo en lecture o matemoHicas au mente del
tercer grado al cuarto y quinto, y asf sucesivamen-
te. El estudio de los cambios en el desarrollo, como
el del efecto de las variables experimentales, puede
pensarse como una variante del metoda de grupos
I Efecto de las variables experimentales
contrastados. En este caso, contrastamos grupos de

II El efecto de las variables experimentales puede ayu-


diferentes edades a grados.
Ya hemos revisado distintos procedimientos que
ayudan a establecer Ia va!idez de constructe de una

I dar a demostrar Ia validez de una prueba. Considere-


mos estos ejemplos. Oueremos establecer Ia validez
del Scranton Test of Anxiety (STA); para ella, aplica-
prueba. Como seFialamos antes, Ia lista de maneras
posibles para hacerlo es interminable. Cualquier evi-
dencia que nos convenza de que Ia prueba mide el
mos Ia prueba a un grupo de 25 individuos, los some- constructe meta es pertinente y Util.
temos a una situaci6n que genere ansiedad y, luego,
volvemos a aplicar el STA. Esperariamos que las pun-
tuaciones aumenten (pues indicarfan ansiedad). Oue-
remos establecer Ia validez del Bechtofdt Creativity
Test (BCT [Prueba Bechtoldt de Creatividad]); para Resumen de puntos clave 5-2
ella, aplicamos el BCT a 50 lndlviduos, les dames
10 horas de instrucci6n en tecnicas de pensamiento Algunas maneras importantes de estudiar Ia va-
creative y, luego, volvemos a aplicar el BCT. Espera- lidez de constructo
·rfamos que las puntuaciones aumenten. En ambos es- Estructura interna
tudios, debemos tener grupos control para descartar An<ilisis factorial
Ia posibilidad de que cualquier aumento en las pun~ Procesos de respuesta
tuaclones se deba a los efectos de Ia prEictica. Efecto de las variables experimentales
Estudiar los efectos de variables experimenta- Cambios maduracionales o en el desarrollo
les es similar al metoda de grupos contrastados que

Validez 129
r
!
I
procesos de respuesta

El estudio de Ia manera en que los examinados em-


tratamos antes al hablar de Ia validez de criteria. De
hecho, desde el punta de vista IOgico son lo mismo.
Los estudios de grupos contrastados suelen emplear
prenden Ia tarea de responder una prueba, sus pro- grupos que se forman par sf mismos (p. ej., personas
cesos de respuesta, puede proporcionar evidencia deprimidas y no deprimidas), mlentras que los grupos

I relacionada con Ia validez de Ia prueba. Par ejemplo,


al estudiar una prueba de razonamiento cuantitativo,
puede ser Util saber que el examinado suele pasar
por diversas etapas para Jl~gar a Ia respuesta en vez-
de aplicar una fOrmula memorizada. Podrfamos deter-
que tratamos al hablar de Ia validez de constructe se
crean espedficamente para estudiar Ia validez.

Camblos maduracionales o en el desarrollo

miner que el exarriinado emple6 un metoda de mUl- Otra potencial fuente de informaciOn con respe~to
tiples pasos si usamo-s una aplicaci6n "en voz alta" de Ia validez de constructe son los cam bios madura-
de Ia prueba. Para investigar una prueba que preten- cionales o en el desarrollo. Esperamos que los nifios,
de medir Ia capacidad de pensamiento creative, una a lo largo de sus eta pas, tengan una capacidad men-
aplicaci6n en voz alta puede ayudar a apoyar el argu- tal mayor. Mostrar que una capacidad mental refle-
mento de que Ia prueba mide flexibilidad de pensa- ja esta evoluci6n ayuda a establecer Ia validez de Ia
miento mas que Ia mera riqueza de vocabulario. prueba. Sin duda, quedarfamos perplejos si una prue-
El estudio de los procesos de respuesta tambil§n ba de capacidad mental muestra las mismas puntua-
puede valerse de registros mecanlcos o electr6nicos. ciones en promedio para nif\os de 8, 9 y 10 afios de
Par ejemplo, Exner (2003) inform6 su estudio de los edad. Uno de los princ,ipales m€todos que us6 Binet
movimientos oculares mientras los examinados res- para defender Ia validez de los reactivos de su prue-
pondian Ia prueba de manchas de Rorschach. los re- ba fue demostrar cambios en las puntuaciones pro-
sultados aportaron conocimientos sabre Ia manera media de niF10s de distintas edades.
en que los exam in ados se aproximan a estfmulos am- El aumento en las puntuaciones de las pruebas y
biguos como las manchas de tinta. en el desempefio en reactivos individuales en arden
La evidencia proveniente de los procesos de creciente de dificultad sirvi6 para defender Ia valldez
respuesta no suele ofrecer evidencia s61ida ni muy de las pruebas de aprovechamiento. Esperamos que
persuasive en relaci6n con Ia validez de Ia prueba. el desempefio en lecture o matem<3ticas au mente del
Ademas, dicha evidencia nose usa mucho para esta- tercer grado al cuarto y quinto, y asf sucesivamen-
~

0
blecer Ia validez. Sin embargo, estudiar los procesos te. El estudlo de los cambios en el desarrollo, como
'' de respuesta a veces proporciona ideas t.Hiles acerca el del efecto de las variables experimentales, puede
I de lo que Ia prueba puede o no estar midiendo. pensarse como una variante del metoda de grupos
~
' contrastados. En este caso, contrastamos grupos de
N• Efecto de las variables experimentales diferentes edades o grades.
~ Ya hemos revisado dlstintos procedimientos que
•' El efecto de las variables experimentales puede ayu- ayudan a establecer Ia validez de constructo de una
•'" dar a demostrar Ia validez de una prueba. Considere- prueba. Como sefialamos antes, Ia lists de maneras
§ mos estos ejemplos. Queremos establecer Ia validez posibles para hacerlo es interminable. Cualquier evi-
~ del Scranton Test of Anxiety (STA); para ella, aplica- dencia que nos convenza de que Ia prueba mide el
mos Ia prueba a un grupo de 25 indivlduos, los some- constructo meta es pertinente y Uti I.
! temos a una situaci6n que genere ansiedad y, luego,
~
volvemos a aplicar el STA. Esperarfamos que las pun-
~ tuaciones aumenten (pues indicarian ansiedad). Oue-
! remos establecer Ia validez del Bechtoldt Creativity
~ Test (BCT [Prueba Bechtoldt de Creatividad]); para Resumen de puntos clave 5-2
~ ella, aplicamos el BCT a 50 lndividuos, les damos
'~ 10 horas de instrucci6n en tecnicas de pensamiento Algunas maneras importantes de estudiar Ia va~
creative y, Juego, volvemos a aplicar el BCT. Espera- lidez de constructo
'
N

~ rfamos que las puntuaciones aumenten. En ambos es- Estructura interna


lij
• tudios, debemos tener grupos control para descartar
Ia posibilidad de que cualquier aumento en las pun-
Amllisis factorial
Procesos de respuesta
tuaciones se deba a los efectos de Ia practice. Efecto de las variables experimentales
'
i Estudiar los efectos de variables experimenta- Cambios maduracionales o en el desarrollo
' les es similar al metoda de grupos contrastados que

Validez 129
,
'
Validez consecuencial de los estudiantes, como consecuencias del usa de Ia
prueba, alin son un asunto de validez? Ademas, su-
La validez consecuencial relaciona Ia prueba con las pongamos que los autores de Ia prueba sOlo hablan
consecuencias de su usa e interpretaciOn. El concep- de Ia predicci6n del GPA, perc el director de Ia univer-
to incluye las consecuencias que se buscaban y las sidad afirma que e! usa de Ia prueba, al final, mejora Ia
que no. ,;.Cu<§Jes son las consecuencias, resultados o calidad de Ia enseflanza en Ia universidad.
implicaciones de usar una prueba? Par ejemplo, .!,CUit- ,:,Esta afirmaci6n del director convierte el asunto
les son las consecuencias del usQ sistematico de una de las consecuencias en un tema de validez? Si es
prueba de admisi6n a Ia universidad? ,:,Cu<§les seran asf, ,:,quien es el responsable de reunir evidencia de
los resultados inesperados? Podemos notar que es- Ia validez?
tas preguntas son diferentes de las que interrogan Ia .. es !mportante distinguir entre evidencia que es
utili dad de Ia prueba para predecir el GPA de los es- perlinenle a Ia validez y Ia que puede servir para
tudiantes de primer afio. Podrf,?mos preguntar si Ia tamar decisiones informadas acerca de las polltlcas
prueba mejora (o quite m€rito a) Ia calidad de Ia ense- sociales, perc que fuera delofeino de Ia validez.
F\anza en Ia universidad don de sea plica; tambiE?n po- Standards ... {AERA, APA, & NCME, 2013)
drfamos preguntar cuitl es el efecto de pedir Ia prueba
a los estudiantes de bachillerato que deben hacerla. Tanto el termino como el concepto general de va-
Aquf hay otro ejemplo; supongamos que usamos una lidez consecuencial son relativamente recientes en el
prueba para identificar a estudiantes para los curses vocabulario psicometrico. EJ termino no apareci6 en Ia
especiales de matematicas. Podrlamos preguntar si Ia edici6n de 1985 de Standards for Educational and Psy-
prueba cubre el contenido del prOgrama de matema- chological Tests. La ediciOn de 1999 introdujo el termi-
ticas. Ese es un as unto de validez de contenido. Tam- no y, de heche, le dedicO una secci6n complete a este
bien podrfamos preguntar si el usa de Ia prueba trae concepto; el nuevo Standards extendi6 el espacio des-
beneficios educativos para los estudiantes identifica- tinado para este termino. Messick (1993) hizo el primer
dos para tamar los curses especiales. Esa serfa una desarrollo sistematico de Ia noci6n de validez; E!l argi.Jia
pregunta acerca de Ia validez-consecuenclal. que es una evoluciOn importante en nuestra concepciOn
AI menos dos temas separados necesitan consi- de Ia validez de las pruebas. De manera incidental, tam-
derarse aqui. El primero se reladoria con las decla- bien proporcion6 un resumen concise y Util de Ia evolu-
raciones explfcitas de algunos autores de pruebas ciOn general de nuestras ideas acerca de todos los tipos
respecto de las consecuencias. El segundo tema se de validez que vimos en este capitulo.
relaciona con las posibles consecuencias indepen-
dientemente de estas declaraciones. Consideremos
De ningUn modo hay consenso con respecto a! Iu-
gar que ocupa Ia validez consecuellcial en el terreno
''
el primer tema; recordemos que Ia validez de una de Ia psicometria. Algunas autoridades concuerdan
prueba se define con respecto a su prop6sito, el cual con Messick en que es esencial (p. ej., Linn, 1997: She-
es formulado par los autores. Si el prop6sito explfcito pard, 1997), perc otras sienten que las consecuencias
incluye una consecuencia buscada, sin duda el pro- son un asunto de polftica y de polfticas pliblicas, no
ceso de validaci6n debe tamar en cuenta esa con· de valldez (p. ej., Mehrens, 1997; Popham, 1997); otros
secuencia. Por ejemplo, si los autores de Ia prueba mas sopesan si Ia validez consecuencial es un con-
de admisl6n a Ia universidad afirman que el uso de Ia cepto psicometrico legitimo y c6mo se reunirfa evi-
prueba mejorara Ia ensefianza en Ia instituci6n que Ia dencia pertinente (p. ej., Green, 1998; lane, P.arke, &
apllque o hara que los estudiantes sean mas dill gen- Stone, 1998; linn, 1998; Moss, 1998; Reckase, 1998;
·.
r' tes, debe reunirse evidencia de validez relaclonada
con estas afirmaciones. Supongamos que los autores
Taleporos, 1998). Per ejemplo, en el case de Ia prue-
ba de admisi6n a Ia universidad, .!,podemos identificar
L
''!
de un inventario de depresi6n aseguran que no s61o razonablemente todas las consecuencias de usar-
" es una medlda vtlllda de depresl6n, sino que tam bien la? Y de las consecuencias que se pueden identifi-
trae una terapia mas eficaz. Entonces, debe propor- car, ,;.cOmo juzgamos si Ia suma de tad as las posibles
cionarse evidencia relacionada con una mejor terapia consecuencias es saludable o perniciosa? La que sl
producto del uso del inventario. parece clara es que el debate sabre Ia validez conse-
El segundo tema es mas complicado. Supongamos cuencial continuer;§ Par alglin tiempo.
que los autores no hacen ninguna declaraci6n respec- Apartados par complete del debate en los cfrculos
to de las consecuellcias, por ejemplo, acerca de me- acad€-micos, Cizek y colegas {Cizek, Bowen, & Church,
jorar Ia enseiianza o de influir en los estudiantes. Los 2010; Cizek, Rosenberg, & Koons, 2008) han mostra-
autores sOlo afirman que Ia prueba es Litil para prede- do que Ia validez consecuencial es, en esencia, igno-
cir el GPA. ,:,Las mejoras en Ia ensefianza y Ia diligencla rada par las editoriales y los autores. Es decir, desde

130 Pruebas psicoJOgicas. Una introducciOn practica


el punta de vista priictico, nadie puede imaginar que conocimiento del area de contenido pertinente (p. ej.,
hacer al respecto. Sin embargo, en el capitulo 16, vere- depresi6n, aprovechamiento de Ia lectura, desempeflo
mos c6mo algunos casas de tribunal han em plea do las en Ia universidad), b) estar familiarizado con Ia investiga-
consecuencias para tomar decisiones legales. ci6n realizada con Ia prueba y pruebas similares, c) com-
prensi6n de los COQCeptos y proG.edimientos tratados en
sesgos de las pruebas como parte este capitulo y d) anSiisls perceptive de las circunstan-
de Ia validez cias locales para un usa anticipado de Ia prueba.
Un tema importante en los escenarios educaUvos y
El sesgo de las pruebas (o.lo opuesto, su neutralidad) laborales es el grado en que Ia evidencia de Ia vali·
se refiere _a si Ia prueba mide el constructe meta de dez basada en las re!aclones entre prueba y criteria
• manera equivalente en diferer1tes grupos. Una prue- puede generalizarse a una nueva situaci6n sin mas
ba sesgada no Ia hace asf, pero una prueba neutral sf. estudios de validez en esa situaciOn ... Los resUme-
va que esta pregunta se ocupa de c6mo se mide el nes estadisticos de los estudios de va!idaci6n pa-
constructe, par 16gica entra en este capitulo sabre va- sados en situaciones similares pueden ser Utiles al
lidez. Sin embargo, he~os pospuesto tratar este tema estimar las relaciones entre prueba y criteria en una
hasta el final del capitulo 6 sc:Jre Ia elaboraci6n de nueva sltuaci6n. Se habla de esta prBctica como es-
pruebas, porque durante este proceso se realizan los tudio de generalizaci6n de Ia validez.
esfuerzos para tratar con los sesgos. Desde el punta Standards ... (AERA, APA, & NCME, 2013)
de vista prcktico, necesitamos saber acerca de Ia eia-
boraci6n de pruebas para comprender algunos me- Standards trata Ia generalizaci6n de Ia validez
todos clave para examinar el sesgo. As f. at me nos en como un subtema de "Evidencia basada en las rela-
este caso, dejaremos que las consideraciones pr8cti· ciones con otras variables". Par ejemplo, debemos
cas prevalezcan sabre las 16gicas. juzgar Ia semejanza de una universidad con otras
donde Ia retaci6n (validez predictiva) entre una prue-
Preocupaciones pnkticas ba de admisi61l y el GPA de un estudiante de primer
afio ya se ha determinado. Sin embargo, el concep-
Para este momenta, deberfa estar clara que Ia validez to de generalizaci6n de Ia validez se aplica a todo
de las pruebas no es un asunto sencitlo. Hay numero- tipo de determinaciones de validez. Par ejemplo, el
sas maneras de estudiarla y cada una tiene sus Hmita- manual de una prueba informa los resultados de un
ciones. En el caso de muchas pruebas, se han ltevado an81isis factorial e indica que Ia prueba parece medir
a cabo un gran nUmero de estudios con resultados va- cuatro factores distintos. Ese estudio se llev6 a cabo
riables. Puede haber razones legitim as para que Ia va- coil ull grupo particular de examinados: con Ulla cier-
lidez de una prueba varfe de una situaci6n a otra; por ta distribuci6n de edades, desglose del genera, esta-
ejemplo, Ia depresi6n puede tener un aspecto diferen- tus socioecon6mico y asi sucesivamente. El usuario
te en adultos j6venes yen adultos mayores, lo cual al- profesional de Ia prueba debe juzgar el grado en que
tera Ia validez del Scranton Depression Inventory para esos resultados se aplican a una situaci6n local.
estos grupos. El Western Admissions Test puede tener Muchas de las pruebas mas usadas, como el SAT,
una validez atgo diferente en el Colegio Ivy yen Ia Uni- Rorschach y MMPI-2, han sido objeto de miles de es~
versidad Estatal de Behemoth, pero no debido a las tudios, algunos de los cuales se concentran en Ia va-
diferencias en Ia heterogeneidad grupal, sino a las di- lidez, otros en Ia collfiabilidad y otros mas en otras
ferencias en los cursos de las dos Jnstituciones. En esta caracterlsticas de las pruebas. Puede ser ulla tarea
secci6n final del capitulo, trataremos de formular algu- abrumadora resumir todos los estudios pertinentes
nos coos.ej_os_par:altaiar...con..estos.temas. sabre un aspecto de una sola prueba, par- ejemplo, !a
validez del Rorschach.
lntegraci6n de Ia evidencia Sin embargo, realizer tales revisiones es parte de Ia
tarea de integracl6n de Ia evidenda de Ia validez de una
En el anSiisis final, el usuario profesional de pruebas prueba. El metaaniilisis es Ulla t€cnica para resumir Ia
debe sopesar toda Ia evidencia disponible- y hacer jui- informaciOn real estadistica de muchos estudios dife-
cios acerca de Ia probable validez de una prueba uti- relltes sabre un solo tema. El resultado del metaamllisis
lizada en ciertas circunstancias. El proceso de sopesar es un estadistico como el coeficiente de correlaciCm o
toda Ia evidenda y juzgar Ia pertinencia de los estudios una medlda del tamafio del efecto que represents una
existentes para un usa especffico anticipado se derio- generalizaci6n de todos los estudios sabre el tema. En
mina generalizaci6n de Ia validez. La aplicaci6n inte- Ia actualidad, el metaanEIIisis es Ia t€cllica preferida para
ligente de Ia general!zacl6n de Ia validez requiere a) resumir illfarmaci6n, como Ia de validez o confiabilidad

Validez 131
de una prueba, proveniente de diversos estudios. Los par fuerza, menos definitive aun que en el caso de Ia
siguientes son ejemplos de metaanillisis realizados con confiabilidad. En el aniilisis final, Ia respuesta es muy
pruebas muy usadas: Finger y Ones (1999), sabre Ia relative; necesitamos preguntar si una prueba es mas
versiOn para computedora del MMPI; Hiller, Rosenthal, o me nos valida que otra. Ambas pueden tener una va-
Bornstein, Berry y Bruneii-Neulieb (1999), sabre el Rors- !idez baja, pero elegiremos Ia que sea relativamente
chach y el MMPI: Kunce!, Hezlett y Ones (2001) y Kuncel, mejor. A veces Ia pregunta priictica es si usar una prue-
wee, Searfin y Hezlett (2010), sabre el Graduate Record ba o·nada, en cuyo caso, podemos estar satisfechos si
Exminolion; Shafer (2006), sabre cuatro medidas de Ia prueba muestra algUn grado de validez. La alternati-
depresiOn; y Perker, Hanson "y Hunsley (1988), sabre el ve puede ser basar Ia decisiOn en n'1nguna informaci6n,
MMPI, el Rorschach y el WAJS. Cualquiera de estes dan§ lo cual es equivalente a lanzar at aire una moneda. En
al lector una buena idea de cOmo ayuda el metaanalisis Ia pr.:ktica cotidiana, tenemos que elegir Ia mejor
con Ia generalizaci6n de Ia vaJidez. prueba que podamos obtener, mientras nos esforza-
mos par desarrollar mejores fuentes de informaciOn.
En el anal isis final: un est8ndar relative A este respecto, vale Ia pene sei'ialar que Ia vali·
dez de las pruebas psicoiOgicas se compara favora-
En Ia conclusiOn del capftulo 4, preguntamos que tan blemente con Ia validez de muchas pruebas m€dicas
alta debfa ser Ia confiabilidad. Aunque no hay una usadas comUnmente (Meyer et a/., 2001). A menudo
sola y definitive respuesta, identificamos algunas pau· nos sentimos decepcionados par no obtener coefi-
tas para responder a Ia pregunta. Ahara, en Ia conclu- cientes de validez mas altos en las pruebas psicol6-
siOn de este capitulo sabre validez, debemos hacer gicas. Much as de nuestras pruebas m€dicas tam poco
una pregunta similar: ,;.que tan alta debe ser Ia validez? son tan buenas. Tenemos que usar lo mejor que est€
Desafortunadamente. Ia respuesta a esta pregunta es, disponible a pesar de que est€ lejos de ser perfecto.

Resumen

1. La validez se refiere al grado en que Ia interpretaciOn de Ia puntuaci6n de una prueba es apropiada para un
prop6sito especif1co. Es Ia caracteristica mas impo11ante de una prueba.
2. Los conceptos de subrepresentaci6n del constructe y varianza irrelevante para el constructe son Litiles
cuando se considera e! grado de superposici6n entre Ia prueba y e! constructe que se pretende medir. ''
3. La validez aparente se refiere a si una prueba tiene el aspecto de ser vc'ilida. No es una demostraciOn em·
pirica de validez. Es Util para que el pUblico ace pte Ia prueba.
4. La validez de contenido se ocupa de Ia correspondencia entre el contenido de Ia prueba y un cuerpo de
conocimientos o habilidades bien definidos. Se usa con las pruebas de aprovechamiento y reclutamiento.
5. La validez de criteria ex pres a Ia relaciOn entre las puntuaciones de Ia prueba y el est:::~tus de alglin otro cri·
terio que refleje el constructe de inten§s. El estatus del criteria puede determinarse aproximadamente al
mismo tiempo que se aplica Ia prueba (validez concurrente) o en un momenta posterior (validez predictive).
6. En Ia validez de criteria, este puede ser un criteria externo y factible, un grupo de contraste u otra prueba.
7. Cuando Ia valid~z de criteria se expresa como correlaci6n (rx) entre prueba y criteria, llama mas a esta co-
rrelaciOn coeficiente de validez. Una vez establecida 'xr podemos usar este coeficiente de validez para
predecir el estatus de un criteria a partir de Ia puntuaci6n de Ia prueba. Ademas, podemos determiner el
error estclndar de estimaci6n y usarlo para determiner las probabilidades relacionadas con_la_exactitud.de
Ia estimaci6n.
8. Todos los factores que afectan Ia interpretaciOn del caeficiente de correlaciOn, incluyendo Ia linea lid ad, ho·
mocedastlcidad y heterogeneidad grupal, tambi€n afectan Ia interpretaciOn de los caeficientes de validez.
9. Las confiabilidades de Ia prueba y del criteria afectan el coeficiente de validez. Algunas fOrmulas sencillas
permiten correglr este coeficiente par una confiabilidad limitada (atenuada).
10. El criteria de interes debe definirse en terminos operacionales. Por Jo general, hay varias definiciones al-
ternatives operacionales que deben tomarse en cuenta.
11. La contaminaci6n del criteria se refiere a una situaci6n indeseable en Ia que las puntuaciones de Ia prueba
influyen en el criteria, de modo que el coeficiente de validez se infla de man era injustificada.
12. Validez convergente y discriminante son conceptos t:itiles cuando se piensa en Ia validez de criteria. Lava-
lidez convergente significa que Ia prueba tiene una correlaci6n alta con otra prueba o fuente de informaciOn

132 Pruebas psicol6gicas. Una introducci6n prilctica


que mide el constructe meta de Ia prueba. La validez discrimlnante signifies que Ia prueba tiene una baja
correlaci6n con otras pruebas o fuentes de informaciOn que son indicadores de un constructe diferente.
13. La correlaci6n mUltiple es una t€cnica estadistica para combinar informaciOn de diversas pruebas (u otras
fuentes de informaciOn) y predecir el estatus de un criteria. Para obtener los mejores predictores posibles,
los procedimientos de correlaci6n mUltiple asignan pesos a las pruebas de acuerdo con sus contribuciones
(micas a Ia predicci6n. Los procedimientos de correlaci6n mUltiple son de especial importancia para estu-
diar Ia vaHdez incremental. Donde existan bases de datos 9decuadas, las fOrmulas estadfsticas ser8n, par lo
general, iguales o mejores que los juidas clfnicos a_l combiner informaciOn ~ara tamar decisiones.
14. La teorfa de Ia decisiOn es un canjunto de conceptos y procedimientos para analizar los efectos cuantita"
tivas de las decisiones. Aplicada a Ia vafi.dez de criteria, Ia teorfa de Ia decisiOn incluye los canceptos acier-
tos, positives falsos y negatives falsos. La sensibilidad y especificidad de Ia prueba son otros dos conceptos
Utiles. Los Indices base y Ia ubicaci6n de los puntas de corte en Ia prueba tienen consecuencias importan-
tes en este marco.
15. La validez de constructe s'e defini6, en su origen, como un conjunto miscel8nea de tecnicas consideradas
pertinentes para Ia validez distinta de Ia de contenido y de criteria. La validez de constructe ahara se con-
siders un cancepto global '-lue abarca todos los tipos de evidencia de Ia validez, como Ia estructura interne
de Ia prueba, en especial como se revela en el an81isis factorial, el estudio de los precesos de respuesta,
el efecto de las variables experimentales y los cam bios de desarrollo. Cualquier tipo de evidencia que nos
convenza de que Ia prueba mide, al menos hasta cierto punta, el constructe meta para un propOsito parti-
cular puede considerarse como validez de constructe.
'
16. La validez consecuencial relaciona Ia prueba con las consecuencias (Jitimas de su usa e interpretaciOn.

I
Esta noci6n abarca las consecuencias buscadas y las imprevistas. La validez consecuencial es una red?n
llegada a Ia discusi6n sabre Ia validez y despierta epiniones opuestas ace rca de c6mo tratarla con exactitud.
17. El usuario de Ia prueba debe integrar Ia evidencia de Ia vaJidez de diversas fuentes para llegar a un juicio
I acerca del grade en que Ia prueba cumple con su prop6sito. En el an81isis final, cuando llegamos a ese juicio,
el usuario trata de responder a Ia pregunta: tes mejor que use esta prueba como fuente de informaciOn o no?

l 0
~
0
c
0
••
Palabras clave

acierto
an8Hsis de puesto
anSiisis factorial
especificidad
generalizaci6n de Ia validez
fndice base
valldez concurrente
validez consecuencial
validez convergente
0'0 an8Jisis multirrasgo-multim€todo metaaniilisis validez de constructe
·~' atenuaci6n negative false validez de contenido
B positive falso val"ldez de criteria
0 coeficiente de validez
'
.5 constructe procesos de respuesta validez discriminante
• contaminaci6n del criteria sensibilidad vafidez incremental
·~ correlaci6n mUltiple subrepresentaci6n del constructe validez instruccional
B validez predictive
[ criteria externo tamafio del efecto
ecuaci6n de regresi6n mUltiple validez varianza irrelevante para el
! encogimiento de fa validez validez aparente constructe
~ error est8ndar de estimaci6n validaci6n cruzada
~
'
~
I Ejercicios

"
~
'~
'
1. Para reafirmar tu comprensiOn de los conceptos de subrrepresentaci6n del constructe y varianza hrele-
vante para el constructe, haz un dibujo como el de Ia figura 5-1 que represente estes casas:
~' a. Un constructe incluye 12 componentes y una prueba abarca seis de elias. Adem as, las puntuaciones de
•• Ia prueba estan ligeramente influidas por factores diferentes de estes seis componentes .
b. Los reactivos de una prueba buscan medir pensamiento creative, pero Ia prueba, casi en su totalidad,
es s61o una medida de vocabulario. (SupOn, para este ejercicio, que vocabulario y pensamiento creative
tienen una correlaci6n baja.)
2. Identifies un puesto de trabajo con el que estes familiarlzado y crea un cuadro de especificaciones de €1. Con

Validez 133

También podría gustarte