Está en la página 1de 15

Cohen, R. y Swerdlik, M. (2001).

Pruebas y Evaluacin Psicolgica.


Introduccin a las pruebas y a la
Medicin. (4ta Edicin). Mxico:
McGraw Hill.

&.&Q
i n a ciiii\.c>ri;ri.i.~;n
cotidinnri, coi~finbiiidnrlcs sinnimo d e s e p r i d a d o consistencia, como
e
sincroiiizar tu reloj con 61" o "el amigo
en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes
confi,ibl- qiic ~ i e n ~ ! >esth
r e cuando lo necesi!asl'. En el lenguaje d e la psicornetrii,
canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medicin. Y niicritr~isen Ir7 conversacin cotidiana confiabilidad siempre denota algo que
:.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicorntrico tan slo denota alt;:> q ~ t :c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino
t a ~ slo
i
coiisislente.
13s importaiite para nosotros como administradores de pruebas yconsumidores d e
informacin :;r)bre ellas saber qu tari cor.fizbles sor, zs como otros prxedimien;os
de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k d e todo onada; hay diferentes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un ndice de confianza . Expre~aiidc,de riianera ms tcnica, es una proporcin que indica la razn entre la
varianza d e la puntuacin verdadera en una prueba y la varianza total. En este captulo,
exp1ornreir:os dilere:~tesclases de coeficierites d e confiabilidad, incluyendo aquellos
para i~icciir!a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad d e formas alterna!:vas, la cc;i~:Cial~ilidacl
de divisin por mitades y la confiabilidad e n w evaluadores.
,,

d e 1<7 teora clAsica de la pniebn en el caplulo 1


Se riliord;lr;i c!c: ni.c::ira cx!.~osici611
qile se s~;p(:neq u e una puntuacin en 1iIia prueba de capacidad refleja tanto la puntuacin \:cri?c,ciera dc quien responde la prueba en la capacidad que se est midiendo
como tambin el crror.' En su sentido ms amplio, "crror" se refiere al componente de
* Con p!-o$isit:~~
:!c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin
cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i ao los
s que nos referimos con respecto a lds
J
son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e
pruebas d e c ~ r , a c i d ~:ani'oin
r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuacin verdadera, tambin es cierto que la niagriitud d e la prssenci d e un cierto rasgc psicolgico (como la extroversin) medido con una prueba di?
extroversi6n .;c d:?b.r;A l! la cantidad ''~,.erdad~ra"
d e extroversin y 2) otros factores.

c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuacin


-observada, Tpara iepresentar ima p y t u a c i n verciadera y E para representar el error,
entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituacin verdadera ms el error puede expresarse como sigue:

X=T+E
IJna estadstica til para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies
cic
una prueba es lavarianza (u2),la desviaciii estndar al cuacirado Fqta estadstica es
til debido a que puede dcscorn~c7ncrseen sris c o m p o n ~ i i t e1~.i \.,jri,?:i. a d e 1s, dierencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevantes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza
verdadera y a: representa la varianza de error, entonces la relacin de las varianzas
puede expresarse como

En esta ecuacin, la varianzs totai en una distribucin observzda dc punt:iacioncs


ms la variariza de error
d e prueba (a2)es igual a la suma d e la variznza verdadera
.
:
a El trmino confiabilidad se refiere a la proporcin d e la varianza total atribii;da a la
varianza verdadera. Entre mayor es la proporcin d e la varianza total atribuida a la
variinza verdadera, la prueba es ms confiable. Debido a que se supone que las difcrencias verdaderas son estables, se presume que producen puntucliiories consistentes
en.aplicaciones repetidas de la misma prueba al igual que eri forn-[asequivalentes de
las pruebas. Debido a que la varian-za de e r r w puede incrementar o disnihiiir una
puntuacin d e prueba e n cantidades variables, se vera afectada la consistencia de la
puntuacin, y por tanto la confiabilidad. Ntese que una fuente sistemtica de error 110
afectara la consistencia de la puntuacin. Si un instrumento de medicin, como una
bscula, consistentemente pesar3 2.5 kilogramos menos a todos los que se pararan
sobre ella, entonces el peso relativo d e las personas permanecera sin cambios (aunque
los pesos en s variaran en forma consistente del peso verdadero por 2.5 kilogramos).
Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anciloga a una
constante que se resta (o se suma) d e cada puntuacin d e prueba. Una fuente de error
sistemtica no cambia.la variabilidad de la distribucin ni afecta la confiabilidad.

Fuentes de varianzrz de error


1,as fuentes de varianza de error incluyen la construccin, administraci:i, calificacin
e interpretacin d e la prueba.

Construccin de pruebas Una hen:e de varianza durante la coiistruccin de pruebas


es el muestreo de reactivos o m u e s t r a de co~:taiido,un trmino que se refiere a la variacin entre reactivos dentro de una prueba, al igual que a la variacin entre reactivos
entre pruebas. Considrense dos o ms pruebas diseadas para medir una habilidad,
atributo d e personalidad o cuerpo d e conocimiento especficos. Es zegurn que se encuentren diferencias en la forma en que estn redactados los rea~ti*,~ns
y diferencias en
el contenido exacto del que se i ~ sacado
a
la muestra. Es probable qve t o d ~ hayamos
s
entrado a un escenario en donde se aplicar un3 p e b a de rendirniento, pensando
"Ojal hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, slo
las preguntas que deseamos que nos hagan aparecern en el exarnen. En taies situa-

Captulo 5:Co:if;!bi!:dad

155

ciones, algunos d e quienes responden la prueba logran puntuaciones superiores en la


pweba de las que habran obtenido en otra prueba que pretendiera medir lo mismo,
tan slo debido al contenido especfico incluido en la muestra de la primera prueba, la
forma en que se redactaron los reactivos y as en forma sucesiva. El grado en que
!a puntuacin d e quien responde la prueba es afectada slo por el contenido presentado en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es
decir, la fonna en que se construy ei reactivo) es un f ente de varianza del error.
Desde la perspectiva de un autor de p r u e h s , un desafo en la elaborncin dc uiin
prueba es maximizar la proporcin de la varianza total que es varimza verdadera y
minimizar la proporcin d e la varianza total que es varianza del error. Muchos de los
elaboradores de pruebas cuyos perfiles aparecen cn este libro reportaron lidiar con ste
y otros problemas r~lacionadosdurante el proceso de construccin de la prueba. Aeste
respecto, Thomas Brown, elaborador de las Escalas para Trastorilos por Dficit de la
Atencin de Brown (Brown A ttention Defici t Disorder Scales), es tpico. Brown cree que
la mayora de ias personas exhiben shtomas del txastorno por dbficit de la a t e n c i ~ nde
vezen cuando. Un reto para l al elaborar su prueba fue crear reactivos y una metodologa de medicin que identificara en forma efectiva a personas que estuvieran afectadas
de manera significativa por los sntomas del trastorno por dficit de la atencin (vase
la 1?1sta?lfneade u n elaborador de pruebas, en las siguientes pginas).
Administracin de pruebas Las fuentes de varianza de error que ocurren durante la
aplicacin de la prueba pueden influir en la atencin o motivacin de quien responde
la prueba; por tanto, sus reacciones ante estas inlluencias son la fuente de una clase de
varianza del error. Ejemplos de influencias adversas que operan durante la aplicacin
de una prueba inciuyen factores relacionados con el ambiente de la prueba: la tempemtura del s a l h , el nivel de iluminacin y la cantidad de ventilacin y ruido, por
ejemplo. Una mosca puede fomentar una atraccin tenaz hacia la cara de un examinado. Una bola de goma de mascar en el asiento de la silla slo delata sil presencia
cuarido qiiier, responde la prueba se sienta encima d e ella; la lista contina. Otras
variabies relacionadas con el ambiente incluyen el instrumerito usado para introducir
las respuestas (como un lpiz con la punta rota o una pluma sin tinta) y la superficie
de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes
de aos anteriores que se sintieron obligados a expresar su devocin eterna a alguien
a quien es probable que ahora hayan olvidado).
Otras fuentes potenciales de varianza de error durante la aplicac~nde la prueba
incluyen variables de quien responde la prueba como el grado de incomodidad fsica,
la cantidac! de descanso que tuvo la noche anterior, el grado dz ansiedad por 1,i
~~rue'oa,
la extensi6n de problemas emocionales apremiantes o el efecto de frrnacos.
U113 persona que responde una prueba puede, por cualquier razn, cometer un error al
contestar u,ia respuesta. Por ejeinplo, el examinando puede rellenar un crculo "5"
cuando quera rellenar el crculo "d". Un examinando podra ver una pregunta de prueba
como "Cul n o sera un factor que impide que las mediciones sean replicables eri forma exacta?" y leer por equivocacin ' ~ C i i es
l un factor que impide que las mediciones
sean rcplicables en forma exacta?" Una pregunta omitida por descuido en una larga
lista de preguntas de opcin mltiple del tipo para rellenar crculos podra dar colmo
resultac!~que las respuestas subsecuentes ep la prueba estn fuera de secuencia; por
tar.to, por ejemplo, quien responde la prueba podna iesponder el decimoctavo reacti-;o
pero re!!ena: el crculo del decimosptimo, esto debido a que el duodcimo reactivo fue
omit~dode manera inadvertida. Las experiencias de aprendizaje formales, las experiencias casuales de la vida, terapia, enfermedades jr otros acoiitecimientos parecidos

156

Parte 2: La ciericia d e la medicic)ri psicolbgica


-

- Thomas E. Brown, PhD.


Prueba elaborada:
Escala: para el Trastorno por Dficit de la Atencibi
de Brown
11

mi sbposicin fu: que !a mayor parte de los sntomas riel


trastorno por deficit de la atencin (TOA) es experirneniz:!?
por casi todos de vez en cuando. Se presupme +e Icz
personas que tienen TOA son aquellzs que experinentan un
deterioro significativo y ~ersistentcpor los sntmnas d ~ l
TOA. Por tanto. si esta nreva escala de estimaci6:i hah:a
de ser til. iiecesitar6 ser capaz de diferenciar entre
.personas qtie reportan cn de:erioro significdtivc por e s : s
sntomas del TDA y otras que no repcrtan dicho de!erio:c."
Extractado del Test Deuelqm Profile publicado en Cohen (1999) y en
Internet e n U'I:>IU n ~ a ~ f i r l d p ucl oi n i / p v c l i t r s l i ~ ; ~

que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirle!as de una
p r ~ e b atambin sern fuentes d e varianza d e error relacionadas con el examinado.
Las variables relacionadas con e1 examinador que son fuentes potenciales de
varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia
fsica y comportamiento del examinador y el profesionalismo con que tome la siti:acin de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba
pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prueba particular. En un examen oral, algunos examinadores podran proporcionar sin
querer claves planteando preguntas que enfatizan diversas palabras, o transmitir informacin d e manera inadvertida sobre la correccin d e una respuesta por medio de
asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.

Calificacin e interpretacin d e pruebas El advenimiento de la calificacin computarizada


y una creciente dependencia de reactivos objetivos calificables por computadora casi
han eliminado la varianza d e error causada por diferencias d e los evaluadores en muchas pruebas. Sin embargo, no todas las pruebas pueden calificarse con crculos rellenados con lpices del nmero 2. Las pruebas d e inteligencia administradas en forxna
individual, algunas pruebas de personalidad, pruebas de ci-2atividad. diversas medidas conductuales y otras innumerables pruebas todava requieren calificarse en forma
manual por personal capacitado. Los manuales para las pruebas d e inteligencia individuales tienden a ser muy explcitos sobre los criterios de calificacin para que la inteligencia medida d e los examinandos no vare como una funcin d e quien est aplicando
13 prueba y calificando. En algunas pruebas d e personalidad, se les pide a,los
e x m i n a n d o s que suministren respuestas abiertas aestmulos como dibujos, ?alatras,
c r a c i o ~ e ys manchas de tiiita, y es el examinador quien hiego debe calificar (o quiz sea
ms apropiado decir evaluar) las respuestas. En una prueba de creatividad, podra
drsele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto

Captulo 5:Confiabilidad

157

de bloques. Pzra una medida ccndcctual d e habilidades sociales en un paciente interno del servicio psiquitrico, a los calii'icadores o evaluadores' podra'pedrseles q u e
estimaran a los pacientes con respecto a la variable de "relacin social". Dicha medida
conductual podra requerir que el evaluador marcara "s" o "no" reactivos como "El
paciente dice 'Buenos das' al menos a dos integrantes del personal".
Puede apreciar que t a n pronto como una medida psicolgica usa cualquier cosa
qut iir, 5car rextivos d e tipo objetivo que se pueden someter a una calificacin
ori~ptitar!:~,ida
colifiable, el calificador o ei sistema de calificacir! se vuelve una h ~ n t e
cic- \.a:-ia:iza de error. Si la subjetividad est implicada en la calificacin, el calificador
(o e\-aliindor)puede ser una fuente d e varianza de error. ~ refecto,
i
a pesar del establecimiento muy riguroso de criterios de calificacin en muchas de las pruebas de
inteligencia ms conocidas, 21 examinador y los calificadores en ocasiones se enfrentarn con situaciones donde la respuesta de, un examinando cae en un rea gris. El
elemento de la subjetividad en la calificacin puede estar presente en un grado mucho mayor en la aplicacin de ciertas pruebas de
de tipo no objetivo y
ciertas pruebas acadmicas (como los qxmenes de ensayo) e incluso en la observacin conductual. Considrese el caso de dos observadores a los que se les encarga la
tarea de evaiuar a un paciente psiquitrico en .la variable d e "relacin social". En un
reactivo que tan slo pregun'ia si dos miembros del personal fueron saludados en la
rnaana, un evaluador podra juzgar que el contacto ocular del paciente y el hecho de,
que masculle algo a dos miembros del personal calificwi como una respuesta "s",
mientras que otro podra diferir y proponer que es apropiada una respuesta "ao" zl
rezctivo. Tales problemas sabre el acuerdo en la calificacir. pueden abordarse por
medio d(-una capxitacin rigurosa diseada para hacer que la consistencia, o confiabilidad, de \.arios calificadores sea lo ms perfecta posible.
l.

Ciertos tipos de situaciones de evaluacin se prestan a variedades par:iculares de error sistem5tico-yno sistem.tico. Por ejemplo, cansidrese la evaluacili del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso
fsico y psicolgico en su relacin. Como observarori Moffitt el al. (19971, "Debido a
que el abusa de la pareja por lo general ocurre en privado, slo hay dos personas que
'en realidad' saben lo que sucede detrs de sus puertas cerradas: los dos miembros de
la pareja" (p. 47). Las fuentes potenciales de error no sistemtico en una situacin
cie evaiuacin as incluyen olvido, dejar de notar el comportamiento abusivo y entender x ~ lasl instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988;
Kggs et u[., 1989; Straus, 1979) han sugerido que tambin hay factores que pueden
contribuir a un e::ror sistemtico en la forma de reportar gradualmente la perpetracin
de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor,
vergenza o factores de conveniencia social y reportar ms abuso si estn buscando
ayuda. Los hombres pueden reportar menos abuso debido a vergenza y factores de
conveniencia social y reportar ms abuso si estn intentando justificar el reporte.
Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que
sufre usa persona a manos de su pareja, as puede ser que nunca se conozca la cantidad de varianza d.e la prueba verdadera con relacin al error. Una supuesta puntuacin ~rerdadera,i.omo lo plante Stanley (1971, p. 361), "no es el hecho definitivo en el
!ibro del qgel dcl registro". Adems, la utiiidad de los mtodos actuales para estimar
la varianza verdadera en contraposicin con la varianza de error es una cuestin que
s t debate en forma aczlorada (vase, por ejemplo, Collins, 1996; Humphreys, 1996;
Lk'illiamc y Zin~i-ricrman,1996a, 1996b). Veamos con ms detalle estas estimaciones y
e! p:c.rem ;7irt;a (iei-ivarlas.
Otras fuentes de'error

158
- -

Parte 2: La ciencia de
-

--

13

nedicibn psicolbgica
-

~~

Estimaciones dv confiabilidad de prueba y posprueba


Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medicin
miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centmetros de largo, por ejemplo, la regla indicar que lo que se est midiendo tiene --xactamente 12 cmtrnetros de largo. Tambin p e d e decirse que la confiabilidad d e este instrun,.mto de
medicidn es estable en el tiempo; ya sea que s e midan los 12 centmetros hoy, maiana o
el prximo ao, la regla an va a medir i 2 centmetros como 12 centmetros. Por el coiiErario, una regla construida de niasillapodra ser un instrumento de medicin pococonfiable. Un minuto podra medir algn patrn que se sabe que tiene 1 2 centmetros de
largo como 12 centmetros, al minuto siguiente podra medirlo corno 14 centmetros y
una semana despus como 18 centmetros. T l ~ forma
a
de estimar la confiabilidad de un
instrumento de medicin es usando el mismo instrumento para medir lo mismo en dos
pirntos en el tiempo. En el lenguaje psicomtrico, este enfoque de la valoracin de la
confiabilidad se llama "mtodo de prueba y pospryeba" y el resultado de dicha valoracin es una estimacin de la "con fiabilidad de prueba y posprueba".
La confiabilidad de prueba y posprueba es arta estimacin de la confiabilidad obtenida al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones
diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuand o se valora la confiabilidad de una prueba que pretende medir algo que es relativamente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que
la caracterstica que se est midiendo flucta ccn el tiempo, Ccndra p o c senfido
~
evaluar la confiabilidad de una prueba usando el mtodo de prueba y posprueba; se
encontraran correlaciones imignificantes entre las puntuaciones obtenidas en las dos
aplicaciones de la prueba. Estas correlaciones insignificantes se deberan a cambios
reales en cualquier cosa que sea lo que se est midiendo en lugar de deberse a factores
inherentes en el instrumento de medicin.
Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender
cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general,
aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlacin entre las puntuaciones obtenidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error.
Entre mayor tiempo pase, es ms probable qce el coeficiente de confiabilidad ser
menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se
hace referencia a la estimacin de la confiabilidad de piueba y posprueba como "coeficiente de estabilidad". Una estimacin de la confiabilidad prueba y posprueba de una
prueba de matemticas podra ser baja si quienes respondieron la prueba tomaron un
curso de matemticas antes de que se aplicara la segunda prueba. Una estimacin de
la confiabilidad prueba y posprueba de un perfil de personalidad podra ser baja si
quien responde la prueba sufri algn trauma emocional o recibi orientaciri durante
el periodo intermedio. Puede encontrarse una estimacin baja de la confiabilidad prueb
y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las
pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a
las variables que est diseada para evaluar. Una evaluacin de un coeficiente de confiabilidad pnieba y posprueba debe abarcar, por consiguiente, nis al15 de la significacin del coeficiente obtenido; debe extenderse a un%-.c6nsicieracinde los posibles
factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ionclusiones apropiadas sobre la confiabilidad del instrumento de medicin.

Captulo 5 : Confiab~lidad

159

Una estimacin d e la confiabilidad prueba y posprueba puede ser ms apropiada


para calibra1 la confiabilidad d e pruebas que emplean como medidas d e resultados el
trempo d e reaccin o juicios perceptivos (como discriminaciones d e brillantez, sonoridad o gusto). Siti embargo, incluso al medir variables como stas y aurt cuando el
periodo entre las dos aplicaciones de la prueba sea relativamente pequeo, ntese
que pueden intervenir diversos factores (como experiencia, prctica, memoria, fatiga
y motivacin) jr ~.cmfundiruna niedida de codiabilidad ~ b k n i d a . ~

Estimaciones dc co~zfinbilidaddc fonrius altenzas o eqrivalentes


Si alguna vez ha presentado un examen de composicin en el que las preguntas para la
composicinno eran iguales que en la prueba presentada en un inicio, ha experimentasi las dos formas de la prueba
d o formas diferentes de una prueba. Y si se ha ~ r e g u n t a d o
en realidad eran equivalentes, ha cuestion2cio la confiabilidad de/ori?iac alternas de la
prueba. El grado de la relacin entre varias formas de una prueba puede evaluarse por
medio de u:\ coeficiente de confiabilidad de/ornms alternas o equiuale~ztes,el cual a me.
.
nudo se denomina coeficiente de equivalencia.
Formasaltemas y formas equivalentes son trminos que en ocasiones se usan en forma
indiscriminada, aunque hay una diferencia tcnica entre ellos. Existenformas equivalentes de una prueba cuando para cada forma de la prueba son iguales las medias y las
varianzas de las puntuaciones de prueba observadas. En teora, las medias d e las puntliacioriec obtenidas er, f o m a s eguivalentes sc cxrelacionan de manera igual tori 1~
puntuacin verdadera. De manera ms prctica, las puntuacioiies obtenidas en pruebas equivalentes se correlacionan de modo igual con otras medidas. Lasformns alterrias
ian solo son versiones diferentes de una prueba que se han construidc con el fin de ser
equivalentes. Aunque no cumplen con los requisitos para la designacin legtima de
"equivalentes", las formas alternas de una prueba estn disefiadas generahnente para
ser equivalentes con respecto a variables como contenido y nivcl de difitu!tad.
Las estimaciones de la confiabilidad de formas altcrnas y equivalentes son similares a una estimacih de la confiabilidad y repeticin de la prueba en dos formas: 1)
se requieren dos aplicaciones de la prueba con el mismo grupo y 2) las puntuaciones
de prueba pueden ser afectadas por factores como la motivaci.n, la fatiga o eventos
que intervienen como la prctica, el aprendizaje o la terapia. Sin embargo, una fuente
adicional de varianza de error, el muestre0 de reactivos, est inherentc en el clculo de
un coeficiente d e confiabilidad de formas alternas o equivalentes; quienes responden
las pruebas pueden salir mejor o peor en una forma especfica de la prueba, n o como
una funcin de su capacidad verdadera, sino tan slo debido a los reactivos particulares que se seleccionaron para ser incluidos.' Otra desventaja potencial de una forma
de prueba a1':erna es de naturaleza financiera; comnmente consume,mucho tiempo
y es muy costoso elaborar formas de prueba alternas o equivaleiites; ;tan slo piense
en todo lo que podra implicar hacer que las mismas personas acuden a repetidas
aplicaciones d e una prueba experimental! Una ventaja primordial de usar una forma
Aunque podemos referimos a un nmero como una declaraci6n sumaria d e la confiabilidad d e herram i e n t a d e medici6n individuales, cualquiera d e estos ndices d e confiabi!idad s61o pueden interpretarse
d e manera significativa en el contexto del proceso d e rri%dicin, las circunstancias nicas que rodean al uso
d e la regla, la prueba o algn otro instrumento d e medicin en una aplicacin o situacin particular.
' De acuerdo con el modelo d e puntuacidn verdadero clsico, e1 efecto d e taies factores e n las puntuaciones
d e prueba se supone que es en efecto un error d e medicin. Hay modelos alternativos en los que el efecto d e
dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sera considerado error (Atkinson, 1981).

160

!'arte 3: Laciencia d e la medicin psicolgica


--

- -

.-

- . .

el contenido de una fonna de piueba aplicada con anterioridad.


Se supone que ciertos rasgos son relativamente estables en las personas a lo largo
del tiempo, y esperaramos que las pruebas que miden esos rasgos, s e a i iormas alternas, formas equivalentes o d e algn otro tipo, reflejen esa estabilidad. Como ejemplo,
esperarknos que hubiera, y de echo hay, un grado razonable de estabilidad en las
puntuaciones en las pruebas de inteligencia. A la inversa, podran-,os esperar que hubiera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del
estado de ansiedad jansiedad sentida en el momento); podra e\perarse queel nivel de
ansiedad expr-rirnentdo por alguien q u e responde la prue!)a variara hora tras hora,
por "O decii da tras da, semana tras semana o mes tras mes.
Fuede obtenerse una estimacin de la confiabilidad de und prueba sin elaborar
una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las
mismas personas. Dicha evaluacin implica el escrutinio de los reactivos individuales
que forman la prueba y su relacin entre s. Debido a que este tipo de estimacin de la
confiabilidad no se obtiene por medio de la comparacin de datos de una forma alterna rii a travs de un procedimiento de prueba y posprleba sino, ms bien, por medio
de un examen d e los reactivos de la prueba, se conoce como estimacin de confiabilidad d e "consistencia interna" o como una estimacin de "consistencia entre reaciivos".
Nuestra atencin cambiar ahora a estos tipos de estimaciones de confiabilidad, comcmzando por la estimacin de "divisin por mitades".

Estimaciones de confiabilidad de divisin por mitades


Uria estimacin de cmfiabiiidad de diuisih por mitades se obtiene cnrrelacionando dos
pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba aplicada una sola vez. Es una medida de confiabilidad til cuando es poco pr6ctico o indfsseable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba
(debido a factores como tiempo o costo). El clculo de un coeficiente de confiabilidad
de divisin por mitades por lo general implica tres pasos:
Paso 1. Dividir la prueba en mitades equivalentes.
Paso 2. Calcular una r d e Pearson entre las puntuaciones en las dos mitades de
la prueba.
Paso 3. Ajustar la confiabilidad de la mitad de la prueba usando l i firmula de
Spearman-Brown.
Puede ser que haya escuchado el refrn cpe dice que "hay ms de una forma de
pelar a un gato". Ur. corolario a este fragmento de sabidura podra ser que hay algunas formas en las que nunca debera pelar a un gato. Un fragmento de sabidura anlogo cuando S& trata de calcular los coeficientes de confiabilidad de divisin por mitades
es: hay ms de una forma, de'dividir una prueba, o hay algunas formas en las que
nunca debera dividirse una p r u e b a . ' ~
se~recomienda tan slo dividir la prueba 2 lz
mitad, debido a que es probable que este procedimiento elevara o disminuira en
forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferentes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una
funcin de su colocacin en la pruebaj. Una forma aceptable de dividir una prueba es
asignar a! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma
aceptable es asignar los reactivos con nmeros nones a una mitad de la prueba y los
reactivos con nmeros pares a la otra mitad (produciendo una e~tiiir~acin
a la que

Capitulo 5: Confiabilidad

161

:aanbi&wse hace referencia como "confiabilidad mitad pares-mitad riones").' Una tercera forma es dividir la prueba por contenido d e modo que cada mitad de la prueba
cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un
objbtivo primarir) al dividir una prueba en mitades con el propsito de obtener una
estimacin de la confiabilidad de divisin por mitades es crear lo que podra denominarse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 mr siniiiar
h ~ m ~ a r n e r i posible,
tt.
CII aspc'ctos de formatc,, estilsticos, c.ctadsticos y )Iros 'icpector, rclacion,i~lo4.
E1 paso 2 c n cl proiedimiento implica el ciculo d e una r dc l ' c ~ r s o n iu
, cii<~l
1.1;quiere poca explicacin en este punto. Sin embargo, el tercer pzso requiere el uso de la
frmula de Spearman-Brown.
La frmula de Spearinan-Brown
La frxula de Speannan-Brown le permite a quien
elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a
partir de una correlacin de dos mitades de una prueba; es una aplicacin especfica
de una frmula ms general para estimar la confiabiiidad de una prueba que se ha
alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad
de una prueba es afectada por su longitud, es necesaria una frmula para estimar la
confiabilidad de una prueba que se ha acortado o alargado. La frmula general de
Cpcarmar-i-Drown (Y,,) es

donde r,, es igual a la confiabilidad ajustada por la frmula de Spearman-Brown, t 'Y


cs igual a la r de iearson en la prueba con la longitud original y n es igual al nmero
de seactivos en la versin revisda dividido entre el nmero de reactivos en la versin
original.
Al determinar la confiabilidad de una mitad de F a prueba, un elaborador de
pruebas p e d e usar luego la frmula de Spearman-Brown para estimar la confiabilidad de una prueba entera. Debido a que la prueba entera es del doble de largo que 12
mitad de una prueba, n se vuelve 2 en la frmcila de Spearman-Brown para el ajuste
de la confiabilidad de divisin por mitades. El smbolo Y, significa la r de Pearson de
las puntuaciones en las dos mitades de la prueba:

Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa


conforme aumenta la longitud de una prueba, a condicin de que los reactivos adicionales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos
originales. Las estimaciones de confiabilidad basadas en la consideracin de la prueba entera tendern por consiguiente a ser mayores que aquellas basadas en la mitad
de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto
con estimaciones de confiabilidad ajustadas para la p k e b a entera. Puede verse que
todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se
4 1 1

una precaucin aqu: con respecto ;i un grupo d e reaa:vos en una p r ~ e b ad e rendimiento que abordan un
solo probiema, por lo general es deseable asignar el g r ~ p entero
o
d e reactivos a una mitad d e la prueba. De
otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la
mitad d e las puntuaciones sera inflada en forma falsa; un solo error d e comprensin, por ejemplo, podra
afectar a reactivos en ambas mitades d e la prueba.

162

Parte 2: La ciencia d e la medicin psicolgica

Coeficientes de confiabilidad
mitad pares-rnitad nones antes y
despus del ajuste de SpearmanBrown"

Grado

K
1

.,

1aiA

mitad de l a prueba Estimacin de l a


(rsin ajuster)
prueba entera (r,,)

.71a
,807
,777

.a36
a93
875
-~

puntu.icidnes cri una p r i ' c h d e ca~~acrLldii


rnciica;

cietc Y que las t.sli~iiacioiie~


Lic Spear~rian-Urown';e basan tn r.ii!a prucbLiq u e es e
doble d e larga que la mitad d e la prueba original. Para los datos de IPS ;iluiru-ios de
jardn d e nios, por ejemplo, una confiabilidad d e la mitad de ana pr~iebade ,718
puede estimarse que es equivalente a una confiabilidad de la prueba entera de ,536.
Si los elaboradores o administradores d e pniebas desean acc~rtarcria prueba, la
frmula d e Spearman-Brown puede ser usada para estimar el efecto del acortamiento
en la confiabilidad d e la prueba. La reduccin e1-i el taniao de la prueba con el prop
sito d e reducir el tiempo d e aplicacin d e la prueba es una prctica con-ii-ien situaciones donde el administrador d e la prueba puede tener slo un tiempo limitado con
quien responde la prueba o en situaciones donde el aburrinientcj Q la fatiga podran
producir respuestas d e significacin cuestionable.
Tambin podra usarse un;i frmula d e S~earn-ian-Brown
para Seterminar el nmero d e reactivos necesario para alcanzar un nivel deseado d e confiabilidad. Al agregar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado,
la regla es que los reactivos ngevos deben ser equivzlentes en contenido y dificiiltad
d e modo que la prueba ms larga todava mida lo que meda la prueba original. Si ia
confiabilidad d e la prueba original es relativamente baja, puede ser poco prctico incrementar el nmero d e reactivos para alcanzar un nivel de confiabilidad' aceptable.
Otra alternativa sera abandonar este instrumento relativamente poco c ~ n f i a b l ey localizar, o elaborar, una alternativa adecuada. La confiabilidad di1 instrumento &mbin podra elevarse d e alguna manera; por ejempio, creando reactivos nuevos,
aclarando las instrucciones d e la prueba o simplificando las reglas (le caii!icacin.
Las estimaciones d e confiabiiidad de consistei-icia ?tema, como las obtenidas usand o la frmula d e Spearman-Brown, son inapropiadas para medir la confiabilidad d e
pruebas heterogneas y pruebas d e velocidad. El impacto d e las caractersticas dg la
prueba en la confiabilidad se comenta con mayor detalle ms adelante en este captulo.

..

Otros mtodos de estirnncirl de la c o m i s t m c i n interrin


Adems d e la frmula d e Spearman-Brown, otros mtodos que se usan en forma arnplia para estimar laconfiabilidad d e consistencia intem2 incluyen fimulas desarroliadas por Kuder y Richardson (1937) y Cronhach (1951). Co,lsisferrcin elifre rracfivos es u.n
trmino que s e refiere al grado d e correlacin entre todos los reactivos en una escala.
Una medida d e consistencia entre reactivos se calcula a partir d e una sola apiicacin de
una forma nica d e una prueba. Un ndice d e consistencia entre reactivcs es itil, a su
vez, para evaluar la howiogeneidad d e la prueba. Se dice que las pruebas son "l-iornogrieas" si contienen reactivos que miden un solo rasgo. Como un adjetivo usado para
describir reactivos d e prueba, homogeneidad (derivada-.de las palabras gricgas Iiomos,
que significa "misma", y genous, que significa "clase") es el grado en que una pnieba
mide un solo factor; o.sea, el grado en quelos reactivos e n una escala son unifactorhles.

Capitulo 5: Contiabilidad
.-

163

1
1

En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado


en que una prueba mide factores diferentes. Una prueba no homogrieb o heterognea se
compone de reactivos que miden ms de un rasgo. Podra esperarse que una prueba
que slo evala el conocimiento de las habilidades d e reparacin de televisores de
color tuviera un contenido ms homogneo que u i a prueba de reparaciones electrnicas. La primera pmeba slo evala un rea y la ltima evala varias, como el conocimiento no slo de televisores sino tambin a c radios, vidcograbadoras, repioductores
de discos compactos, eic. Entre ms homogneli es una p r i i t h , ~ u c d espetarre
c
que
tenga ms consiste:icia entre reactivos. Debido a que la prueba abarcara una muestra
de un rea de corit2nido relativamente reducida, tendra ms consistencia entre
reactivos. Una kzeisona que es hbil en la reparacin d e televisores de color podra
estar algo familiarizado con la reparacin de otros aparatos dectrnicos como radios y
sisien-.asestereof5niio.s pero puede saber poco sobre videograbadoras o reproductores
de discos ccimpactos. Por tanto, habra menos consistencia entre reactivos en esta prueba
de capactdad de reparacin general que en una prueba diseada para evaluar slo el
conocimiento y habilidades para la reparacin de televisores d e color.
La homogeneidad de la prueba es deseable debido a que permite una interpretacin relativamente sencilla de la puntuacin de la prueba. Es probable que aquellos
que obtienen la misma puntuacin en una prueba homognea tengan capacidades
parecidas en el rea examinada. Aquellos que obtienen la misma puntuacin en una
prueba ms heterognea pueden tener capacidades bastante diferentes. Pero aunque
es deseable una prueba homognea debido a que se presta con facilidad a una interpietciii clra, a menudo es uria herramienta hsrrficiente para medir variables psicolgicas multifacticas como inteligencia o personalidad. Una forma de evitar esta fuente
potencial de dificultad ha sido aplicar una serie de pruebas homogneas, cada una
diseada para medir algn componente de una variable h e t e r ~ g g n e aAdems
.~
de
algunas de las influencias aleatorias que pueden afectar a las medidas de confiabilidad, la varianza de error en una medida de consistencia entre reactivos proviene de
dos fuentec 1) 21 muestre0 de reactivos y 2 ) la heterobeneidad del rea de contenido.
Entre ms heterognea sea el rea de contenido de la que se extrae la muestra, ser
menor la consistencia entre reactivos.
Las frmulas de Kuder-Richardson La insatisfaccin con los mtodos de divisin por
mitades existentes para estimar la confiabilidad llev a G. Frederic Kuder y M.W.
Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para
estimar la confiabilidad. La ms conocida de las muchas frmulas en las que colaboraron es su/rnliria Kiider-Ricllardson 20 o KR-20 (llamada as debido a que fue la vigsima frmula desarrollada en una serie). En el caso en que los reactivos d e
la prueba son muy homogneos, las estimaciones de confiabilidad KR-20 y de divisin por mitades sern similares. Sin embargo, la KR-20 es la estadstica de eleccin
para determinar la consistencia entre reactivos de reactivos dicotmicos, sobrc todo
aquellos reactivos que pueden ser calificados como correctos o equivocados (como los
reactivos de opcin mltiple). Si los reactivos d e prueba son ms heterogneos, la KQ20 produciri estiinciciones de confiabilidad infericres que e! mtodo de divisin por
mitades. El cuadro 5.2 resume los reactivos en una prueba heterognea de muestra.

-Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en
una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pniebas y proc~dimientosd e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componerse o no de pniebas homogneas.

164

I'a:tc 2: La ciencia d e la medicin psicol6gica

?7e76,~~fO"5"52~Vnmnm~pi.----

Areas de contenido en las que se realiz un


muestre0 piira obtener 18 reactivos de la
Prueba Hipottica de R'eparaciones
Electrnicas (PHRE)

Nmero de reactivo
1

rea de contenido

Televisibn de color
T ~ l ~ v i s i bden color
Televisibn b l a n ~ oy ncgro
Televisin blanco y negro
Radio
Radio
J
Vl.i?0~fdb3d01
Vidro~;rab~dr~~n
CC---:.m,fa
Cornpdtddcra
Reproductor de d i x o s
compactos
Reproductor de discos
compactos
Receptor estereofnico
Receptor estereofEnico
Cdmara de video
CAmara de video
Reproductor ovo
Reproductor OVD

Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs ms o


menos igual, esperara que una estimciciii de confiabilidad de divisin por mitades
(mitad parcs-mitad nones) fuera bastante alta o baja? Cmo sera la estimacin de
confiabilidad KR-20 en comparacin con la estima'cin de confiabilidad mitad paresmitad nones? Sera mayor o menor?
Podramos suponer que debido a que las reas de contenido de las que se torn
una muestra para los 18 reactivos de esta "Prueba Hipottica de Reparaciones Electrnicas" estn ordenadas en una manera en la que los reactivos impzres y pares abarcan la misma rea d e contenido, es probable que la estimacin de la confiabilidad
mitad pares-mitad nones sea bastante alta. Con respecto a la suposicin razonable
respecto a la estimacin de confiabilidad KR-20, debido a la gran heterogeneidad de
las reas de contenido cuando se consideran en conjunto, podra ser razonable predecir que la estimacin de confiabilidad KR-20 sera menor que la mitad pares-mitad
nones. Cmo puede calcularse la KR-20? Puede usarse la siguiente frmula:

donde ,r
representa la frmula 20 de Kuder-Richardson del coeficiente de confiabilidad, k es el nmero de reactivos de la prueba, u*es la varianza del total de las puntuaciones de la prueba, p es la proporcin de quienes respondieron la prueba que
aprobaron el reactivo, q es la proporcin de personas que fallaron en el reactivo y C pq
es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es
igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La
varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, ,r
= .259.
Puede obtenerse una aproximacin de la KR-20 usando la frmula vigsimo primera en la serie desarrollada por Kuder y Richardsoq una frmula conocida, como
podr adivinar, como KR-21. La KR-21 puede ser usada si hay razn para creer que
todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-

Capitulo 5: Confiabilidad

165

Cuadro 5.3
Desempeo en la PHRE por reactivo para 20
p e m n a s que respondieron la prueba

Nmero de reactivo
1
2
3
4

l.

6
7
8
9
1o
11

12
13

Nmero de personas
que lo respondieron eri
iorma correcta -14
12
9
1Y

6
9

1o
1o

8
6
15

14

15
16
17

12
12
14

18

tad; una suposicin, deberamos agregar, que rara vez se justifica. La frrnula KR-21
tiende a ser anticuada en u i ~ poca

de calculadcras y ccmptitadoras, debido que se


usaba como una aproximacin de la KR-20 que requera menos cIculos. Otra frmula
usada alguna vez en la medicin de la confiabilidad de la consistencia inte.na y ahora
en su maycr parte anticuada era un estadgrafo conocido como la frmula de Rulon
(Rulon, 1939).
Aunque se han propuesto numerosas modificaciones de las frmulas d e KuderRicnardson a lo largo de ios aos (por ejemplo, Cliff, 1984; Horst, 1953), quiz la nica
variante d e la frmula KR-20 que ha recibido la mayor aceptacin hasta la fecha es un
estadgrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20"
(siendo a la letra griega ayu y el 20 refirindose a KR-20).
Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por
otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el cogficirnte al/n puede
considerarse como la media de todas las correlaciones de divisin por mitades posibles, las buenas jurito con las malas, corregida por la frmula de Syearmui-Brown.
Como hemos sealado antes, la KR-20 se usa en forma apropiada en pruebas con
reactivos dicotmicos. El coeficiente alfa tambin puede ser usado en pruebas ccn
reactivos dicotmic~s.
Adems, el coeficiente alfa es ap~opiadopara ser usado en prucbas que contienen reactivos que no son dicotmicos: reactivos que pueden calificarse
en forma mdividual a lo largo de un rango de valores. Los ejemplos de estas pruebas
incluyen las encuestas de opinin y de actitud, donde se presenta un rango de alternativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde pumie
darse crdito parcial. La frmula para el coeficiente alfa es
Coeficiente alfa

donde ra es el coeficiente alfa, k es el nmero de reactivos,~f es la varianza de uE


reactivo, C ofes la suma de las varianzas de cada reactivo y a es la varianza del total

.-

166

Parte 2. La ciencia de la medicin psicolgica


-

Lizaran en forma manual los &lculoc bastante laboriosos, y


- -podra presumirse en
fcrma razonable que el nmero d e personas que preferiran la forma antigua disminuira c o ~ o r m eaumentara el nmero de reactivos en la p ~ u e b a .En la actualidad,
quiz debido a la fcil disponibilidad d e computadoras (desde coinputadoras centrales haita porttiles), el coeiiciente aifa es la estadstica preierida para obtener una
estimacin d e la confialili?d d e la consistencia interna (Keith y Reynolds, 1990).

h f e d i d a s de confiabilidad entre evaluadores


En situaciones en las que estamos sierido evaiuados, por lo general nos gustara creer
que sin importar quin est haciendo la evaluacin, s e r a m x evaluados en la misma
Por ejemplo, si el profesor de este curso fuera a evaluar su conociniiento de la
materia por medio d e una prueba d e ensayo, a usted ie gustara pensar que la calificacin que reciba en la prueba de ensayo sera la misma si fuera calificada por su profescjr o por cualquier otro profesor que imparra este curso. Si presenta un examen prctico
par=. obtener su licencia d e manejo, a usted le gustara pensar que aprobar o reprabar
la prueba slo es cuestin d e su desempeo detrs del volante y na una funcin de
quin est sentado en el asiento del pasajero. Por desgracia, en algiirios tipos d e pruebas bajo a h a s condiciones, la puntuacin puede ser ms una funcn del evaluador
que de alguna otra cosa. Esto se demostr desde 1912 cuando unos iiivestigadores
presentaion una composicin d e ingls de un alumno a una convencin de maestros,
v fue calificada por vol~mtarios,con calificacicnes que variaron desde un m n h o de
500/0hasta un mximode 98% (Starch y Elliott, 1912).
Denomiriada en fonna diversa como "confiabilidad del evaluador", "confiabilidad del juez", "confiabilidad del observador" y "con fiabilidad entre evaluadores", la
co$zabilidad zntre maluadores es el grado d e acuerdo o consistencia que existe entre
dos o ms evaluadores (o jueces o calificadores). Pueden publicarse referencias a los
niveles de confiabilidad entre evaluadores para una prueba particular (ya sea en el
manual de la prueba o en alguna otra parte), y si el coeficiente de confiabilidad es
muy alto, el futuro administrador d e la prueba sabe que las puntuaciones puedcri
derivarse en forma consistente y sistemtica por varios evaluadores con suficiente
capacitacin. Un elaborador de pruebas responsable que es incapaz de crear una prueba
que pueda ser calificada con un grado razonable d e consistencia por evaluadores capacitados regresar al pizarrn para descubrir la razn para este problema. Si, por
ejemplo, el problema es una falta de claridad en los criterios d e calificacin, entonces
el remedio podra ser redactar d e nuevo la seccin de criterios d e calificacin del manual para incluir reglas d e calificacin redactadas con claridad. Una revisin de la
literatura sobre la capacitacin de evaluadores para mejorar su desempein en las estimaciones sugiere que las conferencias para evaluadores sobre las reglas de califim cin no son tan efectivas para promover la consistencia entre ellos como proporcionark';
la oportunidad d e participar en d i s c ~ s i o r ~de
e s grupo junto con ejercicios de prctica
e informacin sobre su precisin (Smith, 1986).
Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.vistr de trabajo y el patrn o entrevistador es un padre o algn otro- pariente amoroso, podra esperar ?e
manera razonable que ld naturaleza de la valoracin que recibiRa n o sera La misma que si el evaluada:
fuma alguna otra persona. Por otra parte, si el-patrno entrevistador es alguien con quien ha tenido un mal
rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.

Capitulo 5: Corifiabilidad

167

.
.

Quizd la forma mds simple d e determinar 'el grado d e consistencia que existe entre evaluadores en la caiificacin d e una prv.eba es calcular un coeficiente de correlacin, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que
se aplicj una prueba de 30 reactivos d e tiempo d e reaccin a un sujeto y fue calificada
por dos evaluadores, la confiabilidad entre stos sera igual al valor del coeficiente de
correlacin d e Spearmm-Brown corregido obte:ido con respecto a 3 0 pares d e puntuacions. Si se ciricontrara que el coeficiente d e ronfiabiiidad es, digamos, .90, esto
significara que cl9C%de la vananza en las puntuaciones asignadas por los evahadores
sc dcriita cie diferencias reales eri el !iempo d e reaccin del sujeto, mientras que el 10%
podra atribuirse a factores distinhs al tiempo d e reaccin del sujeto (es decir, error).
En muchos casos, :,e us-an ms de dos evaluadores en t.stos'estudios de confiabiiidad.
En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores,
usr.,lo la r e Pearson o la rho de Spearman, dependiendo de la escala de medicin
de la untu tu acin de la prueba.

.S
*

.:,

:t

-.

La esladstica kappa La estadstica kappa fue diseada en un principio para ser usada en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales
de medicin (Cohcn, 1963). La estadstica kappa fue modificada despus por Fliess
(1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastaste bien la estadstica kappa como una medida de confiabilidad entre evaluadores
(Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la
kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule
(Spitznagel :*r iieiz-r. 985).

Uso e inteqretaci6n de un coeficiente de canfiabilidad

,/

Hemos visto que con respecto a la prueba en s, bsicamente hay tres enfoques para la
estimacin de la confiabilidad: 1)prueba y posprueba, 2) formas alternas o equivalentes y 3) consistencia interne o entre reactivos. El mtodo o mtodos empleados depender de diversos factores, siendo primordial entre ellos el prop6sito de obtener w a
medida de confiabilidad y la forma en que se usar la medida.

Error debido a la
consttucci6n de la

Error d e

\del

'
rianza verdadera

Figura 5.7
Fuentes de varianza cn una prueba
hipottica

irianza de error

.- .
168

Parte 2: La ci^.nciad e la rr.edici6n psicolgica

También podría gustarte