Cohen y Swerdlik 2001 Cap.5

Cohen, R. y Swerdlik, M. (2001).
Pruebas y Evaluación Psicológica.

Introducción a las pruebas y a la
Medición. (4ta Edición). México:
McGraw Hill.
&.&Q , ,,
cotidinnri, coi~finbiiidnrlcs sinónimo d e s e p r i d a d o consistencia, como
i n a ciiii\.c>ri;rií.i.~;n
en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes

e sincroiiizar tu reloj con 61" o "el amigo
r e cuando lo necesi!asl'. En el lenguaje d e la psicornetríii,
confi,ibl- qiic ~ i e n ~ ! >esth
canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medi-
ción. Y niicritr~isen Ir7 conversación cotidiana confiabilidad siempre denota algo que
:.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicornétrico tan sólo deno-
ta alt;:> q ~ t :c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino
t a ~ sólo
i coiisislente.
13s importaiite para nosotros como administradores de pruebas yconsumidores d e
información :;r)bre ellas saber qué tari cor.fizbles sor, zsí como otros prxedimien;os
de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k d e todo onada; hay diferen-
tes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un índice de confian-
za . Expre~aiidc,de riianera más técnica, es una proporción que indica la razón entre la
varianza d e la puntuación verdadera en una prueba y la varianza total. En este capítulo,
exp1ornreir:os dilere:~tesclases de coeficierites d e confiabilidad, incluyendo aquellos
para i~icciir!a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad d e formas alterna-
!:vas, la cc;i~:Cial~ilidacl de división por mitades y la confiabilidad e n w evaluadores.
Se riliord;lr;i c!c: ni.c::ira cx!.~osici611

d e 1<7 teoría clAsica de la pniebn en el capílulo 1
qile se s~;p(:neq u e una puntuación en 1iIia prueba de capacidad refleja tanto la pun-
tuación \:cri?c,ciera dc quien responde la prueba en la capacidad que se está midiendo
como también el crror.' En su sentido más amplio, "crror" se refiere al componente de
* Con p!-o$isit:~~ :!c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin
cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i ao los s que nos referimos con respecto a lds
pruebas d e c ~ r , a c i d ~:ani'oién
J son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e
r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuación verdadera, también es cierto que la niag-
riitud d e la prssenciñ d e un cierto rasgc psicológico (como la extroversión) medido con una prueba di?
extroversi6n .;c d:?bí.r;íA l! la cantidad ''~,.erdad~ra" d e extroversión y 2) otros factores.
c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuación
-observada, Tpara iepresentar ima p y t u a c i ó n verciadera y E para representar el error,
entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituación verda-
dera más el error puede expresarse como sigue:
X=T+E
IJna estadística Útil para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic
una prueba es lavarianza (u2),la desviacióii estándar al cuacirado Fqta estadística es
Útil debido a que puede dcscorn~c7ncrseen sris c o m p o n ~ i i t e1~.i \.,jri,?:i. a d e 1s, diíe-
rencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevan-
tes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza
verdadera y a: representa la varianza de error, entonces la relación de las varianzas
puede expresarse como
En esta ecuación, la varianzs totai en una distribución observzda dc punt:iacioncs

d e prueba (a2)es igual a la suma d e la variznza verdadera más la variariza de error
a El término confiabilidad se refiere a la proporción d e la varianza total atribii;da a la
.
:
varianza verdadera. Entre mayor es la proporción d e la varianza total atribuida a la
variinza verdadera, la prueba es más confiable. Debido a que se supone que las difc-
rencias verdaderas son estables, se presume que producen puntucliiories consistentes
en.aplicaciones repetidas de la misma prueba al igual que eri forn-[asequivalentes de
las pruebas. Debido a que la varian-za de e r r w puede incrementar o disnihiiir una
puntuación d e prueba e n cantidades variables, se vería afectada la consistencia de la
puntuación, y por tanto la confiabilidad. Nótese que una fuente sistemática de error 110
afectaría la consistencia de la puntuación. Si un instrumento de medición, como una
báscula, consistentemente pesar3 2.5 kilogramos menos a todos los que se pararan
sobre ella, entonces el peso relativo d e las personas permanecería sin cambios (aunque
los pesos en sí variarían en forma consistente del peso verdadero por 2.5 kilogramos).
Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anciloga a una
constante que se resta (o se suma) d e cada puntuación d e prueba. Una fuente de error
sistemática no cambia.la variabilidad de la distribución ni afecta la confiabilidad.
Fuentes de varianzrz de error

1,as fuentes de varianza de error incluyen la construcción, administració:i, calificación
e interpretación d e la prueba.
Construcción de pruebas Una hen:e de varianza durante la coiistrucción de pruebas

es el muestreo de reactivos o m u e s t r a de co~:taiido,un término que se refiere a la varia-
ción entre reactivos dentro de una prueba, al igual que a la variación entre reactivos
entre pruebas. Considérense dos o más pruebas diseñadas para medir una habilidad,
atributo d e personalidad o cuerpo d e conocimiento específicos. Es zegurn que se en-
cuentren diferencias en la forma en que están redactados los rea~ti*,~ns y diferencias en
el contenido exacto del que se i ~ sacadoa la muestra. Es probable qve t o d ~ hayamos
s
entrado a un escenario en donde se aplicará un3 p e b a de rendirniento, pensando
"Ojalá hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, sólo
las preguntas que deseamos que nos hagan aparecerán en el exarnen. En taies situa-
Capítulo 5:Co:if¡;!bi!:dad 155

ciones, algunos d e quienes responden la prueba logran puntuaciones superiores en la
pweba de las que habrían obtenido en otra prueba que pretendiera medir lo mismo,
tan sólo debido al contenido específico incluido en la muestra de la primera prueba, la
forma en que se redactaron los reactivos y así en forma sucesiva. El grado en que
!a puntuación d e quien responde la prueba es afectada sólo por el contenido presenta-
do en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es
decir, la fonna en que se construyó ei reactivo) es uná f ente de varianza del error.
Desde la perspectiva de un autor de p r u e h s , un desafío en la elabornción dc uiin
prueba es maximizar la proporción de la varianza total que es varimza verdadera y
minimizar la proporción d e la varianza total que es varianza del error. Muchos de los
elaboradores de pruebas cuyos perfiles aparecen cn este libro reportaron lidiar con éste
y otros problemas r~lacionadosdurante el proceso de construcción de la prueba. Aeste
respecto, Thomas Brown, elaborador de las Escalas para Trastorilos por Déficit de la
Atención de Brown (Brown A ttention Defici t Disorder Scales), es típico. Brown cree que
la mayoría de ias personas exhiben shtomas del txastorno por dbficit de la a t e n c i ~ nde
vezen cuando. Un reto para él al elaborar su prueba fue crear reactivos y una metodolo-
gía de medición que identificara en forma efectiva a personas que estuvieran afectadas
de manera significativa por los síntomas del trastorno por déficit de la atención (véase
la 1?1sta?lfáneade u n elaborador de pruebas, en las siguientes páginas).
Administración de pruebas Las fuentes de varianza de error que ocurren durante la

aplicación de la prueba pueden influir en la atención o motivación de quien responde
la prueba; por tanto, sus reacciones ante estas inlluencias son la fuente de una clase de
varianza del error. Ejemplos de influencias adversas que operan durante la aplicación
de una prueba inciuyen factores relacionados con el ambiente de la prueba: la tempe-
mtura del s a l h , el nivel de iluminación y la cantidad de ventilación y ruido, por
ejemplo. Una mosca puede fomentar una atracción tenaz hacia la cara de un examina-
do. Una bola de goma de mascar en el asiento de la silla sólo delata sil presencia
cuarido qiiier, responde la prueba se sienta encima d e ella; la lista continúa. Otras
variabies relacionadas con el ambiente incluyen el instrumerito usado para introducir
las respuestas (como un lápiz con la punta rota o una pluma sin tinta) y la superficie
de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes
de años anteriores que se sintieron obligados a expresar su devoción eterna a alguien
a quien es probable que ahora hayan olvidado).
Otras fuentes potenciales de varianza de error durante la aplicac~ónde la prueba
incluyen variables de quien responde la prueba como el grado de incomodidad física,
la cantidac! de descanso que tuvo la noche anterior, el grado dz ansiedad por 1,i
~~rue'oa, la extensi6n de problemas emocionales apremiantes o el efecto de fárrnacos.
U113 persona que responde una prueba puede, por cualquier razón, cometer un error al
contestar u,ia respuesta. Por ejeinplo, el examinando puede rellenar un círculo "5"
cuando quería rellenar el círculo "d". Un examinando podría ver una pregunta de prueba
como "¿Cuál n o sería un factor que impide que las mediciones sean replicables eri for-
ma exacta?" y leer por equivocación ' ~ C i i áes
l un factor que impide que las mediciones
sean rcplicables en forma exacta?" Una pregunta omitida por descuido en una larga
lista de preguntas de opción múltiple del tipo para rellenar círculos podría dar colmo
resultac!~que las respuestas subsecuentes ep la prueba estén fuera de secuencia; por
tar.to, por ejemplo, quien responde la prueba podna iesponder el decimoctavo reacti-;o
pero re!!ena: el círculo del decimoséptimo, esto debido a que el duodécimo reactivo fue
omit~dode manera inadvertida. Las experiencias de aprendizaje formales, las expe-
riencias casuales de la vida, terapia, enfermedades jr otros acoiitecimientos parecidos
156 Parte 2: La ciericia d e la medicic)ri psicolbgica

-
-
- -
- Thomas E. Brown, PhD.
Prueba elaborada:
Escala: para el Trastorno por Déficit de la Atencibi
de Brown
11
mi sbposición fu: que !a mayor parte de los síntomas riel
trastorno por deficit de la atención (TOA) es experirneniz:!?
por casi todos de vez en cuando. Se presupme +e Icz
personas que tienen TOA son aquellzs que experinentan un
deterioro significativo y ~ersistentcpor los síntmnas d ~ l
TOA. Por tanto. si esta nreva escala de estimaci6:i hah:Ía
de ser útil. iiecesitarí6 ser capaz de diferenciar entre
.personas qtie reportan cn de:erioro significdtivc por e s : s
síntomas del TDA y otras que no repcrtan dicho de!erio:c."
Extractado del Test Deuelqm Profile publicado en Cohen (1999) y en

Internet e n U'I:>IU n ~ a ~ f i r l d p ucl oi n i / p v c l i t r s l i ~ ; ~
que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirále!as de una
p r ~ e b atambién serán fuentes d e varianza d e error relacionadas con el examinado.
Las variables relacionadas con e1 examinador que son fuentes potenciales de
varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia
física y comportamiento del examinador y el profesionalismo con que tome la siti:a-
ción de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba
pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prue-
ba particular. En un examen oral, algunos examinadores podrían proporcionar sin
querer claves planteando preguntas que enfatizan diversas palabras, o transmitir in-
formación d e manera inadvertida sobre la corrección d e una respuesta por medio de
asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.
Calificación e interpretación d e pruebas El advenimiento de la calificación computarizada

y una creciente dependencia de reactivos objetivos calificables por computadora casi
han eliminado la varianza d e error causada por diferencias d e los evaluadores en mu-
chas pruebas. Sin embargo, no todas las pruebas pueden calificarse con círculos relle-
nados con lápices del número 2. Las pruebas d e inteligencia administradas en forxna
individual, algunas pruebas de personalidad, pruebas de ci-2atividad. diversas medi-
das conductuales y otras innumerables pruebas todavía requieren calificarse en forma
manual por personal capacitado. Los manuales para las pruebas d e inteligencia indivi-
duales tienden a ser muy explícitos sobre los criterios de calificación para que la inteli-
gencia medida d e los examinandos no varíe como una función d e quien está aplicando
13 prueba y calificando. En algunas pruebas d e personalidad, se les pide a,los
e x m i n a n d o s que suministren respuestas abiertas aestímulos como dibujos, ?alatras,
c r a c i o ~ e ys manchas de tiiita, y es el examinador quien hiego debe calificar (o quizá sea
más apropiado decir evaluar) las respuestas. En una prueba de creatividad, podría
dársele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto
Capítulo 5:Confiabilidad 157

de bloques. Pzra una medida ccndcctual d e habilidades sociales en un paciente inter-
no del servicio psiquiátrico, a los calii'icadores o evaluadores' podría'pedírseles q u e
estimaran a los pacientes con respecto a la variable de "relación social". Dicha medida
. conductual podría requerir que el evaluador marcara "sí" o "no" reactivos como "El
paciente dice 'Buenos días' al menos a dos integrantes del personal".
Puede apreciar que t a n pronto como una medida psicológica usa cualquier cosa
qut iir, 5car reíxtivos d e tipo objetivo que se pueden someter a una calificación
l.ori~ptitar!:~,ida colifiable, el calificador o ei sistema de calificaciór! se vuelve una h ~ n t e
cic- \.a:-ia:iza de error. Si la subjetividad está implicada en la calificación, el calificador
(o e\-aliindor)puede ser una fuente d e varianza de error. ~ refecto, i a pesar del esta-
blecimiento muy riguroso de criterios de calificación en muchas de las pruebas de
inteligencia más conocidas, 21 examinador y los calificadores en ocasiones se enfren-
tarán con situaciones donde la respuesta de, un examinando cae en un área gris. El
elemento de la subjetividad en la calificación puede estar presente en un grado mu-
cho mayor en la aplicación de ciertas pruebas de de tipo no objetivo y
ciertas pruebas académicas (como los qxámenes de ensayo) e incluso en la observa-
ción conductual. Considérese el caso de dos observadores a los que se les encarga la
tarea de evaiuar a un paciente psiquiátrico en .la variable d e "relación social". En un
reactivo que tan sólo pregun'ia si dos miembros del personal fueron saludados en la
rnañana, un evaluador podría juzgar que el contacto ocular del paciente y el hecho de,
que masculle algo a dos miembros del personal calificwi como una respuesta "sí",
mientras que otro podría diferir y proponer que es apropiada una respuesta "ao" zl
rezctivo. Tales problemas sabre el acuerdo en la calificaciór. pueden abordarse por
medio d(-una capxitación rigurosa diseñada para hacer que la consistencia, o confia-
bilidad, de \.arios calificadores sea lo más perfecta posible.
Otras fuentes de'error Ciertos tipos de situaciones de evaluación se prestan a varieda-

des par:iculares de error sistem5tico-yno sistemá.tico. Por ejemplo, cansidérese la eva-
luacióli del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso
físico y psicológico en su relación. Como observarori Moffitt el al. (19971, "Debido a
que el abusa de la pareja por lo general ocurre en privado, sólo hay dos personas que
'en realidad' saben lo que sucede detrás de sus puertas cerradas: los dos miembros de
la pareja" (p. 47). Las fuentes potenciales de error no sistemático en una situación
cie evaiuación así incluyen olvido, dejar de notar el comportamiento abusivo y enten-
der x ~ lasl instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988;
Kggs et u[., 1989; Straus, 1979) han sugerido que también hay factores que pueden
contribuir a un e::ror sistemático en la forma de reportar gradualmente la perpetración
de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor,
vergüenza o factores de conveniencia social y reportar más abuso si están buscando
ayuda. Los hombres pueden reportar menos abuso debido a vergüenza y factores de
conveniencia social y reportar más abuso si están intentando justificar el reporte.
Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que
sufre usa persona a manos de su pareja, así puede ser que nunca se conozca la canti-
dad de varianza d.e la prueba verdadera con relación al error. Una supuesta puntua-
ción ~rerdadera,i.omo lo planteó Stanley (1971, p. 361), "no es el hecho definitivo en el
!ibro del áqgel dcl registro". Además, la utiiidad de los métodos actuales para estimar
la varianza verdadera en contraposición con la varianza de error es una cuestión que
s t debate en forma aczlorada (véase, por ejemplo, Collins, 1996; Humphreys, 1996;
Lk'illiamc y Zin~i-ricrman,1996a, 1996b). Veamos con más detalle estas estimaciones y
e! p:c.rem ;7irt;a (iei-ivarlas.
158 Parte 2: La ciencia de

-
13 nedicibn psicolbgica
- - -- -
- - - . . -
. - ~~
.
-
Estimaciones dv confiabilidad de prueba y posprueba
Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medición
miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centímetros de lar-
go, por ejemplo, la regla indicará que lo que se está midiendo tiene --xactamente 12 cm-
tírnetros de largo. También p e d e decirse que la confiabilidad d e este instrun,.mto de
medicidn es estable en el tiempo; ya sea que s e midan los 12 centímetros hoy, maiana o
el próximo año, la regla aún va a medir i 2 centímetros como 12 centímetros. Por el coii-
Erario, una regla construida de niasillapodría ser un instrumento de medición pococon-
fiable. Un minuto podría medir algún patrón que se sabe que tiene 1 2 centímetros de
largo como 12 centímetros, al minuto siguiente podría medirlo corno 14 centímetros y
una semana después como 18 centímetros. T l ~ formaa de estimar la confiabilidad de un
instrumento de medición es usando el mismo instrumento para medir lo mismo en dos
pirntos en el tiempo. En el lenguaje psicométrico, este enfoque de la valoración de la
confiabilidad se llama "método de prueba y pospryeba" y el resultado de dicha valora-
ción es una estimación de la "con fiabilidad de prueba y posprueba".
La confiabilidad de prueba y posprueba es arta estimación de la confiabilidad obteni-
da al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones
diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuan-
d o se valora la confiabilidad de una prueba que pretende medir algo que es relativa-
mente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que
la característica que se está midiendo fluctúa ccn el tiempo, Ccndría p o c senfido
~ eva-
luar la confiabilidad de una prueba usando el método de prueba y posprueba; se
encontrarían correlaciones imignificantes entre las puntuaciones obtenidas en las dos
aplicaciones de la prueba. Estas correlaciones insignificantes se deberían a cambios
reales en cualquier cosa que sea lo que se está midiendo en lugar de deberse a factores
inherentes en el instrumento de medición.
Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender
cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general,
aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las apli-
caciones de las mismas pruebas, disminuye la correlación entre las puntuaciones obte-
nidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error.
Entre mayor tiempo pase, es más probable qce el coeficiente de confiabilidad será
menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se
hace referencia a la estimación de la confiabilidad de piueba y posprueba como "coefi-
ciente de estabilidad". Una estimación de la confiabilidad prueba y posprueba de una
prueba de matemáticas podría ser baja si quienes respondieron la prueba tomaron un
curso de matemáticas antes de que se aplicara la segunda prueba. Una estimación de
la confiabilidad prueba y posprueba de un perfil de personalidad podría ser baja si
quien responde la prueba sufrió algún trauma emocional o recibió orientacióri durante
el periodo intermedio. Puede encontrarse una estimación baja de la confiabilidad pruebá
y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las
pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a
las variables que está diseñada para evaluar. Una evaluación de un coeficiente de con-
fiabilidad pnieba y posprueba debe abarcar, por consiguiente, niás al15 de la significa-
ción del coeficiente obtenido; debe extenderse a un%-.c6nsicieraciónde los posibles
factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ion-
clusiones apropiadas sobre la confiabilidad del instrumento de medición.
Capítulo 5 : Confiab~lidad 159

Una estimación d e la confiabilidad prueba y posprueba puede ser más apropiada
para calibra1 la confiabilidad d e pruebas que emplean como medidas d e resultados el
trempo d e reacción o juicios perceptivos (como discriminaciones d e brillantez, sonori-
dad o gusto). Siti embargo, incluso al medir variables como éstas y aurt cuando el
periodo entre las dos aplicaciones de la prueba sea relativamente pequeño, nótese
que pueden intervenir diversos factores (como experiencia, práctica, memoria, fatiga
y motivación) jr ~.cmfundiruna niedida de codiabilidad ~ b k n i d a . ~
Estimaciones dc co~zfinbilidaddc fonrius altenzas o eqr¿ivalentes

Si alguna vez ha presentado un examen de composición en el que las preguntas para la
composiciónno eran iguales que en la prueba presentada en un inicio, ha experimenta-
d o formas diferentes de una prueba. Y si se ha ~ r e g u n t a d o
si las dos formas de la prueba
en realidad eran equivalentes, ha cuestion2cio la confiabilidad de/ori?iac alternas de la
prueba. El grado de la relación entre varias formas de una prueba puede evaluarse por
medio de u:\ coeficiente de confiabilidad de/ornms alternas o equiuale~ztes,el cual a me-
nudo se denomina coeficiente de equivalencia. . .
Formasaltemas y formas equivalentes son términos que en ocasiones se usan en forma
indiscriminada, aunque hay una diferencia técnica entre ellos. Existenformas equivalen-
tes de una prueba cuando para cada forma de la prueba son iguales las medias y las
varianzas de las puntuaciones de prueba observadas. En teoría, las medias d e las pun-
tliacioriec obtenidas er, f o m a s eguivalentes sc cxrelacionan de manera igual tori 1~
puntuación verdadera. De manera más práctica, las puntuacioiies obtenidas en prue-
bas equivalentes se correlacionan de modo igual con otras medidas. Lasformns alterrias
ian solo son versiones diferentes de una prueba que se han construidc con el fin de ser
equivalentes. Aunque no cumplen con los requisitos para la designación legítima de
"equivalentes", las formas alternas de una prueba están disefiadas generahnente para
ser equivalentes con respecto a variables como contenido y nivcl de difitu!tad.
Las estimaciones de la confiabilidad de formas altcrnas y equivalentes son simi-
lares a una estimacih de la confiabilidad y repetición de la prueba en dos formas: 1)
se requieren dos aplicaciones de la prueba con el mismo grupo y 2) las puntuaciones
de prueba pueden ser afectadas por factores como la motivaci.ón, la fatiga o eventos
que intervienen como la práctica, el aprendizaje o la terapia. Sin embargo, una fuente
adicional de varianza de error, el muestre0 de reactivos, está inherentc en el cálculo de
un coeficiente d e confiabilidad de formas alternas o equivalentes; quienes responden
las pruebas pueden salir mejor o peor en una forma específica de la prueba, n o como
una función de su capacidad verdadera, sino tan sólo debido a los reactivos particula-
res que se seleccionaron para ser incluidos.' Otra desventaja potencial de una forma
de prueba a1':erna es de naturaleza financiera; comúnmente consume,mucho tiempo
y es muy costoso elaborar formas de prueba alternas o equivaleiites; ;tan sólo piense
en todo lo que podría implicar hacer que las mismas personas acuden a repetidas
aplicaciones d e una prueba experimental! Una ventaja primordial de usar una forma
? Aunque podemos referimos a un número como una declaraci6n sumaria d e la confiabilidad d e herra-
m i e n t a d e medici6n individuales, cualquiera d e estos índices d e confiabi!idad s61o pueden interpretarse
d e manera significativa en el contexto del proceso d e rri%dición, las circunstancias únicas que rodean al uso
d e la regla, la prueba o algún otro instrumento d e medición en una aplicación o situación particular.
' De acuerdo con el modelo d e puntuacidn verdadero clásico, e1 efecto d e taies factores e n las puntuaciones
d e prueba se supone que es en efecto un error d e medición. Hay modelos alternativos en los que el efecto d e
dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sería considerado error (Atkinson, 1981).
160 !'arte 3: Laciencia d e la mediciún psicológica --
.- -
- - - - - -
-
- . . ,
el contenido de una fonna de piueba aplicada con anterioridad.
Se supone que ciertos rasgos son relativamente estables en las personas a lo largo
del tiempo, y esperaríamos que las pruebas que miden esos rasgos, s e a i iormas alter- .
nas, formas equivalentes o d e algún otro tipo, reflejen esa estabilidad. Como ejemplo,
esperarknos que hubiera, y de ñecho hay, un grado razonable de estabilidad en las
puntuaciones en las pruebas de inteligencia. A la inversa, podrían-,os esperar que hu-
biera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del
estado de ansiedad jansiedad sentida en el momento); podría e\perarse queel nivel de
ansiedad expr-rirnentádo por alguien q u e responde la prue!)a variara hora tras hora,
por "O decii día tras día, semana tras semana o mes tras mes.
Fuede obtenerse una estimación de la confiabilidad de und prueba sin elaborar
una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las
mismas personas. Dicha evaluación implica el escrutinio de los reactivos individuales
que forman la prueba y su relación entre sí. Debido a que este tipo de estimación de la
confiabilidad no se obtiene por medio de la comparación de datos de una forma alter-
na rii a través de un procedimiento de prueba y posprleba sino, más bien, por medio
de un examen d e los reactivos de la prueba, se conoce como estimación de confiabili-
dad d e "consistencia interna" o como una estimación de "consistencia entre reaciivos".
Nuestra atención cambiará ahora a estos tipos de estimaciones de confiabilidad, co-
mcmzando por la estimación de "división por mitades".
Estimaciones de confiabilidad de división por mitades

Uria estimación de cmfiabiiidad de diuisih por mitades se obtiene cnrrelacionando dos .
pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba aplica-
da una sola vez. Es una medida de confiabilidad útil cuando es poco pr6ctico o indfs-
seable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba
(debido a factores como tiempo o costo). El cálculo de un coeficiente de confiabilidad
de división por mitades por lo general implica tres pasos:
Paso 1. Dividir la prueba en mitades equivalentes.

Paso 2. Calcular una r d e Pearson entre las puntuaciones en las dos mitades de
la prueba.
Paso 3. Ajustar la confiabilidad de la mitad de la prueba usando l i firmula de
Spearman-Brown.
Puede ser que haya escuchado el refrán cpe dice que "hay más de una forma de
pelar a un gato". Ur. corolario a este fragmento de sabiduría podría ser que hay algu-
nas formas en las que nunca debería pelar a un gato. Un fragmento de sabiduría aná-
logo cuando S& trata de calcular los coeficientes de confiabilidad de división por mitades
es: hay más de una forma, de'dividir una prueba, o hay algunas formas en las que
se~recomienda tan sólo dividir la prueba 2 lz
nunca debería dividirse una p r u e b a . ' ~
mitad, debido a que es probable que este procedimiento elevaría o disminuiría en
forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferen-
tes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una
función de su colocación en la pruebaj. Una forma aceptable de dividir una prueba es
asignar a! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma
aceptable es asignar los reactivos con números nones a una mitad de la prueba y los
reactivos con números pares a la otra mitad (produciendo una e~tiiir~ación a la que
Capitulo 5: Confiabilidad 161

:aanbi&wse hace referencia como "confiabilidad mitad pares-mitad riones").' Una ter-
cera forma es dividir la prueba por contenido d e modo que cada mitad de la prueba
cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un
objbtivo primarir) al dividir una prueba en mitades con el propósito de obtener una
estimación de la confiabilidad de división por mitades es crear lo que podría denomi-
narse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 már siniiiar
h ~ m ~ a r n e r i posible,
tt. CII aspc'ctos de formatc,, estilísticos, c.ctadísticos y )Iros 'icpec-
tor, rclacion,i~lo4.
E1 paso 2 c n cl proiedimiento implica el cáiculo d e una r dc l ' c ~ r s o n iu , cii<~l1.1;-
quiere poca explicación en este punto. Sin embargo, el tercer pzso requiere el uso de la
fórmula de Spearman-Brown.
La fórmula de Spearinan-Brown La fórxula de Speannan-Brown le permite a quien

elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a
partir de una correlación de dos mitades de una prueba; es una aplicación específica
de una fórmula más general para estimar la confiabiiidad de una prueba que se ha
alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad
de una prueba es afectada por su longitud, es necesaria una fórmula para estimar la
confiabilidad de una prueba que se ha acortado o alargado. La fórmula general de
Cpcarmar-i-Drown (Y,,) es
donde r,, es igual a la confiabilidad ajustada por la fórmula de Spearman-Brown, t 'Y

cs igual a la r de iearson en la prueba con la longitud original y n es igual al número
de seactivos en la versión revisóda dividido entre el número de reactivos en la versión
original.
Al determinar la confiabilidad de una mitad de F a prueba, un elaborador de
pruebas p e d e usar luego la fórmula de Spearman-Brown para estimar la confiabili-
dad de una prueba entera. Debido a que la prueba entera es del doble de largo que 12
mitad de una prueba, n se vuelve 2 en la fórmcila de Spearman-Brown para el ajuste
de la confiabilidad de división por mitades. El símbolo Y, significa la r de Pearson de
las puntuaciones en las dos mitades de la prueba:
Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa

conforme aumenta la longitud de una prueba, a condición de que los reactivos adicio-
nales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos
originales. Las estimaciones de confiabilidad basadas en la consideración de la prue-
ba entera tenderán por consiguiente a ser mayores que aquellas basadas en la mitad
de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto
con estimaciones de confiabilidad ajustadas para la p k e b a entera. Puede verse que
todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se
4 1 1
una precaución aquí: con respecto ;i un grupo d e reaa:vos en una p r ~ e b ad e rendimiento que abordan un
solo probiema, por lo general es deseable asignar el g r ~ p entero
o d e reactivos a una mitad d e la prueba. De
otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la
mitad d e las puntuaciones sería inflada en forma falsa; un solo error d e comprensión, por ejemplo, podría
afectar a reactivos en ambas mitades d e la prueba.
162 Parte 2: La ciencia d e la medición psicológica

Coeficientes de confiabilidad mitad de l a prueba Estimación de l a
- mitad pares-rnitad nones antes y Grado (rsin ajuster) prueba entera (r,,) ..
después del ajuste de Spearman-
Brown" K .71a .a36
1 ,807 a93
2 ,777 875
.,
1aiA puntu.icidnes cri una p r i ' c h d e ca~~acrLldii
rnciica;
-~
cietc Y que las t.sli~iiacioiie~ Lic Spear~rian-Urown';e basan tn r.ii!a prucbLiq u e es e¡

doble d e larga que la mitad d e la prueba original. Para los datos de IPS ;iluiru-ios de
jardín d e niños, por ejemplo, una confiabilidad d e la mitad de ana pr~iebade ,718
puede estimarse que es equivalente a una confiabilidad de la prueba entera de ,536.
Si los elaboradores o administradores d e pniebas desean acc~rtarcria prueba, la
fórmula d e Spearman-Brown puede ser usada para estimar el efecto del acortamiento
en la confiabilidad d e la prueba. La reducción e1-i el taniaño de la prueba con el propó
sito d e reducir el tiempo d e aplicación d e la prueba es una práctica con-iúi-ien situacio-
nes donde el administrador d e la prueba puede tener sólo un tiempo limitado con
quien responde la prueba o en situaciones donde el aburrinientcj Q la fatiga podrían
producir respuestas d e significación cuestionable. 1
1 También podría usarse un;i fórmula d e S~earn-ian-Brown para Seterminar el nú- 1
mero d e reactivos necesario para alcanzar un nivel deseado d e confiabilidad. Al agre-
gar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado,
la regla es que los reactivos ngevos deben ser equivzlentes en contenido y dificiiltad
d e modo que la prueba más larga todavía mida lo que medía la prueba original. Si ia
confiabilidad d e la prueba original es relativamente baja, puede ser poco práctico in-
crementar el número d e reactivos para alcanzar un nivel de confiabilidad' aceptable.
1 Otra alternativa sería abandonar este instrumento relativamente poco c ~ n f i a b l ey lo-
1 calizar, o elaborar, una alternativa adecuada. La confiabilidad di1 instrumento &m- 1
bién podría elevarse d e alguna manera; por ejempio, creando reactivos nuevos,
aclarando las instrucciones d e la prueba o simplificando las reglas (le caii!icación.
Las estimaciones d e confiabiiidad de consistei-icia ¿?tema, como las obtenidas usan-
d o la fórmula d e Spearman-Brown, son inapropiadas para medir la confiabilidad d e
pruebas heterogéneas y pruebas d e velocidad. El impacto d e las características dg la
prueba en la confiabilidad se comenta con mayor detalle más adelante en este capítulo.
1 Otros métodos de estirnnciórl de la c o m i s t m c i n interrin

Además d e la fórmula d e Spearman-Brown, otros métodos que se usan en forma arn-
plia para estimar laconfiabilidad d e consistencia intem2 incluyen fóimulas desarrolia-
das por Kuder y Richardson (1937) y Cronhach (1951). Co,lsisferrcin elifre rracfivos es u.n
término que s e refiere al grado d e correlación entre todos los reactivos en una escala.
Una medida d e consistencia entre reactivos se calcula a partir d e una sola apiicación de
una forma única d e una prueba. Un índice d e consistencia entre reactivcs es iítil, a su
vez, para evaluar la howiogeneidad d e la prueba. Se dice que las pruebas son "l-iornogé-
rieas" si contienen reactivos que miden un solo rasgo. Como un adjetivo usado para
describir reactivos d e prueba, homogeneidad (derivada-.de las palabras gricgas Iiomos,
que significa "misma", y genous, que significa "clase") es el grado en que una pnieba
mide un solo factor; o.sea, el grado en quelos reactivos e n una escala son unifactorhles.
Capitulo 5: Contiabilidad 163

.-
-
En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado
en que una prueba mide factores diferentes. Una prueba no homogérieb o heterogénea se
compone de reactivos que miden más de un rasgo. Podría esperarse que una prueba
que sólo evalúa el conocimiento de las habilidades d e reparación de televisores de
color tuviera un contenido más homogéneo que u i a prueba de reparaciones electróni-
cas. La primera pmeba sólo evalúa un área y la última evalúa varias, como el conoci-
miento no sólo de televisores sino también a c radios, vidcograbadoras, repioductores
de discos compactos, eic. Entre más homogéneli es una p r i i t h , ~ u c d espetarre
c que
tenga más consiste:icia entre reactivos. Debido a que la prueba abarcaría una muestra
de un área de corit2nido relativamente reducida, tendría más consistencia entre
reactivos. Una kzeisona que es hábil en la reparación d e televisores de color podría
estar algo familiarizado con la reparación de otros aparatos dectrónicos como radios y
sisien-.asestereof5niio.s pero puede saber poco sobre videograbadoras o reproductores
de discos ccimpactos. Por tanto, habría menos consistencia entre reactivos en esta prueba
de capactdad de reparación general que en una prueba diseñada para evaluar sólo el
conocimiento y habilidades para la reparación de televisores d e color.
La homogeneidad de la prueba es deseable debido a que permite una interpreta-
ción relativamente sencilla de la puntuación de la prueba. Es probable que aquellos
que obtienen la misma puntuación en una prueba homogénea tengan capacidades
parecidas en el área examinada. Aquellos que obtienen la misma puntuación en una
prueba más heterogénea pueden tener capacidades bastante diferentes. Pero aunque
es deseable una prueba homogénea debido a que se presta con facilidad a una inter-
pietációii clüra, a menudo es uria herramienta hsrrficiente para medir variables psico-
lógicas multifacéticas como inteligencia o personalidad. Una forma de evitar esta fuente
potencial de dificultad ha sido aplicar una serie de pruebas homogéneas, cada una
diseñada para medir algún componente de una variable h e t e r ~ g g n e aAdemás
.~ de
algunas de las influencias aleatorias que pueden afectar a las medidas de confiabili-
dad, la varianza de error en una medida de consistencia entre reactivos proviene de
dos fuentec 1) 21 muestre0 de reactivos y 2 ) la heterobeneidad del área de contenido.
Entre más heterogénea sea el área de contenido de la que se extrae la muestra, será
menor la consistencia entre reactivos.
Las fórmulas de Kuder-Richardson La insatisfacción con los métodos de división por

mitades existentes para estimar la confiabilidad llevó a G. Frederic Kuder y M.W.
Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para
estimar la confiabilidad. La más conocida de las muchas fórmulas en las que colabo-
raron es su/¿írnliria Kiider-Ricllardson 20 o KR-20 (llamada así debido a que fue la vigé-
sima fórmula desarrollada en una serie). En el caso en que los reactivos d e
la prueba son muy homogéneos, las estimaciones de confiabilidad KR-20 y de divi-
sión por mitades serán similares. Sin embargo, la KR-20 es la estadística de elección
para determinar la consistencia entre reactivos de reactivos dicotómicos, sobrc todo
aquellos reactivos que pueden ser calificados como correctos o equivocados (como los
reactivos de opción múltiple). Si los reactivos d e prueba son más heterogéneos, la KQ-
20 producirií estiinciciones de confiabilidad infericres que e! método de división por
mitades. El cuadro 5.2 resume los reactivos en una prueba heterogénea de muestra.
-- . .
Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en
una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pnie-
bas y proc~dimientosd e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componer-
se o no de pniebas homogéneas.
164 I'a:tc 2: La ciencia d e la medición psicol6gica

?7e76,~~fO"5"52~Vnmnm~pi.----
Areas de contenido en las que se realizó un Número de reactivo Área de contenido -
muestre0 piira obtener 18 reactivos de la 1 Televisibn de color
* Prueba Hipotética de R'eparaciones 2 T ~ l ~ v i s i bden color
Electrónicas (PHRE) Televisibn b l a n ~ oy ncgro
Televisión blanco y negro
Radio
Radio
Vl.i?0~fdb3d01 J
Vidro~;rab~dr~~n
CC---:.m,fa
Cornpdtddcra
Reproductor de d i x o s
compactos
Reproductor de discos
compactos
Receptor estereofónico
Receptor estereofEnico
Cdmara de video
CAmara de video
Reproductor ovo
Reproductor OVD
Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs más o

menos igual, ¿esperaría que una estimcicióii de confiabilidad de división por mitades
(mitad parcs-mitad nones) fuera bastante alta o baja? ¿Cómo sería la estimación de
confiabilidad KR-20 en comparación con la estima'ción de confiabilidad mitad pares-
mitad nones? ¿Sería mayor o menor?
Podríamos suponer que debido a que las áreas de contenido de las que se tornó
una muestra para los 18 reactivos de esta "Prueba Hipotética de Reparaciones Elec-
trónicas" están ordenadas en una manera en la que los reactivos impzres y pares abar-
can la misma área d e contenido, es probable que la estimación de la confiabilidad
mitad pares-mitad nones sea bastante alta. Con respecto a la suposición razonable
respecto a la estimación de confiabilidad KR-20, debido a la gran heterogeneidad de
las áreas de contenido cuando se consideran en conjunto, podría ser razonable prede-
cir que la estimación de confiabilidad KR-20 sería menor que la mitad pares-mitad
nones. ¿Cómo puede calcularse la KR-20? Puede usarse la siguiente fórmula:
donde ,r representa la fórmula 20 de Kuder-Richardson del coeficiente de confiabi-

lidad, k es el número de reactivos de la prueba, u*es la varianza del total de las pun-
tuaciones de la prueba, p es la proporción de quienes respondieron la prueba que
aprobaron el reactivo, q es la proporción de personas que fallaron en el reactivo y C pq
es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es
igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La
varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, ,r = .259.
Puede obtenerse una aproximación de la KR-20 usando la fórmula vigésimo pri-
mera en la serie desarrollada por Kuder y Richardsoq una fórmula conocida, como
podrá adivinar, como KR-21. La KR-21 puede ser usada si hay razón para creer que
todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-
Capitulo 5: Confiabilidad 165

Cuadro 5.3 Número de personas
Desempeño en la PHRE por reactivo para 20 que lo respondieron eri
p e m n a s que respondieron la prueba Número de reactivo iorma correcta --
1 14
2 12
3 9
4 1Y
-
l.
t
6
7 6
8 9
9 1o
1o 1o
11 8
12 6
13 15
14 9
15 12
16 12
17 14
18 7
tad; una suposición, deberíamos agregar, que rara vez se justifica. La fórrnula KR-21
tiende a ser anticuada en u i ~ época
á de calculadcras y ccmptitadoras, debido á que se
usaba como una aproximación de la KR-20 que requería menos cáIculos. Otra fórmula
usada alguna vez en la medición de la confiabilidad de la consistencia inte.na y ahora
en su maycr parte anticuada era un estadígrafo conocido como la fórmula de Rulon
(Rulon, 1939).
Aunque se han propuesto numerosas modificaciones de las fórmulas d e Kuder-
Ricnardson a lo largo de ios años (por ejemplo, Cliff, 1984; Horst, 1953), quizá la única
variante d e la fórmula KR-20 que ha recibido la mayor aceptación hasta la fecha es un
estadígrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20"
(siendo a la letra griega ayu y el 20 refiriéndose a KR-20).
Coeficiente alfa Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por

otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el cogficirnte al/n puede
considerarse como la media de todas las correlaciones de división por mitades posi-
bles, las buenas jurito con las malas, corregida por la fórmula de Syearmui-Brown.
Como hemos señalado antes, la KR-20 se usa en forma apropiada en pruebas con
reactivos dicotómicos. El coeficiente alfa también puede ser usado en pruebas ccn
reactivos dicotómic~s. Además, el coeficiente alfa es ap~opiadopara ser usado en pruc-
bas que contienen reactivos que no son dicotómicos: reactivos que pueden calificarse
en forma mdividual a lo largo de un rango de valores. Los ejemplos de estas pruebas
incluyen las encuestas de opinión y de actitud, donde se presenta un rango de alter-
nativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde pumie
darse crédito parcial. La fórmula para el coeficiente alfa es
donde ra es el coeficiente alfa, k es el número de reactivos,~f es la varianza de uE

reactivo, C ofes la suma de las varianzas de cada reactivo y a es la varianza del total
.-
166 - Parte 2. La ciencia de la medición psicológica
-
- -
-
Lizarían en forma manual los &lculoc bastante laboriosos, y - -podría presumirse en
fcrma razonable que el número d e personas que preferirían la forma antigua dismi-
nuiría c o ~ o r m eaumentara el número de reactivos en la p ~ u e b a .En la actualidad,
quizá debido a la fácil disponibilidad d e computadoras (desde coinputadoras centra-
les haita portátiles), el coeiiciente aifa es la estadística preierida para obtener una
estimación d e la confialili¿?d d e la consistencia interna (Keith y Reynolds, 1990).
h f e d i d a s de confiabilidad entre evaluadores

En situaciones en las que estamos sierido evaiuados, por lo general nos gustaría creer
que sin importar quién esté haciendo la evaluación, s e r í a m x evaluados en la misma
Por ejemplo, si el profesor de este curso fuera a evaluar su conociniiento de la
materia por medio d e una prueba d e ensayo, a usted ie gustaría pensar que la califica-
ción que reciba en la prueba de ensayo sería la misma si fuera calificada por su profe-
scjr o por cualquier otro profesor que imparra este curso. Si presenta un examen práctico
par=. obtener su licencia d e manejo, a usted le gustaría pensar que aprobar o reprabar
la prueba sólo es cuestión d e su desempeño detrás del volante y na una función de
quién está sentado en el asiento del pasajero. Por desgracia, en algiirios tipos d e prue-
bas bajo a h a s condiciones, la puntuación puede ser más una funcón del evaluador
que de alguna otra cosa. Esto se demostró desde 1912 cuando unos iiivestigadores
presentaion una composición d e inglés de un alumno a una convención de maestros,
v fue calificada por vol~mtarios,con calificacicnes que variaron desde un m í n h o de
500/0hasta un máximode 98% (Starch y Elliott, 1912).
Denomiriada en fonna diversa como "confiabilidad del evaluador", "confiabili-
dad del juez", "confiabilidad del observador" y "con fiabilidad entre evaluadores", la
co$zabilidad zntre maluadores es el grado d e acuerdo o consistencia que existe entre
dos o más evaluadores (o jueces o calificadores). Pueden publicarse referencias a los
niveles de confiabilidad entre evaluadores para una prueba particular (ya sea en el
manual de la prueba o en alguna otra parte), y si el coeficiente de confiabilidad es
muy alto, el futuro administrador d e la prueba sabe que las puntuaciones puedcri
derivarse en forma consistente y sistemática por varios evaluadores con suficiente
capacitación. Un elaborador de pruebas responsable que es incapaz de crear una prueba
que pueda ser calificada con un grado razonable d e consistencia por evaluadores ca-
pacitados regresará al pizarrón para descubrir la razón para este problema. Si, por
ejemplo, el problema es una falta de claridad en los criterios d e calificación, entonces
el remedio podría ser redactar d e nuevo la sección de criterios d e calificación del ma-
nual para incluir reglas d e calificación redactadas con claridad. Una revisión de la
literatura sobre la capacitación de evaluadores para mejorar su desempeiín en las es-
timaciones sugiere que las conferencias para evaluadores sobre las reglas de califim -
ción no son tan efectivas para promover la consistencia entre ellos como proporcionark';
la oportunidad d e participar en d i s c ~ s i o r ~de
e s grupo junto con ejercicios de práctica
e información sobre su precisión (Smith, 1986).
Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.-
vistr de trabajo y el patrón o entrevistador es un padre o algún otro- pariente amoroso, podría esperar ?e
manera razonable que ld naturaleza de la valoración que recibiRa n o sería La misma que si el evaluada:
fuma alguna otra persona. Por otra parte, si el-patróno entrevistador es alguien con quien ha tenido un mal
rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.
Capitulo 5: Corifiabilidad 167

q
Quizd la forma mds simple d e determinar 'el grado d e consistencia que existe en- .S
. tre evaluadores en la caiificación d e una prv.eba es calcular un coeficiente de correla-
*
.:,
ción, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que :t

. se aplicj una prueba de 30 reactivos d e tiempo d e reacción a un sujeto y fue calificada
por dos evaluadores, la confiabilidad entre éstos sería igual al valor del coeficiente de
correlación d e Spearmm-Brown corregido obte:ido con respecto a 3 0 pares d e pun-
tuacions. Si se ciricontrara que el coeficiente d e ronfiabiiidad es, digamos, .90, esto
significaría que cl9C%de la vananza en las puntuaciones asignadas por los evahadores -.
sc dcriita cie diferencias reales eri el !iempo d e reacción del sujeto, mientras que el 10%
podría atribuirse a factores distinhs al tiempo d e reacción del sujeto (es decir, error).
En muchos casos, :,e us-an más de dos evaluadores en t.stos'estudios de confiabiiidad.
En tales casos, se correlacionarían las puntuaciones obtenidas por los dos evaluadores,
usár.,lo la r ¿e Pearson o la rho de Spearman, dependiendo de la escala de medición
de la untu tu ación de la prueba.
La esladística kappa La estadística kappa fue diseñada en un principio para ser usa-
da en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales
de medición (Cohcn, 1963). La estadística kappa fue modificada después por Fliess
(1971) para ser usada con múltiples evaluadores. Por lo general se ha recibido bastas-
te bien la estadística kappa como una medida de confiabilidad entre evaluadores
(Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la
kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule
(Spitznagel :*r iieiz-r. í985).
Uso e inteqretaci6n de un coeficiente de canfiabilidad ,/

Hemos visto que con respecto a la prueba en sí, básicamente hay tres enfoques para la
estimación de la confiabilidad: 1)prueba y posprueba, 2) formas alternas o equivalen-
tes y 3) consistencia interne o entre reactivos. El método o métodos empleados depen-
derá de diversos factores, siendo primordial entre ellos el prop6sito de obtener w a
medida de confiabilidad y la forma en que se usará la medida.
\ Error debido a la
consttucci6n de la
\ / Error d e \del '

rianza verdadera
Figura 5.7 irianza de error
Fuentes de varianza cn una prueba
hipotética
.- .
168 ci^.nciad e la rr.edici6n psicológica
Parte 2: La -

Cohen y Swerdlik 2001 Cap.5

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cohen y Swerdlik 2001 Cap.5

Cargado por

Copyright:

Formatos disponibles

Cohen, R. y Swerdlik, M. (2001).

Pruebas y Evaluación Psicológica.

en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes

Se riliord;lr;i c!c: ni.c::ira cx!.~osici611

En esta ecuación, la varianzs totai en una distribución observzda dc punt:iacioncs

Fuentes de varianzrz de error

Construcción de pruebas Una hen:e de varianza durante la coiistrucción de pruebas

Capítulo 5:Co:if¡;!bi!:dad 155

Administración de pruebas Las fuentes de varianza de error que ocurren durante la

156 Parte 2: La ciericia d e la medicic)ri psicolbgica

Extractado del Test Deuelqm Profile publicado en Cohen (1999) y en

Calificación e interpretación d e pruebas El advenimiento de la calificación computarizada

Capítulo 5:Confiabilidad 157

Otras fuentes de'error Ciertos tipos de situaciones de evaluación se prestan a varieda-

158 Parte 2: La ciencia de

Capítulo 5 : Confiab~lidad 159

Estimaciones dc co~zfinbilidaddc fonrius altenzas o eqr¿ivalentes

160 !'arte 3: Laciencia d e la mediciún psicológica --

Estimaciones de confiabilidad de división por mitades

Paso 1. Dividir la prueba en mitades equivalentes.

Capitulo 5: Confiabilidad 161

La fórmula de Spearinan-Brown La fórxula de Speannan-Brown le permite a quien

donde r,, es igual a la confiabilidad ajustada por la fórmula de Spearman-Brown, t 'Y

Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa

162 Parte 2: La ciencia d e la medición psicológica

cietc Y que las t.sli~iiacioiie~ Lic Spear~rian-Urown';e basan tn r.ii!a prucbLiq u e es e¡

1 Otros métodos de estirnnciórl de la c o m i s t m c i n interrin

Capitulo 5: Contiabilidad 163

Las fórmulas de Kuder-Richardson La insatisfacción con los métodos de división por

164 I'a:tc 2: La ciencia d e la medición psicol6gica

Asumiendo que el nivel de dificultad de todos los reactivos en la prueba cs más o

donde ,r representa la fórmula 20 de Kuder-Richardson del coeficiente de confiabi-

Capitulo 5: Confiabilidad 165

Coeficiente alfa Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por

donde ra es el coeficiente alfa, k es el número de reactivos,~f es la varianza de uE

h f e d i d a s de confiabilidad entre evaluadores

Capitulo 5: Corifiabilidad 167

ción, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que :t

Uso e inteqretaci6n de un coeficiente de canfiabilidad ,/

\ / Error d e \del '

También podría gustarte