Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Confiabilidad (Cohen)
Confiabilidad (Cohen)
&.&Q
i n a ciiii\.c>ri;ri.i.~;n
cotidinnri, coi~finbiiidnrlcs sinnimo d e s e p r i d a d o consistencia, como
e
sincroiiizar tu reloj con 61" o "el amigo
en la i!-;isrs "c.1 trcn e:; tan coiitiable q ~ puedes
confi,ibl- qiic ~ i e n ~ ! >esth
r e cuando lo necesi!asl'. En el lenguaje d e la psicornetrii,
canfiabiiidad sc refiere, en lln sentido aiiiplio, al atributo d e cofisistmcia en la medicin. Y niicritr~isen Ir7 conversacin cotidiana confiabilidad siempre denota algo que
:.:S valrii-,ido cn torriw positiva, confiabilidad en cl sentido psicorntrico tan slo denota alt;:> q ~ t :c'> c:cinsistente, n o iiecesarini-nente consistentemente bueno o malo, sino
t a ~ slo
i
coiisislente.
13s importaiite para nosotros como administradores de pruebas yconsumidores d e
informacin :;r)bre ellas saber qu tari cor.fizbles sor, zs como otros prxedimien;os
de tiicciici6:-i. 1'c:ro h9ronfiabilidad rara vez es una c u e s t i k d e todo onada; hay diferentes tipos grados de confiabilidad. Un cueficierttedc cunfinbilidnd es un ndice de confianza . Expre~aiidc,de riianera ms tcnica, es una proporcin que indica la razn entre la
varianza d e la puntuacin verdadera en una prueba y la varianza total. En este captulo,
exp1ornreir:os dilere:~tesclases de coeficierites d e confiabilidad, incluyendo aquellos
para i~icciir!a ciinfiabilidad de prueba y ?osprueba, laconfiabilidad d e formas alterna!:vas, la cc;i~:Cial~ilidacl
de divisin por mitades y la confiabilidad e n w evaluadores.
,,
X=T+E
IJna estadstica til para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies
cic
una prueba es lavarianza (u2),la desviaciii estndar al cuacirado Fqta estadstica es
til debido a que puede dcscorn~c7ncrseen sris c o m p o n ~ i i t e1~.i \.,jri,?:i. a d e 1s, dierencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevantes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza
verdadera y a: representa la varianza de error, entonces la relacin de las varianzas
puede expresarse como
Captulo 5:Co:if;!bi!:dad
155
156
que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirle!as de una
p r ~ e b atambin sern fuentes d e varianza d e error relacionadas con el examinado.
Las variables relacionadas con e1 examinador que son fuentes potenciales de
varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia
fsica y comportamiento del examinador y el profesionalismo con que tome la siti:acin de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba
pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prueba particular. En un examen oral, algunos examinadores podran proporcionar sin
querer claves planteando preguntas que enfatizan diversas palabras, o transmitir informacin d e manera inadvertida sobre la correccin d e una respuesta por medio de
asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.
Captulo 5:Confiabilidad
157
de bloques. Pzra una medida ccndcctual d e habilidades sociales en un paciente interno del servicio psiquitrico, a los calii'icadores o evaluadores' podra'pedrseles q u e
estimaran a los pacientes con respecto a la variable de "relacin social". Dicha medida
conductual podra requerir que el evaluador marcara "s" o "no" reactivos como "El
paciente dice 'Buenos das' al menos a dos integrantes del personal".
Puede apreciar que t a n pronto como una medida psicolgica usa cualquier cosa
qut iir, 5car rextivos d e tipo objetivo que se pueden someter a una calificacin
ori~ptitar!:~,ida
colifiable, el calificador o ei sistema de calificacir! se vuelve una h ~ n t e
cic- \.a:-ia:iza de error. Si la subjetividad est implicada en la calificacin, el calificador
(o e\-aliindor)puede ser una fuente d e varianza de error. ~ refecto,
i
a pesar del establecimiento muy riguroso de criterios de calificacin en muchas de las pruebas de
inteligencia ms conocidas, 21 examinador y los calificadores en ocasiones se enfrentarn con situaciones donde la respuesta de, un examinando cae en un rea gris. El
elemento de la subjetividad en la calificacin puede estar presente en un grado mucho mayor en la aplicacin de ciertas pruebas de
de tipo no objetivo y
ciertas pruebas acadmicas (como los qxmenes de ensayo) e incluso en la observacin conductual. Considrese el caso de dos observadores a los que se les encarga la
tarea de evaiuar a un paciente psiquitrico en .la variable d e "relacin social". En un
reactivo que tan slo pregun'ia si dos miembros del personal fueron saludados en la
rnaana, un evaluador podra juzgar que el contacto ocular del paciente y el hecho de,
que masculle algo a dos miembros del personal calificwi como una respuesta "s",
mientras que otro podra diferir y proponer que es apropiada una respuesta "ao" zl
rezctivo. Tales problemas sabre el acuerdo en la calificacir. pueden abordarse por
medio d(-una capxitacin rigurosa diseada para hacer que la consistencia, o confiabilidad, de \.arios calificadores sea lo ms perfecta posible.
l.
Ciertos tipos de situaciones de evaluacin se prestan a variedades par:iculares de error sistem5tico-yno sistem.tico. Por ejemplo, cansidrese la evaluacili del grado de acuerdo entre par2jas respecto z la calidad y cantidad de abuso
fsico y psicolgico en su relacin. Como observarori Moffitt el al. (19971, "Debido a
que el abusa de la pareja por lo general ocurre en privado, slo hay dos personas que
'en realidad' saben lo que sucede detrs de sus puertas cerradas: los dos miembros de
la pareja" (p. 47). Las fuentes potenciales de error no sistemtico en una situacin
cie evaiuacin as incluyen olvido, dejar de notar el comportamiento abusivo y entender x ~ lasl instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988;
Kggs et u[., 1989; Straus, 1979) han sugerido que tambin hay factores que pueden
contribuir a un e::ror sistemtico en la forma de reportar gradualmente la perpetracin
de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor,
vergenza o factores de conveniencia social y reportar ms abuso si estn buscando
ayuda. Los hombres pueden reportar menos abuso debido a vergenza y factores de
conveniencia social y reportar ms abuso si estn intentando justificar el reporte.
Del mismo rnodo que puede ser que nunca se conozca la cantidad de abuso que
sufre usa persona a manos de su pareja, as puede ser que nunca se conozca la cantidad de varianza d.e la prueba verdadera con relacin al error. Una supuesta puntuacin ~rerdadera,i.omo lo plante Stanley (1971, p. 361), "no es el hecho definitivo en el
!ibro del qgel dcl registro". Adems, la utiiidad de los mtodos actuales para estimar
la varianza verdadera en contraposicin con la varianza de error es una cuestin que
s t debate en forma aczlorada (vase, por ejemplo, Collins, 1996; Humphreys, 1996;
Lk'illiamc y Zin~i-ricrman,1996a, 1996b). Veamos con ms detalle estas estimaciones y
e! p:c.rem ;7irt;a (iei-ivarlas.
Otras fuentes de'error
158
- -
Parte 2: La ciencia de
-
--
13
nedicibn psicolbgica
-
~~
Captulo 5 : Confiab~lidad
159
160
- -
.-
- . .
Capitulo 5: Confiabilidad
161
:aanbi&wse hace referencia como "confiabilidad mitad pares-mitad riones").' Una tercera forma es dividir la prueba por contenido d e modo que cada mitad de la prueba
cci,,,ciiga reactivos equivalentes con respecto al contenido y dificultad. En geiieral, un
objbtivo primarir) al dividir una prueba en mitades con el propsito de obtener una
estimacin de la confiabilidad de divisin por mitades es crear lo que podra denominarse "miniformas paralelas", con cada mitad siendo igual a la otra, o 19 mr siniiiar
h ~ m ~ a r n e r i posible,
tt.
CII aspc'ctos de formatc,, estilsticos, c.ctadsticos y )Iros 'icpector, rclacion,i~lo4.
E1 paso 2 c n cl proiedimiento implica el ciculo d e una r dc l ' c ~ r s o n iu
, cii<~l
1.1;quiere poca explicacin en este punto. Sin embargo, el tercer pzso requiere el uso de la
frmula de Spearman-Brown.
La frmula de Spearinan-Brown
La frxula de Speannan-Brown le permite a quien
elabora la prueba o al administrador estimar la confiabiiidad de consistencia interna a
partir de una correlacin de dos mitades de una prueba; es una aplicacin especfica
de una frmula ms general para estimar la confiabiiidad de una prueba que se ha
alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad
de una prueba es afectada por su longitud, es necesaria una frmula para estimar la
confiabilidad de una prueba que se ha acortado o alargado. La frmula general de
Cpcarmar-i-Drown (Y,,) es
una precaucin aqu: con respecto ;i un grupo d e reaa:vos en una p r ~ e b ad e rendimiento que abordan un
solo probiema, por lo general es deseable asignar el g r ~ p entero
o
d e reactivos a una mitad d e la prueba. De
otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la
mitad d e las puntuaciones sera inflada en forma falsa; un solo error d e comprensin, por ejemplo, podra
afectar a reactivos en ambas mitades d e la prueba.
162
Coeficientes de confiabilidad
mitad pares-rnitad nones antes y
despus del ajuste de SpearmanBrown"
Grado
K
1
.,
1aiA
.71a
,807
,777
.a36
a93
875
-~
..
Capitulo 5: Contiabilidad
.-
163
1
1
-Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en
una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pniebas y proc~dimientosd e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componerse o no de pniebas homogneas.
164
?7e76,~~fO"5"52~Vnmnm~pi.----
Nmero de reactivo
1
rea de contenido
Televisibn de color
T ~ l ~ v i s i bden color
Televisibn b l a n ~ oy ncgro
Televisin blanco y negro
Radio
Radio
J
Vl.i?0~fdb3d01
Vidro~;rab~dr~~n
CC---:.m,fa
Cornpdtddcra
Reproductor de d i x o s
compactos
Reproductor de discos
compactos
Receptor estereofnico
Receptor estereofEnico
Cdmara de video
CAmara de video
Reproductor ovo
Reproductor OVD
donde ,r
representa la frmula 20 de Kuder-Richardson del coeficiente de confiabilidad, k es el nmero de reactivos de la prueba, u*es la varianza del total de las puntuaciones de la prueba, p es la proporcin de quienes respondieron la prueba que
aprobaron el reactivo, q es la proporcin de personas que fallaron en el reactivo y C pq
es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es
igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que C pq es 3.975. La
varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, ,r
= .259.
Puede obtenerse una aproximacin de la KR-20 usando la frmula vigsimo primera en la serie desarrollada por Kuder y Richardsoq una frmula conocida, como
podr adivinar, como KR-21. La KR-21 puede ser usada si hay razn para creer que
todos los reactivos de la prueba tienen aproximadamente el mismo grado de di'ficul-
Capitulo 5: Confiabilidad
165
Cuadro 5.3
Desempeo en la PHRE por reactivo para 20
p e m n a s que respondieron la prueba
Nmero de reactivo
1
2
3
4
l.
6
7
8
9
1o
11
12
13
Nmero de personas
que lo respondieron eri
iorma correcta -14
12
9
1Y
6
9
1o
1o
8
6
15
14
15
16
17
12
12
14
18
tad; una suposicin, deberamos agregar, que rara vez se justifica. La frrnula KR-21
tiende a ser anticuada en u i ~ poca
.-
166
Capitulo 5: Corifiabilidad
167
.
.
Quizd la forma mds simple d e determinar 'el grado d e consistencia que existe entre evaluadores en la caiificacin d e una prv.eba es calcular un coeficiente de correlacin, un roeficiente d e corifiabilidad entre evaluadores. Suponiendo, por ejemplo, que
se aplicj una prueba de 30 reactivos d e tiempo d e reaccin a un sujeto y fue calificada
por dos evaluadores, la confiabilidad entre stos sera igual al valor del coeficiente de
correlacin d e Spearmm-Brown corregido obte:ido con respecto a 3 0 pares d e puntuacions. Si se ciricontrara que el coeficiente d e ronfiabiiidad es, digamos, .90, esto
significara que cl9C%de la vananza en las puntuaciones asignadas por los evahadores
sc dcriita cie diferencias reales eri el !iempo d e reaccin del sujeto, mientras que el 10%
podra atribuirse a factores distinhs al tiempo d e reaccin del sujeto (es decir, error).
En muchos casos, :,e us-an ms de dos evaluadores en t.stos'estudios de confiabiiidad.
En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores,
usr.,lo la r e Pearson o la rho de Spearman, dependiendo de la escala de medicin
de la untu tu acin de la prueba.
.S
*
.:,
:t
-.
La esladstica kappa La estadstica kappa fue diseada en un principio para ser usada en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales
de medicin (Cohcn, 1963). La estadstica kappa fue modificada despus por Fliess
(1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastaste bien la estadstica kappa como una medida de confiabilidad entre evaluadores
(Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la
kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule
(Spitznagel :*r iieiz-r. 985).
,/
Hemos visto que con respecto a la prueba en s, bsicamente hay tres enfoques para la
estimacin de la confiabilidad: 1)prueba y posprueba, 2) formas alternas o equivalentes y 3) consistencia interne o entre reactivos. El mtodo o mtodos empleados depender de diversos factores, siendo primordial entre ellos el prop6sito de obtener w a
medida de confiabilidad y la forma en que se usar la medida.
Error debido a la
consttucci6n de la
Error d e
\del
'
rianza verdadera
Figura 5.7
Fuentes de varianza cn una prueba
hipottica
irianza de error
.- .
168