Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cohen, R. y Swerdlik, M. (2001) - CAP 5. Pruebas y Evaluación Psicológica. Introducción A Las Pruebas y A La Medición. (4ta Edición) - México McGraw PDF
Cohen, R. y Swerdlik, M. (2001) - CAP 5. Pruebas y Evaluación Psicológica. Introducción A Las Pruebas y A La Medición. (4ta Edición) - México McGraw PDF
&.&Q , ,,
cotidinnri, coi~finbiiidnrlcs sinnimo d e s e p r i d a d o consistencia, como
i n a ciiii\.c>ri;ri.i.~;n
* Con p!-o$isit:~~ :!c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin
cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i ao los s que nos referimos con respecto a lds
pruebas d e c ~ r , a c i d ~:ani'oin
J son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e
r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuacin verdadera, tambin es cierto que la niag-
riitud d e la prssenci d e un cierto rasgc psicolgico (como la extroversin) medido con una prueba di?
extroversi6n .;c d:?b.r;A l! la cantidad ''~,.erdad~ra" d e extroversin y 2) otros factores.
c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuacin
-observada, Tpara iepresentar ima p y t u a c i n verciadera y E para representar el error,
entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituacin verda-
dera ms el error puede expresarse como sigue:
X=T+E
IJna estadstica til para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic
una prueba es lavarianza (u2),la desviaciii estndar al cuacirado Fqta estadstica es
til debido a que puede dcscorn~c7ncrseen sris c o m p o n ~ i i t e1~.i \.,jri,?:i. a d e 1s, die-
rencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevan-
tes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza
verdadera y a: representa la varianza de error, entonces la relacin de las varianzas
puede expresarse como
Prueba elaborada:
Escala: para el Trastorno por Dficit de la Atencibi
de Brown
11
mi sbposicin fu: que !a mayor parte de los sntomas riel
trastorno por deficit de la atencin (TOA) es experirneniz:!?
por casi todos de vez en cuando. Se presupme +e Icz
personas que tienen TOA son aquellzs que experinentan un
deterioro significativo y ~ersistentcpor los sntmnas d ~ l
TOA. Por tanto. si esta nreva escala de estimaci6:i hah:a
de ser til. iiecesitar6 ser capaz de diferenciar entre
.personas qtie reportan cn de:erioro significdtivc por e s : s
sntomas del TDA y otras que no repcrtan dicho de!erio:c."
que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirle!as de una
p r ~ e b atambin sern fuentes d e varianza d e error relacionadas con el examinado.
Las variables relacionadas con e1 examinador que son fuentes potenciales de
varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia
fsica y comportamiento del examinador y el profesionalismo con que tome la siti:a-
cin de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba
pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prue-
ba particular. En un examen oral, algunos examinadores podran proporcionar sin
querer claves planteando preguntas que enfatizan diversas palabras, o transmitir in-
formacin d e manera inadvertida sobre la correccin d e una respuesta por medio de
asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.
.
-
Estimaciones dv confiabilidad de prueba y posprueba
Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medicin
miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centmetros de lar-
go, por ejemplo, la regla indicar que lo que se est midiendo tiene --xactamente 12 cm-
trnetros de largo. Tambin p e d e decirse que la confiabilidad d e este instrun,.mto de
medicidn es estable en el tiempo; ya sea que s e midan los 12 centmetros hoy, maiana o
el prximo ao, la regla an va a medir i 2 centmetros como 12 centmetros. Por el coii-
Erario, una regla construida de niasillapodra ser un instrumento de medicin pococon-
fiable. Un minuto podra medir algn patrn que se sabe que tiene 1 2 centmetros de
largo como 12 centmetros, al minuto siguiente podra medirlo corno 14 centmetros y
una semana despus como 18 centmetros. T l ~ formaa de estimar la confiabilidad de un
instrumento de medicin es usando el mismo instrumento para medir lo mismo en dos
pirntos en el tiempo. En el lenguaje psicomtrico, este enfoque de la valoracin de la
confiabilidad se llama "mtodo de prueba y pospryeba" y el resultado de dicha valora-
cin es una estimacin de la "con fiabilidad de prueba y posprueba".
La confiabilidad de prueba y posprueba es arta estimacin de la confiabilidad obteni-
da al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones
diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuan-
d o se valora la confiabilidad de una prueba que pretende medir algo que es relativa-
mente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que
la caracterstica que se est midiendo flucta ccn el tiempo, Ccndra p o c senfido
~ eva-
luar la confiabilidad de una prueba usando el mtodo de prueba y posprueba; se
encontraran correlaciones imignificantes entre las puntuaciones obtenidas en las dos
aplicaciones de la prueba. Estas correlaciones insignificantes se deberan a cambios
reales en cualquier cosa que sea lo que se est midiendo en lugar de deberse a factores
inherentes en el instrumento de medicin.
Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender
cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general,
aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las apli-
caciones de las mismas pruebas, disminuye la correlacin entre las puntuaciones obte-
nidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error.
Entre mayor tiempo pase, es ms probable qce el coeficiente de confiabilidad ser
menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se
hace referencia a la estimacin de la confiabilidad de piueba y posprueba como "coefi-
ciente de estabilidad". Una estimacin de la confiabilidad prueba y posprueba de una
prueba de matemticas podra ser baja si quienes respondieron la prueba tomaron un
curso de matemticas antes de que se aplicara la segunda prueba. Una estimacin de
la confiabilidad prueba y posprueba de un perfil de personalidad podra ser baja si
quien responde la prueba sufri algn trauma emocional o recibi orientaciri durante
el periodo intermedio. Puede encontrarse una estimacin baja de la confiabilidad prueb
y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las
pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a
las variables que est diseada para evaluar. Una evaluacin de un coeficiente de con-
fiabilidad pnieba y posprueba debe abarcar, por consiguiente, nis al15 de la significa-
cin del coeficiente obtenido; debe extenderse a un%-.c6nsicieracinde los posibles
factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ion-
clusiones apropiadas sobre la confiabilidad del instrumento de medicin.
? Aunque podemos referimos a un nmero como una declaraci6n sumaria d e la confiabilidad d e herra-
m i e n t a d e medici6n individuales, cualquiera d e estos ndices d e confiabi!idad s61o pueden interpretarse
d e manera significativa en el contexto del proceso d e rri%dicin, las circunstancias nicas que rodean al uso
d e la regla, la prueba o algn otro instrumento d e medicin en una aplicacin o situacin particular.
' De acuerdo con el modelo d e puntuacidn verdadero clsico, e1 efecto d e taies factores e n las puntuaciones
d e prueba se supone que es en efecto un error d e medicin. Hay modelos alternativos en los que el efecto d e
dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sera considerado error (Atkinson, 1981).
.- -
- - - - - -
-
- . . ,
el contenido de una fonna de piueba aplicada con anterioridad.
Se supone que ciertos rasgos son relativamente estables en las personas a lo largo
del tiempo, y esperaramos que las pruebas que miden esos rasgos, s e a i iormas alter- .
nas, formas equivalentes o d e algn otro tipo, reflejen esa estabilidad. Como ejemplo,
esperarknos que hubiera, y de echo hay, un grado razonable de estabilidad en las
puntuaciones en las pruebas de inteligencia. A la inversa, podran-,os esperar que hu-
biera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del
estado de ansiedad jansiedad sentida en el momento); podra e\perarse queel nivel de
ansiedad expr-rirnentdo por alguien q u e responde la prue!)a variara hora tras hora,
por "O decii da tras da, semana tras semana o mes tras mes.
Fuede obtenerse una estimacin de la confiabilidad de und prueba sin elaborar
una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las
mismas personas. Dicha evaluacin implica el escrutinio de los reactivos individuales
que forman la prueba y su relacin entre s. Debido a que este tipo de estimacin de la
confiabilidad no se obtiene por medio de la comparacin de datos de una forma alter-
na rii a travs de un procedimiento de prueba y posprleba sino, ms bien, por medio
de un examen d e los reactivos de la prueba, se conoce como estimacin de confiabili-
dad d e "consistencia interna" o como una estimacin de "consistencia entre reaciivos".
Nuestra atencin cambiar ahora a estos tipos de estimaciones de confiabilidad, co-
mcmzando por la estimacin de "divisin por mitades".
Puede ser que haya escuchado el refrn cpe dice que "hay ms de una forma de
pelar a un gato". Ur. corolario a este fragmento de sabidura podra ser que hay algu-
nas formas en las que nunca debera pelar a un gato. Un fragmento de sabidura an-
logo cuando S& trata de calcular los coeficientes de confiabilidad de divisin por mitades
es: hay ms de una forma, de'dividir una prueba, o hay algunas formas en las que
se~recomienda tan slo dividir la prueba 2 lz
nunca debera dividirse una p r u e b a . ' ~
mitad, debido a que es probable que este procedimiento elevara o disminuira en
forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferen-
tes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una
funcin de su colocacin en la pruebaj. Una forma aceptable de dividir una prueba es
asignar a! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma
aceptable es asignar los reactivos con nmeros nones a una mitad de la prueba y los
reactivos con nmeros pares a la otra mitad (produciendo una e~tiiir~acin a la que
quiere poca explicacin en este punto. Sin embargo, el tercer pzso requiere el uso de la
frmula de Spearman-Brown.
4 1 1
una precaucin aqu: con respecto ;i un grupo d e reaa:vos en una p r ~ e b ad e rendimiento que abordan un
solo probiema, por lo general es deseable asignar el g r ~ p entero
o d e reactivos a una mitad d e la prueba. De
otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la
mitad d e las puntuaciones sera inflada en forma falsa; un solo error d e comprensin, por ejemplo, podra
afectar a reactivos en ambas mitades d e la prueba.
-- . .
Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en
una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pnie-
bas y proc~dimientosd e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componer-
se o no de pniebas homogneas.
tad; una suposicin, deberamos agregar, que rara vez se justifica. La frrnula KR-21
tiende a ser anticuada en u i ~ poca
de calculadcras y ccmptitadoras, debido que se
usaba como una aproximacin de la KR-20 que requera menos cIculos. Otra frmula
usada alguna vez en la medicin de la confiabilidad de la consistencia inte.na y ahora
en su maycr parte anticuada era un estadgrafo conocido como la frmula de Rulon
(Rulon, 1939).
Aunque se han propuesto numerosas modificaciones de las frmulas d e Kuder-
Ricnardson a lo largo de ios aos (por ejemplo, Cliff, 1984; Horst, 1953), quiz la nica
variante d e la frmula KR-20 que ha recibido la mayor aceptacin hasta la fecha es un
estadgrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20"
(siendo a la letra griega ayu y el 20 refirindose a KR-20).
.-
166 - Parte 2. La ciencia de la medicin psicolgica
-
- -
-
Lizaran en forma manual los &lculoc bastante laboriosos, y - -podra presumirse en
fcrma razonable que el nmero d e personas que preferiran la forma antigua dismi-
nuira c o ~ o r m eaumentara el nmero de reactivos en la p ~ u e b a .En la actualidad,
quiz debido a la fcil disponibilidad d e computadoras (desde coinputadoras centra-
les haita porttiles), el coeiiciente aifa es la estadstica preierida para obtener una
estimacin d e la confialili?d d e la consistencia interna (Keith y Reynolds, 1990).
Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.-
vistr de trabajo y el patrn o entrevistador es un padre o algn otro- pariente amoroso, podra esperar ?e
manera razonable que ld naturaleza de la valoracin que recibiRa n o sera La misma que si el evaluada:
fuma alguna otra persona. Por otra parte, si el-patrno entrevistador es alguien con quien ha tenido un mal
rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.
sc dcriita cie diferencias reales eri el !iempo d e reaccin del sujeto, mientras que el 10%
podra atribuirse a factores distinhs al tiempo d e reaccin del sujeto (es decir, error).
En muchos casos, :,e us-an ms de dos evaluadores en t.stos'estudios de confiabiiidad.
En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores,
usr.,lo la r e Pearson o la rho de Spearman, dependiendo de la escala de medicin
de la untu tu acin de la prueba.
La esladstica kappa La estadstica kappa fue diseada en un principio para ser usa-
da en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales
de medicin (Cohcn, 1963). La estadstica kappa fue modificada despus por Fliess
(1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastas-
te bien la estadstica kappa como una medida de confiabilidad entre evaluadores
(Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la
kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule
(Spitznagel :*r iieiz-r. 985).
\ Error debido a la
consttucci6n de la
.- .
168 ci^.nciad e la rr.edici6n psicolgica
Parte 2: La -