Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cohen y Swerdlik 2001 Cap.5
Cohen y Swerdlik 2001 Cap.5
&.&Q , ,,
cotidinnri, coi~finbiiidnrlcs sinónimo d e s e p r i d a d o consistencia, como
i n a ciiii\.c>ri;rií.i.~;n
* Con p!-o$isit:~~ :!c i!:::.'r: 56n, .;e usa can frciuenciia la capacidac! coiiio un rasgo que se cst6 midiendo. sin
cmborgo, a menos que :;e declare d e otra menera, los p ~ n ~ p i ao los s que nos referimos con respecto a lds
pruebas d e c ~ r , a c i d ~:ani'oién
J son cixtos con respecto a otros tipc~;d e pruebas, como las pruebas d e
r:ersoiialidsci. i'or t;intc. d e acuerdo con el rnodeio de puntuación verdadera, también es cierto que la niag-
riitud d e la prssenciñ d e un cierto rasgc psicológico (como la extroversión) medido con una prueba di?
extroversi6n .;c d:?bí.r;íA l! la cantidad ''~,.erdad~ra" d e extroversión y 2) otros factores.
c i i a d d e quien responde la p k e b a . Si usamos X para representar una puntuación
-observada, Tpara iepresentar ima p y t u a c i ó n verciadera y E para representar el error,
entonces el hecho d e que una pw.tuaci6n observada sea igual a la piuituación verda-
dera más el error puede expresarse como sigue:
X=T+E
IJna estadística Útil para describir fuentes de variabilidad e,i la5 pi~rituaci~~iies cic
una prueba es lavarianza (u2),la desviacióii estándar al cuacirado Fqta estadística es
Útil debido a que puede dcscorn~c7ncrseen sris c o m p o n ~ i i t e1~.i \.,jri,?:i. a d e 1s, diíe-
rencias verdaderas es varianza verdadern y la variariza de fuentes aleatoi las irrelevan-
tes es z)arianza d e error. Si a' representa la varianza total, u,?, reprcsent3 la varianza
verdadera y a: representa la varianza de error, entonces la relación de las varianzas
puede expresarse como
Prueba elaborada:
Escala: para el Trastorno por Déficit de la Atencibi
de Brown
11
mi sbposición fu: que !a mayor parte de los síntomas riel
trastorno por deficit de la atención (TOA) es experirneniz:!?
por casi todos de vez en cuando. Se presupme +e Icz
personas que tienen TOA son aquellzs que experinentan un
deterioro significativo y ~ersistentcpor los síntmnas d ~ l
TOA. Por tanto. si esta nreva escala de estimaci6:i hah:Ía
de ser útil. iiecesitarí6 ser capaz de diferenciar entre
.personas qtie reportan cn de:erioro significdtivc por e s : s
síntomas del TDA y otras que no repcrtan dicho de!erio:c."
que puzden haber ocarrido en el periodo entre aplicxignes d e ionnas pirále!as de una
p r ~ e b atambién serán fuentes d e varianza d e error relacionadas con el examinado.
Las variables relacionadas con e1 examinador que son fuentes potenciales de
varianza d e error incluyen la presencia o ausencia de u n examinador, su apariencia
física y comportamiento del examinador y el profesionalismo con que tome la siti:a-
ción de prueba el examinador. Algunos examinadores en algunas situaciones d e prueba
pueden apartarse a sabiendas o sin querer del procedimiento prescritc para una prue-
ba particular. En un examen oral, algunos examinadores podrían proporcionar sin
querer claves planteando preguntas que enfatizan diversas palabras, o transmitir in-
formación d e manera inadvertida sobre la corrección d e una respuesta por medio de
asentimientos d e cabeza, movimientos oculares u otros gestos no verbaies.
.
-
Estimaciones dv confiabilidad de prueba y posprueba
Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medición
miiy tonfiable; cada vez que se mide algo que tiene exactamente 12 centímetros de lar-
go, por ejemplo, la regla indicará que lo que se está midiendo tiene --xactamente 12 cm-
tírnetros de largo. También p e d e decirse que la confiabilidad d e este instrun,.mto de
medicidn es estable en el tiempo; ya sea que s e midan los 12 centímetros hoy, maiana o
el próximo año, la regla aún va a medir i 2 centímetros como 12 centímetros. Por el coii-
Erario, una regla construida de niasillapodría ser un instrumento de medición pococon-
fiable. Un minuto podría medir algún patrón que se sabe que tiene 1 2 centímetros de
largo como 12 centímetros, al minuto siguiente podría medirlo corno 14 centímetros y
una semana después como 18 centímetros. T l ~ formaa de estimar la confiabilidad de un
instrumento de medición es usando el mismo instrumento para medir lo mismo en dos
pirntos en el tiempo. En el lenguaje psicométrico, este enfoque de la valoración de la
confiabilidad se llama "método de prueba y pospryeba" y el resultado de dicha valora-
ción es una estimación de la "con fiabilidad de prueba y posprueba".
La confiabilidad de prueba y posprueba es arta estimación de la confiabilidad obteni-
da al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones
diferentes.de la misma prueba. La medida de prueba y posprueba es apropiada cuan-
d o se valora la confiabilidad de una prueba que pretende medir algo que es relativa-
mente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que
la característica que se está midiendo fluctúa ccn el tiempo, Ccndría p o c senfido
~ eva-
luar la confiabilidad de una prueba usando el método de prueba y posprueba; se
encontrarían correlaciones imignificantes entre las puntuaciones obtenidas en las dos
aplicaciones de la prueba. Estas correlaciones insignificantes se deberían a cambios
reales en cualquier cosa que sea lo que se está midiendo en lugar de deberse a factores
inherentes en el instrumento de medición.
Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender
cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general,
aunque hay excepciones, conforme se incremerita el intervalo de tiempo entre las apli-
caciones de las mismas pruebas, disminuye la correlación entre las puntuaciones obte-
nidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error.
Entre mayor tiempo pase, es más probable qce el coeficiente de confiabilidad será
menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se
hace referencia a la estimación de la confiabilidad de piueba y posprueba como "coefi-
ciente de estabilidad". Una estimación de la confiabilidad prueba y posprueba de una
prueba de matemáticas podría ser baja si quienes respondieron la prueba tomaron un
curso de matemáticas antes de que se aplicara la segunda prueba. Una estimación de
la confiabilidad prueba y posprueba de un perfil de personalidad podría ser baja si
quien responde la prueba sufrió algún trauma emocional o recibió orientacióri durante
el periodo intermedio. Puede encontrarse una estimación baja de la confiabilidad pruebá
y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las
pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a
las variables que está diseñada para evaluar. Una evaluación de un coeficiente de con-
fiabilidad pnieba y posprueba debe abarcar, por consiguiente, niás al15 de la significa-
ción del coeficiente obtenido; debe extenderse a un%-.c6nsicieraciónde los posibles
factores que intervienen entre las aplicaclone de la prueba si hemos de llegar n ion-
clusiones apropiadas sobre la confiabilidad del instrumento de medición.
? Aunque podemos referimos a un número como una declaraci6n sumaria d e la confiabilidad d e herra-
m i e n t a d e medici6n individuales, cualquiera d e estos índices d e confiabi!idad s61o pueden interpretarse
d e manera significativa en el contexto del proceso d e rri%dición, las circunstancias únicas que rodean al uso
d e la regla, la prueba o algún otro instrumento d e medición en una aplicación o situación particular.
' De acuerdo con el modelo d e puntuacidn verdadero clásico, e1 efecto d e taies factores e n las puntuaciones
d e prueba se supone que es en efecto un error d e medición. Hay modelos alternativos en los que el efecto d e
dichos iactorci.i en puriti?acionrs d e prueba fluctuantes no sería considerado error (Atkinson, 1981).
.- -
- - - - - -
-
- . . ,
el contenido de una fonna de piueba aplicada con anterioridad.
Se supone que ciertos rasgos son relativamente estables en las personas a lo largo
del tiempo, y esperaríamos que las pruebas que miden esos rasgos, s e a i iormas alter- .
nas, formas equivalentes o d e algún otro tipo, reflejen esa estabilidad. Como ejemplo,
esperarknos que hubiera, y de ñecho hay, un grado razonable de estabilidad en las
puntuaciones en las pruebas de inteligencia. A la inversa, podrían-,os esperar que hu-
biera relativamente poca estabilidad en las puntuaciones \)btenida; en una medida del
estado de ansiedad jansiedad sentida en el momento); podría e\perarse queel nivel de
ansiedad expr-rirnentádo por alguien q u e responde la prue!)a variara hora tras hora,
por "O decii día tras día, semana tras semana o mes tras mes.
Fuede obtenerse una estimación de la confiabilidad de und prueba sin elaborar
una forma alterna de la prueba y si-i tener que administrar la prueba dos veces a las
mismas personas. Dicha evaluación implica el escrutinio de los reactivos individuales
que forman la prueba y su relación entre sí. Debido a que este tipo de estimación de la
confiabilidad no se obtiene por medio de la comparación de datos de una forma alter-
na rii a través de un procedimiento de prueba y posprleba sino, más bien, por medio
de un examen d e los reactivos de la prueba, se conoce como estimación de confiabili-
dad d e "consistencia interna" o como una estimación de "consistencia entre reaciivos".
Nuestra atención cambiará ahora a estos tipos de estimaciones de confiabilidad, co-
mcmzando por la estimación de "división por mitades".
Puede ser que haya escuchado el refrán cpe dice que "hay más de una forma de
pelar a un gato". Ur. corolario a este fragmento de sabiduría podría ser que hay algu-
nas formas en las que nunca debería pelar a un gato. Un fragmento de sabiduría aná-
logo cuando S& trata de calcular los coeficientes de confiabilidad de división por mitades
es: hay más de una forma, de'dividir una prueba, o hay algunas formas en las que
se~recomienda tan sólo dividir la prueba 2 lz
nunca debería dividirse una p r u e b a . ' ~
mitad, debido a que es probable que este procedimiento elevaría o disminuiría en
forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferen-
tes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una
función de su colocación en la pruebaj. Una forma aceptable de dividir una prueba es
asignar a! dzar los reactivos a una u otra mitad deda prueba. Una sebunda forma
aceptable es asignar los reactivos con números nones a una mitad de la prueba y los
reactivos con números pares a la otra mitad (produciendo una e~tiiir~ación a la que
quiere poca explicación en este punto. Sin embargo, el tercer pzso requiere el uso de la
fórmula de Spearman-Brown.
4 1 1
una precaución aquí: con respecto ;i un grupo d e reaa:vos en una p r ~ e b ad e rendimiento que abordan un
solo probiema, por lo general es deseable asignar el g r ~ p entero
o d e reactivos a una mitad d e la prueba. De
otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza d e la
mitad d e las puntuaciones sería inflada en forma falsa; un solo error d e comprensión, por ejemplo, podría
afectar a reactivos en ambas mitades d e la prueba.
-- . .
Como veremo5 en otra parte de este libro, las decisiones importantes rara vez s e toman s6Io con base en
una pnicba Lo? psicdlogos con frecuencia se basan en una baterla de pruebas, una coleccidn selecta d e pnie-
bas y proc~dimientosd e evaluaci6n en el proceso d e valoraci6n. Una batena de pruebas puede componer-
se o no de pniebas homogéneas.
tad; una suposición, deberíamos agregar, que rara vez se justifica. La fórrnula KR-21
tiende a ser anticuada en u i ~ época
á de calculadcras y ccmptitadoras, debido á que se
usaba como una aproximación de la KR-20 que requería menos cáIculos. Otra fórmula
usada alguna vez en la medición de la confiabilidad de la consistencia inte.na y ahora
en su maycr parte anticuada era un estadígrafo conocido como la fórmula de Rulon
(Rulon, 1939).
Aunque se han propuesto numerosas modificaciones de las fórmulas d e Kuder-
Ricnardson a lo largo de ios años (por ejemplo, Cliff, 1984; Horst, 1953), quizá la única
variante d e la fórmula KR-20 que ha recibido la mayor aceptación hasta la fecha es un
estadígrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20"
(siendo a la letra griega ayu y el 20 refiriéndose a KR-20).
.-
166 - Parte 2. La ciencia de la medición psicológica
-
- -
-
Lizarían en forma manual los &lculoc bastante laboriosos, y - -podría presumirse en
fcrma razonable que el número d e personas que preferirían la forma antigua dismi-
nuiría c o ~ o r m eaumentara el número de reactivos en la p ~ u e b a .En la actualidad,
quizá debido a la fácil disponibilidad d e computadoras (desde coinputadoras centra-
les haita portátiles), el coeiiciente aifa es la estadística preierida para obtener una
estimación d e la confialili¿?d d e la consistencia interna (Keith y Reynolds, 1990).
Wecimos "por lo general" debido a que existen excepcioiits. Por tanto, por ejemplo, si acude a una en[:.-
vistr de trabajo y el patrón o entrevistador es un padre o algún otro- pariente amoroso, podría esperar ?e
manera razonable que ld naturaleza de la valoración que recibiRa n o sería La misma que si el evaluada:
fuma alguna otra persona. Por otra parte, si el-patróno entrevistador es alguien con quien ha tenido un mal
rato, puede ser tiempo de. revisar de nuevo los anuncios de empleo.
sc dcriita cie diferencias reales eri el !iempo d e reacción del sujeto, mientras que el 10%
podría atribuirse a factores distinhs al tiempo d e reacción del sujeto (es decir, error).
En muchos casos, :,e us-an más de dos evaluadores en t.stos'estudios de confiabiiidad.
En tales casos, se correlacionarían las puntuaciones obtenidas por los dos evaluadores,
usár.,lo la r ¿e Pearson o la rho de Spearman, dependiendo de la escala de medición
de la untu tu ación de la prueba.
La esladística kappa La estadística kappa fue diseñada en un principio para ser usa-
da en el caso en (11 que los evaluadores hacen estimaciones usando escalas nominales
de medición (Cohcn, 1963). La estadística kappa fue modificada después por Fliess
(1971) para ser usada con múltiples evaluadores. Por lo general se ha recibido bastas-
te bien la estadística kappa como una medida de confiabilidad entre evaluadores
(Hartmann, 1977),aunque hay casos especiales en las que puede ser apropiado usar la
kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Ir' d e Yule
(Spitznagel :*r iieiz-r. í985).
\ Error debido a la
consttucci6n de la
.- .
168 ci^.nciad e la rr.edici6n psicológica
Parte 2: La -