Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La Medición de Lo Psicológico
La Medición de Lo Psicológico
1-21
ISSN 0214 - 9915 CODEN PSOTEG
LA MEDICIN DE LO PSICOLGICO
Jos Muiz
Universidad de Oviedo
LA MEDICIN DE LO PSICOLGICO
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
LA MEDICIN DE LO PSICOLGICO
rosamente las sensaciones, para lo cual desarroll todo un conjunto de ellos, hoy clsicos, denominados mtodos psicofsicos indirectos (Baird, 1997; Baird y Noma, 1978;
Blanco, 1996; Falmage, 1985; Fechner,
1966; Gescheider, 1985; Muiz, 1991). Basndose en los trabajos previos de Weber,
Fechner estableci que la funcin que una
la estimulacin fsica con las sensaciones
psicolgicas suscitadas obedece a una funcin logartmica. Ello quiere decir que al aumentar la estimulacin fsica geomtricamente las sensaciones lo hacen aritmticamente. O, en otras palabras, que si bien al
principio al aumentar la estimulacin fsica
aumenta rpidamente las sensaciones, stas
van necesitando cada vez mayor incremento
de la estimulacin fsica para experimentar
algn aumento. La misma ley haba sido observada con anterioridad en el campo de la
economa entre el crecimiento de la fortuna
y el placer experimentado por el afortunado.
Este campo de estudio iniciado por Weber y
Fechner se denomina Psicofsica, pues, como su nombre indica, trata de poner en conexin las sensaciones psicolgicas con la
estimulacin fsica que las suscita. La ley de
Fechner ha sido revisada por la Nueva Psicofsica (Stevens, 1961, 1975), que defiende
que la funcin que une ambos continuos, el
fsico y el psicolgico, no es logartmica sino potencial. Para someter a prueba su hiptesis han propuesto todo un conjunto de nuevos mtodos psicofsicos alternativos a los
de Fechner, denominados directos.
Leyes Psicofsicas
Funcin Logartmica (Fechner): S = C log E
Funcin Potencial (Stevens): S = K Eb
donde:
S: es la medida de la sensacin producida
E: es la medida de la estimulacin fsica
C, K y b son constantes a determinar
La tradicin psicofsica llega hasta nuestros das, constituyendo un campo con grandes implicaciones aplicadas, pinsese, por
ejemplo, en la importancia de conocer con
precisin los efectos del ruido, la luminosidad, sabores, olores, etc., sobre nuestro sistema perceptivo. En la actualidad gran parte de las investigaciones psicofsicas se llevan a cabo dentro del marco general de la
Teora de la Decisin y de la Teora de la
Deteccin de Seales (Egan, 1975; Green y
Swets, 1966; Swets, 1996), un modelo desarrollado originariamente por los ingenieros
para la deteccin de seales con ruido de
fondo, y que se ajusta bien a los humanos
considerados como perceptores de seales.
El sistema perceptivo humano es muy
peculiar, y la Teora de la Deteccin de Seales permite estudiar su funcionamiento
bajo diferentes condiciones. El nuestro no
es un sistema perceptivo neutral, pues
aunque con determinados invariantes, viene
influido en gran medida por las consecuencias de lo percibido, por la matriz de pagos asociada a la situacin perceptiva, es
decir, el mismo sistema perceptivo acta de
distinta forma en funcin de la situacin
perceptiva. Esta versatilidad permite investigar y mejorar situaciones aplicadas de todo tipo en las que los humanos tienen que
tomar decisiones, siendo clave, por ejemplo, para una racionalizacin y optimizacin de las condiciones de trabajo. Pinsese,
sin ir ms lejos, en situaciones tales como,
bajo qu condiciones se maximiza la percepcin de piezas defectuosas por un trabajador de control de calidad?, o cules son
las causas de la accidentabilidad de los trabajadores en puestos aislados? Esas preguntas y otras slo tienen respuesta correcta
cuando se conoce el funcionamiento del sistema perceptivo humano bajo determinadas
condiciones.
Nuestras percepciones vienen con frecuencia condicionadas por sesgos cuyo estudio es sumamente importante, tanto a ni-
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
LA MEDICIN DE LO PSICOLGICO
Psicothema, 1998
JOS MUIZ
(1)
Modelo Clsico
Modelo: X= V+e
Supuestos: V= E(X)
ve= 0
(ej,ek)= 0
Definicin: Dos tests j,k se consideran paralelos si: Vj = Vk y 2ej= 2ek
A partir del modelo, mediante los desarrollos correspondientes, que aqu se omiten, va a ser posible llegar a frmulas operativas para la estimacin de los errores (e),
y por ende de las puntuaciones verdaderas
(V) de los sujetos. Todas estas deducciones
necesarias son lo que conforma el corpus
psicomtrico de la teora clsica de los tests,
cuya formulacin se recoge en textos tan
clsicos como los de Gulliksen (1950) o
Psicothema, 1998
LA MEDICIN DE LO PSICOLGICO
(2)
(1945), Flanagan (1937), KR20 y KR21 (Kuder y Richardson, 1937), o el popular Coeficiente Alfa (Cronbach, 1951), que expresa la
fiabilidad del test en funcin de su consistencia interna. Una forma alternativa pero
equivalente de expresar la fiabilidad de los
tests es mediante el Error Tpico de Medida,
o fiabilidad absoluta.
Se utilice el ndice que se utilice, y en cada caso hay razones tcnicas para utilizar
uno u otro, lo importante es que toda medicin lleva asociado un grado de precisin
que es empricamente calculable. Tal vez alguno de ustedes se pregunte por qu se cometen errores al medir, o, en otras palabras,
cules son las fuentes del error ms habituales en la medicin psicolgica. Es este un
asunto exhaustivamente estudiado por los
especialistas, que han llegado a clasificar
con todo detalle las posibles fuentes de error
(Cronbach, 1947; Schmidt y Hunter, 1996;
Stanley, 1971; Thorndike, 1951), si bien
simplificando bastante puede decirse que
son tres las grandes avenidas por las que penetra el error aleatorio en la medicin psicolgica: a) la propia persona evaluada, que
viene con determinado estado de nimo, actitudes y temores ante el test, ansiedad, o
cualquier tipo de evento previo a su evaluacin, todo lo cual puede influir en la cuanta
de los errores, b) el instrumento de medida
utilizado, que con sus caractersticas especficas puede influir diferencialmente en los
evaluados, y c) la aplicacin, correccin e
interpretacin hecha por los profesionales.
Si todo se hace con rigor se minimizarn los
errores en todo el proceso, y es precisamente de lo que nos informa la fiabilidad de la
prueba, de los errores cometidos. Una vez
conocida la cuanta de estos errores, a partir
de la puntuacin emprica resulta sencillo
estimar a cierto nivel de confianza elegido
la puntuacin verdadera de las personas en
una prueba. Si la fiabilidad de una prueba es
perfecta (xx=1), las puntuaciones empricas y las verdaderas de las personas en di-
Psicothema, 1998
JOS MUIZ
cha prueba coincidirn, pero si no es perfecta las puntuaciones verdaderas de las personas en el test se estiman mediante un intervalo confidencial en torno a la puntuacin
emprica. La implicacin prctica inmediata
de todo ello es que si se toman decisiones
importantes basadas en las puntuaciones de
las personas en los tests hay que asegurarse
de que stos tienen una fiabilidad elevada.
Ahora bien, el modelo lineal clsico informa de la cuanta de los errores, pero no de
la fuente originaria de stos, que asume ignota y aleatoria. Otros muchos modelos se
han ocupado de desglosar el error y ofrecer
as no slo la fiabilidad, sino tambin el origen de los errores (Bock y Wood, 1971; Novick, 1966; Sutcliffe, 1965), pero su complejidad tcnico-formal y las complicaciones
operativas introducidas, en relacin con las
ventajas ofrecidas, ha hecho que ninguno haya cuajado en la prctica. Mencin especial
al respecto merece la Teora de la Generalizabilidad propuesta por Cronbach y colaboradores (Cronbach, Rajaratnam, Glesser,
1963; Glesser, Cronbach y Rajaratnam,
1965). Mediante el uso de complejos diseos
de Anlisis de Varianza, este modelo permite hacer estimaciones sobre el tamao de distintas fuentes de error previamente contempladas en el proceso de medicin. El programa de ordenador GENOVA (Crick y Brennan, 1982) ha sido especialmente diseado
para llevar a cabo los clculos implicados en
el modelo. En 1972 los autores publican un
exhaustivo tratado (Cronbach, Glesser, Nanda, y Rajaratman, 1972), verdadera biblia del
modelo, pudiendo consultarse tambin exposiciones sistemticas en Brennan (1983),
Crocker y Algina (1986), Shavelson y Webb
(1991) o Shavelson, Webb y Rowley (1989);
en castellano vase Paz (1994).
Teora de Respuesta a los Items
A lo largo de este siglo la Teora Clsica
de los tests y sus variantes han ido dando
Psicothema, 1998
cobertura terica a la mayora de las aplicaciones de los tests, y puede decirse que, con
sus luces y sus sombras, el balance es claramente positivo (Muiz, 1994). Ello no quiere decir que no hubiese ciertos problemas y
ciertas reas en las que el enfoque clsico
mostrase limitaciones. Las dos ms importantes, en las que no voy a entrar aqu, se refieren 1) a la ausencia de invarianza de las
mediciones respecto del instrumento utilizado, es decir, bajo el modelo clsico cuando
se utilizan tests distintos para evaluar la
misma variable no se obtienen directamente
resultados en la misma escala, por lo que
hay que proceder a equiparar las puntuaciones obtenidas. Y 2) a la dependencia que las
propiedades del instrumento utilizado tienen de las propias personas evaluadas, lo
cual no es deseable dentro de un marco riguroso de medicin.
Aparte de estas dos limitaciones de fondo, en lo que concierne al clculo de la fiabilidad de los tests, el problema que no encontraba una respuesta adecuada dentro del
marco clsico era el de la dependencia entre
la cantidad de error y el nivel de las personas en la variable medida. Me explico. Dentro del marco clsico se estima el coeficiente de fiabilidad de una determinada prueba y
se asume que es el mismo para todas las personas a las que se aplica la prueba; sin embargo, se ha ido acumulando suficiente evidencia emprica a lo largo de los aos que
demuestra que el mismo test no mide con la
misma precisin a todas las personas, que su
precisin est en funcin del nivel de la persona en la variable medida. Sin salirse del
marco clsico la solucin ms lgica a este
problema es calcular diferentes coeficientes
de fiabilidad para una prueba en funcin de
los distintos niveles de puntuaciones de las
personas evaluadas, lo cual es prctica habitual (Feldt y Qualls, 1996; Lord, 1984;
Qualls, 1992; Thorndike, 1951). Si bien es
esta una salida enjundiosa al problema, la
solucin radical y novedosa va a venir de la
LA MEDICIN DE LO PSICOLGICO
10
mismo test para evaluar a todas las personas, se elige aqul que mida con mayor precisin a cada cual, es lo que se ha dado en
llamar Tests Adaptativos Computerizados
(Olea y Ponsoda, 1996; Renom, 1993; Wainer, 1990), ampliamente utilizados en otros
pases y en fase embrionaria en el nuestro,
aunque algunas compaas multinacionales
ya los utilizan en Espaa para certificaciones profesionales.
Tal vez se pregunten ustedes, cmo se
procede para elegir la prueba ms adecuada
para cada persona. La estrategia consiste en
buscar aquella prueba cuya dificultad mejor
se ajuste al examinado. Para ello se van
presentando uno a uno los tems extrados
de un Banco de tems y en funcin de las
respuestas, segn sean aciertos o errores, se
va aumentando o disminuyendo la dificultad de los tems subsiguientes. De este modo se evita presentar los tems muy difciles
a las personas con un nivel bajo y los muy
fciles a las de nivel elevado, con el consiguiente ahorro de tiempo y mejora de la
motivacin y fiabilidad de la prueba. Podra
parecer que por esta regla de tres aqullos
que reciben tems fciles saldran favorecidos, pero no hay tal, puesto que cara a la
puntuacin final no es lo mismo acertar
tems fciles que difciles, stos puntan
ms. El uso de estas pruebas est cambiando la forma tradicional de evaluar y en pases como Estados Unidos, Holanda, Israel o
Canad, por citar algunos, son de uso generalizado para el acceso a la universidad, al
doctorado, o para certificaciones profesionales. Sealar, de paso, que cuando se observan los avances habidos en los ltimos
aos en el campo de la evaluacin psicolgica y educativa y vemos, por ejemplo,
ahora que est en boca de todos, cmo se
lleva a cabo la Selectividad Universitaria
en Espaa, uno tiene la impresin de estar
circulando en un carro de bueyes en tiempos del automvil y de las autopistas informticas. Tcnicamente nuestro sistema de
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
jetos con las probabilidades de que acierten un tem es a lo que se denomina Curva
Caracterstica del Item (CCI), dado que
ciertamente califica, caracteriza al tem.
Cada tem tendr la suya propia, su carnet
de identidad. Las CCI ms habituales
adoptan la forma de S como las de la figura 1.
11
LA MEDICIN DE LO PSICOLGICO
(3)
(4)
(5)
donde:
: representa los valores de la variable medida
Pi(): probabilidad de acertar el tem para
un determinado valor de
ai: ndice de discriminacin del tem
bi: ndice de dificultad del tem
ci: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D=1,7 los valores se
acercan a los generados por la distribucin Normal)
I() =
i=1
12
[ P'i ()] 2
Pi ()Qi ()
donde:
n: nmero de tems del test
Pi(): valores de las CCI de los tems
Qi(): 1- Pi()
Pi(): Derivada de Pi()
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
13
LA MEDICIN DE LO PSICOLGICO
14
Psicothema, 1998
JOS MUIZ
cin los tests con los que se mide no han experimentado grandes cambios (Sternberg y
Kaufman, 1996).
Como no poda ser de otro modo, existen
tests malos, regulares, buenos y muy buenos, es el profesional en cada caso el que
tiene que evaluar la calidad y proceder en
consecuencia. Como ocurre con las tecnologas de otros muchos campos del saber,
siempre existe la posibilidad de su uso inadecuado, observndose ltimamente un inters especial en las organizaciones profesionales por impulsar los aspectos ticos de
la prctica, especialmente en lo que a los
instrumentos de medida se refiere (FrancaTarrag, 1996; Keith-Spiegel y Koocher,
1985; Kimmel, 1996; Muiz, en prensa;
Schmeiser, 1992; Schuler, 1982; Stanley,
Sieber y Melton, 1996). Debido a que la
mayora de los problemas con los instrumentos de medida psicolgicos y educativos provienen en gran parte de su uso inadecuado ms que de las propiedades tcnicas per se, existe actualmente un debate en
curso entre los investigadores y profesionales acerca de la conveniencia o no de incluir
las consecuencias del uso de las pruebas
dentro del propio marco de la validez (Linn,
1997; Mehrens, 1997; Messick, 1980, 1989,
1995; Popham, 1997; Shepard, 1997).
Sealar, finalmente, que el uso adecuado
de los instrumentos de medida no slo implica que las propiedades tcnicas (Fiabilidad y Validez) sean las adecuadas, hay otros
aspectos relativos a la propia situacin de
aplicacin que deben de controlarse, tales
como la relacin examinado-examinador, la
ansiedad ante las pruebas (Spielberger y
Vagg, 1995), entrenamiento previo, diferencias culturales, deseabilidad social, etc.
Se olvida a veces que los tests psicolgicos y educativos representan la posibilidad de juzgar a las personas de forma igualitaria, por sus mritos demostrados, no por
criterios como la cuna, la tribu, la familia, la
apariencia, las cartas de recomendacin, o
Psicothema, 1998
15
LA MEDICIN DE LO PSICOLGICO
16
Psicothema, 1998
JOS MUIZ
cada es escasa, pues como seala Schwager (1991) en una crtica reciente, este elegante enfoque trata de garantizar la representabilidad formal, que es importante, pero no ha aportado hasta la fecha gran cosa
a la teora psicolgica y menos an a la
prctica profesional aplicada. Una buena
sntesis de los problemas de carcter aplicado an pendientes de una solucin idnea fue expuesta recientemente por Wainer
(1993), para una excelente revisin y anlisis de los problemas de la medicin en
psicologa puede consultarse el trabajo de
Michell (1997).
Estos son, en suma, y a grandes rasgos,
algunas de las certezas y de las dudas que
ocupan a quienes trabajamos en el campo de
la medicin psicolgica, espero no haberles
aburrido demasiado con ellas. En el campo
Referencias
Allen, M. J. y Yen, W. M. (1979). Introduction to
Measurement Theory. Monterrey, CA: Brooks/Cole Publishing Company.
American Federation of Teachers, National Council on Measurement in Education y National
Education Association (1990). Standards for
teacher competence in educational assessment
of students. Washington, DC: Autor.
Anastasi, A. (1986). Evolving concepts of test validation. Annual Review of Psychology, 37, 1-15.
Baird, J. C. (1997). Sensation and judgment:
complementary theory of psychophysics.
Mahwah, NJ: LEA.
Baird, J. C. y Noma, E. (1978). Fundamentals of
scaling and psychophysics. Nueva York: Wiley.
Binet, A. y Simon, T. H. (1905). Methodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. LAnne Psychologique,
11, 191-244.
Birnbaum, A. (1957). Efficient design and use of
tests of ability for various decision-making
problems (Series Report n 58-16, Project n
7755-23). Randolph Air Force Base, TX:
USAF School of Aviation Medicine.
Psicothema, 1998
17
LA MEDICIN DE LO PSICOLGICO
18
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: LEA.
Lord, F. M. (1984). Standard errors of measurement at different ability levels. Journal of
Educational Measurement, 21(3), 239-243.
Lord, F. M. y Novick, M. R. (1968). Statistical
theories of mental tests scores. Reading, MA:
Addison-Wesley.
Luce, R. D. y Narens, L. (1986). The mathematics underlying measurement on the continuum. Science, 236, 1527-1532.
Magnuson, D. (1967). Test Theory. Reading,
MA: Addison-Wesley. (Traduccin espaola:
Mexico: Trillas, 1972).
Mayor, J. (1989). El mtodo cientfico en psicologa. En J. Arnau y H. Carpintero (Comps.).
Tratado de psicologa general, Vol. I: Historia, teora y mtodo. Madrid: Alhambra.
Mehrens, W. A. (1997). The consequences of
consequential validity. Educational Measurement: Issues and Practice, 16(2), 16-18.
Messick, S. (1980). Test validity and the ethics
of assessment. American Psychologist, 35,
1012-1027.
Messick, S. (1989). Validity. En R. L. Linn (Ed.),
Educational Measurement. Nueva York:
Macmillan.
Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50, 741749.
Michell, J. (1986). Measurement scales and
statistics: a clash of paradigms. Psychological
Bulletin, 100, 398-407.
Michell, J. (1990). An introduction to the logic of
psychological measurement. Hillsdale, NJ:
LEA.
Michell, J. (1997). Quantitative science and the
definition of measurement in psychology.
British Journal of Psychology, 88, 355-383.
Muiz, J. (1991). Introduccin a los mtodos
psicofsicos. Barcelona: PPU.
Muiz, J. (1994). Teora clsica de los tests. Madrid: Pirmide. (2 ed.).
Muiz, J. (1996a). Fiabilidad. En J. Muiz (Coor.), Psicometra. Madrid: Universitas.
Muiz, J. (Coor.). (1996b). Psicometra. Madrid:
Universitas.
Muiz, J. (1997). Introduccin a la teora de
respuesta a los tems. Madrid: Pirmide.
Muiz, J. (en prensa). Aspectos ticos y deontolgicos de la evaluacin psicolgica. En Evaluacin Psicolgica, Madrid: TEA Ediciones.
19
LA MEDICIN DE LO PSICOLGICO
Muiz, J. y Hambleton, R. K. (1992). Medio siglo de teora de respuesta a los tems. Anuario
de Psicologa, 52, 41-66.
Narens, L. (1985). Abstract measurement: the
theory of numerical assignment. Psychological Bulletin, 99, 166-180.
Narens, L. y Luce, R.D. (1986). Measurement:
the theory of numerical assignment. Psychological Bulletin, 99, 166-180.
Neisser, U. et al. (1996). Intelligence: knowns
and unknows. American Psychologist, 51(2),
77-101.
Novick, M. R. (1966). The axioms and principal
results of classical test theory. Journal of
Mathematical Psychology, 3, 1-18.
Olea, J. y Ponsoda, V. (1996). Tests adaptativos
informatizados. En J. Muiz (Coor.), Psicometra. Madrid: Universitas.
Paz, M. D. (1994). Teora de la Generalizabilidad. En J. Muiz, Teora clsica de los tests.
Madrid: Pirmide.
Paz, M. D. (1996). Validez. En J. Muiz (Coor.),
Psicometra. Madrid: Universitas.
Paz, M. D. y Muiz, J. (1989). Potenciales evocados y tiempos de reaccin. Psicothema, 1,
97-117.
Pfanzagl, J. (1968). Theory of measurement.
Nueva York: Wiley.
Pinillos, J. L. (1980). Problemas actuales de la
psicologa cientfica. Anlisis y Modificacin
de Conducta, 6, 11-12.
Popham, W. J. (1997). Consequential validity:
right concern-wrong concept. Educational Measurement: Issues and Practice, 16(2), 9-13.
Popper, K. R. (1959). The logic of scientific discovery. Londres: Hutchinson.
Popper, K. R. (1963). Conjectures and refutations. Nueva York: Harper.
Popper, K. R. (1972). Objective knowledge. Oxford: Clarenton Press.
Qualls, A. L. (1992). A comparison of score level estimates of the standard error of measurement. Journal of Educational Measurement, 29(3), 213-225.
Rasch, G. (1960). Probabilistic models for some
intelligence and attainment tests. Copenhagen: The Danish Institute for Educational Research.
Renom, J. (1993). Tests adaptativos computerizados. Barcelona: PPU.
Richardson, M. W. (1936). The relationship between difficulty and the differential validity of
a test. Psychometrika, 1, 33-49.
20
Psicothema, 1998
JOS MUIZ
Psicothema, 1998
21