Está en la página 1de 22

Psicothema, 1998. Vol. 10, nº 1, pp.

1-21
ISSN 0214 - 9915 CODEN PSOTEG

LA MEDICIÓN DE LO PSICOLÓGICO
José Muñiz
Universidad de Oviedo

Se analiza la problemática implicada en la medición de las variables psicológicas,


y se comentan las soluciones aportadas por los diferentes enfoques psicométricos. En pri-
mer lugar, se subraya cómo las dificultades mayores para medir lo psicológico surgen de
esa naturaleza especial que tiene lo psicológico: una banda interactiva acotada por una ba-
se neurobiológica y un entorno sociocultural. Estas dificultades no fueron óbice para que
se haya ido afianzando en psicología una medición rigurosa, cuyos orígenes pueden ras-
trearse en los trabajos psicofísicos iniciados por Weber y Fechner y que se continúan con
el escalamiento psicológico, a partir de los trabajos pioneros de Thurstone. Otra gran lí-
nea de desarrollo de la medición sigue el rail de la teoría de los tests, cuyos inicios más
rigurosos se ubican en el modelo lineal clásico propuesto por Spearman. A la vez, los te-
óricos de la medición investigan los fundamentos de ésta, destacando dos líneas de avan-
ce: la aproximación clásica, iniciada por Stevens, y el enfoque representacional, surgido
a partir de los años sesenta. Se hace especial hincapié en el gran avance que ha supuesto
para la psicometría la aparición de la Teoría de Respuesta a los Items, enfoque que viene
a dar solución a determinados problemas de la medición que no encontraban una solución
apropiada dentro del marco clásico. Además, la teoría de respuesta a los ítems ha genera-
do nuevos avances tecnológicos para el análisis y construcción de los tests, entre los que
cabe destacar los Tests Adaptativos Computerizados y la Función de Información. Tam-
bién se comentan los problemas de la validez y el uso de los tests en la práctica.

Psychological measurement. This paper analyzes the principle issues involved in


the measurement of psychological variables along with various psychometric solutions
to these problems. First, emphasis is placed on the difficulties that arise in psychologi-
cal measurement due to the unique characteristics inherent in psychological events. The-
se intrinsic limitations, however, were not an obstacle to the development of a rigorous
empirical measurement tradition in psychology. This tradition originates in the psy-
chophysical works of Weber and Fechner as well as the classical test theory formulated
by Spearman. Moreover, two approaches to measurement theory, the classic one propo-
sed by Stevens and the representational view, investigate the logic and foundations of
measurement. This article pays special attention to the psychometric advances brought
by Item Response Theory, which resolves some of the problems not appropriately sol-
ved within the framework of classical test theory. Item response theory serves as the ba-
sis for new technologies to build and assess psychological and educational tests. Finally,
test validity and test use are discussed.

Correspondencia: José Muñiz


Universidad de Oviedo. Facultad de Psicología
Plaza de Feijoo
33003 Oviedo (Spain)
E-mail: jmuniz@sci.cpd.uniovi.es

1
LA MEDICIÓN DE LO PSICOLÓGICO

A grandes rasgos puede decirse que el que serán suficientes para comprender por
objetivo de la Psicología científica es el es- qué a veces la tecnología de la medición
tudio de la conducta humana y las leyes que psicológica se aleja de la metodología gene-
la rigen. Como ocurre con cualquier otra re- ral de la medición utilizada por las ciencias
alidad, para una comprensión adecuada de llamadas duras.
la conducta humana hay que entender tanto
sus aspectos cualitativos como cuantitati- Caracterización de lo psicológico
vos. A continuación trataré de exponer los
aspectos fundamentales implicados en la ¿Cuáles son las características esenciales
cuantificación y medición de las distintas que definen a lo psicológico como campo de
variables y factores que manejan los psicó- estudio? La conducta humana fermenta y se
logos, tanto en sus investigaciones como en desarrolla en una estrecha banda acotada por
la práctica profesional. No se trata de una una base neurobiológica y un entorno socio-
exposición técnica y exhaustiva, la situa- cultural. El yo psicológico, la individuali-
ción y el tiempo no lo permiten, pero sí de dad, la consciencia, y por ende la conducta,
subrayar las líneas centrales de la medición surgen de la interacción entre la estimula-
de los rasgos psicológicos y de los instru- ción ambiental y nuestra constitución bioló-
mentos más utilizados para ello, los tests. gica, pero no se explican ni se agotan en nin-
Medir es inherente a todas las ciencias, y guno de estos dos polos, son otra cosa. Pre-
la Psicología no es una excepción. Si bien cisamente es ése el campo interactivo en el
los principios generales de la teoría de la me- que se mueven los psicólogos, por eso no
dición son aplicables aquí como en el resto son ni biólogos, ni neurólogos, ni sociólo-
de los campos científicos, no es menos ver- gos, ni filósofos, son psicólogos. Cuando
dad que las peculiaridades de los objetos de desde la psicología se explica un determina-
estudio de algunos de estos campos imponen do fenómeno, ya sea una neurosis, una fobia,
determinadas especificidades a la lógica ge- el fracaso escolar o la inadaptación laboral,
neral, y ése es el caso de lo psicológico. se tienen en cuenta tanto los aspectos neuro-
El fin general de toda teoría de la medi- lógicos como los culturales, sociales y edu-
ción, trátese de la ciencia que se trate, es es- cativos, pero su explicación no se agota ni se
timar los errores aleatorios de las medicio- reduce a ninguno de esos ámbitos. Natural-
nes, pues toda medición, mayor o menor, mente, cuanto más avancen las ciencias afi-
conlleva un cierto error. Pero seguramente nes en las que se apoya la psicología tanto
estarán ustedes de acuerdo conmigo en que, mejor, pero eso no significa abogar por un
por ejemplo, no es lo mismo medir la dis- reduccionismo biológico o cultural. Los
tancia entre Oviedo y Gijón, cosa de la que avances en el conocimiento del cerebro ayu-
se ocupan nuestros colegas físicos, que me- dan sin duda a entender la psique y la con-
dir la distancia entre los ovetenses y los gi- ducta humanas, pero es ingenuo y erróneo
joneses, entre sus actitudes, valores, perso- pensar que, cuán glándula, el cerebro segre-
nalidad, etc., labor que ocupa a psicólogos, ga la psique, sencillamente no es así. Algo
sociólogos, antropólogos y otras ciencias parecido, salvando las distancias, a lo que
sociales. Por tanto, para entender cabalmen- ocurre con el software de los ordenadores,
te los problemas a los que se enfrentan los que está íntimamente relacionado con el
psicólogos al medir sus variables de estudio hardware, pero ni se explica ni se reduce a
es necesario tener en mente las singularida- él. ¿Es que alguien en su sano juicio cree que
des de su campo de estudio, de lo psicológi- podría entender todo lo que hacen los orde-
co. Diré dos palabras sobre ello, que creo nadores sólo estudiando su hardware? Evi-

2 Psicothema, 1998
JOSÉ MUÑIZ

dentemente, no, lo cual tampoco significa tervención tan variados como la Clínica,
que pueda prescindir de él. Trabajo, Educación, Deporte, Calidad de Vi-
Igual de erróneo es pensar que la con- da, Gerontología, Seguridad Vial, etc.
ducta humana venga completamente deter- Cada una de esas variables y campos de
minada por el entorno cultural y social; aplicación tiene su problemática específica,
afortunadamente pasaron los tiempos en los que sería vano intentar tratar aquí, sin em-
que aprendices de ingenieros sociales con- bargo, existen unos problemas generales en
fiaron en hallar un hombre nuevo con sólo la medición de lo psicológico que son inva-
modificar las circunstancias, qué ingenui- riantes a todos los campos y variables men-
dad, hoy sabemos de los nefastos resultados cionadas. En todos los casos, por un lado,
y del alto precio pagado. El ambiente exter- hay que estimar la cuantía de los errores co-
no está ahí, y es una variable clave en la mo- metidos al medir, y, por otro, hay que garan-
dulación de la conducta humana, pero nun- tizar que la medición no es baladí, que tiene
ca es el responsable final de ésta, nunca la entidad explicativa y predictiva. En otras pa-
determina completamente, el único respon- labras, hay que comprobar que las medicio-
sable es la persona. Si admitiésemos lo con- nes son fiables y válidas. Además de estas
trario, estaríamos negando de plano la liber- propiedades que deben de reunir todas las
tad, y, eliminada ésta, no queda lugar para la mediciones empíricas, los teóricos de la me-
dignidad y la responsabilidad, que brotan dición se ocupan de analizar y justificar de
directamente de ella. forma rigurosa el estatus métrico de las me-
Pues bien, en este ámbito peculiar e inte- diciones, contemplado a la luz de los avan-
ractivo, descrito a grandes rasgos, que carac- ces de la teoría de la medición. De esos tres
teriza a lo psicológico, no resulta sencillo grandes aspectos generales de la medición,
medir con rigor en sentido clásico, acorde fiabilidad, validez y fundamentos teóricos,
con los axiomas de Hölder (1901) y las pro- es de lo que nos ocuparemos aquí, pero an-
puestas ortodoxas de Campbell (1920, 1921, tes de entrar en ellos déjenme que diga unas
1928, 1938, 1940). Sin embargo, los psicó- palabras sobre cómo empezó todo, sobre los
logos miden sus variables y desarrollan so- orígenes de la medición psicológica.
fisticados instrumentos a tal efecto, los más
conocidos de los cuales para el público son Inicios de la medición
los tests, si bien los especialistas utilizan una
gama mucho más amplia en sus investiga- Los primeros intentos de medir con rigor
ciones e intervenciones. Y miden en campos los atributos psíquicos tuvieron lugar a fina-
muy diversos, según su área de especiali- les del siglo pasado en los laboratorios ale-
zación, que van desde los procesos más bá- manes, de la mano de Fechner (Fechner,
sicos, tales como los Tiempos de Reacción, 1860/1966), pionero de las investigaciones
Potenciales Evocados (Paz y Muñiz, 1989), sobre las relaciones entre la estimulación fí-
Tiempo de Inspección, Conductancia de la sica y las sensaciones psicológicas produci-
piel, etc., a los rasgos de personalidad, co- das por ésta. Para estudiar la conexión entre
mo Neuroticismo, Depresión, Psicoticismo, ambos continuos, el físico y el psicológico,
Autoconcepto, por citar algunos, o aspectos Fechner tenía que medir cada uno de ellos y
cognoscitivos, como la Inteligencia, Memo- luego establecer la relación correspondiente.
ria, Rapidez Perceptiva, Comprensión Ver- Si bien medir los estímulos físicos, tales co-
bal, etc., o variables más conectadas con la mo el peso, el sonido, la longitud, etc., no
esfera sociocultural como las actitudes y va- suponía ningún problema, se encontró con
lores. Y todo ello aplicado a campos de in- que no disponía de métodos para medir rigu-

Psicothema, 1998 3
LA MEDICIÓN DE LO PSICOLÓGICO

rosamente las sensaciones, para lo cual desa- La tradición psicofísica llega hasta nues-
rrolló todo un conjunto de ellos, hoy clási- tros días, constituyendo un campo con gran-
cos, denominados métodos psicofísicos indi- des implicaciones aplicadas, piénsese, por
rectos (Baird, 1997; Baird y Noma, 1978; ejemplo, en la importancia de conocer con
Blanco, 1996; Falmage, 1985; Fechner, precisión los efectos del ruido, la luminosi-
1966; Gescheider, 1985; Muñiz, 1991). Ba- dad, sabores, olores, etc., sobre nuestro sis-
sándose en los trabajos previos de Weber, tema perceptivo. En la actualidad gran par-
Fechner estableció que la función que unía te de las investigaciones psicofísicas se lle-
la estimulación física con las sensaciones van a cabo dentro del marco general de la
psicológicas suscitadas obedece a una fun- Teoría de la Decisión y de la Teoría de la
ción logarítmica. Ello quiere decir que al au- Detección de Señales (Egan, 1975; Green y
mentar la estimulación física geométrica- Swets, 1966; Swets, 1996), un modelo desa-
mente las sensaciones lo hacen aritmética- rrollado originariamente por los ingenieros
mente. O, en otras palabras, que si bien al para la detección de señales con ruido de
principio al aumentar la estimulación física fondo, y que se ajusta bien a los humanos
aumenta rápidamente las sensaciones, éstas considerados como perceptores de señales.
van necesitando cada vez mayor incremento El sistema perceptivo humano es muy
de la estimulación física para experimentar peculiar, y la Teoría de la Detección de Se-
algún aumento. La misma ley había sido ob- ñales permite estudiar su funcionamiento
servada con anterioridad en el campo de la bajo diferentes condiciones. El nuestro no
economía entre el crecimiento de la fortuna es un sistema perceptivo “neutral”, pues
y el placer experimentado por el afortunado. aunque con determinados invariantes, viene
Este campo de estudio iniciado por Weber y influido en gran medida por las consecuen-
Fechner se denomina Psicofísica, pues, co- cias de lo percibido, por la “matriz de pa-
mo su nombre indica, trata de poner en co- gos” asociada a la situación perceptiva, es
nexión las sensaciones psicológicas con la decir, el mismo sistema perceptivo actúa de
estimulación física que las suscita. La ley de distinta forma en función de la situación
Fechner ha sido revisada por la Nueva Psi- perceptiva. Esta versatilidad permite inves-
cofísica (Stevens, 1961, 1975), que defiende tigar y mejorar situaciones aplicadas de to-
que la función que une ambos continuos, el do tipo en las que los humanos tienen que
físico y el psicológico, no es logarítmica si- tomar decisiones, siendo clave, por ejem-
no potencial. Para someter a prueba su hipó- plo, para una racionalización y optimiza-
tesis han propuesto todo un conjunto de nue- ción de las condiciones de trabajo. Piénsese,
vos métodos psicofísicos alternativos a los sin ir más lejos, en situaciones tales como,
de Fechner, denominados directos. ¿bajo qué condiciones se maximiza la per-
cepción de piezas defectuosas por un traba-
jador de control de calidad?, o ¿cuáles son
Leyes Psicofísicas las causas de la accidentabilidad de los tra-
bajadores en puestos aislados? Esas pregun-
Función Logarítmica (Fechner): S = C log E tas y otras sólo tienen respuesta correcta
Función Potencial (Stevens): S = K Eb cuando se conoce el funcionamiento del sis-
tema perceptivo humano bajo determinadas
donde: condiciones.
S: es la medida de la sensación producida Nuestras percepciones vienen con fre-
E: es la medida de la estimulación física cuencia condicionadas por sesgos cuyo es-
C, K y b son constantes a determinar tudio es sumamente importante, tanto a ni-

4 Psicothema, 1998
JOSÉ MUÑIZ

vel teórico como aplicado, para entender el de sumo interés. Pocos productos salen hoy
comportamiento humano. Les citaré un al mercado sin un estudio concienzudo de
ejemplo clásico de uno de estos sesgos, ima- las actitudes de los consumidores hacia
gínense una ciudad en la que hay dos hospi- ellos, y es que la relación calidad/precio no
tales, uno grande, en el que nacen al mes lo es todo, así que no conviene confiar cie-
unos doscientos bebés, cien niños y cien ni- gamente en nuestro querido refrán asturiano
ñas aproximadamente, y otro pequeño, en el de que “el buen pan en la masera se vende”.
que sólo nacen veinte al mes, diez niños y Seguramente todos ustedes tienen alguna
diez niñas, más o menos. Si les digo que el experiencia de primera mano de lo difícil
último mes en uno de los dos hospitales to- que resulta que las personas cambien sus ac-
dos los nacidos fueron niñas, ¿de qué hospi- titudes, y es que están formadas por una tra-
tal se trata? ¿del grande o del pequeño? No ma en la que información, razón y emoción
hace falta que contesten aquí en público, pe- se entretejen de forma compleja. La razón y
ro sé de buena tinta que una parte impor- la información son importantes para que se
tante de ustedes por una curiosa razón, bien produzca un cambio de actitudes, pero rara-
estudiada por los psicólogos, pensó que se mente son suficientes sin apelar a los aspec-
trataba del hospital grande, cuando en reali- tos emocionales. Por ejemplo, dada la infor-
dad es obvio que se trata del pequeño. Si en mación de la que disponemos hoy acerca de
un caso tan claro como éste ya hay proble- los efectos cancerígenos del tabaco sobre
mas, ¿qué no ocurrirá en nuestra vida dia- los que fuman y los que les rodean, nadie
ria? Por ejemplo, ¿por qué los vendedores medianamente informado debería osar tocar
de lotería agotan rápidamente los números un cigarrillo, sin embargo la realidad es
“bonitos” y les cuesta tanto vender los “fe- muy otra. Los psicólogos que diseñan las
os”, si es obvio que la probabilidad de que campañas antitabaco saben esto y en sus
salgan es exactamente la misma para todos? anuncios tratan más bien de tocar la fibra
Seguramente dirán algunos de ustedes, “es sensible que de introducir nueva informa-
que la gente no es lógica”, y naturalmente ción en el sistema. De nuevo aquí observa-
tienen razón, la gente no es lógica, y es que mos que la conducta se aleja de la lógica li-
la conducta humana responde a las leyes de neal, y es que como nos recordó certera-
la psicología y no de la lógica, por eso se mente Kant, nada estrictamente recto puede
ocupan de ella los psicólogos y no los ex- hacerse del torcido leño del que están he-
pertos en lógica. chos los humanos.
Otro campo de la medición psicológica Esta es a grandes rasgos una de las vías
en la que desembocan estos estudios psico- por las que ha entrado la medición en psico-
físicos es la medición de las actitudes, en logía, y cuyo objetivo es el escalamiento de
cuyo caso desaparece el continuo físico los estímulos, bien sea con referente físico
(Thurstone, 1927, 1928; Summers, 1970; (Psicofísica), o sin él (Actitudes). La otra
Triandis, 1971). Medir actitudes es averi- gran línea de progreso de la medición, mu-
guar las preferencias de las personas hacia cho más conocida para el público en general
determinados estímulos, bien sean objetos, es el escalamiento de los sujetos, es decir,
ideas o conceptos. Las actitudes constituyen los tests. El origen de éstos hay que ubicar-
un entramado clave para entender a los hu- lo en las primeras pruebas sensomotoras uti-
manos, son el cristal a través del que mira- lizadas por Galton (1822-1911) en su famo-
mos el mundo. Medir su fuerza, conocer su so laboratorio antropométrico de Kensing-
formación, su relación con la conducta y la ton. El primero en utilizar la palabra “test
manera de cambiarlas constituyen campos mental” será James McKeen Cattell (1860-

Psicothema, 1998 5
LA MEDICIÓN DE LO PSICOLÓGICO

1944) en su artículo “Mental Tests and Me- diciones para que su uso sea el adecuado?
asurements” publicado en la revista Mind en Como ya se ha señalado, básicamente tres
1890. Un giro radical lo constituye la esca- propiedades: que sean fiables, que sean vá-
la individual construida por Binet y Simon lidas, y que estén bien fundamentadas teóri-
(1905) para la medición de la inteligencia, camente. Veamos cada una de ellas.
al introducir tareas de carácter más cognos-
citivo dirigidas a evaluar aspectos como el Fiabilidad
juicio, la comprensión y el razonamiento,
que según los autores constituían los com- Bajo la denominación genérica de fiabili-
ponentes fundamentales del comportamien- dad se agrupan todo un conjunto de méto-
to inteligente. Pero la verdadera eclosión de dos y técnicas utilizadas por los psicólogos
los tests se producirá tras la primera guerra para estimar el grado de precisión con el
mundial. Cuando Estados Unidos decide que están midiendo sus variables. Hace más
entrar en la guerra no dispone de ejército, y de cuarenta años, Robert L. Thorndike em-
la selección y clasificación de los soldados pezaba su famoso trabajo sobre fiabilidad
se lleva a cabo confiando en los test Alfa y con estas palabras: “Cuando medimos algo,
Beta, diseñados a tal efecto por un comité bien sea en el campo de la física, de la bio-
dirigido por el psicólogo Yerkes. Puesto que logía o de las ciencias sociales, esa medi-
los aliados ganaron la guerra, no sabemos ción contiene una cierta cantidad de error
que hubiera pasado con los tests si la hubie- aleatorio. La cantidad de error puede ser
ran perdido, no parecía que los tests hubie- grande o pequeña, pero está siempre presen-
sen hecho un mal trabajo, de modo que la te en cierto grado” (Thorndike, 1951, pág.
industria y las instituciones se volcaron en 560). Sus palabras siguen siendo tan ciertas
su uso para todo tipo de fines, especialmen- hoy como entonces, pues en lo esencial los
te en la selección de personal y en la orien- problemas de la medición cambian poco,
tación profesional y educativa. Su uso masi- aunque los instrumentos de medida vayan y
vo se extiende hasta nuestros días, siendo vengan. Ahora bien, ¿cómo estiman los psi-
difícil encontrar a alguien en las sociedades cólogos el grado de error que hay en sus me-
desarrolladas que primero o después no se diciones? Veamos la lógica general.
tenga que enfrentar a ellos. Cuando un psicólogo aplica un test, una
En resumen, puede decirse que las dos escala o cualquier otro instrumento de me-
grandes avenidas de entrada de la medición dida a una persona, obtiene una cierta pun-
en Psicología fueron a través del escala- tuación, que por razones obvias se denomi-
miento de estímulos (Psicofísica y Actitu- na puntuación empírica. ¿Cómo estar segu-
des) y escalamiento de sujetos (Tests). Co- ros de que esa puntuación obtenida es la que
mo casi toda partición, ésta tiene también verdaderamente le corresponde a esa perso-
algo de arbitrario, pues la mayoría de los na en esa prueba? En otras palabras, ¿cuán-
modelos podrían generalizarse tanto a estí- to error afecta a esa puntuación empírica?
mulos como a sujetos, si bien no faltan pro- Responder estas preguntas es el objetivo de
blemas específicos que justifiquen la divi- la fiabilidad. Visto así de frente, parecería
sión (Muñiz y Hambleton, 1992). Ambos que tales interrogantes son incontestables,
acercamientos tendrán sus síntesis más clá- pues, al fin y al cabo, el error cometido, sea
sicas en los textos de Gulliksen (1950) y el que sea, está diluido en la puntuación em-
Torgerson (1958) respectivamente. pírica y no hay manera de separarlo. Efecti-
Ahora bien, se mida de un modo u otro, vamente, no la hay directamente, como ocu-
¿qué condiciones deben de reunir esas me- rre también con los compuestos químicos.

6 Psicothema, 1998
JOSÉ MUÑIZ

Por ejemplo, sabemos que el agua del mar prueba, que llamaremos V, y un cierto error
contiene cierta cantidad de sal, pero para es- e. Es decir, formalmente el modelo se po-
timar con precisión la cantidad de sal habrá dría expresar así:
que buscar alguna técnica indirecta que per-
mita la separación. Esas técnicas en el caso X=V+e (1)
de los tests las proporcionarán los estudios
de fiabilidad. Nótese que este problema de Donde X es la puntuación empírica obte-
estimar los errores de medida es común a nida, V la puntuación verdadera y e el error
todas las ciencias, pudiendo decirse que la de medida.
lógica seguida también lo es, si bien la na- Para poder derivar las fórmulas necesa-
turaleza de las variables medidas en las dis- rias para el cálculo de la fiabilidad, Spear-
tintas ciencias impone ciertas peculiarida- man añade al modelo tres supuestos y una
des. Por ejemplo, cuando pesamos un obje- definición. Asume que 1) la verdadera pun-
to y obtenemos un cierto valor, o aplicamos tuación de una persona en una prueba sería
un test a un sujeto y saca una determinada la que obtendría como promedio si se le
puntuación empírica, o medimos la distan- aplicase infinitas veces la prueba [V=
cia entre dos ciudades, en los tres casos se E(X)], 2) no hay relación entre la verdadera
nos plantea la duda de cuánto error estamos puntuación de las personas y los errores de
cometiendo. Pues bien, para el caso de las medida (ρve= 0), y 3) los errores de medida
variables psicológicas, la propuesta pionera de los tests no están relacionados [ρ(ej,ek)=
y más fructífera para la estimación de los 0]. Además, define el concepto de tests pa-
errores fue hecha ya a principios de siglo ralelos como aquéllos que miden lo mismo
por Spearman (1904, 1907, 1913) y la de- aunque utilizando distintos ítems. Todo lo
nominamos hoy Modelo Lineal Clásico, cual puede expresarse del siguiente modo:
dando origen a todo un enfoque general so-
bre los tests que suele conocerse como Teo-
ría Clásica de los Tests. A partir sobre todo Modelo Lineal Clásico
de los años 60-70 aparecen nuevos modelos
para abordar la estimación de los errores de Modelo: X= V+e
medida, agrupándose los más utilizados ba- Supuestos: V= E(X)
jo la denominación genérica de Teoría de ρve= 0
Respuesta a los Items. ρ(ej,ek)= 0
Definición: Dos tests j,k se consideran para-
Modelo Clásico lelos si: Vj = Vk y σ2ej= σ2ek

La propuesta de Spearman para estimar


los errores cometidos al medir es un claro A partir del modelo, mediante los desa-
ejemplo de cómo a partir de un sencillo mo- rrollos correspondientes, que aquí se omi-
delo y de unas asunciones básicas es posible ten, va a ser posible llegar a fórmulas ope-
deducir las fórmulas más complejas para la rativas para la estimación de los errores (e),
estimación de los errores de medida. y por ende de las puntuaciones verdaderas
En primer lugar, Spearman considera que (V) de los sujetos. Todas estas deducciones
la puntuación empírica de un sujeto en una necesarias son lo que conforma el corpus
prueba, puntuación que llamaremos X, psicométrico de la teoría clásica de los tests,
consta de dos componentes, la puntuación cuya formulación se recoge en textos tan
que verdaderamente le corresponde en esa clásicos como los de Gulliksen (1950) o

Psicothema, 1998 7
LA MEDICIÓN DE LO PSICOLÓGICO

Lord y Novick (1968). Exposiciones siste- (1945), Flanagan (1937), KR20 y KR21 (Ku-
máticas pueden consultarse también en der y Richardson, 1937), o el popular Coefi-
Guilford (1936, 1954), Magnuson (1967), ciente Alfa (Cronbach, 1951), que expresa la
Allen y Yen (1979), Thorndike (1982), fiabilidad del test en función de su consis-
Crocker y Algina (1986) o Traub (1994). En tencia interna. Una forma alternativa pero
castellano véase, por ejemplo, Yela (1984), equivalente de expresar la fiabilidad de los
Santisteban (1990), García-Cueto (1993) o tests es mediante el Error Típico de Medida,
Muñiz (1994, 1996a). o fiabilidad absoluta.
Mediante los desarrollos correspondien- Se utilice el índice que se utilice, y en ca-
tes se obtiene la fórmula del Coeficiente de da caso hay razones técnicas para utilizar
Fiabilidad (ρxx’) que permite estimar la uno u otro, lo importante es que toda medi-
cuantía de los errores cometidos al medir. ción lleva asociado un grado de precisión
Su fórmula expresa la cantidad de varianza que es empíricamente calculable. Tal vez al-
de verdadera medida (σ2v) que hay en la guno de ustedes se pregunte por qué se co-
empírica (σ2x), o en términos de la Teoría de meten errores al medir, o, en otras palabras,
la Información, la proporción señal-ruido cuáles son las fuentes del error más habitua-
del proceso de medición: les en la medición psicológica. Es este un
asunto exhaustivamente estudiado por los
ρxx’= σ2v/σ2x (2) especialistas, que han llegado a clasificar
con todo detalle las posibles fuentes de error
Lo ideal es que toda la varianza empírica (Cronbach, 1947; Schmidt y Hunter, 1996;
se deba a la verdadera, lo cual ocurriría Stanley, 1971; Thorndike, 1951), si bien
cuando σ2v= σ2x, en cuyo caso la fiabilidad simplificando bastante puede decirse que
es perfecta, la prueba mide sin ningún error. son tres las grandes avenidas por las que pe-
El cálculo empírico del valor del coeficiente netra el error aleatorio en la medición psi-
de fiabilidad no se puede llevar a cabo me- cológica: a) la propia persona evaluada, que
diante la fórmula (2), que es meramente con- viene con determinado estado de ánimo, ac-
ceptual; la estimación empírica puede obte- titudes y temores ante el test, ansiedad, o
nerse utilizando varias estrategias, entre las cualquier tipo de evento previo a su evalua-
que destacan: a) la correlación entre dos for- ción, todo lo cual puede influir en la cuantía
mas paralelas del test, b) la correlación entre de los errores, b) el instrumento de medida
dos mitades aleatorias del test corregida me- utilizado, que con sus características especí-
diante la fórmula de Spearman-Brown, y c) ficas puede influir diferencialmente en los
la correlación entre dos aplicaciones del evaluados, y c) la aplicación, corrección e
mismo test a una muestra de personas. Cada interpretación hecha por los profesionales.
uno de estos procedimientos tiene sus pros y Si todo se hace con rigor se minimizarán los
sus contras y se ajustan mejor a unas situa- errores en todo el proceso, y es precisamen-
ciones que a otras. En todos los casos el va- te de lo que nos informa la fiabilidad de la
lor obtenido es un valor numérico entre 0 y prueba, de los errores cometidos. Una vez
1, indicando a medida que se acerca a 1 que conocida la cuantía de estos errores, a partir
el test está midiendo con precisión. Dado de la puntuación empírica resulta sencillo
que la fórmula (2) es conceptual, no operati- estimar a cierto nivel de confianza elegido
va, en literatura abundan las fórmulas clási- la puntuación verdadera de las personas en
cas para la obtención del valor empírico del una prueba. Si la fiabilidad de una prueba es
coeficiente de fiabilidad, entre las que cabría perfecta (ρxx’=1), las puntuaciones empíri-
destacar las de Rulon (1939), Guttman cas y las verdaderas de las personas en di-

8 Psicothema, 1998
JOSÉ MUÑIZ

cha prueba coincidirán, pero si no es perfec- cobertura teórica a la mayoría de las aplica-
ta las puntuaciones verdaderas de las perso- ciones de los tests, y puede decirse que, con
nas en el test se estiman mediante un inter- sus luces y sus sombras, el balance es clara-
valo confidencial en torno a la puntuación mente positivo (Muñiz, 1994). Ello no quie-
empírica. La implicación práctica inmediata re decir que no hubiese ciertos problemas y
de todo ello es que si se toman decisiones ciertas áreas en las que el enfoque clásico
importantes basadas en las puntuaciones de mostrase limitaciones. Las dos más impor-
las personas en los tests hay que asegurarse tantes, en las que no voy a entrar aquí, se re-
de que éstos tienen una fiabilidad elevada. fieren 1) a la ausencia de invarianza de las
Ahora bien, el modelo lineal clásico in- mediciones respecto del instrumento utiliza-
forma de la cuantía de los errores, pero no de do, es decir, bajo el modelo clásico cuando
la fuente originaria de éstos, que asume ig- se utilizan tests distintos para evaluar la
nota y aleatoria. Otros muchos modelos se misma variable no se obtienen directamente
han ocupado de desglosar el error y ofrecer resultados en la misma escala, por lo que
así no sólo la fiabilidad, sino también el ori- hay que proceder a equiparar las puntuacio-
gen de los errores (Bock y Wood, 1971; No- nes obtenidas. Y 2) a la dependencia que las
vick, 1966; Sutcliffe, 1965), pero su comple- propiedades del instrumento utilizado tie-
jidad técnico-formal y las complicaciones nen de las propias personas evaluadas, lo
operativas introducidas, en relación con las cual no es deseable dentro de un marco ri-
ventajas ofrecidas, ha hecho que ninguno ha- guroso de medición.
ya cuajado en la práctica. Mención especial Aparte de estas dos limitaciones de fon-
al respecto merece la Teoría de la Generali- do, en lo que concierne al cálculo de la fia-
zabilidad propuesta por Cronbach y colabo- bilidad de los tests, el problema que no en-
radores (Cronbach, Rajaratnam, Glesser, contraba una respuesta adecuada dentro del
1963; Glesser, Cronbach y Rajaratnam, marco clásico era el de la dependencia entre
1965). Mediante el uso de complejos diseños la cantidad de error y el nivel de las perso-
de Análisis de Varianza, este modelo permi- nas en la variable medida. Me explico. Den-
te hacer estimaciones sobre el tamaño de dis- tro del marco clásico se estima el coeficien-
tintas fuentes de error previamente contem- te de fiabilidad de una determinada prueba y
pladas en el proceso de medición. El progra- se asume que es el mismo para todas las per-
ma de ordenador GENOVA (Crick y Bren- sonas a las que se aplica la prueba; sin em-
nan, 1982) ha sido especialmente diseñado bargo, se ha ido acumulando suficiente evi-
para llevar a cabo los cálculos implicados en dencia empírica a lo largo de los años que
el modelo. En 1972 los autores publican un demuestra que el mismo test no mide con la
exhaustivo tratado (Cronbach, Glesser, Nan- misma precisión a todas las personas, que su
da, y Rajaratman, 1972), verdadera biblia del precisión está en función del nivel de la per-
modelo, pudiendo consultarse también expo- sona en la variable medida. Sin salirse del
siciones sistemáticas en Brennan (1983), marco clásico la solución más lógica a este
Crocker y Algina (1986), Shavelson y Webb problema es calcular diferentes coeficientes
(1991) o Shavelson, Webb y Rowley (1989); de fiabilidad para una prueba en función de
en castellano véase Paz (1994). los distintos niveles de puntuaciones de las
personas evaluadas, lo cual es práctica habi-
Teoría de Respuesta a los Items tual (Feldt y Qualls, 1996; Lord, 1984;
Qualls, 1992; Thorndike, 1951). Si bien es
A lo largo de este siglo la Teoría Clásica esta una salida enjundiosa al problema, la
de los tests y sus variantes han ido dando solución radical y novedosa va a venir de la

Psicothema, 1998 9
LA MEDICIÓN DE LO PSICOLÓGICO

mano de un nuevo enfoque psicométrico mismo test para evaluar a todas las perso-
que domina la escena actual de la medición nas, se elige aquél que mida con mayor pre-
psicológica y educativa denominado Teoría cisión a cada cual, es lo que se ha dado en
de Respuesta a los Items (TRI). llamar Tests Adaptativos Computerizados
Bajo la óptica de la TRI la fiabilidad de (Olea y Ponsoda, 1996; Renom, 1993; Wai-
una prueba pasa a denominarse Función de ner, 1990), ampliamente utilizados en otros
Información, y es una función matemática países y en fase embrionaria en el nuestro,
continua a lo largo de la escala de las pun- aunque algunas compañías multinacionales
tuaciones de la prueba (Véase su fórmula ya los utilizan en España para certificacio-
matemática más adelante, una vez formula- nes profesionales.
dos los modelos de TRI). Es decir, el test ya Tal vez se pregunten ustedes, cómo se
no tiene un coeficiente de fiabilidad deter- procede para elegir la prueba más adecuada
minado, éste depende, está en función, del para cada persona. La estrategia consiste en
nivel de la persona en la variable medida. buscar aquella prueba cuya dificultad mejor
La fiabilidad se expresa mediante una fun- se ajuste al examinado. Para ello se van
ción (Función de Información) que toma presentando uno a uno los ítems extraídos
distintos valores según el nivel de la perso- de un Banco de ítems y en función de las
na en el test. De modo que el mismo test es respuestas, según sean aciertos o errores, se
más fiable para unas personas que para va aumentando o disminuyendo la dificul-
otras, lo cual no es difícil de entender. tad de los ítems subsiguientes. De este mo-
Piénsese, por ejemplo, en una prueba edu- do se evita presentar los ítems muy difíciles
cativa de cualquier materia que sea real- a las personas con un nivel bajo y los muy
mente difícil, muy difícil, será precisa para fáciles a las de nivel elevado, con el consi-
evaluar a los muy competentes en la mate- guiente ahorro de tiempo y mejora de la
ria, pero todos los que posean conocimien- motivación y fiabilidad de la prueba. Podría
tos medios o bajos sacarían (en el caso ex- parecer que por esta regla de tres aquéllos
tremo) un cero, la prueba no discrimina en- que reciben ítems fáciles saldrían favoreci-
tre ellos, está midiendo sus conocimientos dos, pero no hay tal, puesto que cara a la
con un error elevado. Es lo mismo que ocu- puntuación final no es lo mismo acertar
rre cuando se desea medir con precisión la ítems fáciles que difíciles, éstos puntúan
altura que salta una persona, hay que ir más. El uso de estas pruebas está cambian-
ajustando el listón a sus posibilidades hasta do la forma tradicional de evaluar y en paí-
encontrar justamente lo que es capaz de su- ses como Estados Unidos, Holanda, Israel o
perar. Mutatis mutandis, lo mismo ocurre Canadá, por citar algunos, son de uso gene-
para medir con precisión el nivel de una ralizado para el acceso a la universidad, al
persona en una variable psicológica o edu- doctorado, o para certificaciones profesio-
cativa. La tecnología evaluativa basada en nales. Señalar, de paso, que cuando se ob-
la teoría de respuesta a los ítems nos ha li- servan los avances habidos en los últimos
berado de la necesidad de tener que utilizar años en el campo de la evaluación psicoló-
el mismo test con todas las personas para gica y educativa y vemos, por ejemplo,
poder compararlas. ahora que está en boca de todos, cómo se
Esta nueva conceptualización del error lleva a cabo la Selectividad Universitaria
permitida por el marco de la TRI ha llevado en España, uno tiene la impresión de estar
a una verdadera revolución en la evaluación circulando en un carro de bueyes en tiem-
psicológica y educativa en los últimos años. pos del automóvil y de las autopistas infor-
Puesto que ya no es necesario utilizar el máticas. Técnicamente nuestro sistema de

10 Psicothema, 1998
JOSÉ MUÑIZ

selectividad es manifiestamente mejorable, jetos con las probabilidades de que acier-


y no hacen falta grandes inventos, basta con ten un ítem es a lo que se denomina Curva
echar una ojeada alrededor y ver lo que se Característica del Item (CCI), dado que
hace en otros países. ciertamente califica, caracteriza al ítem.
Cada ítem tendrá la suya propia, su carnet
Conceptos básicos de la TRI de identidad. Las CCI más habituales
adoptan la forma de “S” como las de la fi-
Conviene señalar de entrada que los nue- gura 1.
vos modelos de TRI no reemplazan al enfo-
que clásico, sino que mas bien constituyen
un excelente complemento, permitiendo re-
solver problemas que no encontraban solu-
ción adecuada en el marco clásico, e impul-
sando otros campos completamente nove-
dosos de la medición psicológica y educati-
va. Los orígenes lejanos de la TRI (Muñiz y
Hambleton, 1992) pueden rastrearse en los
trabajos pioneros de Richardson (1936),
Lawley (1943), Tucker (1946), Lord (1952,
1953a) y Birnbaum (1957), si bien su ver- Figura 1. Curvas características de cinco ítems con di-
dadero desarrollo surge a raíz del trabajo de ferentes parámetros.
Rasch (1960), y, sobre todo, del libro de
Lord y Novick (1968). A partir de entonces En el eje de abscisas aparecen los va-
se produce una eclosión de publicaciones y lores de la variable medida, denominada
de programas de ordenador que permitirán (θ), que está expresada en una escala que
la aplicación de la TRI en la práctica. En la va de –∞ a +∞. En ordenadas aparece la
actualidad las fuentes bibliográficas son probabilidad de acertar el ítem. Ello
abundantes (Hambleton, 1990, 1994; Ham- quiere decir que mediante la CCI sabe-
bleton y Swaminathan, 1985; Hambleton et mos la probabilidad de que las personas
al., 1991; López-Pina, 1995; Lord, 1980; con un determinado valor de θ superen el
Muñiz, 1997, 1996b). ítem.
Si la piedra angular del enfoque clásico La forma exacta de la CCI va a quedar
era asumir que la puntuación empírica ve- especificada una vez que se elija una fun-
nía dada por la verdadera más un error ale- ción matemática genérica, por ejemplo la
atorio (X= V+e), la TRI va a hacer una curva Normal acumulada, o la Función
asunción ciertamente más restrictiva, a sa- Logística, entre otras, y se determinen los
ber, que existe una relación matemática o parámetros correspondientes que la singu-
función que conecta la competencia de los larizan. Según el tipo de curva que se
sujetos con la probabilidad de que éstos adopte y el número de parámetros que se
respondan correctamente a los ítems. En contemplen se tendrán los distintos tipos
otras palabras, que dada la competencia de de modelos de TRI. Aunque las posibili-
una persona en la variable medida, conoce- dades son casi ilimitadas, a modo de ilus-
mos la probabilidad que tiene de acertar el tración se presentan a continuación los
ítem. tres más utilizados en la práctica, que
A la función matemática asumida que adoptan la Función Logística como Curva
une los niveles de competencia de los su- Característica:

Psicothema, 1998 11
LA MEDICIÓN DE LO PSICOLÓGICO

Modelos Logísticos de 1, 2 y 3 parámetros donde:


n: número de ítems del test
Pi(θ) = eD(θ-bi)/[1+eD(θ-bi)] (3) Pi(θ): valores de las CCI de los ítems
Pi(θ) = eDai(θ-bi)/[1+eDai(θ-bi)] (4) Qi(θ): 1- Pi(θ)
Pi(θ) = ci + (1-ci)[eDai(θ-bi)]/[1+eDai(θ-bi)] (5) P’i(θ): Derivada de Pi(θ)

donde:
θ: representa los valores de la variable me-
dida
Pi(θ): probabilidad de acertar el ítem para
un determinado valor de θ
ai: índice de discriminación del ítem
bi: índice de dificultad del ítem
ci: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D=1,7 los valores se
acercan a los generados por la distribu- Figura 2. Funciones de Información de cinco ítems y
ción Normal) del Test formado por ellos.

En suma, bajo el enfoque de la teoría de


La estimación de los parámetros de los respuesta a los ítems los errores cometidos al
modelos se lleva a cabo mediante diversos medir se estiman mediante la Función de In-
programas de ordenador existentes a tal formación, que permite especificar la preci-
efecto (BICAL, BILOG, LOGIST, MULTI- sión de las mediciones en función del nivel
LOG, RASCAL, ASCAL, etc.), la mayoría de las personas en la variable medida. Esto
de los cuales utilizan procedimientos de má- supone un avance importante respecto del
xima verosimilitud o bayesianos. Aparte de coeficiente de fiabilidad clásico y abre todo
los tres modelos incluidos aquí por ser de un abanico nuevo de posibilidades en el
los primeros formulados y muy utilizados campo de la medición psicológica y educati-
en la práctica, las líneas de investigación va.
más activas trabajan actualmente con mode-
los bastante más complejos, una buena revi- Validez
sión de los cuales puede consultarse en Van
der Linden y Hambleton (1997). Determinar la cantidad de error de los
instrumentos de medida es básico para cual-
Función de Información del test quier ciencia, y hemos visto en líneas gene-
rales cómo se lleva a cabo para el caso de
Una vez estimados los parámetros del los tests desde distintos enfoques psicomé-
modelo puede calcularse la Función de In- tricos. Pero el problema de la medición no
formación del test, que indica la precisión sólo no acaba ahí, casi puede decirse que
con la que éste mide a lo largo de la escala empieza, pues una vez que existen garantías
de la variable medida: de que un instrumento mide con precisión,
surge la pregunta clave: ¿son válidas las in-
n ferencias hechas a partir de él? Porque no se

[ P'i (θ)] 2
I(θ) = trata sólo de medir con precisión, además, y,
Pi (θ)Qi (θ) sobre todo, hay que garantizar que las infe-
i=1

12 Psicothema, 1998
JOSÉ MUÑIZ

rencias y decisiones que se hacen basadas to (Anastasi, 1986; Messick, 1989; Muñiz,
en esas mediciones son correctas. Es este el 1994; Paz, 1996; Wainer y Braun, 1988).
problema de la Validez, concepto clave de la La validez de contenido tiene un carácter
medición en las ciencias sociales. Que las básico, y va encaminada a comprobar que la
mediciones sean fiables es una condición prueba recoge una muestra representativa
necesaria, pero no suficiente para que sean de los contenidos correspondientes al cam-
válidas. Se puede estar midiendo con gran po evaluado. Por ejemplo, si se trata de una
precisión algo que no tiene ninguna capaci- escala de actitudes hay que asegurarse que
dad explicativa o predictiva. No en vano los todos los componentes que conforman la
grandes debates acerca de la utilidad de los actitud están representados en la escala, o si
tests, las escalas y otras mediciones psicoló- la prueba es de ansiedad, que no se dejan
gicas y educativas se centran generalmente fuera aspectos importantes. No estará de
en torno al problema de su validez. más señalar dentro de este marco profesoral
Para probar la validez de las inferencias en el que nos encontramos, que este aspecto
hechas a partir de las pruebas, como ocurre tan elemental de la validez es descuidado
para someter a prueba cualquier otra hipóte- con demasiada frecuencia por los profesores
sis científica, hay que recoger evidencia em- en sus exámenes, al no constituir éstos una
pírica que corrobore o refute las inferencias. muestra representativa de la materia a eva-
Como señala Messick (1989), la validación luar, con lo que se abre la puerta al azar en
de un test abarca todas las cuestiones experi- las calificaciones. Personalmente, me sor-
mentales, estadísticas y filosóficas por me- prenden con frecuencia las ideas tan inge-
dio de las cuales se evalúan las hipótesis y nuas de muchos profesores acerca de la me-
teorías científicas. En realidad lo que se va- dición educativa, a pesar de la importancia
lida no es la prueba en sí, sino las inferencias que tiene sobre las vidas futuras de los
hechas a partir de ella. La forma estándar de alumnos. Conscientes de este problema, por
validar las inferencias es derivar prediccio- ejemplo, recientemente en Estados Unidos
nes y contrastarlas con los datos. Con sus lu- el sindicato de profesores más importante
ces y sus sombras, el método hipotético de- (American Federation of Teachers, 1990),
ductivo experimental sigue siendo el canon junto con otras organizaciones, ha publica-
para la validación, eso sí, sin ingenuidades do unos estándares técnicos que los profe-
acerca de su infabilidad, y conscientes de sus sores deben de seguir en sus evaluaciones.
limitaciones, bien avisados, como estamos, La Validez Predictiva se centra en la
por los ríos de tinta que los teóricos y los fi- comprobación de que las pruebas predicen
lósofos de la ciencia han vertido y vierten al aquello para lo que fueron diseñadas. Cons-
respecto (Block, 1980, 1981; Bunge, 1985; tituye un aspecto clave en la utilización
Feyerabend, 1981; Fuentes, 1994; Hanson, aplicada de los tests y las escalas en ámbitos
1969; Kendler, 1981; Kuhn, 1962; Lakatos y en los cuales se toman decisiones importan-
Musgrave, 1970; Mayor, 1989; Pinillos, tes para las personas basándose en las prue-
1980; Popper, 1959, 1963, 1972; Staats, bas, por ejemplo en el ámbito de la selec-
1983; Staats y Mos, 1987; Suppe, 1977; ción de personal, orientación, o situaciones
Toulmin, 1972; Yela, 1987, 1994; etc.) de carácter clínico, por citar algunos. La ca-
Dentro de ese marco general hay tres pro- pacidad predictiva de una prueba suele ex-
cedimientos clásicos y muy utilizados para presarse mediante su Coeficiente de Validez
recabar información empírica probatoria de (ρxy), que es la correlación entre las puntua-
la validez, denominados Validez de Conteni- ciones en la prueba (x) y la ejecución en el
do, Validez Predictiva y Validez de Construc- criterio que se pretende predecir (y). A me-

Psicothema, 1998 13
LA MEDICIÓN DE LO PSICOLÓGICO

dida que el valor del coeficiente de validez las puntuaciones en los tests de inteligencia
se acerca a 1 mayor es la capacidad predic- son bastante estables a lo largo de la vida de
tiva de la prueba. Cuando se utilizan varias las personas, lo cual no quiere decir que no
pruebas para predecir un criterio se utiliza cambien ni sean modificables (Neisser et
como coeficiente de validez la correlación al., 1996). Lo que mejor predicen los tests
múltiple de las pruebas con el criterio (Ryy’). de inteligencia es el rendimiento escolar,
La Validez de Constructo, propuesta ori- con una correlación en torno a 0.50 entre las
ginariamente por Cronbach y Meehl (1955), puntuaciones en los tests de inteligencia y
trata de asegurar que las variables o cons- las notas escolares. Ello significaría que la
tructos medidos, además de capacidad pre- inteligencia explica sólo un 25% del rendi-
dictiva, tienen entidad y rigor, y se encuen- miento escolar. El otro 75% vendría expli-
tran insertas dentro de un marco teórico co- cado por otros factores tales como persis-
herente. Las formas de recoger evidencia tencia, motivación, interés académico, fac-
empírica para comprobarlo son en general tores culturales, refuerzos recibidos de los
las utilizadas para comprobar cualquier teo- padres y maestros, competencia del profe-
ría científica, si bien se han hecho habituales sor, etc. (Neisser et al., 1996). Esta relación
las recogidas de datos a través de una matriz positiva entre la inteligencia tal como la mi-
multirrasgo multimétodo (Campbell y Fiske, den los tests y el rendimiento escolar tiene
1959), o mediante diferentes técnicas de como consecuencia que los niños más inte-
análisis multivariado, entre las que destaca ligentes permanecen por término medio más
el Análisis Factorial, tanto exploratorio co- años dentro del sistema educativo, con los
mo confirmatorio. En el primer caso suele efectos positivos que ello conlleva para su
hablarse de validez convergente-discrimi- éxito social y laboral, por lo que indirecta-
nante y en el segundo de validez factorial. mente los tests de inteligencia también tie-
En definitiva, para poder asegurar que una nen poder predictivo para estos aspectos. La
prueba psicológica, educativa o sociológica validez de las mediciones de la inteligencia
es válida hay que aportar diferentes tipos de para predecir aspectos de la vida laboral y
evidencia que lo garantice, no se pueden ha- social de las personas no es que sea muy
cer afirmaciones generales ni definitivas, elevada, en torno al 25%, pero si hay que
pues como cualquier otra validación científi- elegir un sólo predictor, sigue siendo segu-
ca, la de los tests es un proceso abierto en el ramente el mejor del que se dispone. Curio-
que siempre cabe añadir nueva evidencia em- samente, se conocen más exhaustivamente
pírica que corrobore o refute la pertinencia de las predicciones que se pueden hacer a par-
las inferencias hechas a partir del test. tir de las mediciones de la inteligencia (va-
lidez predictiva) que la propia naturaleza de
El uso de los tests la inteligencia (validez de constructo), exis-
tiendo un intenso debate acerca de los fac-
Un buen ejemplo de este proceso conti- tores responsables de las diferencias indivi-
nuo de validación lo constituyen los Tests de duales en inteligencia, en el cual los tres in-
Inteligencia. Tras ya casi un siglo de inves- gredientes básicos son la herencia, el am-
tigación empírica desde que apareciese el biente y los procesos psicológicos básicos,
primer test propiamente de inteligencia, tales como tiempos de reacción, potenciales
propuesto por Binet, hoy conocemos bas- evocados, tiempo de inspección, capacidad
tante bien con qué fines pueden usarse y con atencional, rapidez de acceso a la memoria,
cuales no, aunque queden aún varias cues- etc. Si bien la teorización sobre la inteligen-
tiones abiertas. Por ejemplo, sabemos que cia ha avanzado notablemente, en compara-

14 Psicothema, 1998
JOSÉ MUÑIZ

ción los tests con los que se mide no han ex- el juicio subjetivo de supervisores y profe-
perimentado grandes cambios (Sternberg y sores. Ése fue su espíritu originario, y sigue
Kaufman, 1996). siéndolo, sus problemas potenciales de uso
Como no podía ser de otro modo, existen no deben enmascarar el paso adelante que
tests malos, regulares, buenos y muy bue- supone esta filosofía frente a posiciones re-
nos, es el profesional en cada caso el que trógradas como las mencionadas, tendentes
tiene que evaluar la calidad y proceder en a mantener el statu quo, independientemen-
consecuencia. Como ocurre con las tecnolo- te de la valía personal.
gías de otros muchos campos del saber,
siempre existe la posibilidad de su uso ina- Teoría de la Medición
decuado, observándose últimamente un in-
terés especial en las organizaciones profe- Paralelo a la medición empírica de las
sionales por impulsar los aspectos éticos de variables psicológicas, cuya problemática
la práctica, especialmente en lo que a los se acaba de exponer a grandes rasgos, exis-
instrumentos de medida se refiere (Franca- te toda una línea de trabajo más teórica en-
Tarragó, 1996; Keith-Spiegel y Koocher, caminada al análisis del estatus teórico de
1985; Kimmel, 1996; Muñiz, en prensa; las mediciones psicológicas, que hinca sus
Schmeiser, 1992; Schuler, 1982; Stanley, raíces en los trabajos originarios del campo
Sieber y Melton, 1996). Debido a que la de la Física (Campbell, 1920, 1921, 1928,
mayoría de los problemas con los instru- 1938; Hölder, 1901). Será precisamente un
mentos de medida psicológicos y educati- comité de expertos dirigidos por Campbell
vos provienen en gran parte de su uso ina- quienes en 1940 (Campbell et al., 1940)
decuado más que de las propiedades técni- emitan un informe en el que dudan que las
cas per se, existe actualmente un debate en mediciones de carácter psicológico y psico-
curso entre los investigadores y profesiona- físico reúnan las condiciones exigidas por
les acerca de la conveniencia o no de incluir los axiomas de Hölder (1901). La aproxi-
las consecuencias del uso de las pruebas mación de Campbell al problema de la me-
dentro del propio marco de la validez (Linn, dición era ciertamente restrictiva y tomada
1997; Mehrens, 1997; Messick, 1980, 1989, al pie de la letra dejaría fuera incluso mu-
1995; Popham, 1997; Shepard, 1997). chas de las mediciones físicas, por lo cual
Señalar, finalmente, que el uso adecuado ya fue criticada por el propio Bertrand Rus-
de los instrumentos de medida no sólo im- sell (1937). El argumento central de Camp-
plica que las propiedades técnicas (Fiabili- bell era que para poder hablar de medición
dad y Validez) sean las adecuadas, hay otros debe de darse un isomorfismo entre la can-
aspectos relativos a la propia situación de tidad y las magnitudes de la propiedad a
aplicación que deben de controlarse, tales medir; para lo cual había que demostrar que
como la relación examinado-examinador, la las magnitudes obedecían a los axiomas de
ansiedad ante las pruebas (Spielberger y cantidad desarrollados por Hölder (1901).
Vagg, 1995), entrenamiento previo, diferen- Representa una postura de carácter Platóni-
cias culturales, deseabilidad social, etc. co, bajo cuya óptica las propiedades de la
Se olvida a veces que los tests psicoló- cantidad no son negociables.
gicos y educativos representan la posibili-
dad de juzgar a las personas de forma igua- Aproximación Clásica
litaria, por sus méritos demostrados, no por
criterios como la cuna, la tribu, la familia, la La revolución copernicana en la funda-
apariencia, las cartas de recomendación, o mentación teórica de la medición psicológi-

Psicothema, 1998 15
LA MEDICIÓN DE LO PSICOLÓGICO

ca vendrá de la mano de Stevens (1946, sigue avanzando en el campo empírico, sino


1951), al eliminar la restricción de que los que recibe un fuerte empujón en lo que a la
números asignados como medidas tengan evaluación de su estatus teórico se refiere.
que obedecer necesariamente a las leyes de Tanto la aproximación de Stevens como la
la cantidad, abriendo así la posibilidad a de Campbell al análisis teórico de la medi-
otros tipos de escalas (Fraser, 1980). Stevens ción se mueven dentro de un marco clásico,
define la medición como la asignación de pues, como señala Fraser (1980), si bien
números a objetos según determinadas re- Campbell consideraba claves las relaciones
glas. La flexibilización introducida al permi- empíricas, Stevens subraya las propiedades
tirse diferentes reglas de asignación extiende de la escala. Ambos tratan la relación entre
el sistema de Campbell y permite el estable- los sistemas empírico y formal como axio-
cimiento de las hoy clásicas cuatro escalas mática, y por tanto debe de estar presente
de medición, Nominal, Ordinal, Intervalo y para llevar a cabo la medición.
Razón, que vienen definidas por cuatro re- Por el contrario, el nuevo enfoque Repre-
glas distintas de asignación de los números a sentacional sobre teoría de la medición que
los objetos. Para representar un sistema em- aparece en los años sesenta (Coombs, 1964;
pírico concreto no habrá por qué utilizar to- Krantz et al., 1971; Luce y Narens, 1986;
das las propiedades del sistema numérico. Mitchell, 1990; Narens, 1985; Narens y Lu-
La escala Nominal sólo tiene en cuenta la ce, 1986; Pfanzagl, 1968; Roberts, 1979;
propiedad de los números igual/desigual, los Savage y Ehrlich, 1990; Schwager, 1991;
números actúan aquí como nombres. En la Suppes y Zinnes, 1963) se caracteriza fun-
Ordinal, además de igualdad/desigualdad, se damentalmente por reconocer explícitamen-
tiene en cuenta el orden. La escala de Inter- te el papel que juega la teoría en la medi-
valo además de las anteriores propiedades ción, pasando ésta a formar parte integral de
añade la igualdad/desigualdad de las dife- la teoría. Medir es construir un modelo de
rencias, no existiendo un cero absoluto de la alguna realidad existente en el mundo. Por
escala. Finalmente, en la escala de Razón tanto, como cualquier otra modelización,
existe el cero absoluto de la escala e igual- implica establecer una correspondencia en-
dad de razones. tre el sistema relacional empírico (el mun-
Tras la propuesta de Stevens surgen nu- do) y un sistema relacional formal (el mo-
merosas clasificaciones de escalas (Coombs, delo), de tal modo que se pueda decir que
1952, 1964; Torgerson, 1958), pues no hay uno representa al otro; si el modelo es nu-
ninguna razón para limitar las propiedades a mérico entonces la representación se deno-
las cuatro mencionadas. Además, la literatu- mina medición (Fraser, 1980). En este con-
ra sobre en qué escala vienen medidos los texto los problemas de la medición no son
distintos atributos psicológicos y la relación otros que los problemas científicos genera-
entre el tipo de escala y las operaciones es- les para establecer modelos de la realidad, la
tadísticas permitidas para cada tipo de esca- medición pasa a ser modelización en la que
la inundan la bibliografía especializada el sistema relacional formal son los núme-
(Gaito, 1980; Lord, 1953b; Michell, 1986; ros. Por tanto el problema central a resolver
Stine, 1989; Townsend y Ashby, 1984). será el de la Representación, es decir, ase-
gurarse que el modelo representa adecuada-
Enfoque Representacional mente la realidad. Medir es modelizar.
Si bien este enfoque es actualmente do-
En definitiva, a partir del trabajo pionero minate entre los teóricos y filósofos de la
de Stevens la medición psicológica no sólo ciencia, su influencia en la psicología apli-

16 Psicothema, 1998
JOSÉ MUÑIZ

cada es escasa, pues como señala Schwa- de la medición psicológica quedan muchos
ger (1991) en una crítica reciente, este ele- problemas teóricos y aplicados por resolver,
gante enfoque trata de garantizar la repre- de modo que no faltará el trabajo de inves-
sentabilidad formal, que es importante, pe- tigación para quienes se dedican a estos me-
ro no ha aportado hasta la fecha gran cosa nesteres. Esperemos, parafraseando al fa-
a la teoría psicológica y menos aún a la moso matemático Hilbert (1902), cuando
práctica profesional aplicada. Una buena presentó en París, ya va para un siglo, los 23
síntesis de los problemas de carácter apli- problemas más importantes de las matemá-
cado aún pendientes de una solución idó- ticas aún sin resolver, que para tales menes-
nea fue expuesta recientemente por Wainer teres contemos entre nosotros con los mejo-
(1993), para una excelente revisión y aná- res maestros y los más entusiastas y apasio-
lisis de los problemas de la medición en nados discípulos.
psicología puede consultarse el trabajo de
Michell (1997). Nota
Estos son, en suma, y a grandes rasgos,
algunas de las certezas y de las dudas que El texto corresponde a la conferencia pronun-
ocupan a quienes trabajamos en el campo de ciada por el autor como lección inaugural del
la medición psicológica, espero no haberles curso académico 1997-1998 en la Universidad
aburrido demasiado con ellas. En el campo de Oviedo.

Referencias

Allen, M. J. y Yen, W. M. (1979). Introduction to Blanco, M. (1996). Psicofísica. Madrid: Univer-


Measurement Theory. Monterrey, CA: Bro- sitas.
oks/Cole Publishing Company. Block, N. (Ed.) (1980, 1981). Readings in philo-
American Federation of Teachers, National Coun- sophy of psychology (2 vols.). Cambridge,
cil on Measurement in Education y National MA: Harvard University Press.
Education Association (1990). Standards for Bock, R. D. y Wood, R. (1971). Test theory. An-
teacher competence in educational assessment nual Review of Psychology, 22, 193-224.
of students. Washington, DC: Autor. Brennan, R. L. (1983). Elements of generalizabi-
Anastasi, A. (1986). Evolving concepts of test vali- lity theory. Iowa City, IA: American College
dation. Annual Review of Psychology, 37, 1-15. Testing.
Baird, J. C. (1997). Sensation and judgment: Bunge, M. (1985). La investigación científica.
complementary theory of psychophysics. (2ª ed.). Barcelona: Ariel.
Mahwah, NJ: LEA. Campbell, D. T. y Fiske, A. W. (1959). Conver-
Baird, J. C. y Noma, E. (1978). Fundamentals of gent and discriminant validation by the multi-
scaling and psychophysics. Nueva York: Wiley. trait-multimethod matrix. Psychological Bu-
Binet, A. y Simon, T. H. (1905). Methodes nou- lletin, 56, 81-105.
velles pour le diagnostic du niveau intellec- Campbell, N. R. (1920). Physics. The Ele-
tuel des anormaux. L’Année Psychologique, ments. Cambridge: Cambridge University
11, 191-244. Press.
Birnbaum, A. (1957). Efficient design and use of Campbell, N. R. (1921). What is science? (Reim-
tests of ability for various decision-making preso). Nueva York: Dover Publications.
problems (Series Report nº 58-16, Project nº Campbell, N. R. (1928). An account of the prin-
7755-23). Randolph Air Force Base, TX: ciples of measurement and calculation. Lon-
USAF School of Aviation Medicine. dres: Longmans Green.

Psicothema, 1998 17
LA MEDICIÓN DE LO PSICOLÓGICO

Campbell, N. R. (1938). Symposium: Measu- Ferrando, P. J. (1996). Evaluación de la unidi-


rement and its importance for philosophy. mensionalidad de los ítems mediante análisis
Aristotelian Society, vol. 17 (Suplemento). factorial. Psicothema, 8(2), 397-410.
Londres: Harrison. Feyerabend, P. (1981). Tratado contra el método.
Campbell, N. R. et al. (1940). Final Report. Ad- Madrid: Tecnos.
vance Science, núm. 2, 331-349. Flanagan, J. L. (1937). A note on calculating the
Cattell, J. Mck. (1890). Mental tests and measu- standard error of measurement and reliability
rements. Mind, 15, 373-380. coefficients with the test score machine. Jour-
Coombs, C. H. (1952). A theory of psychologi- nal of Applied Psychology, 23, 529.
cal scaling. Engineering Research Bulletin, Franca-Tarragó, O. (1996). Etica para psicólo-
34. Ann Arbor, MI: University of Michigan gos. Introducción a la psicoética. Bilbao:
Press. Desclée de Brouwer.
Coombs, C. H. (1964). A theory of data. Nueva Fraser, C. O. (1980). Measurement in psycho-
York: Wiley. logy. British Journal of Psychology, 71, 23-
Crick, J. E. y Brennan, R. L. (1982). GENOVA. 34.
A generalized Analysis of Variance System Fuentes, J. B. (1994). Introducción del concepto
(FORTRAN IV Computer Program and Ma- de “conflicto de normas irresuelto personal-
nual). Doschester, MA: Computer Facilities, mente” como figura antropológica (específi-
University of Massachusetts at Boston. ca) del campo psicológico. Psicothema, 6(3),
Crocker, L. y Algina, J. (1986). Introduction to 421-446.
classical and modern test theory. Nueva Gaito, J. (1980). Measurement scales and statis-
York: Holt, Rinehart and Winston. tics: resurgence of an old misconception. Psy-
Cronbach, L. J. (1947). Test reliability: its mea- chological Bulletin, 87, 564-567.
ning and determination. Psychometrika, 12, García-Cueto, E. (1993). Introducción a la psi-
1-16. cometría. Madrid: Siglo XXI.
Cronbach, L. J. (1951). Coefficient alpha and the Gescheider, G. A. (1985). Psychophysics: met-
internal structure of tests. Psychometrika, 16, hod, theory, and application. Hillsdale, NJ:
297-334. LEA.
Cronbach, L. J., Glesser, G. C., Nanda, H. y Ra- Glesser, G. C., Cronbach, L. J. y Rajaratnam, N.
jaratnam, N. (1972). The dependability of Be- (1965). Generality of scores influenced by
havioral Measurement: Theory of Generali- multiple sources of variance. Psychometrika,
zability for scores and profiles. Nueva York: 30, 395-418.
Wiley. Green, D. M. y Swets, J. A. (1966). Signal de-
Cronbach, L. J. y Meehl, P. E. (1955). Construct tection theory and psychophysics. Nueva
validity in psychological tests. Psychological York: Wiley.
Bulletin, 52, 281-302. Guilford, J. P. (1936, 1954). Psychometric Met-
Cronbach, L. J., Rajaratnam, N., Glesser, G. C. hods. Nueva York: McGraw-Hill.
(1963). Theory of Generalizability: a libe- Gulliksen, H. (1950). Theory of Mental Tests.
ralization of reliability theory. The British Nueva York: Wiley (Reimpreso en 1987).
Journal of Statistical Psychology, 16, 2, 137- Guttman,L. (1945). A basis for analyzing test-re-
163. test reliability. Psychometrika, 10, 255-282.
Egan, J. (1975). Signal detection theory and Hambleton, R. K. (1990). Item response theory:
ROC analysis. Nueva York: Academic Press. introduction and bibliography. Psicothema, 2,
Falmage, J. C. (1985). Elements of psychophysi- 97-107.
cal theory. Nueva York: Oxford University Hambleton, R. K. (1994). Item response theory:
Press. A broad psychometric framework for measu-
Fechner, G. T. (1860/1966). Elements of psy- rement advances. Psicothema, 6(3), 535-556.
chophysics. Nueva York: Holt, Rinehart and Hambleton, R. K. y Swaminathan, H. (1985).
Winston. Item response theory: Principles and applica-
Feldt, L. S. y Qualls, A. L. (1996). Estimation of tions. Boston: Kluwer.
measurement error variance at specific score Hambleton, R. K., Swaminathan, H. y Rogers,
levels. Journal of Educational Measurement, H. J. (1991). Fundamentals of item response
33(2), 141-156. theory. Beverly Hills, CA: Sage.

18 Psicothema, 1998
JOSÉ MUÑIZ

Hanson, N. R. (1969). Perception and discovery. Lord, F. M. (1980). Applications of item respon-
San Francisco: Freeman. se theory to practical testing problems. Hills-
Hilbert, D. (1902). Mathematical problems. Bu- dale, NJ: LEA.
lletin of the American Mathematical Society, Lord, F. M. (1984). Standard errors of measu-
8, 437-479. rement at different ability levels. Journal of
Hölder, O. (1901). Die axiome de quantität die Educational Measurement, 21(3), 239-243.
lehre von mass. Berichte ueber die Verhand- Lord, F. M. y Novick, M. R. (1968). Statistical
lugen der Königlich Sachsischen Gessells- theories of mental tests scores. Reading, MA:
chaft der Wissenschaften zu Leipzig, Mat- Addison-Wesley.
hematisch-Psysische Class, 53, 1-64. Luce, R. D. y Narens, L. (1986). The mathema-
Intelligence (1997). Número especial dedicado a tics underlying measurement on the conti-
“Intelligence and Social Policy”. Intelligence, nuum. Science, 236, 1527-1532.
24(1). Magnuson, D. (1967). Test Theory. Reading,
Keith-Spiegel, P. y Koocher, G. P. (1985). Ethics MA: Addison-Wesley. (Traducción española:
in psychology. Professional standards and ca- Mexico: Trillas, 1972).
ses. Nueva York: Random House. Mayor, J. (1989). El método científico en psico-
Kendler, H. H. (1981). Psychology: A science in logía. En J. Arnau y H. Carpintero (Comps.).
conflict. Nueva York: Oxford. Tratado de psicología general, Vol. I: Histo-
Kimmel, A. J. (1996). Ethical issues in beha- ria, teoría y método. Madrid: Alhambra.
vioral research. Cambridge, MA: Black- Mehrens, W. A. (1997). The consequences of
well. consequential validity. Educational Measu-
Krantz, D. H. Luce, R. D., Suppes, P. y Twersky, rement: Issues and Practice, 16(2), 16-18.
A. (1971). Foundations of measurement. Vol Messick, S. (1980). Test validity and the ethics
1. Additive and polynomial representations. of assessment. American Psychologist, 35,
Nueva York: Academic Press. 1012-1027.
Kuder, G. F. y Richardson, M. W. (1937). The Messick, S. (1989). Validity. En R. L. Linn (Ed.),
theory of estimation of test reliability. Psy- Educational Measurement. Nueva York:
chometrika, 2, 151-160. Macmillan.
Kuhn, T. S. (1962). The structure of scientific re- Messick, S. (1995). Validity of psychological as-
volutions. Chicago: University of Chicago sessment. American Psychologist, 50, 741-
Press. 749.
Lakatos, I. y Musgrave, A. (Eds.) (1970). Criti- Michell, J. (1986). Measurement scales and
cism and the growth of knowledge. Londres: statistics: a clash of paradigms. Psychological
Cambridge University Press. Bulletin, 100, 398-407.
Lawley, D. N. (1943). On problems connected Michell, J. (1990). An introduction to the logic of
with item selection and test construction. Pro- psychological measurement. Hillsdale, NJ:
ceedings of the Royal Society of Edimburg, LEA.
61, 273-287. Michell, J. (1997). Quantitative science and the
Linn, R. L. (1997). Evaluating the validity of as- definition of measurement in psychology.
sessments: the consequences of use. Educa- British Journal of Psychology, 88, 355-383.
tional Measurement: Issues and Practice, Muñiz, J. (1991). Introducción a los métodos
16(2), 14-16. psicofísicos. Barcelona: PPU.
López-Pina, J. A. (1995). Teoría de respuesta al Muñiz, J. (1994). Teoría clásica de los tests. Ma-
ítem: fundamentos. Barcelona: PPU. drid: Pirámide. (2ª ed.).
Lord, F. M. (1952). A theory of test scores. Psy- Muñiz, J. (1996a). Fiabilidad. En J. Muñiz (Co-
chometric Monographs, nº 7. or.), Psicometría. Madrid: Universitas.
Lord, F. M. (1953a). An application of confiden- Muñiz, J. (Coor.). (1996b). Psicometría. Madrid:
ce intervals of maximum likelihood to the es- Universitas.
timation of an examinee’s ability. Psychome- Muñiz, J. (1997). Introducción a la teoría de
trika, 18, 57-75. respuesta a los ítems. Madrid: Pirámide.
Lord, F. M. (1953b). On the statistical treatment Muñiz, J. (en prensa). Aspectos éticos y deonto-
of football numbers. The American Psycholo- lógicos de la evaluación psicológica. En Eva-
gist, 8, 750-751. luación Psicológica, Madrid: TEA Ediciones.

Psicothema, 1998 19
LA MEDICIÓN DE LO PSICOLÓGICO

Muñiz, J. y Hambleton, R. K. (1992). Medio si- Roberts, F. S. (1979). Measurement theory. Rea-
glo de teoría de respuesta a los ítems. Anuario ding, MA: Addison Wesley.
de Psicología, 52, 41-66. Rulon, P. J. (1939). A simplified procedure for
Narens, L. (1985). Abstract measurement: the determining the reliability of a test by split-
theory of numerical assignment. Psychologi- halves. Harvard Educational Review 9, 99-
cal Bulletin, 99, 166-180. 103.
Narens, L. y Luce, R.D. (1986). Measurement: Russell, B. (1937). The Principles of Mathema-
the theory of numerical assignment. Psycho- tics (2ª Ed.). Nueva York: Norton.
logical Bulletin, 99, 166-180. Santisteban, C. (1990). Psicometría. Teoría y
Neisser, U. et al. (1996). Intelligence: knowns práctica en la construccción de tests. Madrid:
and unknows. American Psychologist, 51(2), Norma.
77-101. Savage, L. W. y Ehrlich, R. (Eds.). (1990). Phi-
Novick, M. R. (1966). The axioms and principal losophical and foundational issues in measu-
results of classical test theory. Journal of rement theory. Hillsdale, NJ: LEA.
Mathematical Psychology, 3, 1-18. Schmeiser, C. B. (1992). Ethical codes in the
Olea, J. y Ponsoda, V. (1996). Tests adaptativos professions. Educational Measurement: Is-
informatizados. En J. Muñiz (Coor.), Psico- sues and Practice, 5-11.
metría. Madrid: Universitas. Schmidt, F. L. y Hunter, J. E. (1996). Measu-
Paz, M. D. (1994). Teoría de la Generalizabili- rement error in psychological research: les-
dad. En J. Muñiz, Teoría clásica de los tests. sons from 26 research scenarios. Psychologi-
Madrid: Pirámide. cal Methods, 1(2), 199-223.
Paz, M. D. (1996). Validez. En J. Muñiz (Coor.), Schuler, H. (1982). Ethical problems in psycho-
Psicometría. Madrid: Universitas. logical research. London: Academic Press.
Paz, M. D. y Muñiz, J. (1989). Potenciales evo- Schwager, K. W. (1991). The representational
cados y tiempos de reacción. Psicothema, 1, theory of measurement: an assessment. Psy-
97-117. chological Bulletin, 110(3), 618-626.
Pfanzagl, J. (1968). Theory of measurement. Shavelson, R. y Webb, N. (1991). Generalizabi-
Nueva York: Wiley. lity theory. Beverly Hills, CA: Sage.
Pinillos, J. L. (1980). Problemas actuales de la Shavelson, R. Webb, N. y Rowley, G. L. (1989).
psicología científica. Análisis y Modificación Generalizability Theory. American Psycholo-
de Conducta, 6, 11-12. gist, 44 (6), 922-932.
Popham, W. J. (1997). Consequential validity: Shepard, L. A. (1997). The centrality of test use
right concern-wrong concept. Educational Me- and consequences for test validity. Educatio-
asurement: Issues and Practice, 16(2), 9-13. nal Measurement: Issues and Practice, 16(2),
Popper, K. R. (1959). The logic of scientific dis- 5-8.
covery. Londres: Hutchinson. Spearman, C. (1904). The proof and measu-
Popper, K. R. (1963). Conjectures and refuta- rement of association between two things.
tions. Nueva York: Harper. American Journal of Psychology, 15, 72-101.
Popper, K. R. (1972). Objective knowledge. Ox- Spearman, C. (1907). Demonstration of formulae
ford: Clarenton Press. for true measurement of correlation. Ameri-
Qualls, A. L. (1992). A comparison of score le- can Journal of Psychology, 18, 161-169.
vel estimates of the standard error of measu- Spearman, C. (1913). Correlations of sums and
rement. Journal of Educational Measu- differences. British Journal of Psychology, 5,
rement, 29(3), 213-225. 417-126.
Rasch, G. (1960). Probabilistic models for some Spielberger, C. D. y Vagg, P. R. (Eds.) (1995).
intelligence and attainment tests. Copenha- Test anxiety. Theory, assessment and treat-
gen: The Danish Institute for Educational Re- ment. Washington, DC: Taylor and Francis.
search. Staats, A. W. (1983). Psychology’s crisis of de-
Renom, J. (1993). Tests adaptativos computeri- sunity. Philosophy and method for a unified
zados. Barcelona: PPU. science. Nueva York: Praeger.
Richardson, M. W. (1936). The relationship bet- Staats, A. W. y Mos, L. P. (Eds.) (1987). Annals
ween difficulty and the differential validity of of theoretical psychology. Vol. 5. Nueva
a test. Psychometrika, 1, 33-49. York: Plenum Press.

20 Psicothema, 1998
JOSÉ MUÑIZ

Stanley, B. H., Sieber, J. E. y Melton, G. B. Thorndike, R. L. (1982). Applied Psychometrics.


(Eds.). (1996). Research ethics. A psychologi- Boston: Hougton Mifflin.
cal approach. Lincoln, NE: University of Ne- Thurstone, L. L. (1927). A law of comparative
braska Press. judgment. Psychological Review, 34, 273-
Stanley, J. C. (1971). Reliability. En R. L. Thorn- 286.
dike (ed.), Educational Measurement. Was- Thurstone, L. L. (1928). Attitudes can be measu-
hington. DC: American Council on Educa- red. American Journal of Sociology, 33, 529-
tion. 554.
Sternberg, R. J. y Kaufman, J. C. (1996). Inno- Torgerson, W. S. (1958). Theory and methods of
vation and intelligence testing: the curious ca- scaling. Nueva York: Wiley.
se of the dog that didn’t bark. European Jour- Toulmin, S. (1972). Human understanding. Prin-
nal of Psychological Assessment, 12(3), 175- ceton: Princeton University Press.
182. Townsend, J. T. y Ashby, F. G. (1984). Measu-
Stevens, S. S. (1946). On the theory of scales of rement scales and statistics: the misconcep-
measurement. Science, 103, 677-680. tion misconceived. Psychological Bulletin,
Stevens, S. S. (1951). Mathematics, measu- 96, 394-401.
rement and psychophysics. En S. S. Stevens Traub, R. E. (1994). Reliability for the social
(Ed.), Handbook of experimental psychology. sciences: Theory and applications. Londres:
Nueva York: Wiley. Sage.
Stevens, S. S. (1961). To honor Fechner and re- Triandis, H. C. (1971). Attitude and attitude
peal his law. Science, 133, 80-86. change. Nueva York: Wiley.
Stevens, S. S. (1975). Psychophysics: introduc- Tucker, L. R. (1946). Maximum validity of a test
tion to its perceptual, neural, and social pros- with equivalent items. Psychometrika, 11, 1-
pects. Nueva York: Wiley. 13.
Stine, W. W. (1989). Meaningful inference: the Van der Linden, W. J. y Hambleton, R. K. (Eds.).
role of measurement in statistics. Psychologi- (1997). Handbook of modern item response
cal Bulletin, 105, 1, 147-155. theory. Nueva York: Springer-Verlag.
Summers, G. F. (Ed.) (1970). Attitude measu- Wainer, H. (Ed.). (1990). Computerized adaptive
rement. Chicago: Rand McNally. testing: a primer. Hillsdale, NJ: LEA.
Suppe, F. (Ed.). The structure of scientific theo- Wainer, H. (1993). Measurement problems.
ries. Urbana, IL: University of Illinois Press. Journal of Educational Measurement, 30(1),
Suppes, P. y Zinnes, J. L. (1963). Basic measu- 1-21.
rement theory. En R. D. Luce, R. R. Bush y E. Wainer, H. y Braun, H. I. (Eds.). (1988). Test va-
Galanter (Eds.), Handbook of mathematical lidity. Hillsdale, NJ: LEA.
psychology. Vol. I, págs. 1-76. Nueva York: Yela, M. (1984). Introducción a la teoría de los
Wiley. tests. Madrid: Facultad de Psicología, Univer-
Sutcliffe, J. P. (1965). A probability model for sidad Complutense.
error of classification, I: General considera- Yela, M. (1987). Toward a unified psychological
tions. Psychometrika, 30, 73-96. science. En A. W. Staats y L. P. Mos (Eds.),
Swets, J. A. (1996). Signal detection theory and Annals of theoretical psychology. Vol. 5. Nue-
ROC analysis in psychology and diagnostics: va York: Plenum Press.
collected papers. Mahwah, NJ: LEA. Yela, M. (1994). El problema del método cientí-
Thorndike, R. L. (1951). Reliability. En E. L. fico en psicología. Anuario de Psicología, 60,
Lindquist (Ed.), Educational Measurement 3-12.
(págs. 560-620). Washington, DC: American
Council on Education. Aceptado el 10 de octubre de 1997

Psicothema, 1998 21

También podría gustarte