Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Material Psicometria Aplicada II - 2018 PDF
Material Psicometria Aplicada II - 2018 PDF
Psicometrı́a Aplicada II
Asunción, 2018
Compendio - Prof. Enrique Morosini
Índice de Contenidos
La Medición de lo Psicológico................................................................................................................ 3
José Muñiz
TABLAS:
LA MEDICIÓN DE LO PSICOLÓGICO
José Muñiz
Universidad de Oviedo
A grandes rasgos puede decirse que el que serán suficientes para comprender por
objetivo de la Psicología científica es el es- qué a veces la tecnología de la medición
tudio de la conducta humana y las leyes que psicológica se aleja de la metodología gene-
la rigen. Como ocurre con cualquier otra re- ral de la medición utilizada por las ciencias
alidad, para una comprensión adecuada de llamadas duras.
la conducta humana hay que entender tanto
sus aspectos cualitativos como cuantitati- Caracterización de lo psicológico
vos. A continuación trataré de exponer los
aspectos fundamentales implicados en la ¿Cuáles son las características esenciales
cuantificación y medición de las distintas que definen a lo psicológico como campo de
variables y factores que manejan los psicó- estudio? La conducta humana fermenta y se
logos, tanto en sus investigaciones como en desarrolla en una estrecha banda acotada por
la práctica profesional. No se trata de una una base neurobiológica y un entorno socio-
exposición técnica y exhaustiva, la situa- cultural. El yo psicológico, la individuali-
ción y el tiempo no lo permiten, pero sí de dad, la consciencia, y por ende la conducta,
subrayar las líneas centrales de la medición surgen de la interacción entre la estimula-
de los rasgos psicológicos y de los instru- ción ambiental y nuestra constitución bioló-
mentos más utilizados para ello, los tests. gica, pero no se explican ni se agotan en nin-
Medir es inherente a todas las ciencias, y guno de estos dos polos, son otra cosa. Pre-
la Psicología no es una excepción. Si bien cisamente es ése el campo interactivo en el
los principios generales de la teoría de la me- que se mueven los psicólogos, por eso no
dición son aplicables aquí como en el resto son ni biólogos, ni neurólogos, ni sociólo-
de los campos científicos, no es menos ver- gos, ni filósofos, son psicólogos. Cuando
dad que las peculiaridades de los objetos de desde la psicología se explica un determina-
estudio de algunos de estos campos imponen do fenómeno, ya sea una neurosis, una fobia,
determinadas especificidades a la lógica ge- el fracaso escolar o la inadaptación laboral,
neral, y ése es el caso de lo psicológico. se tienen en cuenta tanto los aspectos neuro-
El fin general de toda teoría de la medi- lógicos como los culturales, sociales y edu-
ción, trátese de la ciencia que se trate, es es- cativos, pero su explicación no se agota ni se
timar los errores aleatorios de las medicio- reduce a ninguno de esos ámbitos. Natural-
nes, pues toda medición, mayor o menor, mente, cuanto más avancen las ciencias afi-
conlleva un cierto error. Pero seguramente nes en las que se apoya la psicología tanto
estarán ustedes de acuerdo conmigo en que, mejor, pero eso no significa abogar por un
por ejemplo, no es lo mismo medir la dis- reduccionismo biológico o cultural. Los
tancia entre Oviedo y Gijón, cosa de la que avances en el conocimiento del cerebro ayu-
se ocupan nuestros colegas físicos, que me- dan sin duda a entender la psique y la con-
dir la distancia entre los ovetenses y los gi- ducta humanas, pero es ingenuo y erróneo
joneses, entre sus actitudes, valores, perso- pensar que, cuán glándula, el cerebro segre-
nalidad, etc., labor que ocupa a psicólogos, ga la psique, sencillamente no es así. Algo
sociólogos, antropólogos y otras ciencias parecido, salvando las distancias, a lo que
sociales. Por tanto, para entender cabalmen- ocurre con el software de los ordenadores,
te los problemas a los que se enfrentan los que está íntimamente relacionado con el
psicólogos al medir sus variables de estudio hardware, pero ni se explica ni se reduce a
es necesario tener en mente las singularida- él. ¿Es que alguien en su sano juicio cree que
des de su campo de estudio, de lo psicológi- podría entender todo lo que hacen los orde-
co. Diré dos palabras sobre ello, que creo nadores sólo estudiando su hardware? Evi-
dentemente, no, lo cual tampoco significa tervención tan variados como la Clínica,
que pueda prescindir de él. Trabajo, Educación, Deporte, Calidad de Vi-
Igual de erróneo es pensar que la con- da, Gerontología, Seguridad Vial, etc.
ducta humana venga completamente deter- Cada una de esas variables y campos de
minada por el entorno cultural y social; aplicación tiene su problemática específica,
afortunadamente pasaron los tiempos en los que sería vano intentar tratar aquí, sin em-
que aprendices de ingenieros sociales con- bargo, existen unos problemas generales en
fiaron en hallar un hombre nuevo con sólo la medición de lo psicológico que son inva-
modificar las circunstancias, qué ingenui- riantes a todos los campos y variables men-
dad, hoy sabemos de los nefastos resultados cionadas. En todos los casos, por un lado,
y del alto precio pagado. El ambiente exter- hay que estimar la cuantía de los errores co-
no está ahí, y es una variable clave en la mo- metidos al medir, y, por otro, hay que garan-
dulación de la conducta humana, pero nun- tizar que la medición no es baladí, que tiene
ca es el responsable final de ésta, nunca la entidad explicativa y predictiva. En otras pa-
determina completamente, el único respon- labras, hay que comprobar que las medicio-
sable es la persona. Si admitiésemos lo con- nes son fiables y válidas. Además de estas
trario, estaríamos negando de plano la liber- propiedades que deben de reunir todas las
tad, y, eliminada ésta, no queda lugar para la mediciones empíricas, los teóricos de la me-
dignidad y la responsabilidad, que brotan dición se ocupan de analizar y justificar de
directamente de ella. forma rigurosa el estatus métrico de las me-
Pues bien, en este ámbito peculiar e inte- diciones, contemplado a la luz de los avan-
ractivo, descrito a grandes rasgos, que carac- ces de la teoría de la medición. De esos tres
teriza a lo psicológico, no resulta sencillo grandes aspectos generales de la medición,
medir con rigor en sentido clásico, acorde fiabilidad, validez y fundamentos teóricos,
con los axiomas de Hölder (1901) y las pro- es de lo que nos ocuparemos aquí, pero an-
puestas ortodoxas de Campbell (1920, 1921, tes de entrar en ellos déjenme que diga unas
1928, 1938, 1940). Sin embargo, los psicó- palabras sobre cómo empezó todo, sobre los
logos miden sus variables y desarrollan so- orígenes de la medición psicológica.
fisticados instrumentos a tal efecto, los más
conocidos de los cuales para el público son Inicios de la medición
los tests, si bien los especialistas utilizan una
gama mucho más amplia en sus investiga- Los primeros intentos de medir con rigor
ciones e intervenciones. Y miden en campos los atributos psíquicos tuvieron lugar a fina-
muy diversos, según su área de especiali- les del siglo pasado en los laboratorios ale-
zación, que van desde los procesos más bá- manes, de la mano de Fechner (Fechner,
sicos, tales como los Tiempos de Reacción, 1860/1966), pionero de las investigaciones
Potenciales Evocados (Paz y Muñiz, 1989), sobre las relaciones entre la estimulación fí-
Tiempo de Inspección, Conductancia de la sica y las sensaciones psicológicas produci-
piel, etc., a los rasgos de personalidad, co- das por ésta. Para estudiar la conexión entre
mo Neuroticismo, Depresión, Psicoticismo, ambos continuos, el físico y el psicológico,
Autoconcepto, por citar algunos, o aspectos Fechner tenía que medir cada uno de ellos y
cognoscitivos, como la Inteligencia, Memo- luego establecer la relación correspondiente.
ria, Rapidez Perceptiva, Comprensión Ver- Si bien medir los estímulos físicos, tales co-
bal, etc., o variables más conectadas con la mo el peso, el sonido, la longitud, etc., no
esfera sociocultural como las actitudes y va- suponía ningún problema, se encontró con
lores. Y todo ello aplicado a campos de in- que no disponía de métodos para medir rigu-
rosamente las sensaciones, para lo cual desa- La tradición psicofísica llega hasta nues-
rrolló todo un conjunto de ellos, hoy clási- tros días, constituyendo un campo con gran-
cos, denominados métodos psicofísicos indi- des implicaciones aplicadas, piénsese, por
rectos (Baird, 1997; Baird y Noma, 1978; ejemplo, en la importancia de conocer con
Blanco, 1996; Falmage, 1985; Fechner, precisión los efectos del ruido, la luminosi-
1966; Gescheider, 1985; Muñiz, 1991). Ba- dad, sabores, olores, etc., sobre nuestro sis-
sándose en los trabajos previos de Weber, tema perceptivo. En la actualidad gran par-
Fechner estableció que la función que unía te de las investigaciones psicofísicas se lle-
la estimulación física con las sensaciones van a cabo dentro del marco general de la
psicológicas suscitadas obedece a una fun- Teoría de la Decisión y de la Teoría de la
ción logarítmica. Ello quiere decir que al au- Detección de Señales (Egan, 1975; Green y
mentar la estimulación física geométrica- Swets, 1966; Swets, 1996), un modelo desa-
mente las sensaciones lo hacen aritmética- rrollado originariamente por los ingenieros
mente. O, en otras palabras, que si bien al para la detección de señales con ruido de
principio al aumentar la estimulación física fondo, y que se ajusta bien a los humanos
aumenta rápidamente las sensaciones, éstas considerados como perceptores de señales.
van necesitando cada vez mayor incremento El sistema perceptivo humano es muy
de la estimulación física para experimentar peculiar, y la Teoría de la Detección de Se-
algún aumento. La misma ley había sido ob- ñales permite estudiar su funcionamiento
servada con anterioridad en el campo de la bajo diferentes condiciones. El nuestro no
economía entre el crecimiento de la fortuna es un sistema perceptivo “neutral”, pues
y el placer experimentado por el afortunado. aunque con determinados invariantes, viene
Este campo de estudio iniciado por Weber y influido en gran medida por las consecuen-
Fechner se denomina Psicofísica, pues, co- cias de lo percibido, por la “matriz de pa-
mo su nombre indica, trata de poner en co- gos” asociada a la situación perceptiva, es
nexión las sensaciones psicológicas con la decir, el mismo sistema perceptivo actúa de
estimulación física que las suscita. La ley de distinta forma en función de la situación
Fechner ha sido revisada por la Nueva Psi- perceptiva. Esta versatilidad permite inves-
cofísica (Stevens, 1961, 1975), que defiende tigar y mejorar situaciones aplicadas de to-
que la función que une ambos continuos, el do tipo en las que los humanos tienen que
físico y el psicológico, no es logarítmica si- tomar decisiones, siendo clave, por ejem-
no potencial. Para someter a prueba su hipó- plo, para una racionalización y optimiza-
tesis han propuesto todo un conjunto de nue- ción de las condiciones de trabajo. Piénsese,
vos métodos psicofísicos alternativos a los sin ir más lejos, en situaciones tales como,
de Fechner, denominados directos. ¿bajo qué condiciones se maximiza la per-
cepción de piezas defectuosas por un traba-
jador de control de calidad?, o ¿cuáles son
Leyes Psicofísicas las causas de la accidentabilidad de los tra-
bajadores en puestos aislados? Esas pregun-
Función Logarítmica (Fechner): S = C log E tas y otras sólo tienen respuesta correcta
Función Potencial (Stevens): S = K Eb cuando se conoce el funcionamiento del sis-
tema perceptivo humano bajo determinadas
donde: condiciones.
S: es la medida de la sensación producida Nuestras percepciones vienen con fre-
E: es la medida de la estimulación física cuencia condicionadas por sesgos cuyo es-
C, K y b son constantes a determinar tudio es sumamente importante, tanto a ni-
vel teórico como aplicado, para entender el de sumo interés. Pocos productos salen hoy
comportamiento humano. Les citaré un al mercado sin un estudio concienzudo de
ejemplo clásico de uno de estos sesgos, ima- las actitudes de los consumidores hacia
gínense una ciudad en la que hay dos hospi- ellos, y es que la relación calidad/precio no
tales, uno grande, en el que nacen al mes lo es todo, así que no conviene confiar cie-
unos doscientos bebés, cien niños y cien ni- gamente en nuestro querido refrán asturiano
ñas aproximadamente, y otro pequeño, en el de que “el buen pan en la masera se vende”.
que sólo nacen veinte al mes, diez niños y Seguramente todos ustedes tienen alguna
diez niñas, más o menos. Si les digo que el experiencia de primera mano de lo difícil
último mes en uno de los dos hospitales to- que resulta que las personas cambien sus ac-
dos los nacidos fueron niñas, ¿de qué hospi- titudes, y es que están formadas por una tra-
tal se trata? ¿del grande o del pequeño? No ma en la que información, razón y emoción
hace falta que contesten aquí en público, pe- se entretejen de forma compleja. La razón y
ro sé de buena tinta que una parte impor- la información son importantes para que se
tante de ustedes por una curiosa razón, bien produzca un cambio de actitudes, pero rara-
estudiada por los psicólogos, pensó que se mente son suficientes sin apelar a los aspec-
trataba del hospital grande, cuando en reali- tos emocionales. Por ejemplo, dada la infor-
dad es obvio que se trata del pequeño. Si en mación de la que disponemos hoy acerca de
un caso tan claro como éste ya hay proble- los efectos cancerígenos del tabaco sobre
mas, ¿qué no ocurrirá en nuestra vida dia- los que fuman y los que les rodean, nadie
ria? Por ejemplo, ¿por qué los vendedores medianamente informado debería osar tocar
de lotería agotan rápidamente los números un cigarrillo, sin embargo la realidad es
“bonitos” y les cuesta tanto vender los “fe- muy otra. Los psicólogos que diseñan las
os”, si es obvio que la probabilidad de que campañas antitabaco saben esto y en sus
salgan es exactamente la misma para todos? anuncios tratan más bien de tocar la fibra
Seguramente dirán algunos de ustedes, “es sensible que de introducir nueva informa-
que la gente no es lógica”, y naturalmente ción en el sistema. De nuevo aquí observa-
tienen razón, la gente no es lógica, y es que mos que la conducta se aleja de la lógica li-
la conducta humana responde a las leyes de neal, y es que como nos recordó certera-
la psicología y no de la lógica, por eso se mente Kant, nada estrictamente recto puede
ocupan de ella los psicólogos y no los ex- hacerse del torcido leño del que están he-
pertos en lógica. chos los humanos.
Otro campo de la medición psicológica Esta es a grandes rasgos una de las vías
en la que desembocan estos estudios psico- por las que ha entrado la medición en psico-
físicos es la medición de las actitudes, en logía, y cuyo objetivo es el escalamiento de
cuyo caso desaparece el continuo físico los estímulos, bien sea con referente físico
(Thurstone, 1927, 1928; Summers, 1970; (Psicofísica), o sin él (Actitudes). La otra
Triandis, 1971). Medir actitudes es averi- gran línea de progreso de la medición, mu-
guar las preferencias de las personas hacia cho más conocida para el público en general
determinados estímulos, bien sean objetos, es el escalamiento de los sujetos, es decir,
ideas o conceptos. Las actitudes constituyen los tests. El origen de éstos hay que ubicar-
un entramado clave para entender a los hu- lo en las primeras pruebas sensomotoras uti-
manos, son el cristal a través del que mira- lizadas por Galton (1822-1911) en su famo-
mos el mundo. Medir su fuerza, conocer su so laboratorio antropométrico de Kensing-
formación, su relación con la conducta y la ton. El primero en utilizar la palabra “test
manera de cambiarlas constituyen campos mental” será James McKeen Cattell (1860-
1944) en su artículo “Mental Tests and Me- diciones para que su uso sea el adecuado?
asurements” publicado en la revista Mind en Como ya se ha señalado, básicamente tres
1890. Un giro radical lo constituye la esca- propiedades: que sean fiables, que sean vá-
la individual construida por Binet y Simon lidas, y que estén bien fundamentadas teóri-
(1905) para la medición de la inteligencia, camente. Veamos cada una de ellas.
al introducir tareas de carácter más cognos-
citivo dirigidas a evaluar aspectos como el Fiabilidad
juicio, la comprensión y el razonamiento,
que según los autores constituían los com- Bajo la denominación genérica de fiabili-
ponentes fundamentales del comportamien- dad se agrupan todo un conjunto de méto-
to inteligente. Pero la verdadera eclosión de dos y técnicas utilizadas por los psicólogos
los tests se producirá tras la primera guerra para estimar el grado de precisión con el
mundial. Cuando Estados Unidos decide que están midiendo sus variables. Hace más
entrar en la guerra no dispone de ejército, y de cuarenta años, Robert L. Thorndike em-
la selección y clasificación de los soldados pezaba su famoso trabajo sobre fiabilidad
se lleva a cabo confiando en los test Alfa y con estas palabras: “Cuando medimos algo,
Beta, diseñados a tal efecto por un comité bien sea en el campo de la física, de la bio-
dirigido por el psicólogo Yerkes. Puesto que logía o de las ciencias sociales, esa medi-
los aliados ganaron la guerra, no sabemos ción contiene una cierta cantidad de error
que hubiera pasado con los tests si la hubie- aleatorio. La cantidad de error puede ser
ran perdido, no parecía que los tests hubie- grande o pequeña, pero está siempre presen-
sen hecho un mal trabajo, de modo que la te en cierto grado” (Thorndike, 1951, pág.
industria y las instituciones se volcaron en 560). Sus palabras siguen siendo tan ciertas
su uso para todo tipo de fines, especialmen- hoy como entonces, pues en lo esencial los
te en la selección de personal y en la orien- problemas de la medición cambian poco,
tación profesional y educativa. Su uso masi- aunque los instrumentos de medida vayan y
vo se extiende hasta nuestros días, siendo vengan. Ahora bien, ¿cómo estiman los psi-
difícil encontrar a alguien en las sociedades cólogos el grado de error que hay en sus me-
desarrolladas que primero o después no se diciones? Veamos la lógica general.
tenga que enfrentar a ellos. Cuando un psicólogo aplica un test, una
En resumen, puede decirse que las dos escala o cualquier otro instrumento de me-
grandes avenidas de entrada de la medición dida a una persona, obtiene una cierta pun-
en Psicología fueron a través del escala- tuación, que por razones obvias se denomi-
miento de estímulos (Psicofísica y Actitu- na puntuación empírica. ¿Cómo estar segu-
des) y escalamiento de sujetos (Tests). Co- ros de que esa puntuación obtenida es la que
mo casi toda partición, ésta tiene también verdaderamente le corresponde a esa perso-
algo de arbitrario, pues la mayoría de los na en esa prueba? En otras palabras, ¿cuán-
modelos podrían generalizarse tanto a estí- to error afecta a esa puntuación empírica?
mulos como a sujetos, si bien no faltan pro- Responder estas preguntas es el objetivo de
blemas específicos que justifiquen la divi- la fiabilidad. Visto así de frente, parecería
sión (Muñiz y Hambleton, 1992). Ambos que tales interrogantes son incontestables,
acercamientos tendrán sus síntesis más clá- pues, al fin y al cabo, el error cometido, sea
sicas en los textos de Gulliksen (1950) y el que sea, está diluido en la puntuación em-
Torgerson (1958) respectivamente. pírica y no hay manera de separarlo. Efecti-
Ahora bien, se mida de un modo u otro, vamente, no la hay directamente, como ocu-
¿qué condiciones deben de reunir esas me- rre también con los compuestos químicos.
Por ejemplo, sabemos que el agua del mar prueba, que llamaremos V, y un cierto error
contiene cierta cantidad de sal, pero para es- e. Es decir, formalmente el modelo se po-
timar con precisión la cantidad de sal habrá dría expresar así:
que buscar alguna técnica indirecta que per-
mita la separación. Esas técnicas en el caso X=V+e (1)
de los tests las proporcionarán los estudios
de fiabilidad. Nótese que este problema de Donde X es la puntuación empírica obte-
estimar los errores de medida es común a nida, V la puntuación verdadera y e el error
todas las ciencias, pudiendo decirse que la de medida.
lógica seguida también lo es, si bien la na- Para poder derivar las fórmulas necesa-
turaleza de las variables medidas en las dis- rias para el cálculo de la fiabilidad, Spear-
tintas ciencias impone ciertas peculiarida- man añade al modelo tres supuestos y una
des. Por ejemplo, cuando pesamos un obje- definición. Asume que 1) la verdadera pun-
to y obtenemos un cierto valor, o aplicamos tuación de una persona en una prueba sería
un test a un sujeto y saca una determinada la que obtendría como promedio si se le
puntuación empírica, o medimos la distan- aplicase infinitas veces la prueba [V=
cia entre dos ciudades, en los tres casos se E(X)], 2) no hay relación entre la verdadera
nos plantea la duda de cuánto error estamos puntuación de las personas y los errores de
cometiendo. Pues bien, para el caso de las medida (ρve= 0), y 3) los errores de medida
variables psicológicas, la propuesta pionera de los tests no están relacionados [ρ(ej,ek)=
y más fructífera para la estimación de los 0]. Además, define el concepto de tests pa-
errores fue hecha ya a principios de siglo ralelos como aquéllos que miden lo mismo
por Spearman (1904, 1907, 1913) y la de- aunque utilizando distintos ítems. Todo lo
nominamos hoy Modelo Lineal Clásico, cual puede expresarse del siguiente modo:
dando origen a todo un enfoque general so-
bre los tests que suele conocerse como Teo-
ría Clásica de los Tests. A partir sobre todo Modelo Lineal Clásico
de los años 60-70 aparecen nuevos modelos
para abordar la estimación de los errores de Modelo: X= V+e
medida, agrupándose los más utilizados ba- Supuestos: V= E(X)
jo la denominación genérica de Teoría de ρve= 0
Respuesta a los Items. ρ(ej,ek)= 0
Definición: Dos tests j,k se consideran para-
Modelo Clásico lelos si: Vj = Vk y σ2ej= σ2ek
Lord y Novick (1968). Exposiciones siste- (1945), Flanagan (1937), KR20 y KR21 (Ku-
máticas pueden consultarse también en der y Richardson, 1937), o el popular Coefi-
Guilford (1936, 1954), Magnuson (1967), ciente Alfa (Cronbach, 1951), que expresa la
Allen y Yen (1979), Thorndike (1982), fiabilidad del test en función de su consis-
Crocker y Algina (1986) o Traub (1994). En tencia interna. Una forma alternativa pero
castellano véase, por ejemplo, Yela (1984), equivalente de expresar la fiabilidad de los
Santisteban (1990), García-Cueto (1993) o tests es mediante el Error Típico de Medida,
Muñiz (1994, 1996a). o fiabilidad absoluta.
Mediante los desarrollos correspondien- Se utilice el índice que se utilice, y en ca-
tes se obtiene la fórmula del Coeficiente de da caso hay razones técnicas para utilizar
Fiabilidad (ρxx’) que permite estimar la uno u otro, lo importante es que toda medi-
cuantía de los errores cometidos al medir. ción lleva asociado un grado de precisión
Su fórmula expresa la cantidad de varianza que es empíricamente calculable. Tal vez al-
de verdadera medida (σ2v) que hay en la guno de ustedes se pregunte por qué se co-
empírica (σ2x), o en términos de la Teoría de meten errores al medir, o, en otras palabras,
la Información, la proporción señal-ruido cuáles son las fuentes del error más habitua-
del proceso de medición: les en la medición psicológica. Es este un
asunto exhaustivamente estudiado por los
ρxx’= σ2v/σ2x (2) especialistas, que han llegado a clasificar
con todo detalle las posibles fuentes de error
Lo ideal es que toda la varianza empírica (Cronbach, 1947; Schmidt y Hunter, 1996;
se deba a la verdadera, lo cual ocurriría Stanley, 1971; Thorndike, 1951), si bien
cuando σ2v= σ2x, en cuyo caso la fiabilidad simplificando bastante puede decirse que
es perfecta, la prueba mide sin ningún error. son tres las grandes avenidas por las que pe-
El cálculo empírico del valor del coeficiente netra el error aleatorio en la medición psi-
de fiabilidad no se puede llevar a cabo me- cológica: a) la propia persona evaluada, que
diante la fórmula (2), que es meramente con- viene con determinado estado de ánimo, ac-
ceptual; la estimación empírica puede obte- titudes y temores ante el test, ansiedad, o
nerse utilizando varias estrategias, entre las cualquier tipo de evento previo a su evalua-
que destacan: a) la correlación entre dos for- ción, todo lo cual puede influir en la cuantía
mas paralelas del test, b) la correlación entre de los errores, b) el instrumento de medida
dos mitades aleatorias del test corregida me- utilizado, que con sus características especí-
diante la fórmula de Spearman-Brown, y c) ficas puede influir diferencialmente en los
la correlación entre dos aplicaciones del evaluados, y c) la aplicación, corrección e
mismo test a una muestra de personas. Cada interpretación hecha por los profesionales.
uno de estos procedimientos tiene sus pros y Si todo se hace con rigor se minimizarán los
sus contras y se ajustan mejor a unas situa- errores en todo el proceso, y es precisamen-
ciones que a otras. En todos los casos el va- te de lo que nos informa la fiabilidad de la
lor obtenido es un valor numérico entre 0 y prueba, de los errores cometidos. Una vez
1, indicando a medida que se acerca a 1 que conocida la cuantía de estos errores, a partir
el test está midiendo con precisión. Dado de la puntuación empírica resulta sencillo
que la fórmula (2) es conceptual, no operati- estimar a cierto nivel de confianza elegido
va, en literatura abundan las fórmulas clási- la puntuación verdadera de las personas en
cas para la obtención del valor empírico del una prueba. Si la fiabilidad de una prueba es
coeficiente de fiabilidad, entre las que cabría perfecta (ρxx’=1), las puntuaciones empíri-
destacar las de Rulon (1939), Guttman cas y las verdaderas de las personas en di-
cha prueba coincidirán, pero si no es perfec- cobertura teórica a la mayoría de las aplica-
ta las puntuaciones verdaderas de las perso- ciones de los tests, y puede decirse que, con
nas en el test se estiman mediante un inter- sus luces y sus sombras, el balance es clara-
valo confidencial en torno a la puntuación mente positivo (Muñiz, 1994). Ello no quie-
empírica. La implicación práctica inmediata re decir que no hubiese ciertos problemas y
de todo ello es que si se toman decisiones ciertas áreas en las que el enfoque clásico
importantes basadas en las puntuaciones de mostrase limitaciones. Las dos más impor-
las personas en los tests hay que asegurarse tantes, en las que no voy a entrar aquí, se re-
de que éstos tienen una fiabilidad elevada. fieren 1) a la ausencia de invarianza de las
Ahora bien, el modelo lineal clásico in- mediciones respecto del instrumento utiliza-
forma de la cuantía de los errores, pero no de do, es decir, bajo el modelo clásico cuando
la fuente originaria de éstos, que asume ig- se utilizan tests distintos para evaluar la
nota y aleatoria. Otros muchos modelos se misma variable no se obtienen directamente
han ocupado de desglosar el error y ofrecer resultados en la misma escala, por lo que
así no sólo la fiabilidad, sino también el ori- hay que proceder a equiparar las puntuacio-
gen de los errores (Bock y Wood, 1971; No- nes obtenidas. Y 2) a la dependencia que las
vick, 1966; Sutcliffe, 1965), pero su comple- propiedades del instrumento utilizado tie-
jidad técnico-formal y las complicaciones nen de las propias personas evaluadas, lo
operativas introducidas, en relación con las cual no es deseable dentro de un marco ri-
ventajas ofrecidas, ha hecho que ninguno ha- guroso de medición.
ya cuajado en la práctica. Mención especial Aparte de estas dos limitaciones de fon-
al respecto merece la Teoría de la Generali- do, en lo que concierne al cálculo de la fia-
zabilidad propuesta por Cronbach y colabo- bilidad de los tests, el problema que no en-
radores (Cronbach, Rajaratnam, Glesser, contraba una respuesta adecuada dentro del
1963; Glesser, Cronbach y Rajaratnam, marco clásico era el de la dependencia entre
1965). Mediante el uso de complejos diseños la cantidad de error y el nivel de las perso-
de Análisis de Varianza, este modelo permi- nas en la variable medida. Me explico. Den-
te hacer estimaciones sobre el tamaño de dis- tro del marco clásico se estima el coeficien-
tintas fuentes de error previamente contem- te de fiabilidad de una determinada prueba y
pladas en el proceso de medición. El progra- se asume que es el mismo para todas las per-
ma de ordenador GENOVA (Crick y Bren- sonas a las que se aplica la prueba; sin em-
nan, 1982) ha sido especialmente diseñado bargo, se ha ido acumulando suficiente evi-
para llevar a cabo los cálculos implicados en dencia empírica a lo largo de los años que
el modelo. En 1972 los autores publican un demuestra que el mismo test no mide con la
exhaustivo tratado (Cronbach, Glesser, Nan- misma precisión a todas las personas, que su
da, y Rajaratman, 1972), verdadera biblia del precisión está en función del nivel de la per-
modelo, pudiendo consultarse también expo- sona en la variable medida. Sin salirse del
siciones sistemáticas en Brennan (1983), marco clásico la solución más lógica a este
Crocker y Algina (1986), Shavelson y Webb problema es calcular diferentes coeficientes
(1991) o Shavelson, Webb y Rowley (1989); de fiabilidad para una prueba en función de
en castellano véase Paz (1994). los distintos niveles de puntuaciones de las
personas evaluadas, lo cual es práctica habi-
Teoría de Respuesta a los Items tual (Feldt y Qualls, 1996; Lord, 1984;
Qualls, 1992; Thorndike, 1951). Si bien es
A lo largo de este siglo la Teoría Clásica esta una salida enjundiosa al problema, la
de los tests y sus variantes han ido dando solución radical y novedosa va a venir de la
mano de un nuevo enfoque psicométrico mismo test para evaluar a todas las perso-
que domina la escena actual de la medición nas, se elige aquél que mida con mayor pre-
psicológica y educativa denominado Teoría cisión a cada cual, es lo que se ha dado en
de Respuesta a los Items (TRI). llamar Tests Adaptativos Computerizados
Bajo la óptica de la TRI la fiabilidad de (Olea y Ponsoda, 1996; Renom, 1993; Wai-
una prueba pasa a denominarse Función de ner, 1990), ampliamente utilizados en otros
Información, y es una función matemática países y en fase embrionaria en el nuestro,
continua a lo largo de la escala de las pun- aunque algunas compañías multinacionales
tuaciones de la prueba (Véase su fórmula ya los utilizan en España para certificacio-
matemática más adelante, una vez formula- nes profesionales.
dos los modelos de TRI). Es decir, el test ya Tal vez se pregunten ustedes, cómo se
no tiene un coeficiente de fiabilidad deter- procede para elegir la prueba más adecuada
minado, éste depende, está en función, del para cada persona. La estrategia consiste en
nivel de la persona en la variable medida. buscar aquella prueba cuya dificultad mejor
La fiabilidad se expresa mediante una fun- se ajuste al examinado. Para ello se van
ción (Función de Información) que toma presentando uno a uno los ítems extraídos
distintos valores según el nivel de la perso- de un Banco de ítems y en función de las
na en el test. De modo que el mismo test es respuestas, según sean aciertos o errores, se
más fiable para unas personas que para va aumentando o disminuyendo la dificul-
otras, lo cual no es difícil de entender. tad de los ítems subsiguientes. De este mo-
Piénsese, por ejemplo, en una prueba edu- do se evita presentar los ítems muy difíciles
cativa de cualquier materia que sea real- a las personas con un nivel bajo y los muy
mente difícil, muy difícil, será precisa para fáciles a las de nivel elevado, con el consi-
evaluar a los muy competentes en la mate- guiente ahorro de tiempo y mejora de la
ria, pero todos los que posean conocimien- motivación y fiabilidad de la prueba. Podría
tos medios o bajos sacarían (en el caso ex- parecer que por esta regla de tres aquéllos
tremo) un cero, la prueba no discrimina en- que reciben ítems fáciles saldrían favoreci-
tre ellos, está midiendo sus conocimientos dos, pero no hay tal, puesto que cara a la
con un error elevado. Es lo mismo que ocu- puntuación final no es lo mismo acertar
rre cuando se desea medir con precisión la ítems fáciles que difíciles, éstos puntúan
altura que salta una persona, hay que ir más. El uso de estas pruebas está cambian-
ajustando el listón a sus posibilidades hasta do la forma tradicional de evaluar y en paí-
encontrar justamente lo que es capaz de su- ses como Estados Unidos, Holanda, Israel o
perar. Mutatis mutandis, lo mismo ocurre Canadá, por citar algunos, son de uso gene-
para medir con precisión el nivel de una ralizado para el acceso a la universidad, al
persona en una variable psicológica o edu- doctorado, o para certificaciones profesio-
cativa. La tecnología evaluativa basada en nales. Señalar, de paso, que cuando se ob-
la teoría de respuesta a los ítems nos ha li- servan los avances habidos en los últimos
berado de la necesidad de tener que utilizar años en el campo de la evaluación psicoló-
el mismo test con todas las personas para gica y educativa y vemos, por ejemplo,
poder compararlas. ahora que está en boca de todos, cómo se
Esta nueva conceptualización del error lleva a cabo la Selectividad Universitaria
permitida por el marco de la TRI ha llevado en España, uno tiene la impresión de estar
a una verdadera revolución en la evaluación circulando en un carro de bueyes en tiem-
psicológica y educativa en los últimos años. pos del automóvil y de las autopistas infor-
Puesto que ya no es necesario utilizar el máticas. Técnicamente nuestro sistema de
donde:
θ: representa los valores de la variable me-
dida
Pi(θ): probabilidad de acertar el ítem para
un determinado valor de θ
ai: índice de discriminación del ítem
bi: índice de dificultad del ítem
ci: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D=1,7 los valores se
acercan a los generados por la distribu- Figura 2. Funciones de Información de cinco ítems y
ción Normal) del Test formado por ellos.
rencias y decisiones que se hacen basadas to (Anastasi, 1986; Messick, 1989; Muñiz,
en esas mediciones son correctas. Es este el 1994; Paz, 1996; Wainer y Braun, 1988).
problema de la Validez, concepto clave de la La validez de contenido tiene un carácter
medición en las ciencias sociales. Que las básico, y va encaminada a comprobar que la
mediciones sean fiables es una condición prueba recoge una muestra representativa
necesaria, pero no suficiente para que sean de los contenidos correspondientes al cam-
válidas. Se puede estar midiendo con gran po evaluado. Por ejemplo, si se trata de una
precisión algo que no tiene ninguna capaci- escala de actitudes hay que asegurarse que
dad explicativa o predictiva. No en vano los todos los componentes que conforman la
grandes debates acerca de la utilidad de los actitud están representados en la escala, o si
tests, las escalas y otras mediciones psicoló- la prueba es de ansiedad, que no se dejan
gicas y educativas se centran generalmente fuera aspectos importantes. No estará de
en torno al problema de su validez. más señalar dentro de este marco profesoral
Para probar la validez de las inferencias en el que nos encontramos, que este aspecto
hechas a partir de las pruebas, como ocurre tan elemental de la validez es descuidado
para someter a prueba cualquier otra hipóte- con demasiada frecuencia por los profesores
sis científica, hay que recoger evidencia em- en sus exámenes, al no constituir éstos una
pírica que corrobore o refute las inferencias. muestra representativa de la materia a eva-
Como señala Messick (1989), la validación luar, con lo que se abre la puerta al azar en
de un test abarca todas las cuestiones experi- las calificaciones. Personalmente, me sor-
mentales, estadísticas y filosóficas por me- prenden con frecuencia las ideas tan inge-
dio de las cuales se evalúan las hipótesis y nuas de muchos profesores acerca de la me-
teorías científicas. En realidad lo que se va- dición educativa, a pesar de la importancia
lida no es la prueba en sí, sino las inferencias que tiene sobre las vidas futuras de los
hechas a partir de ella. La forma estándar de alumnos. Conscientes de este problema, por
validar las inferencias es derivar prediccio- ejemplo, recientemente en Estados Unidos
nes y contrastarlas con los datos. Con sus lu- el sindicato de profesores más importante
ces y sus sombras, el método hipotético de- (American Federation of Teachers, 1990),
ductivo experimental sigue siendo el canon junto con otras organizaciones, ha publica-
para la validación, eso sí, sin ingenuidades do unos estándares técnicos que los profe-
acerca de su infabilidad, y conscientes de sus sores deben de seguir en sus evaluaciones.
limitaciones, bien avisados, como estamos, La Validez Predictiva se centra en la
por los ríos de tinta que los teóricos y los fi- comprobación de que las pruebas predicen
lósofos de la ciencia han vertido y vierten al aquello para lo que fueron diseñadas. Cons-
respecto (Block, 1980, 1981; Bunge, 1985; tituye un aspecto clave en la utilización
Feyerabend, 1981; Fuentes, 1994; Hanson, aplicada de los tests y las escalas en ámbitos
1969; Kendler, 1981; Kuhn, 1962; Lakatos y en los cuales se toman decisiones importan-
Musgrave, 1970; Mayor, 1989; Pinillos, tes para las personas basándose en las prue-
1980; Popper, 1959, 1963, 1972; Staats, bas, por ejemplo en el ámbito de la selec-
1983; Staats y Mos, 1987; Suppe, 1977; ción de personal, orientación, o situaciones
Toulmin, 1972; Yela, 1987, 1994; etc.) de carácter clínico, por citar algunos. La ca-
Dentro de ese marco general hay tres pro- pacidad predictiva de una prueba suele ex-
cedimientos clásicos y muy utilizados para presarse mediante su Coeficiente de Validez
recabar información empírica probatoria de (ρxy), que es la correlación entre las puntua-
la validez, denominados Validez de Conteni- ciones en la prueba (x) y la ejecución en el
do, Validez Predictiva y Validez de Construc- criterio que se pretende predecir (y). A me-
dida que el valor del coeficiente de validez las puntuaciones en los tests de inteligencia
se acerca a 1 mayor es la capacidad predic- son bastante estables a lo largo de la vida de
tiva de la prueba. Cuando se utilizan varias las personas, lo cual no quiere decir que no
pruebas para predecir un criterio se utiliza cambien ni sean modificables (Neisser et
como coeficiente de validez la correlación al., 1996). Lo que mejor predicen los tests
múltiple de las pruebas con el criterio (Ryy’). de inteligencia es el rendimiento escolar,
La Validez de Constructo, propuesta ori- con una correlación en torno a 0.50 entre las
ginariamente por Cronbach y Meehl (1955), puntuaciones en los tests de inteligencia y
trata de asegurar que las variables o cons- las notas escolares. Ello significaría que la
tructos medidos, además de capacidad pre- inteligencia explica sólo un 25% del rendi-
dictiva, tienen entidad y rigor, y se encuen- miento escolar. El otro 75% vendría expli-
tran insertas dentro de un marco teórico co- cado por otros factores tales como persis-
herente. Las formas de recoger evidencia tencia, motivación, interés académico, fac-
empírica para comprobarlo son en general tores culturales, refuerzos recibidos de los
las utilizadas para comprobar cualquier teo- padres y maestros, competencia del profe-
ría científica, si bien se han hecho habituales sor, etc. (Neisser et al., 1996). Esta relación
las recogidas de datos a través de una matriz positiva entre la inteligencia tal como la mi-
multirrasgo multimétodo (Campbell y Fiske, den los tests y el rendimiento escolar tiene
1959), o mediante diferentes técnicas de como consecuencia que los niños más inte-
análisis multivariado, entre las que destaca ligentes permanecen por término medio más
el Análisis Factorial, tanto exploratorio co- años dentro del sistema educativo, con los
mo confirmatorio. En el primer caso suele efectos positivos que ello conlleva para su
hablarse de validez convergente-discrimi- éxito social y laboral, por lo que indirecta-
nante y en el segundo de validez factorial. mente los tests de inteligencia también tie-
En definitiva, para poder asegurar que una nen poder predictivo para estos aspectos. La
prueba psicológica, educativa o sociológica validez de las mediciones de la inteligencia
es válida hay que aportar diferentes tipos de para predecir aspectos de la vida laboral y
evidencia que lo garantice, no se pueden ha- social de las personas no es que sea muy
cer afirmaciones generales ni definitivas, elevada, en torno al 25%, pero si hay que
pues como cualquier otra validación científi- elegir un sólo predictor, sigue siendo segu-
ca, la de los tests es un proceso abierto en el ramente el mejor del que se dispone. Curio-
que siempre cabe añadir nueva evidencia em- samente, se conocen más exhaustivamente
pírica que corrobore o refute la pertinencia de las predicciones que se pueden hacer a par-
las inferencias hechas a partir del test. tir de las mediciones de la inteligencia (va-
lidez predictiva) que la propia naturaleza de
El uso de los tests la inteligencia (validez de constructo), exis-
tiendo un intenso debate acerca de los fac-
Un buen ejemplo de este proceso conti- tores responsables de las diferencias indivi-
nuo de validación lo constituyen los Tests de duales en inteligencia, en el cual los tres in-
Inteligencia. Tras ya casi un siglo de inves- gredientes básicos son la herencia, el am-
tigación empírica desde que apareciese el biente y los procesos psicológicos básicos,
primer test propiamente de inteligencia, tales como tiempos de reacción, potenciales
propuesto por Binet, hoy conocemos bas- evocados, tiempo de inspección, capacidad
tante bien con qué fines pueden usarse y con atencional, rapidez de acceso a la memoria,
cuales no, aunque queden aún varias cues- etc. Si bien la teorización sobre la inteligen-
tiones abiertas. Por ejemplo, sabemos que cia ha avanzado notablemente, en compara-
ción los tests con los que se mide no han ex- el juicio subjetivo de supervisores y profe-
perimentado grandes cambios (Sternberg y sores. Ése fue su espíritu originario, y sigue
Kaufman, 1996). siéndolo, sus problemas potenciales de uso
Como no podía ser de otro modo, existen no deben enmascarar el paso adelante que
tests malos, regulares, buenos y muy bue- supone esta filosofía frente a posiciones re-
nos, es el profesional en cada caso el que trógradas como las mencionadas, tendentes
tiene que evaluar la calidad y proceder en a mantener el statu quo, independientemen-
consecuencia. Como ocurre con las tecnolo- te de la valía personal.
gías de otros muchos campos del saber,
siempre existe la posibilidad de su uso ina- Teoría de la Medición
decuado, observándose últimamente un in-
terés especial en las organizaciones profe- Paralelo a la medición empírica de las
sionales por impulsar los aspectos éticos de variables psicológicas, cuya problemática
la práctica, especialmente en lo que a los se acaba de exponer a grandes rasgos, exis-
instrumentos de medida se refiere (Franca- te toda una línea de trabajo más teórica en-
Tarragó, 1996; Keith-Spiegel y Koocher, caminada al análisis del estatus teórico de
1985; Kimmel, 1996; Muñiz, en prensa; las mediciones psicológicas, que hinca sus
Schmeiser, 1992; Schuler, 1982; Stanley, raíces en los trabajos originarios del campo
Sieber y Melton, 1996). Debido a que la de la Física (Campbell, 1920, 1921, 1928,
mayoría de los problemas con los instru- 1938; Hölder, 1901). Será precisamente un
mentos de medida psicológicos y educati- comité de expertos dirigidos por Campbell
vos provienen en gran parte de su uso ina- quienes en 1940 (Campbell et al., 1940)
decuado más que de las propiedades técni- emitan un informe en el que dudan que las
cas per se, existe actualmente un debate en mediciones de carácter psicológico y psico-
curso entre los investigadores y profesiona- físico reúnan las condiciones exigidas por
les acerca de la conveniencia o no de incluir los axiomas de Hölder (1901). La aproxi-
las consecuencias del uso de las pruebas mación de Campbell al problema de la me-
dentro del propio marco de la validez (Linn, dición era ciertamente restrictiva y tomada
1997; Mehrens, 1997; Messick, 1980, 1989, al pie de la letra dejaría fuera incluso mu-
1995; Popham, 1997; Shepard, 1997). chas de las mediciones físicas, por lo cual
Señalar, finalmente, que el uso adecuado ya fue criticada por el propio Bertrand Rus-
de los instrumentos de medida no sólo im- sell (1937). El argumento central de Camp-
plica que las propiedades técnicas (Fiabili- bell era que para poder hablar de medición
dad y Validez) sean las adecuadas, hay otros debe de darse un isomorfismo entre la can-
aspectos relativos a la propia situación de tidad y las magnitudes de la propiedad a
aplicación que deben de controlarse, tales medir; para lo cual había que demostrar que
como la relación examinado-examinador, la las magnitudes obedecían a los axiomas de
ansiedad ante las pruebas (Spielberger y cantidad desarrollados por Hölder (1901).
Vagg, 1995), entrenamiento previo, diferen- Representa una postura de carácter Platóni-
cias culturales, deseabilidad social, etc. co, bajo cuya óptica las propiedades de la
Se olvida a veces que los tests psicoló- cantidad no son negociables.
gicos y educativos representan la posibili-
dad de juzgar a las personas de forma igua- Aproximación Clásica
litaria, por sus méritos demostrados, no por
criterios como la cuna, la tribu, la familia, la La revolución copernicana en la funda-
apariencia, las cartas de recomendación, o mentación teórica de la medición psicológi-
cada es escasa, pues como señala Schwa- de la medición psicológica quedan muchos
ger (1991) en una crítica reciente, este ele- problemas teóricos y aplicados por resolver,
gante enfoque trata de garantizar la repre- de modo que no faltará el trabajo de inves-
sentabilidad formal, que es importante, pe- tigación para quienes se dedican a estos me-
ro no ha aportado hasta la fecha gran cosa nesteres. Esperemos, parafraseando al fa-
a la teoría psicológica y menos aún a la moso matemático Hilbert (1902), cuando
práctica profesional aplicada. Una buena presentó en París, ya va para un siglo, los 23
síntesis de los problemas de carácter apli- problemas más importantes de las matemá-
cado aún pendientes de una solución idó- ticas aún sin resolver, que para tales menes-
nea fue expuesta recientemente por Wainer teres contemos entre nosotros con los mejo-
(1993), para una excelente revisión y aná- res maestros y los más entusiastas y apasio-
lisis de los problemas de la medición en nados discípulos.
psicología puede consultarse el trabajo de
Michell (1997). Nota
Estos son, en suma, y a grandes rasgos,
algunas de las certezas y de las dudas que El texto corresponde a la conferencia pronun-
ocupan a quienes trabajamos en el campo de ciada por el autor como lección inaugural del
la medición psicológica, espero no haberles curso académico 1997-1998 en la Universidad
aburrido demasiado con ellas. En el campo de Oviedo.
Referencias
Hanson, N. R. (1969). Perception and discovery. Lord, F. M. (1980). Applications of item respon-
San Francisco: Freeman. se theory to practical testing problems. Hills-
Hilbert, D. (1902). Mathematical problems. Bu- dale, NJ: LEA.
lletin of the American Mathematical Society, Lord, F. M. (1984). Standard errors of measu-
8, 437-479. rement at different ability levels. Journal of
Hölder, O. (1901). Die axiome de quantität die Educational Measurement, 21(3), 239-243.
lehre von mass. Berichte ueber die Verhand- Lord, F. M. y Novick, M. R. (1968). Statistical
lugen der Königlich Sachsischen Gessells- theories of mental tests scores. Reading, MA:
chaft der Wissenschaften zu Leipzig, Mat- Addison-Wesley.
hematisch-Psysische Class, 53, 1-64. Luce, R. D. y Narens, L. (1986). The mathema-
Intelligence (1997). Número especial dedicado a tics underlying measurement on the conti-
“Intelligence and Social Policy”. Intelligence, nuum. Science, 236, 1527-1532.
24(1). Magnuson, D. (1967). Test Theory. Reading,
Keith-Spiegel, P. y Koocher, G. P. (1985). Ethics MA: Addison-Wesley. (Traducción española:
in psychology. Professional standards and ca- Mexico: Trillas, 1972).
ses. Nueva York: Random House. Mayor, J. (1989). El método científico en psico-
Kendler, H. H. (1981). Psychology: A science in logía. En J. Arnau y H. Carpintero (Comps.).
conflict. Nueva York: Oxford. Tratado de psicología general, Vol. I: Histo-
Kimmel, A. J. (1996). Ethical issues in beha- ria, teoría y método. Madrid: Alhambra.
vioral research. Cambridge, MA: Black- Mehrens, W. A. (1997). The consequences of
well. consequential validity. Educational Measu-
Krantz, D. H. Luce, R. D., Suppes, P. y Twersky, rement: Issues and Practice, 16(2), 16-18.
A. (1971). Foundations of measurement. Vol Messick, S. (1980). Test validity and the ethics
1. Additive and polynomial representations. of assessment. American Psychologist, 35,
Nueva York: Academic Press. 1012-1027.
Kuder, G. F. y Richardson, M. W. (1937). The Messick, S. (1989). Validity. En R. L. Linn (Ed.),
theory of estimation of test reliability. Psy- Educational Measurement. Nueva York:
chometrika, 2, 151-160. Macmillan.
Kuhn, T. S. (1962). The structure of scientific re- Messick, S. (1995). Validity of psychological as-
volutions. Chicago: University of Chicago sessment. American Psychologist, 50, 741-
Press. 749.
Lakatos, I. y Musgrave, A. (Eds.) (1970). Criti- Michell, J. (1986). Measurement scales and
cism and the growth of knowledge. Londres: statistics: a clash of paradigms. Psychological
Cambridge University Press. Bulletin, 100, 398-407.
Lawley, D. N. (1943). On problems connected Michell, J. (1990). An introduction to the logic of
with item selection and test construction. Pro- psychological measurement. Hillsdale, NJ:
ceedings of the Royal Society of Edimburg, LEA.
61, 273-287. Michell, J. (1997). Quantitative science and the
Linn, R. L. (1997). Evaluating the validity of as- definition of measurement in psychology.
sessments: the consequences of use. Educa- British Journal of Psychology, 88, 355-383.
tional Measurement: Issues and Practice, Muñiz, J. (1991). Introducción a los métodos
16(2), 14-16. psicofísicos. Barcelona: PPU.
López-Pina, J. A. (1995). Teoría de respuesta al Muñiz, J. (1994). Teoría clásica de los tests. Ma-
ítem: fundamentos. Barcelona: PPU. drid: Pirámide. (2ª ed.).
Lord, F. M. (1952). A theory of test scores. Psy- Muñiz, J. (1996a). Fiabilidad. En J. Muñiz (Co-
chometric Monographs, nº 7. or.), Psicometría. Madrid: Universitas.
Lord, F. M. (1953a). An application of confiden- Muñiz, J. (Coor.). (1996b). Psicometría. Madrid:
ce intervals of maximum likelihood to the es- Universitas.
timation of an examinee’s ability. Psychome- Muñiz, J. (1997). Introducción a la teoría de
trika, 18, 57-75. respuesta a los ítems. Madrid: Pirámide.
Lord, F. M. (1953b). On the statistical treatment Muñiz, J. (en prensa). Aspectos éticos y deonto-
of football numbers. The American Psycholo- lógicos de la evaluación psicológica. En Eva-
gist, 8, 750-751. luación Psicológica, Madrid: TEA Ediciones.
Muñiz, J. y Hambleton, R. K. (1992). Medio si- Roberts, F. S. (1979). Measurement theory. Rea-
glo de teoría de respuesta a los ítems. Anuario ding, MA: Addison Wesley.
de Psicología, 52, 41-66. Rulon, P. J. (1939). A simplified procedure for
Narens, L. (1985). Abstract measurement: the determining the reliability of a test by split-
theory of numerical assignment. Psychologi- halves. Harvard Educational Review 9, 99-
cal Bulletin, 99, 166-180. 103.
Narens, L. y Luce, R.D. (1986). Measurement: Russell, B. (1937). The Principles of Mathema-
the theory of numerical assignment. Psycho- tics (2ª Ed.). Nueva York: Norton.
logical Bulletin, 99, 166-180. Santisteban, C. (1990). Psicometría. Teoría y
Neisser, U. et al. (1996). Intelligence: knowns práctica en la construccción de tests. Madrid:
and unknows. American Psychologist, 51(2), Norma.
77-101. Savage, L. W. y Ehrlich, R. (Eds.). (1990). Phi-
Novick, M. R. (1966). The axioms and principal losophical and foundational issues in measu-
results of classical test theory. Journal of rement theory. Hillsdale, NJ: LEA.
Mathematical Psychology, 3, 1-18. Schmeiser, C. B. (1992). Ethical codes in the
Olea, J. y Ponsoda, V. (1996). Tests adaptativos professions. Educational Measurement: Is-
informatizados. En J. Muñiz (Coor.), Psico- sues and Practice, 5-11.
metría. Madrid: Universitas. Schmidt, F. L. y Hunter, J. E. (1996). Measu-
Paz, M. D. (1994). Teoría de la Generalizabili- rement error in psychological research: les-
dad. En J. Muñiz, Teoría clásica de los tests. sons from 26 research scenarios. Psychologi-
Madrid: Pirámide. cal Methods, 1(2), 199-223.
Paz, M. D. (1996). Validez. En J. Muñiz (Coor.), Schuler, H. (1982). Ethical problems in psycho-
Psicometría. Madrid: Universitas. logical research. London: Academic Press.
Paz, M. D. y Muñiz, J. (1989). Potenciales evo- Schwager, K. W. (1991). The representational
cados y tiempos de reacción. Psicothema, 1, theory of measurement: an assessment. Psy-
97-117. chological Bulletin, 110(3), 618-626.
Pfanzagl, J. (1968). Theory of measurement. Shavelson, R. y Webb, N. (1991). Generalizabi-
Nueva York: Wiley. lity theory. Beverly Hills, CA: Sage.
Pinillos, J. L. (1980). Problemas actuales de la Shavelson, R. Webb, N. y Rowley, G. L. (1989).
psicología científica. Análisis y Modificación Generalizability Theory. American Psycholo-
de Conducta, 6, 11-12. gist, 44 (6), 922-932.
Popham, W. J. (1997). Consequential validity: Shepard, L. A. (1997). The centrality of test use
right concern-wrong concept. Educational Me- and consequences for test validity. Educatio-
asurement: Issues and Practice, 16(2), 9-13. nal Measurement: Issues and Practice, 16(2),
Popper, K. R. (1959). The logic of scientific dis- 5-8.
covery. Londres: Hutchinson. Spearman, C. (1904). The proof and measu-
Popper, K. R. (1963). Conjectures and refuta- rement of association between two things.
tions. Nueva York: Harper. American Journal of Psychology, 15, 72-101.
Popper, K. R. (1972). Objective knowledge. Ox- Spearman, C. (1907). Demonstration of formulae
ford: Clarenton Press. for true measurement of correlation. Ameri-
Qualls, A. L. (1992). A comparison of score le- can Journal of Psychology, 18, 161-169.
vel estimates of the standard error of measu- Spearman, C. (1913). Correlations of sums and
rement. Journal of Educational Measu- differences. British Journal of Psychology, 5,
rement, 29(3), 213-225. 417-126.
Rasch, G. (1960). Probabilistic models for some Spielberger, C. D. y Vagg, P. R. (Eds.) (1995).
intelligence and attainment tests. Copenha- Test anxiety. Theory, assessment and treat-
gen: The Danish Institute for Educational Re- ment. Washington, DC: Taylor and Francis.
search. Staats, A. W. (1983). Psychology’s crisis of de-
Renom, J. (1993). Tests adaptativos computeri- sunity. Philosophy and method for a unified
zados. Barcelona: PPU. science. Nueva York: Praeger.
Richardson, M. W. (1936). The relationship bet- Staats, A. W. y Mos, L. P. (Eds.) (1987). Annals
ween difficulty and the differential validity of of theoretical psychology. Vol. 5. Nueva
a test. Psychometrika, 1, 33-49. York: Plenum Press.
Allen y Yen (1979), citando a DuBois (1970), señalan como uno de los
antecedentes más remotos de la medición de la conducta, la selección de funcionarios
mediante diversas pruebas en China hace unos 3.000 años. Jáñez (1989) señala que ya en
la Atenas de Aristóteles existía cierta preocupación por la medición de atributos
subjetivos. Todos estos antecedentes remotos de medición de la conducta sugieren que
éste fue un tema que preocupó pronto al hombre. Sin embargo, no es hasta principios de
este siglo cuando se desarrollan las teorías que intentan establecer las condiciones y
fundamentos de la medición. El origen de los esfuerzos sistemáticos por medir variables
psicológicas puede situarse en cuatro áreas diferentes (Jáñez, 1989; Santisteban, 1990):
1. la psicofísica y la medición de la sensación; 2. los estudios sobre el tiempo de reacción
y sus aplicaciones al cronometraje de los actos mentales; 3. el análisis cuantitativo del
aprendizaje iniciado por Ebbinghaus; y 4. el estudio de las diferencias individuales y su
medida iniciado por Galton.
llevaron a la conclusión de que estos atributos tenían la misma estructura matemática que
los números reales positivos con adición (+) y orden natural (≥) (Re+, ≥, +) (Narens y
Luce, 1986, p. 166). Efectivamente, entre un conjunto de objetos podemos observar una
relación natural empírica de orden, , "donde el orden refleja cualitativamente el grado
o cantidad del atributo a medir que es mostrado por los objetos" (Narens y Luce, 1986, p.
166). Si x e y son dos varillas metálicas, fácilmente podemos comparar su longitud y
determinar si son iguales (x ~ y) o si x es más larga que y (x ! y). Asimismo, "también
podemos encontrar una operación natural empírica, ◦, que combine cualquier par de
objetos que muestren el atributo en un objeto compuesto que también muestre el atributo"
(Narens y Luce, 1986, p. 166). Colocando la varilla x a continuación de la varilla y,
realizamos la operación de combinación, obteniendo como resultado x ◦ y. Formalmente,
esta operación de combinación se denomina concatenación. El conjunto de todos los
objetos bajo consideración (X), la relación de orden observada entre ellos (), y todas las
combinaciones que puede formarse mediante ◦, constituyen una estructura cualitativa [χ
= (X, , ◦)], mientras que una estructura como (Re+, ≥, +) que puede utilizarse para
representar a χ recibe el nombre de estructura numérica o de representación (Narens y
Luce, 1986).
Partiendo del trabajo de Helmholtz, Hölder (1901) estableció que para que una
estructura cualitativa χ = (X, , ◦) tuviera una representación en (Re+, ≥, +) aquélla tenía
que satisfacer los siguientes axiomas (Narens y Luce, 1986):
1. Orden débil.
La relación ≥ es transitiva [∀ x, y, z ∈ X4, si x y e y z, entonces x z] y conectada [∀
x, y ∈ X se cumple que x y o y x].
1
! y ~ son operadores que utilizamos para definir relaciones observadas en el plano empírico,
entre objetos o sujetos a partir de alguna de sus propiedades. Por ejemplo, si observamos que la varilla x
es más larga que la varilla y, podemos escribir: x ! y. Hay que diferenciarlos de los operadores ≥ , > y =
, que son utilizados para definir relaciones entre números. Asimismo, la operación de combinación entre
objetos que denominamos concatenación, y que representamos mediante ◦ , se aplica a objetos o sujetos
en el plano empírico. El operador análogo en el plano numérico, + , se aplica a números en el plano
formal.
2
El objeto x es igual o mayor a y si y sólo si la imagen numérica de x según α (esto es, el número que
asignamos a x según el homomorfismo) es igual o mayor a la imagen numérica de y según α.
3
La concatenación de x e y se puede representar mediante la suma de sus imágenes numéricas.
4
Esta expresión se puede leer así: para todo x, y, z (es decir, para una serie de tres objetos) que
pertenezca a X (el conjunto de objetos a medir) si ...
2. Monotonicidad.
[∀ x, y, w, z ∈ X si x y y z w, entonces x ◦ z y ◦ w. Esto es, la concatenación de
objetos preserva el orden.
3. Resolubilidad limitada.
Para cada x, y ∈ X si x ! y, existe algún z tal que x ! y ◦ z.
4. Positividad.
∀ x, y ∈ X se cumple que x ◦ y ! x y que x ◦ y ! y.
5. Asociatividad.
∀ x, y, z ∈ X se cumple que x ◦ (y ◦ z) ~ (x ◦ y) ◦ z.
A finales de los años treinta, Stevens también había discutido con una serie de
filósofos y científicos cuestiones similares a las planteadas por la comisión de la BAAS
(Narens y Luce, 1986). A diferencia de Campbell, para Stevens la estructura empírica y
su representación no constituían el único aspecto importante de la medición. Lo
realmente crucial era la unicidad o singularidad de la representación, esto es, el grupo de
transformaciones que dejan invariante la forma de las escalas (Narens y Luce, 1986;
Jáñez, 1989). Entre 1946 y 1951, Stevens distinguió cuatro grupos de transformaciones, e
introdujo los términos de escala nominal, ordinal, de intervalos, y de razón, para referirse
a las mismas (Narens y Luce, 1986). Estas ideas, junto con su concepción de la medición,
constituyen las aportaciones más relevantes e innovadoras de Stevens (Jáñez, 1989). Para
Stevens, medir ya no consiste en "buscar el número que representa la cantidad de
magnitud presente en un objeto" (Jáñez, 1989, p. 402). Medir es asignar números a los
objetos según cierta regla (Stevens, 1951), de manera que "los números asignados en la
medición, no representan propiamente cantidades, sino relaciones" (Jáñez, 1989, p. 402).
Esta concepción de la medición será tomada y desarrollada más tarde por la teoría
representacional.
Por otra parte, también hay que señalar que en respuesta a las conclusiones del
comité de la BAAS, varias aportaciones contemporáneas a Stevens mostraron que la
medición fundamental mediante escalas de intervalo era también posible para las
estructuras no extensivas (Narens y Luce, 1986). Según los citados autores, la prueba más
clara al respecto la ofreció la teoría de la medición conjunta aditiva (Krantz, 1964;
Holman, 1971).
A partir de la década de los sesenta, se desarrollan una serie de teorías
axiomáticas de la medición (Suppes Zinnes, 1963; Krant, Luce, Suppes y Tversky, 1971;
Luce y Tukey, 1964; Roberts, 1979) que dan paso a lo que Jáñez (1989) denomina época
de la teoría representacional, ya que desde esta perspectiva "los símbolos asignados a los
objetos deben representar las relaciones percibidas entre los atributos de los objetos"
(Leaning y Filkenstein, 1980, p. 73; citado en Jáñez, 1989, p. 404). Esta teoría distingue
con claridad entre un sistema relacional empírico (X), un sistema relacional numérico
(R), y una aplicación u homomorfismo de X en R. El sistema relacional empírico hace
referencia al conjunto de objetos que muestran el atributo de interés, y las relaciones entre
los mismos; y el sistema relacional numérico alude al conjunto de números y sus
relaciones que pueden ser usados para representar las relaciones observadas entre los
objetos bajo consideración (Narens y Luce, 1986; Aftanas, 1988). Medir implica traducir
la información que contiene el sistema empírico al marco del sistema relacional numérico
mediante una aplicación u homomorfismo (Aftanas, 1988, p. 326).
Según Jáñez (1989), los conceptos de sistema relacional (empírico y numérico) y
homomorfismo o aplicación que permite transformar un sistema en otro, constituyen los
fundamentos de las teorías modernas de la medición. Estas teorías abordan tres
problemas básicos: el de la representación, el de la unicidad, y el de la significación.
El problema de la representación consiste en determinar, "las condiciones que
debe satisfacer el sistema relacional empírico para que exista un sistema relacional
numérico y un homomorfismo entre ambos que permita considerar este último como
representación de aquél" (Jáñez, 1989, p. 409).
El problema de la unicidad consiste en determinar cuáles son las
transformaciones admisibles para un homomorfismo determinado sin que la escala
pierda su representación (Jáñez, 1986; Santisteban, 1990). La respuesta a esta cuestión
permite conocer el tipo de escala resultante.
El problema de la significación alude a la validez formal de las inferencias que se
realizan sobre un sistema relacional empírico a partir de las propiedades descubiertas en
un sistema relacional numérico (Jáñez, 1986; Santisteban, 1990).
Texto para preparar este punto: Capítulo 18 del libro:
Jáñez, L. (1989). Fundamentos de Psicología Matemática. Madrid: Pirámide.
Psicometría Aplicada II Abril - 2018 28
Compendio - Prof. Enrique Morosini
REFERENCIAS BIBLIOGRAFICAS.
Parece que fue el 22 de Octubre de 1850 cuando Fechner dio forma a su conocida ley logarítmica
(Gescheider, 1988). Según esta ley, acuñada con el nombre de Ley de Fechner, la sensación (S) es una función
lineal del logaritmo del nivel de estimulación (E) (S = C ln(E) + K; o S= K logE, donde C y K son dos
constantes); de modo que, sobrepasado un umbral absoluto, incrementos aritméticos en el nivel de sensación
son consecuencia de incrementos geométricos en el nivel de estimulación. Para desarrollar esta ley, Fechner
asumió como supuesto la Ley de Weber que afirma que la cantidad de estimulación necesaria para que se
advierta un cambio en el continuo de la sensación es proporcional al nivel de estimulación ya alcanzado (∆E =
K E).
La Ley de Fechner fue ampliamente aceptada durante unos cien años, y su influencia trascendió los
dominios de la Psicología dejándose notar en disciplinas como la neurofisiología y la ingeniería (Gescheider,
1988). Sin embargo, no ha estado exenta de críticas, algunas de las cuales permiten formular funciones de
relación alternativas (Ponsoda, 1986). Eso fue lo que hizo Stevens casi un siglo después de la publicación de
los "Elemente der Psychophysik" de Fechner (Stevens, 1953, 1954, 1955).
Las diferencias entre las funciones de relación que propusieron ambos investigadores tienen su base
en los procedimientos experimentales empleados. Así, mientras que Fechner obtenía datos acerca de la
discriminabilidad de los estímulos y elaboraba la escala de sensación a partir de las diferencias apenas
perceptibles, Stevens preguntaba directamente a los sujetos por el valor de su sensación, admitiendo sus
respuestas como su verdadero nivel de sensación, obteniendo así datos acerca de la estimación de la
magnitud de los estímulos. Con ello, la "nueva Psicofísica" de Stevens se ocupa de la relación entre los niveles
de estimulación y las respuestas que evoca en los sujetos (Stevens, 1966), reflejando así la influencia del
conductismo y el operacionalismo dominante en la época.
Por otra parte, como fruto de la actividad investigadora despertada por Stevens, a principios de los
sesenta aparecieron una serie de trabajos que en cierta manera reconciliaban las leyes de Fechner y Stevens.
Helm, Messick y Tucker (1961) y Galanter y Messick (1961) derivaron una relación exponencial entre las
escalas de estimación de magnitudes empleadas por Stevens y las escalas de discriminación utilizadas por
Fechner (Tucker, 1963). Como señala el citado autor, "una consecuencia de esta relación es que tanto Stevens
como Fechner podrían estar en lo cierto. Las escalas de estimación de magnitudes, tal como defendía Stevens,
podrían tener una relación potencial con la magnitud física, mientras que las escalas de discriminación
podrían tener una relación logarítmica con la magnitud física" (Tucker, 1963, p. 351).
Este breve repaso por los hitos de la historia de la Psicofísica permite vislumbrar que uno de los
problemas fundamentales que tuvo que afrontar la Psicofísica desde sus inicios fue la medida de la sensación
(Gesheider, 1988). Para ello se idearon diversas tareas y métodos que posteriormente serían utilizados por
Thurstone para medir atributos psicológicos de estímulos que no tenían un correlato físico medible
(Gulliksen, 1958), dando lugar así a los métodos de escalamiento psicológico. Puede afirmarse que ésta es la
importante aportación de la Psicofísica a la Psicometría, en general, y a una de sus áreas -el escalamiento- en
particular. Así, podemos afirmar que "el escalamiento fue primero escalamiento psicofísico, y después,
psicológico" (Meliá, 1990a, p. 89). Además, la Psicofísica tuvo una notable influencia en el nacimiento de la
Psicología Experimental (Ponsoda, 1986), fue pionera en la formulación matemática de los modelos teóricos,
y sus métodos han sido aplicados a otras áreas de la Psicología (Stevens, 1975).
Como sugerimos en el apartado anterior, con Louis Leon Thurstone se inicia el escalamiento
psicológico propiamente dicho. Thurstone advirtió que ciertos métodos empleados en la investigación
psicofísica podían ser utilizados para medir atributos psicológicos con precisión si se desarrollaba un modelo
teórico apropiado (Gulliksen, 1958). En 1927, Thurstone presentó su modelo bajo la denominación de Ley del
Juicio Comparativo. Esta es un conjunto de ecuaciones que relaciona: 1. la proporción de veces que un
estímulo es juzgado mayor que otro respecto a un atributo o continuo psicológico concreto, con 2. los valores
escalares y las dispersiones discriminativas de los dos estímulos. Un supuesto básico de esta ley es que el
grado en que dos estímulos cualesquiera pueden ser discriminados es una función directa de la diferencia de
su posición respecto al atributo en cuestión (McIver y Carmines, 1981; p. 18). A partir de aquí, y usando el
método de las comparaciones apareadas -un método elaborado por Fechner-, Thurstone fue capaz de ubicar a
los estímulos en un continuo unidimensional, asignándoles valores escalares.
El método de escalamiento propuesto por Likert (1932) superaría la primera y cuarta limitaciones
señaladas anteriormente. Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la
medición de las actitudes, Likert (1932) se preguntó si la construcción de escalas de medida mediante
procedimientos más sencillos daría resultados tan buenos como los obtenidos por Thurstone en cuanto a la
fiabilidad y validez de las medidas, y si sería posible construir escalas evitando asumir supuestos estadísticos
innecesarios.
El método de medición de Likert consiste básicamente en la presentación a los sujetos de una serie de
items ante los que tienen que expresar su posición escogiendo una alternativa de respuesta entre las
ofrecidas. La puntuación del sujeto se determina sumando o promediando los valores de las alternativas de
respuesta escogidas ante cada ítem (Likert, 1932). El modelo aditivo de Likert asume que los items que se
presentan a los sujetos miden un único atributo bajo investigación, y que cada uno de esos items está
monotónicamente relacionado con el continuo del atributo subyacente.
Una diferencia fundamental respecto a los métodos propuestos por Thurstone para la medición de
actitudes reside en que no se necesita que los items o enunciados sean calibrados previamente, lo cual supone
un ahorro de tiempo y trabajo considerable.
Likert (1932) comparó distintos procedimientos de puntuación de las respuestas dadas a los items,
comprobando que el procedimiento más sencillo, consistente en asignar valores de 1 a 5 a cada una de las
cinco alternativas de respuesta ofrecidas (entre "Muy de acuerdo" y "Muy en desacuerdo"), ofrecía unos
niveles de fiabilidad tan buenos como otros procedimientos más complejos. Asimismo, comprobó que las
escalas construidas con su método presentaban niveles de fiabilidad incluso superiores a escalas similares
elaboradas mediante los métodos ideados por Thurstone, mostrando a su vez una buena validez (Likert,
1932). A estas propiedades hay que añadir que para la construcción de escalas siguiendo el método propuesto
por Likert no era necesario recurrir a jueces, evitando así los inconvenientes asociados.
Todo ello contribuyó a que el uso del método de escalamiento de Likert se extendiera rápidamente.
Pero este método también presenta ciertas limitaciones. Una de ellas hace referencia a la interpretación de las
puntuaciones de los sujetos en la escala. El método de Likert no ofrece como resultado "la ubicación de los
items individuales en un continuo actitudinal subyacente. Consecuentemente, no se puede ofrecer una
interpretación absoluta de la puntuación de un sujeto en términos de ese continuo" (McIver y Carmines, 1981,
p. 27). Por todo ello, la interpretación de la puntuación de un sujeto en una escala sumativa de Likert depende
de la distribución de las puntuaciones del grupo de sujetos al que pertenece el sujeto. Otras críticas recibidas
por el método de Likert aluden a los procedimientos empleados para garantizar la unidimensionalidad de la
escala, basados en el análisis de la homogeneidad de los items (McIver y Carmines, 1981). A pesar de estas
limitaciones, y debido principalmente a su sencillez, el método de escalamiento de sujetos propuesto por
Likert es hoy el más extendido en el campo de la medición de actitudes.
A partir de 1941 Louis Guttman publica una serie de trabajos en los que presenta su aproximación
innovadora al escalamiento. Su método, conocido por los nombres de escalamiento acumulativo y análisis de
escalograma, permite escalar items y sujetos sobre una dimensión acumulativa subyacente. En el caso ideal,
la puntuación total en una escala Guttman permite reproducir las respuestas dadas ante cada uno de los
items que configuran la escala.
Una de las características del modelo de Guttman es que se trata de un modelo determinista: las
respuestas de los sujetos a los items están determinadas por la situación de los sujetos y los items en el
continuo del rasgo subyacente que se pretende medir. Por ejemplo, desde este modelo se espera que un sujeto
que tenga un nivel de aptitud numérica igual o superior al que exige un problema aritmético, siempre dará
con la solución correcta. Sin embargo, la práctica nos muestra que éste no es siempre el caso, y que a veces el
sujeto fallará. Mokken (1971) desarrolló una versión probabilística del modelo de Guttman. En este modelo es
la probabilidad de dar una determinada respuesta la que depende de la situación de los sujetos y los items en
el continuo del rasgo subyacente que se pretende medir.
Son diversos los criterios que se han propuesto para clasificar los distintos métodos de escalamiento
existentes (ver Torgerson, 1958; López Feal, 1986). Sin embargo, uno de los criterios todavía hoy más
utilizados (p. ej., McIver y Carmines, 1981) fue propuesto hace ya más de cuatro décadas por Torgerson
(1958). Tal criterio alude a la atribución de la variabilidad de las respuestas que dan los sujetos frente a los
estímulos. En base a ese criterio, Torgerson distinguió tres tipos de métodos:
3. 0pWRGRV GH UHVSXHVWD: La variabilidad de las respuestas es atribuida tanto a las diferencias
individuales como a las estimulares. Estos métodos permiten escalar tanto sujetos como
estímulos. (Por ejemplo, el método de Guttman).
Torgerson (1958) clasifica los PpWRGRVGHMXLFLR en base a los procedimientos empleados para obtener la
unidad de medida de la escala resultante. Así distingue entre los métodos de MXLFLRFXDQWLWDWLYR y los métodos
basados en la YDULDELOLGDG de los juicios. En los primeros, la unidad de medida se obtiene directamente a partir
de los juicios cuantitativos acerca de los estímulos (por ejemplo, métodos de estimación subjetiva, métodos de
fraccionamiento, métodos de equisección). En los segundos, la unidad de medida se obtiene a partir de la
variabilidad de los juicios ofrecidos ante los estímulos (métodos de sensibilidad diferencial, métodos
thurstonianos).
1. &RQVLGHUDFLyQ GH OD YDULDQ]D GH HUURU R QR VLVWHPiWLFD. Este criterio permite distinguir entre
métodos o modelos GHWHUPLQtVWLFRV y SUREDELOtVWLFRV. Los primeros no consideran la varianza de
error, y asumen que las respuestas están totalmente determinadas por los parámetros asociados
al sujeto y al estímulo. Los probabilísticos sí consideran la varianza de error, y, en este caso, los
parámetros asociados al sujeto y al estímulo determinan la probabilidad de que el sujeto dé una
determinada respuesta.
2. 'DWRV TXH VH UHTXLHUHQ GH ORV VXMHWRV. Aquí Torgerson distingue entre métodos aplicables a
respuestas FDWHJyULFDV y métodos aplicables a respuestas FRPSDUDWLYDV. Y por último,
3. 1~PHUR GH GLPHQVLRQHV VREUH ODV TXH VH PLGHQ ORV HVWtPXORV \ ORV VXMHWRV. Este criterio permite
diferenciar los métodos XQLGLPHQVLRQDOHV y los métodos PXOWLGLPHQVLRQDOHV.
Hay que hacer notar que Torgerson (1958) no propone ninguna clasificación de los métodos
centrados en el sujeto, lo que justifica señalando que esta aproximación "no ha llevado, en gran medida, al
desarrollo de los modelos de escalamiento" (Torgerson, 1958, p. 47).
7(0$ 0(72'2'((6&$/$0,(17281,',0(16,21$/
'(7+856721(
3. FIABILIDAD.
Thurstone (1927) propuso una serie de métodos útiles para ordenar objetos a lo largo de un
continuo psicológico. Los objetos psicológicos son estímulos que provocan cierta reacción en el sistema
sensorial de las personas; estos objetos o estímulos pueden ser el sonido de un teléfono, una persona bien
vestida, una tela de seda, una caramelo, o un perfume. También pueden incluirse en esta categoría mensajes
visuales como ❤, o afirmaciones como "Me gusta la escuela".
Todos los métodos que propuso se basan en su Ley del Juicio Comparativo.
Thurstone estaba preocupado principalmente por el problema de cómo los estímulos psicológicos
pueden ser medidos y comparados entre sí. En contraste, la medida de objetos físicos, es simple y directa.
Si un científico quiere averiguar el peso de una serie de objetos, por ejemplo, tan sólo tiene que utilizar la
escala y el instrumento de medida adecuados y anotar el peso correspondiente a cada uno de ellos.
Seguidamente, los objetos pueden ser ordenados del más ligero al más pesado. Sin embargo, si no hay
ninguna escala disponible, el proceso de ordenar los objetos en función de su peso relativo se complica
considerablemente, ya que ineludiblemente implica juicios individuales. Se podría, por ejemplo, pedir a
cada uno de los miembros de un grupo de personas que ordenaran los objetos desde el más ligero al más
pesado sopesando en la mano cada uno de los objetos uno cada vez. Alternativamente, se podrían presentar
todos los pares posibles de objetos y preguntar a cada persona qué objeto del par es el más pesado. En
ambos casos, obtendríamos una ordenación de los pesos de los objetos basada en los juicios comparativos
de un grupo de personas.
Thurstone reconoció que ésta era precisamente la situación del científico social que intenta medir
un estímulo psicológico. Y su solución reside también en los juicios humanos. Imaginemos el siguiente
ejemplo: a un grupo de personas se les da una lista de profesiones y se les pide que evalúen cada una en
base a su prestigio social relativo. La lista de profesiones representa los estímulos, y el supuesto es que cada
una de ellas puede ser ordenada a lo largo de un continuo en función del grado de prestigio social que cada
una tiene. La Ley del Juicio Comparativo presupone que para cada estímulo -en este caso, para cada
profesión- existe una respuesta que ocurre con la mayor frecuencia. Esta respuesta más frecuente es
denominada respuesta, reacción o proceso discriminatorio modal. La respuesta de cada individuo implica
un juicio acerca del grado de prestigio de cada profesión. No se supone que cada estímulo evoque siempre
la misma respuesta para distintos individuos ni incluso para un mismo individuo en diferentes ocasiones.
De este modo, aunque la profesión de médico elicitará una respuesta modal del grupo de individuos en
relación a su prestigio, esta respuesta modal no caracterizará todas las respuestas evocadas, pues no hay que
olvidar que la respuesta modal es sólo la que se da en más ocasiones.
Thurstone asume que la distribución de todas las respuestas evocadas por cualquier estímulo es
normal, siendo la media la respuesta modal. Sabemos que la distribución normal puede ser descrita
mediante dos parámetros: su media y su desviación típica; y que en cualquier distribución normal, la media,
la mediana y la moda tienen el mismo valor. La respuesta modal para un determinado estímulo (que
equivale a la media de la distribución de las respuestas evocadas) es considerada el valor de la escala para
ese estímulo, y la desviación típica de la mencionada distribución es la dispersión discriminal para ese
estímulo. Así pues, cualesquiera dos profesiones puede diferenciarse en términos de sus respuestas
modales, esto es, sus valores en la escala, y sus dispersiones discriminales. Ahora las distintas profesiones
podrían ser ordenadas a lo largo del continuo psicológico que representa prestigio social, calculando sus
valores en la escala y ordenándolas desde la más a la menos prestigiosa.
El supuesto básico que subyace la Ley del Juicio Comparativo es el siguiente: el grado en el que
dos estímulos cualesquiera pueden ser discriminados es una función directa de la diferencia percibida
existente en relación con el atributo en cuestión. Continuando con el ejemplo anterior, probablemente
muchos individuos juzgarán que la profesión de médico tiene más prestigio social que la de mecánico de
automóviles. Sus valores relativos en la escala reflejarán esta diferencia. Si se juzga que dos estímulos
tienen exactamente el mismo valor en la escala -es decir, el 50% de los sujetos consideran que la profesión
A es más prestigiosa que la profesión B, y el otro 50% exactamente a la inversa-, entonces se considera que
los dos estímulos tienen la misma cantidad de la propiedad. De este modo, la ubicación de las profesiones a
lo largo del continuo de prestigio social debe reflejar el grado en el que los individuos pueden discriminar
entre el prestigio percibido de las distintas profesiones. A mayor distancia en el continuo entre dos
profesiones cualesquiera, mayor grado en el que los individuos están de acuerdo en que una de las
profesiones tiene más prestigio que la otra. Inversamente, cuanto menor sea la distancia en el continuo
entre cualesquiera dos profesiones, mayor confusión existirá acerca del prestigio relativo de las dos
profesiones. El grado en el que dos profesiones cualesquiera pueden ser discriminadas es un reflejo directo
de sus diferencias percibidas en cuanto a su prestigio social.
Así pues, los objetos psicológicos pueden tomar valores de una escala, pero sólo dentro de un
marco de comparaciones relativas. Para ello es necesario, por lo menos, disponer de dos objetos de manera
que la comparación pueda ser realizada. En este caso, Thurstone asume que las respuestas a cada objeto se
distribuyen normalmente y que la varianza de las respuestas alrededor de cada media es igual para ambos
objetos. Veamos pues a través de un ejemplo sencillo cómo podrían asignarse valores relativos a dos
estímulos que son comparados. Supongamos que i y j son dos objetos psicológicos que tienen que ser
juzgados en relación al siguiente continuo: actitud positiva hacia la asistencia a la escuela. Supongamos
que i es el siguiente estímulo: "Odio la escuela", y j :"A veces la escuela es aburrida".
Podríamos pedir a un grupo de sujetos que juzgaran qué afirmación es menos desfavorable a la
asistencia a la escuela. Si el 80% de los sujetos eligiera j como menos desfavorable que i , y, por lo tanto, el
20% restante eligiera a i como menos desfavorable que j, podríamos argumentar que la respuesta media a j
debería ser mayor que la respuesta media a i en una escala referida al continuo [aunque desconozcamos el
valor de tales medias], es decir,
s j ² si
La distancia entre las dos medias [esto es, entre las respuestas modales de i y j] es una función del número
de veces que j es valorada por encima de i. Utilizando comparaciones apareadas podríamos contar el
número de veces que se da este juicio, y transformar esta frecuencia en una proporción de preferencia. Si en
un grupo de 50 sujetos, j es preferida sobre i [es valorada como menos desfavorable a la asistencia a la
escuela] 40 veces, entonces la proporción es 40/50 o 0.80.
Sin embargo, las proporciones pueden ser expresadas como puntuaciones normales de desviación
(por ejemplo, puntuaciones típicas (z)). En el caso del ejemplo, y utilizando las tablas de la distribución
normal, para una proporción igual a 0.80 corresponde una puntuación normal de desviación zij=0.84. La
distancia en la escala entre dos objetos psicológicos puede definirse en términos de esta puntuación normal
de desviación, esto es,
z ij = s j − s i
Gráficamente, podemos decir que en algún lugar del continuo de "actitud hacia la asistencia a la escuela" j
e i están separados por una distancia de 0.84 del modo siguiente:
A veces la escuela
Odio la escuela
es aburrida.
negativo i j positivo
.84
Nótese que a pesar de que la media de la distribución de las respuestas alrededor de los estímulos
nunca será conocida, la diferencia entre dos medias cualesquiera puede ser obtenida si se acepta el
supuesto de normalidad mencionado anteriormente. El uso que hace Thurstone de la puntuación normal de
desviación como una medida de la distancia entre las medias se justifica de la siguiente forma:
X1 − X 2
z 12 =
2 2
S 1 + S 2 − 2 r 12 S 1 S 2
Thurstone resuelve esta ecuación obteniendo un valor para la diferencia entre las medias de la siguiente
forma:
2 2
X 1 − X 2 = z 12 S 1 + S 2 − 2 r 12 S 1 S 2
X X
Sean 1 y 2 los valores en la escala de los dos estímulos (la media y la moda son iguales en una
distribución normal), y asumiendo que los estímulos no correlacionan (esto es, r=0), la fórmula se reduce a:
2 2
X −X =z S +S
1 2 12 1 2
Asumiendo que las varianzas de respuesta son iguales para los dos estímulos, el valor bajo la raíz se
convierte en una constante, y en este caso la fórmula se reduce a
X −X =z ⋅ cons tan te
1 2 12
Thurstone desarrolló tres métodos de escalamiento basados en la Ley del Juicio Comparativo: el
método de las comparaciones apareadas, el método de los intervalos sucesivos, y el método de los
intervalos aparentemente iguales. El ejemplo anterior corresponde a una breve ejemplificación del método
de las comparaciones apareadas, del que pasamos a ocuparnos a continuación con mayor profundidad.
Este procedimiento de Thurstone para encontrar las distancias entre estímulos en una escala parte
de las elecciones derivadas de una lista de comparaciones apareadas de objetos. Las elecciones pueden ser
acumuladas en una tabla de doble entrada, escribiendo un 1 en cada intersección de una fila y una columna
donde el objeto de la columna es preferido sobre el objeto de la fila. Supongamos que con cuatro objetos A,
B, C, y D, formamos todas las parejas posibles, y un sujeto responde de la siguiente manera:
3 AB A B C D
AC A - 0 0 0
AD B 1 - 0 0
2 BC C 1 1 - 0
BD D 1 1 1 -
1 CD 3 2 1 0
En cada par el objeto subrayado fue el preferido.
8QDPDWUL]SXHGHDFXPXODUXQJUDQQ~PHURGHUHVSXHVWDVGHGLIHUHQWHVVXMHWRV(QHOVLJXLHQWH
HMHPSORILFWLFLRODSULPHUDWDEODWDEODFRQWLHQHODIUHFXHQFLDGHHOHFFLRQHVGHORVREMHWRVcafetería,
gimnasio, teatro, biblioteca, aula, UHDOL]DGDV SRU VXMHWRV $ pVWRV VH OHV SLGLy TXH MX]JDUDQ OD
LPSRUWDQFLDGHFDGDXQRHQUHODFLyQDVXHGXFDFLyQXQLYHUVLWDULD/RVREMHWRVIXHURQHPSDUHMDGRVHQODV
IRUPDVSRVLEOHV\ODVHOHFFLRQHVDFXPXODGDVHQXQDPDWUL]GHIUHFXHQFLDV
,QLFLDOPHQWH VH FDOFXODQ ORV VXPDWRULRV GH ORV YDORUHV GH FDGD FROXPQD WDEOD \ VL ORV
UHVXOWDGRVQRDSDUHFHQHQRUGHQFRPRHVHOFDVRODVILODV\ODVFROXPQDVVRQGLVSXHVWDVGHPDQHUDTXHODV
VXPDVGHODVFROXPQDVTXHGHQRUGHQDGDVGHODPHQRUDODPD\RU/DPDWUL]UHRUGHQDGDDSDUHFHHQODWDEOD
%DMRHOPRGHORGH7KXUVWRQHODVIUHFXHQFLDVVRQWUDQVIRUPDGDVHQSURSRUFLRQHVWDOFRPRVHPXHVWUDHQ
ODILJXUD
7DEOD0DWUL]GH)UHFXHQFLDV$FXPXODGDVQ
i
aula cafet gim biblio teatro
aula - 20 30 35 10
cafet 80 - 30 40 20
gim 70 70 - 45 15
biblio 65 60 55 - 25
teatro 90 80 85 75 -
. 305 230 200 195 70
Cada entrada de la matriz indica el número de veces que el objeto de la columna es preferido
sobre el objeto de la fila.
7DEOD0DWUL]GHIUHFXHQFLDVRUGHQDGDV
i
teatro biblio gim cafet aula
teatro - 75 85 80 90
biblio 25 - 55 60 65
gim 15 45 - 70 70
cafet 20 40 30 - 80
aula 10 35 30 20 -
. 70 195 200 230 305
7DEOD0DWUL]GHSURSRUFLRQHV
i
teatro biblio gim cafet aula
teatro .50 .75 .85 .80 .90
biblio .25 .50 .55 .60 .65
gim .15 .45 .50 .70 .70
cafet .20 .40 .30 .50 .80
aula .10 .35 .30 .20 .50
(QODGLDJRQDOGHODPDWUL]GHSURSRUFLRQHVVHLQGLFDXQDSURSRUFLyQGHEDMRHOVXSXHVWRGH
TXHFXDOTXLHUREMHWRMX]JDGRFRQWUDVtPLVPRUHFLELUtDXQQ~PHURD]DURVRGHHOHFFLRQHV/DH[SHFWDWLYDHV
TXHHOGHODVYHFHVHOVXMHWRHOHMLUtDHOREMHWRGHODFROXPQD\HORWURHOREMHWRGHODILOD
(QHOVLJXLHQWHSDVRODVSURSRUFLRQHVVRQWUDQVIRUPDGDVDSXQWXDFLRQHVWtSLFDVXWLOL]DQGRODWDEOD
GHODGLVWULEXFLyQQRUPDOYHUWDEOD
7DEOD0DWUL]GHSXQWXDFLRQHVWtSLFDV]
1 2 3 4 5
teatro biblio gim cafet aula
teatro .00 .67 1.03 .84 1.28
biblio -.67 .00 .13 .25 .38
gim -1.03 -.13 .00 .52 .52
cafet -.84 -.25 -.52 .00 1.17
aula -1.28 -.38 -.52 -1.17 .00
)LQDOPHQWHVHFDOFXODQODVGLIHUHQFLDVHQWUHODVFROXPQDVFRUUHVSRQGLHQWHVDFDGDHVWtPXORWDO
FRPRVHPXHVWUDHQODWDEOD
7DEOD0DWUL]GHGLIHUHQFLDV
2-1 3-2 4-3 5-4
biblio-teatro gim-biblio cafet-gim aula-cafet
.67 .37 -.19 .44
.67 .13 .12 .13
.90 .13 .52 .00
.59 -.27 .52 1.17
.90 -.14 -.55 1.17
. 3.73 .22 .42 2.91
n 5 5 5 5
media .746 .044 .084 .582
6L QR IDOWD QLQJ~Q GDWR ODV GLIHUHQFLDV HQWUH ODV VXPDV GH GRV GH ODV FROXPQDV GH
SXQWXDFLRQHVWtSLFDVGHODWDEODVRQLJXDOHVDODVVXPDGHODVGLIHUHQFLDVGHODFROXPQDFRUUHVSRQGLHQWH
GHODWDEOD
6DELHQGRODVGLIHUHQFLDVHQWUHORVREMHWRVSRGHPRVDVLJQDUYDORUHVGHODHVFDODDFDGDXQR
DFXPXODQGRODVGLVWDQFLDVRGLIHUHQFLDVTXHKD\HQWUHHOORVWRPDQGRFRPRSXQWRGHSDUWLGDHOHVWtPXORTXH
REWLHQHPHQRUQ~PHURGHHOHFFLRQHVVREUHORVGHPiVHQHVWHFDVRWHDWUR$VtREWHQGUtDPRVORVVLJXLHQWHV
YDORUHVHQODHVFDODGHLPSRUWDQFLDSDUDODHGXFDFLyQ
valores
teatro = 0.00
biblioteca: 0.00+0.746 = 0.746
gimnasio: 0.00+0.746+0.044 = 0.79
cafetería: 0.00+0.746+0.044+0.084 = 0.874
aula: 0.00+0.746+0.044+0.084+0.582 = 1.456
Una representación gráfica de los valores de cada objeto a lo largo del continuo puede realizaese
de la siguiente manera:
gim
teatro aula
biblio cafet
Fiabilidad.
Un test sobre la efectividad de cualquier escala lineal puede basarse en la suficiencia de las
puntuaciones de la escala para reproducir las frecuencias o las proporciones originales utilizadas para
elaborar la escala. Tradicionalmente (para el modelo del caso V) esto se hace transformando los valores de
la escala en proporciones obtenidas (p*). Esto es, hay que encontrar las diferencias entre todos los pares de
valores z de la escala, y convertir cada diferencia en una proporción. Luego, se calcula la diferencia media
entre las proporciones originales y las obtenidas (p*). Esta medida llamada desviación media (DA) es
usada como un índice de escalabilidad.
BIBLIOGRAFIA.
1. INTRODUCCIÓN.
2. SUPUESTOS.
3. CONSTRUCCIÓN DE UNA ESCALA LIKERT.
4. INTERPRETACIÓN DE LAS PUNTUACIONES.
5. VALORACIÓN.
1. INTRODUCCIÓN.
Likert (1932) propuso su método de escalamiento a finales del primer tercio del siglo XX.
Previamente, Thurstone (1928) había propuesto un método para la medición de actitudes que
implicaba la participación de sujetos que desempeñaban el papel de jueces (el método de los
intervalos aparentemente iguales). Según Thurstone (1928), el número de jueces debeía oscilar entre
200 y 300. La tarea de estos sujetos consistía en valorar un conjunto de ítems. A partir de estas
valoraciones, se calibraban los ítems, es decir, se estimaba el valor del ítem en la escala. Una vez se
disponía de un conjunto de ítems calibrados que constituían un cuestionario, éste se aplicaba al grupo
de sujetos que se deseaba estudiar, y se les pedía que marcaran los ítems con los que estaban de
acuerdo y aquéllos con los que disentían. La puntuación de cada persona consistía en la media de los
valores de los ítems con los que estaban de acuerdo. El empleo de un número elevado de jueces y la
necesidad de calibrar los ítems hacían que este método fuera muy costoso y laborioso. Asimismo, el
método de Thurstone implicaba una serie de supuesto estadísticos que no habían sido verificados, por
ejemplo, que los valores de escala de los enunciados son independientes de la distribución de
actitudes de los jueces que los valoran (Likert, 1932).
2. SUPUESTOS.
El método de Likert no pretende medir o calibrar los ítems. Éstos son considerados réplicas
unos de otros, es decir, se supone que todos tiene el mismo valor de escala.
Asimismo, se supone que cada ítem presenta una relación monotónica con la actitud
subyacente que pretende medir. Esto quiere decir que cuanto más favorable o positiva sea la actitud
de un sujeto, mayor será la puntuación que obtendrá en el ítem, y cuanto más desfavorable o negativa
sea la actitud de un sujeto, menor será la puntuación que obtendrá en el ítem. Gráficamente, esta
relación puede representarse de la siguiente forma:
Puntuación
ítem
-
- ACTITUD +
Por último, al tratarse de un método de escalamiento unidimensional, se supone que los ítems
miden una única actitud subyacente. Este es el supuesto de unidimensionalidad.
La construcción de una escala Likert para medir actitudes implica las siguientes tareas:
inicial de ítems. Es importante que el número de ítems sea, como se ha dicho, suficientemente
amplio, pues hay que evitar que en el caso de que haya que eliminar algunos ítems debido a su baja
calidad, nos quedemos al final del proceso con una escala compuesta por pocos ítems que no
muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales
existentes.
A la hora de elaborar ítems es conveniente considerar los siguientes criterios (Likert, 1932):
1. Un criterio general es que los ítems tienen que ser redactados de tal manera que dos personas
con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una actitud
desfavorable) lo contesten de manera diferente. Un ítem que pueda ser respondido de igual
forma por dos personas con actitudes diferentes es un ítem inadecuado.
2. Los ítems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos
personas con actitudes diferentes ante la pena de muerte seguramente estarán de acuerdo en lo
que dice el siguiente enunciado: “La pena de muerte acaba con la vida de las personas”. Este
enunciado es un enunciado de hecho, y no es útil para discriminar entre dos personas con
actitudes diferentes. En cambio, ante un enunciado valorativo como “La pena de muerte es un
crimen”, dos personas con actitudes diferentes contestarían de manera distinta. Una persona a
favor de la pena de muerte estaría en desacuerdo con el enunciado; una persona en contra de
la pena de muerte estaría de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr este
objetivo, resulta útil utilizar el vocabulario más sencillo posible, de manera que las personas
con un nivel cultural más bajo pertenecientes al grupo al que va dirigido el cuestionario
puedan entender los ítems. La experiencia señala que es preciso evitar frases con dobles
negaciones, incluso con una sola negación. Los enunciados con doble sentido, y los
compuestos por varias frases también deben evitarse, ya que pueden producir ambigüedad o
confusión en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932)
recomendó que aproximadamente la mitad de los ítems representaran manifestaciones de
actitudes positivas o favorables, y la otra mitad de los ítems constituyeran manifestaciones de
actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo un
cuestionario de actitudes hacia la escuela para adolescentes. Un ítem favorable podría ser:
“La escuela es divertida”. Un ítem desfavorable podría ser: “La escuela es un rollo”.
Obsérvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de cinco
puntos como la presentada anteriormente, un sujeto con una actitud muy favorable hacia la
escuela contestará los ítems favorables con cincos, mientras que responderá los ítems
desfavorables con unos. Lo contrario ocurrirá en el caso de un sujeto con una actitud mus
desfavorable hacia la escuela. Así pues, si el cuestionario contiene tanto ítems favorables
como desfavorables, ningún sujeto debería responder a los ítems con una respuesta
estereotipada, como por ejemplo, contestar siempre “5. Completamente de acuerdo”. Es
imposible estar de acuerdo con ítems favorables a la escuela y con ítems desfavorables. Si
encontramos algún sujeto que ha contestado de esta manera estereotipada, seguramente lo
habrá hecho sin prestar atención al contenido de los ítems, y por ello, es conveniente
eliminarlo de la base de datos.
Likert (1932) ensayó diversas formas de puntuar los ítems. La más sencilla de todas ellas
consistía en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de
desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En desacuerdo;
3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprobó que esta forma de puntuar los
ítems ofrecía resultados muy similares a los obtenidos mediante otras técnicas más complejas y
costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar los ítems
también se conoce como puntuación mediante números enteros (Andrich & Schoubroeck, 1989).
Las escalas de respuesta empleadas para puntuar los ítems de una escala Likert pueden
presentar un número diferente de alternativas de respuesta. Las escalas con cinco alternativas son
muy frecuentes. Pero no es extraño encontrar escalas de respuestas con cuatro, seis y siete
alternativas. Las escalas con números pares omiten la categoría de respuesta central, que suele ser
“Indeciso”, “Indiferente”, “No estoy seguro”, o “Ni de acuerdo ni en desacuerdo”. Existe cierto
debate sobre si la categoría central debería incluirse o no. Algunos investigadores han recomendado
el uso de la categoría de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn,
1989), argumentando que es preferible no forzar las respuestas de los sujetos indecisos hacia un polo
(acuerdo o desacuerdo) que podría no describirles. Sin embargo, otros estudios han cuestionado el
uso de las categorías centrales porque éstas pueden atraer a las personas que las seleccionan por
razones diferentes de cuál es su posición en la actitud medida (Bock y Jones, 1968; Worthy, 1969;
Kaplan, 1972; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han revelado que
casi un 50% de los sujetos que responde mediante diferentes tipos de categorías de respuesta
centrales lo hace por razones diferentes a la de estar en el punto medio de la dimensión medida
(Espejo, 1998; Espejo y González-Romá, 1999). Otros estudios han mostrado que incluso los sujetos
con niveles medios en la dimensión medida, tiene una probabilidad muy pequeña de contestar
utilizando la categoría central, y es más probable que respondan utilizando otras categorías de
respuesta adyacentes, como “En desacuerdo” o “De acuerdo” (Andrich, de Jong y Sheridan, 1997;
Hernández, Espejo, González-Romá y Gómez-Benito, en prensa; Espejo y González-Romá, 2001).
Así pues, en base a los más recientes resultados de la investigación sobre el tema, parece que la
utilidad de la categoría de respuesta central está seriamente cuestionada.
Las escalas de respuesta con seis alternativas suelen ser muy similares a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.
Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una categoría
de respuesta central a la que se le asigna la puntuación de 4.
Todas las escalas de respuesta que se utilizan en las escalas Likert son politómicas, pues
presentan más de dos alternativas de respuesta. Además, son escalas de respuesta ordenadas o
graduadas, ya que la asignación de los números enteros a las distintas respuestas constituye una
escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo ítem,
podemos hacer inferencias acerca de quiénes tienen una actitud más o menos favorable, pero no
podemos determinar cuál es la distancia entre sujetos que responden con alternativas diferentes.
Una vez se ha determinado cómo se puntuará cada ítem, pero antes de calcular la puntuación
de cada sujeto en el cuestionario, hay que detectar los ítems invertidos y transformar la puntuación
obtenida en ellos de manera que tenga el mismo significado que la puntuación obtenida en el resto de
ítems. Como señalamos anteriormente, Likert (1932) recomendó que aproximadamente la mitad de
los ítems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los
ítems constituyeran manifestaciones de actitudes negativas o desfavorables. Si se sigue este criterio,
nos encontraremos con que no todos los ítems están redactados en el mismo sentido, y esto tiene
importantes repercusiones en el significado de las puntuaciones de los ítems. Volvamos a nuestro
ejemplo del cuestionario de actitudes hacia la escuela. Una puntuación de 5 (Completamente de
acuerdo) a un ítem favorable (“La escuela es divertida”), no tiene el mismo significado que una
puntuación de 5 a un ítem desfavorable (“La escuela es un rollo”). En el primer caso la puntuación
denota una actitud favorable, mientras que en el segundo indica una actitud desfavorable. Por ello,
estas puntuaciones no pueden sumarse para obtener una puntuación de los sujetos. Previamente, es
preciso que todas las puntuaciones en los ítems estén en la misma dirección. Para ello se procede a
Psicometría Aplicada II Abril - 2018 43
Compendio - Prof. Enrique Morosini
transformar las puntuaciones de los ítems que no estén redactados en el sentido que más interesa. Por
ejemplo, si interesa obtener una puntuación que indique el grado de actitud hacia la escuela de
manera que a mayor puntuación se pueda inferir una actitud más favorable, entonces habrá que
transformar los ítems que denotan una actitud desfavorable. Antes de la transformación, estos ítems
suelen denominarse ítems invertidos.
Cuando se trabaja con una base de datos grande, la transformación de los ítems invertidos
puede realizarse fácilmente con la ayuda de un programa estadístico de análisis de datos, o incluso
con una hoja de cálculo, implementando una fórmula de transformación. Si la escala de respuesta
empleada presenta como valor más pequeño el 1 (que es lo más frecuente), entonces la fórmula de
transformación es:
Pi = (Pm+1) - Po
donde:
Pi : puntuación transformada en el ítem invertido lista para calcular la puntuación total en el
cuestionario;
Pm : puntuación máxima que puede darse al ítem;
Po : puntuación original obtenida en el ítem invertido.
Si la escala de respuesta utilizada para contestar los ítems presenta como valor más pequeño
el cero, entonces la fórmula de transformación es:
P i = P m - Po
Por ejemplo, supongamos que un sujeto ha contestado cuatro ítems del cuestionario de
actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este
mismo apartado. Imaginemos que sus puntuaciones en los ítems son las siguientes:
Los ítems 1 y 2 manifiestan una actitud favorable, mientras que los ítems 3 y 4 denotan una actitud
desfavorable. Procedamos ahora a transformar los ítems 3 y 4 aplicando la fórmula correspondiente.
Como la escala de respuesta oscila entre 1 y 6, aplicaremos la fórmula Pi = (Pm+1) - Po.
Ahora que ya hemos transformado las puntuaciones obtenidas en los ítems invertidos,
podemos calcular la puntuación total de cada sujeto en el cuestionario. Como se indicó al comienzo
de este tema, la puntuación total de un sujeto en el cuestionario se determina sumando o promediando
los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932), razón por la que
las escalas o cuestionarios construidos siguiendo este método se denominan escalas sumativas. En el
ejemplo anterior, la puntuación total del sujeto sería:
Items Puntuación
1. La escuela es divertida .................................................... 5
2. En la escuela aprendo cosas útiles. ................................. 6
3. La escuela es un rollo ...................................................... 5
4. En la escuela pierdo el tiempo. ....................................... 6
Puntuación total (suma) ..................................................... 22
Psicometría Aplicada II Abril - 2018 44
Compendio - Prof. Enrique Morosini
Una vez que ya se ha elaborado un banco inicial de ítems, y se ha aclarado cómo se puntuará
cada uno de ellos y cómo se obtendrá la puntuación de cada sujetos, se inicia la fase de análisis
cuantitativo de los ítems. El banco de ítems ha de aplicarse a una muestra que sea representativa de la
población a la cual va dirigida el test. Esta muestra proporcionará los datos que utilizaremos para
realizar el análisis cuantitativo de los ítems.
Likert propuso dos tipos de análisis: 1. un análisis correlacional de los ítems, y 2. un análisis
basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981).
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que se
está midiendo, por ello no tiene sentido combinarlos con el resto de ítems para obtener una
puntuación total (McIver y Carmines, 1981). Además, como demuestra la Teoría Clásica de los
Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems
indiferenciadores deben eliminarse.
riT S T Si
ri T i
2 2
S T S i 2 riT S T S i
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el
ítem, y ST es la desviación típica que presentan las puntuaciones en test.
Para interpretar el índice de homogeneidad corregido suele tomarse como valor de referencia
0.20. De manera que todos los ítems que presentan ri(T-i) con valores inferiores a 0.20 son eliminados
del banco de ítems por ser indiferenciadores.
Ejemplo de cálculo.
Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de actitudes
hacia la escuela que utilizamos anteriormente. Después de transformar los ítems invertidos, se han
calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuación. Vamos a ilustrar
cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
La fórmula de cálculo del IHc implica la obtención del IH y de las desviaciones típicas del
test y del ítem. Recordemos que las fórmulas para calcular el coeficiente de correlación de Pearson y
la desviación típica son:
n n
2
z xI z yI Xi X
i 1 i 1
rxy Sx
n n
En la tabla siguiente, se muestran los estadísticos necesarios para calcular IH. Tan sólo hay
que recordar que en nuestro caso la variable X es el ítem 1, y la variable Y la puntuación en el test.
Así pues, vemos que zítem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto
cruzado de las puntuaciones típicas, que es el numerador de la fórmula del coeficiente de correlación.
ZITEM1 X
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST ZITEM1 ZTEST ZTEST
1 4 5 5 4 18 0,58 0,81 0,47
2 2 2 1 2 7 -0,97 -0,95 0,92
3 5 6 4 5 20 1,36 1,13 1,54
4 3 2 3 3 11 -0,19 -0,31 0,06
5 5 6 4 5 20 1,36 1,13 1,54
6 2 1 1 1 5 -0,97 -1,27 1,23
7 5 3 2 5 15 1,36 0,33 0,45
8 4 5 5 5 19 0,58 0,97 0,57
9 2 1 1 2 6 -0,97 -1,11 1,08
10 3 2 1 1 7 -0,19 -0,95 0,18
11 2 3 1 2 8 -0,97 -0,79 0,77
12 4 5 6 4 19 0,58 0,97 0,57
13 2 3 1 1 7 -0,97 -0,95 0,92
14 4 5 4 6 19 0,58 0,97 0,57
15 1 2 1 2 6 -1,74 -1,11 1,94
16 4 5 6 5 20 0,58 1,13 0,66
SUMA 13,47
MEDIA 3,25 3,50 2,88 3,31 12,94
D.T. 1,29 1,75 1,96 1,74 6,23
El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que
componen el test, debido a que miden la misma actitud. Como cabía esperar, el IHc es menor que el
IH, y la diferencia es apreciable debido a la pequeña longitud del test: tan sólo 4 ítems. En este caso
un 25% del test (es decir, 1 ítem de 4) es parte de las dos variables que correlacionamos cuando
calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test (cuando la
longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello,
cuanto mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando
trabajamos con tests muy largos la diferencia es muy pequeña.
Si esto no ocurre se debe a que el ítem no es un buen indicador de la actitud medida, y se trata de un
ítem indiferenciador. Si los dos grupos obtienen puntuaciones medias en el ítem diferentes, entonces
puede afirmarse que el ítem discrimina entre los grupos, y, por lo tanto, es un buen indicador de la
actitud medida.
Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con
puntuaciones más altas y más bajas en el test; no obstante, Likert (1932) también utilizó otros
porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el cálculo de la
diferencia entre las medias de los dos grupos en el ítem. Sin embargo, esta diferencia no tenía en
cuenta que los dos grupos podían presentar variabilidades distintas en el ítem. Para evitar esta
deficiencia, más tarde se comenzó a usar una prueba t para evaluar la diferencia entre las medias
considerando la variabilidad del ítem en los dos grupos. El estadístico t sigue una distribución t de
Student con (nA + nB – 2) grados de libertad –donde n es el tamaño del grupo, y los subíndices A y B
denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la fórmula:
XA XB
t
nA 1 S 2A nB 1 S B2 1 1
nA nB 2 nA nB
donde el numerador es la diferencia entre las medias en el ítem de los dos grupos, y S 2 indica la
varianza en el ítem del grupo correspondiente.
Ejemplo de cálculo.
Vamos a aplicar este tipo de análisis basado en el criterio de consistencia interna a los datos
que utilizamos anteriormente. Como en el caso anterior, el análisis se centrará en el ítem 1. En la
siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero éstos han sido ordenados de manera
decreciente en función de su puntuación en el test. Los sujetos que configuran los dos grupos con
puntuaciones extremas en el test están marcados en negrita.
MEDIA A 4,5
MEDIA B 1,75
D. T. A 0,5
D. T. B 0,43
Psicometría Aplicada II Abril - 2018 48
Compendio - Prof. Enrique Morosini
Las hipótesis estadísticas implicadas en esta prueba de diferencias entre medias son:
H0 : A B
H1 : A B
Conociendo las medias y las desviaciones típicas que los dos grupos presentan en el ítem 1, vamos a
calcular el estadístico t1.
XA XB 4.5 1.75
t 8.34
nA 1 S 2
nB 1 S
A
2
B 1 1 4 1 0.5 2 4 1 0.43 2 1 1
nA nB 2 nA nB 4 4 2 4 4
Likert (1932) estudió la relación entre los resultados producidos por los dos métodos de
análisis. Ordenó un conjunto de ítems en función de su IH, y los ordenó también en función de la
diferencia que los dos grupos extremos mostraban en cada ítem. La relación entre los dos órdenes fue
estimada mediante el coeficiente de correlación rho, que presentó un valor de 0.91. Este resultado
indica un grado de relación muy alto entre los dos órdenes obtenidos, lo cual sugiere que los dos
métodos de análisis tienden a producir resultados similares. Esto no es de extrañar, ya que si un ítem
presenta un elevado IH, los sujetos que puntúan alto en el ítem tenderán a puntuar alto en el test, y los
sujetos que puntúan bajo en el ítem tenderán a puntuar bajo en el test. Y viceversa: el grupo con
puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem, y el grupo con
puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem. Sin embargo, hay que
tener en cuenta que Likert correlacionó órdenes de clasificación (esto es, rankings), y que los órdenes
no informan acerca de si un determinado criterio de análisis es superado o no (por ejemplo: IHc ≥
0.20). Por ello, aunque los resultados de ambos tipos de análisis están relacionados, pueden no
conducir necesariamente a la misma conclusión (McIver y Carmines, 1981). Así pues, cuando se han
aplicado los dos tipos de análisis es conveniente eliminar los ítems que tengan IHc bajos y los que no
discriminen entre los grupos con puntuaciones extremas en el test. Estos ítems son los ítems
indiferenciadores.
1
El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el análisis de ítems. En la práctica, y
trabajando con muestras más grandes, es necesario verificar hasta qué punto se cumplen los supuestos de la prueba.
Psicometría Aplicada II Abril - 2018 49
Compendio - Prof. Enrique Morosini
Likert (1932) señaló algunas de las razones por las que un ítem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de ítems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.
Una vez se ha seleccionado un conjunto de ítems, hay que evaluar las propiedades
psicométricas del test o cuestionario que forman considerado como un todo. Las dos propiedades
psicométricas más importantes son la fiabilidad, y la validez2. Para que un test sea un instrumento de
medida útil hay que demostrar su fiabilidad y su validez. Brevemente, señalaremos que la fiabilidad
hace referencia al grado de precisión que ofrecen las medidas obtenidas mediante un test. Supone
también un intento por cuantificar el grado de error que afecta a esas medidas. Un método bastante
extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de Cronbach,
cuya fórmula es la siguiente:
n
S i2
n i 1
1
n 1 S 2x
donde n es la longitud del test (es decir, el número de ítems que lo componen), S2i es la varianza del
ítem i, y S2x es la varianza que muestran las puntuaciones totales en el test. Un criterio bastante
extendido para interpretar el coeficiente alfa es que éste ha de ser igual o superior a 0.70 (Nunnally,
1978), entonces puede afirmarse que el test tiene una fiabilidad suficiente.
Ejemplo de cálculo.
Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del
cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las
desviaciones típicas de cada uno de los cuatro ítems y de las puntuaciones totales en el test. Con esta
información ya podemos aplicar la fórmula del coeficiente alfa de Cronbach:
n
S i2
n i 1 4 1.29 2 1.75 2 1.96 2 1.74 2
1 1 0.93
n 1 S 2x 3 6.23 2
La validez de un test hace referencia al grado en el que un test mide lo que pretende medir. El
estudio de la validez de un test se desarrolla a partir de la verificación de las hipótesis de validación.
Una hipótesis de validación hace referencia a las relaciones que presentará el test objeto de estudio
con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en el caso del
cuestionario de actitudes hacia la escuela una hipótesis de validación podría ser la siguiente: Se
espera que las puntuaciones totales en el test presenten una correlación positiva con el rendimiento
2
Estas dos propiedades serán objeto de un estudio más detenido en el bloque de temas dedicado a la Teoría de los Tests.
Psicometría Aplicada II Abril - 2018 50
Compendio - Prof. Enrique Morosini
Las puntuaciones obtenidas en una escala Likert no tienen una interpretación directa.
Sabemos que un sujeto que obtuviera una puntuación de 24 (puntuación máxima) en el cuestionario
de actitudes hacia la escuela del ejemplo tendría una actitud muy favorable, y que un sujeto que
obtuviera una puntuación de 4 (puntuación mínima) presentaría una mus desfavorable. Pero, ¿qué
podemos decir de un sujeto que obtiene una puntuación de 14? El método de Likert no permite
“medir” los ítems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar
de acuerdo con un ítem. Por lo tanto, no es posible ofrecer una interpretación absoluta de la
puntuación de un sujeto (McIver y Carmines, 1981). Si supiéramos que un sujeto respalda los ítems
que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces
podríamos inferir que ese sujeto tiene un nivel de actitud muy favorable.
Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es
necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el sujeto.
Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (Xi) y la media del
grupo (es decir, calcular las puntuaciones diferenciales). Además, podemos medir esas diferencias
utilizando como unidad de medida la desviación típica de las puntuaciones en el cuestionario en ese
grupo. Para ello dividiremos las diferencias por la desviación típica, lo cual no es más que
transformar las puntuaciones directas en el test (Xi) en puntuaciones típicas (zi):
Xi X
zi
Sx
Las puntuaciones típicas nos indican cuántas desviaciones típicas se aleja la puntuación del
sujeto de la media de su grupo, y en qué sentido. Por ejemplo, si un sujeto presenta una z i = -0.5,
entonces podemos decir que se trata de un sujeto que está media desviación típica por debajo de la
media del grupo. Si las puntuaciones en el test siguen una distribución aproximadamente normal,
Psicometría Aplicada II Abril - 2018 51
Compendio - Prof. Enrique Morosini
entonces, con ayuda de las tablas de la distribución normal, podemos transformar esa puntuación
típica en el porcentaje de sujetos que quedan por debajo (o por encima) de esa puntuación. El valor de
probabilidad (función de distribución) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el
sujeto que ha obtenido una zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las
puntuaciones en el test no siguen una distribución aproximadamente normal no debe realizarse esta
última transformación. Entonces podemos calcular el centil que corresponde a cada puntuación en el
test. De esta manera sabremos cuál es el porcentaje de sujetos que queda por debajo de cada
puntuación en el test.
5. VALORACIÓN.
Una de las críticas que suele hacerse del método de escalamiento de Likert es que no está
basado en un modelo matemático determinado. Esta es una diferencia importante con los métodos
desarrollados por Thurstone, que basó sus métodos en una serie de supuestos formales y unas leyes
(por ejemplo, la Ley del Juicio Comparativo). En todo caso, el método de Likert puede emnarcarse
dentro del ámbito más general de la Teoría Clásica de los Tests.
Recordemos que Likert pretendía desarrollar un método sencillo para medir las actitudes que
ofreciera resultados similares al método más costoso de los intervalos aparentemente iguales
desarrollado por Thurstone. Likert (1932) observó que la fiabilidad de los cuestionarios producidos
por los dos métodos era muy similar, y que la correlación entre las puntuaciones obtenidas por los dos
métodos era muy elevada. Estos resultados muestran que Likert consiguió su objetivo. Quizás lo que
no previó Likert es que su método tuviera tanto éxito. Su relativa sencillez, en comparación a otros
métodos más modernos, es la responsable de que actualmente sea todavía el método más utilizado
para medir actitudes, dimensiones de la personalidad, y otros constructos psicológicos.
BIBLIOGRAFIA.
Referencias bibliográficas.
Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a psychometric analysis
using latent trait theory. Psychological Medicine, 19, 469-485.
Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with the Rasch model for
ordered response categories. En J. Rost y R. Langeheine (Eds.), Applications of latent trait
and latent class models in the social sciences (pp. 58-68). Münster, Germany: Waxman
Verlag.
Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and choice. San
Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mark response
category in attitude scales. Educational and Psychological Measurement, 35, 869-884.
Edwards, A. L. (1957). Techniques of attitude scale construction. New York:
Appleton-Century-Crofts.
Espejo, B. y González-Romá, V. (1999). El significado de las categorías centrales en las escalas
tipo Likert. Trabajo presentado al VI Congreso de Metodología de las CC. Sociales y de la
Salud. Oviedo, España.
Espejo, B. y González-Romá, V. (2001). Orden y relevancia de las alternativas de respuesta "no estoy
seguro", "término medio" y "?". Trabajo presentado al VII Congreso de Metodología de las CC.
Sociales y de la Salud. Madrid, España.
Hernández, A.; Espejo, B.; González-Romá, V. y Gómez-Benito, J. (en prensa). Escalas de respuesta
tipo Likert: ¿es relevante la alternativa “indiferente”?. Metodología de Encuestas
Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory: A suggested
modification of the semantic differential technique. Psychological Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50.
(Traducción al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medición en ciencias
sociales, pp-199-260. Buenos Aires: Nueva visión.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate distributions and
applications to rating scales. Dissertation Abstracts International, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New
York: McGraw-Hill.
Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. En Sudman, S. y
Bradburn, N. M. (Eds.). Asking questions: a practical guide to questionnaire design. San
Francisco: Jossey-Bass Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response style scores.
Psychological Reports, 24, 189-190.
1. INTRODUCCIÓN.
2. SUPUESTOS.
4. EL COEFICIENTE DE REPRODUCTIBILIDAD.
6. VALORACIÓN.
1. INTRODUCCIÓN.
Louis Guttman describió una escala unidimensional como aquélla en la que las respuestas de los sujetos a
los estímulos ubicarían a los individuos en perfecto orden. Idealmente, las personas que contestan unas cuestiones
correctamente tienen mayor habilidad que las personas que responden las mismas cuestiones incorrectamente. Las
cuestiones de aritmética ofrecen buenos ejemplos de este tipo de escalas.
Supongamos que a un grupo de niños de 2º de Primaria se les presenta las siguientes sumas:
1) 2 2) 12 3) 28 4) 86 5) 228
+3 +15 +24 +88 +894
Es probable que si un sujeto A responde correctamente al ítem 5, responda también correctamente a los ítems 1, 2,
3, y 4. Si el sujeto B puede responder correctamente el ítem 2 y no el ítem 3, es probable que pueda responder
correctamente el ítem 1, pero será incapaz de responder correctamente los ítems 4 y 5. Puntuando con un 1 cada
acierto y con un 0 las respuestas incorrectas, puede obtenerse un patrón o perfil de las respuestas de un individuo.
Si las cuestiones aritméticas forman una escala perfecta, la suma de las respuestas correctas a los cinco ítems
puede utilizarse para revelar la escala tipo -el patrón de respuestas a los ítems- de una persona en términos de una
sucesión de unos y ceros. En nuestro ejemplo:
ítems
1 2 3 4 5 suma
La escala tipo del sujeto A es: 1 1 1 1 1 5
La escala tipo del sujeto B es: 1 1 0 0 0 2
Si las cuestiones aritméticas forman una escala perfecta conociendo sólo el número total de aciertos de cada sujeto
podríamos pronosticar las respuestas que ha dado a cada ítem. Supongamos que ése sea el caso, y que el sujeto C
ha obtenido una puntuación de 3 aciertos; pronosticaríamos que sus respuestas han sido las siguientes:
ítems
1 2 3 4 5 suma
respuestas del sujeto C: 1 1 1 0 0 3
El propósito de Guttman cuando diseñó este método de escalamiento fue lograr escalas perfectas, de manera que
conociendo únicamente un número -el de aciertos- pudiera reproducirse la serie de respuestas dadas ante los ítems.
Y ¿cómo se reconoce que una serie de ítems o cuestiones forman una escala perfecta? Visualmente se
reconoce cuando los patrones de respuesta de los sujetos coinciden con las escalas tipo posibles. Si la escala está
compuesta por cinco ítems que se puntúan como correcto (1) o incorrecto (0), hay seis escalas tipo posibles:
Si los patrones de respuesta de los individuos coincidieran con los indicados arriba, podríamos afirmar que las
cinco cuestiones aritméticas forman una escala perfecta.
Obsérvese que, aunque existen 32 combinaciones posibles de cinco unos y ceros (2 alternativas de respuesta, 5
ítems, 25=32 combinaciones), sólo seis forman escalas tipo. En general, el número de escalas tipo para datos
puntuados de manera dicotómica (acierto=1, error=0) es K+1, donde K es el número de objetos, estímulos o ítems.
Aunque las escalas perfectas que deseaba Guttman son díficiles de encontrar en la práctica, pueden obtenerse
aproximaciones a las mismas a través de una selección cuidadosa de los ítems y un detallado análisis de las
respuestas de un conjunto de sujetos a un gran número de ítems, de los que una parte se utilizarán en la escala final.
2. SUPUESTOS.
El método de Guttman es un método unidimensional y de respuesta, de manera que se asume que tanto
ítems como sujetos pueden ser ordenados en una única dimensión subyacente.
La Curva Característica del Ítem (CCI) es una función que relaciona el nivel de rasgo o aptitud de los
sujetos con la probabilidad de acertar o respaldar un ítem (Pi). Bajo el modelo de Guttman la CCI de un ítem tiene
la forma que se muestra en la figura 1. Hasta que el sujeto alcanza el nivel de rasgo exigido por el ítem, o dificultad
del ítem (bi), su probabilidad de acertar o respaldar el ítem es cero. Una vez que el nivel de rasgo del sujeto iguala
o supera la dificultad del ítem, la probabilidad de acertar o respaldar el ítem es uno.
Sea θj el nivel de rasgo del sujeto j, y bi el nivel de dificultad del ítem i. Un aspecto importante es que θj y
bi se refieren al mismo continuo psicológico: el rasgo que interesa medir; luego, son cantidades expresadas en la
misma escala de medida, y por lo tanto son comparables. Así pues, la CCI de un ítem en el modelo de Guttman
indica que:
Pi = 0 si θj < bi
Pi = 1 si θj ≥ bi
Pi
0
bi
- RASGO +
Vamos a seguir el método que proponen Goodenough (1944) y Edwards (1948) para evaluar si un
conjunto de estímulos o ítems constituyen una escala perfecta o escala Guttman.
Hay que tener en cuenta que los estímulos o ítems que se escojan para formar la escala deben ser capaces
de discrimar entre los sujetos con actitudes o percepciones distintas sobre los estímulos a lo largo de una única
dimensión que se pretende medir. Supongamos que las seis afirmaciones que se muestran abajo se han presentado
a doce sujetos, que han respondido a las mismas utilizando la siguiente escala de respuesta: 1. De acuerdo. 0.
Desacuerdo. Nos formulamos la siguiente pregunta: ¿constituyen las seis afirmaciones una escala perfecta o escala
Guttman a lo largo de la dimensión actitudes hacia la escuela? Recuérdese que si la respuesta fuera afirmativa,
conociendo tan sólo el número de respuestas "de acuerdo" podríamos reproducir las respuestas de cada individuo a
cada uno de los ítems o afirmaciones.
Afirmaciones:
a. La escuela está bien.
b. Voy a la escuela con regularidad.
c. Pienso que la escuela es importante.
d. Es bueno estar en la escuela.
e. Pienso que la escuela es divertida.
f. Pienso que la escuela es mejor que un circo.
Las respuestas de cada individuo a cada ítem pueden organizarse en una matriz como la que se
presenta en la tabla 1.
sujetos a b c d e f puntuación
1 0 1 1 1 1 0 4
2 1 1 1 0 0 0 3
3 1 0 0 0 0 1 2
4 1 1 0 0 0 0 2
5 0 0 1 1 1 0 3
6 0 1 0 1 1 0 3
7 0 1 0 0 1 0 2
8 0 1 1 0 0 0 2
9 1 1 0 1 1 1 5
10 0 1 1 1 0 0 3
11 0 0 1 0 0 0 1
12 0 1 1 0 1 0 3
4 9 7 5 6 2 33
Es conveniente reordenar la tabla de manera que su configuración se aproxime a la que mostraría una
escala perfecta. Para ello, y tal como ocurre cuando la escala es perfecta, la primera columna debe corresponder al
ítem que evoca mayor cantidad de unos, siguiendo la ordenación de manera decreciente. Asimismo, el primer
sujeto debe ser el que más unos ha "respondido", siguiendo también la ordenación de manera decreciente hasta el
sujeto que menos unos responde. Tras realizar estas reordenaciones obtendríamos la matriz que aparece en la tabla
2. Aquí los ítems están ordenados en función de su nivel de dificultad1, esto es, en función del nivel de rasgo que
exigen al sujeto para que éste dé una respuesta de acuerdo. Éste es el escalamiento de estímulos que produce el
método de Guttman: una escala ordinal de ítems.
sujetos b c e d a f puntuación
9 1 0 1 1 1 1 5
1 1 1 1 1 0 0 4
2 1 1 0 0 1 0 3
5 0 1 1 1 0 0 3
6 1 0 1 1 0 0 3
10 1 1 0 1 0 0 3
12 1 1 1 0 0 0 3
3 0 0 0 0 1 1 2
4 1 0 0 0 1 0 2
7 1 0 1 0 0 0 2
8 1 1 0 0 0 0 2
11 0 1 0 0 0 0 1
9 7 6 5 4 2 33
A continuación se calculan los errores -las desviaciones- que contiene cada patrón de respuesta de cada
individuo en relación a la escala tipo perfecta que le correspondería según su puntuación total. Por ejemplo, el
sujeto 9 obtiene una puntuación de 5, en virtud a esta puntuación le corresponde la escala tipo perfecta siguiente:
b c e d a f puntuación
escala tipo perfecta
para una punt.=5 1 1 1 1 1 0 5
1
En sentido estricto, con tests de actitudes y personalidad no tiene sentido hablar de dificultad de los
ítems, ya que en estos tests no hay respuestas correctas ni incorrectas y los ítems no se aciertan ni se fallan. La
dificultad de los ítems sólo tiene sentido en los ítems de rendimiento y aptitud. Sin embargo, el término “dificultad
del ítem” se ha generalizado a ítems de cuestionarios de actitudes y personalidad para hacer referencia al nivel de
rasgo exigido por el ítem para tener una determinada probabilidad de respaldar el ítem.
b c e d a f puntuación
patrón suj. 9 1 0 1 1 1 1 5
Comparando ambos patrones, se observa que hay dos errores, uno en el ítem c y otro en el f:
b c e d a f puntuación
escala tipo perfecta 1 1 1 1 1 0 5
patrón suj. 9 1 0 1 1 1 1 5
diferencia 0 1 0 0 0 -1
El número de errores también puede calcularse restándole a la escala tipo perfecta, el patrón de
respuestas obtenido por el sujeto, tal como se indica en la tabla anterior. La suma de los valores absolutos de cada
diferencia es igual al número de errores. En el caso del sujeto 9: 1 + − 1 = 2 .
Tras contabilizar los errores que contienen los patrones de respuestas de cada individuo, se contabilizan
los errores totales (ver tabla 3).
3. EL COEFICIENTE DE REPRODUCTIBILIDAD.
¿Cómo puede obtenerse un estimador de cuánto se aproxima la matriz de las tabla 2 y 3 a una escala
perfecta? Guttman propone un estimador a partir de la proporción de errores obtenida. El número total de posibles
errores es igual al producto entre el número de sujetos (N) y el de ítems (k); en nuestro caso: (12) (6)= 72. Si no
existiera ninguna coincidencia entre los patrones de respuesta de los individuos y las escalas tipo perfectas, la
matriz estaría llena de errores. Como las dimensiones de la matriz son 12 por 6, contendría un total de 72 errores.
Para calcular el estimador señalado en el párrafo anterior hay que realizar las siguientes operaciones: 1º)
hallar el cociente entre los errores hallados y las respuestas posibles (20/72=0.277); 2º) restar de uno la cantidad
resultante: 1-0.27=0.723. El resultado es un coeficiente que indica la capacidad de la escala para reproducir las
respuestas de los sujetos a partir de sus puntuaciones totales. Ese coeficiente recibe el nombre de coeficiente de
reproductibilidad (CR):
CR = 1 −
¦ errores
N⋅k
Guttman señaló que una escala con un coeficiente de reproductibilidad inferior a 0.90 no puede ser considerada
una aproximación efectiva a una escala perfecta.
Tras los resultados obtenidos parece claro que los ítems no forman una buena aproximación a una escala
perfecta. Para detectar cuáles son los ítems que peor funcionan, se puede calcular el coeficiente de
reproductibilidad de cada ítem (CRi):
Nerroresen ítem i
CR i = 1−
N sujetos
En la tabla 3, puede observarse que el ítem c (pienso que la escuela es importante) es el que presenta un CRi más
bajo contiene (0.5); contiene 6 errores de un total de 12 posibles. Por ello parece razonable eliminarlo o
reformularlo. Supongamos que se elimina el ítem c. Tras realizar esta operación, hay que volver a reordenar a los
sujetos pues la puntuación de algunos de ellos habrá variado. Una vez concluidas este conjunto de operaciones
obtendríamos la siguiente matriz de respuestas:
Asimismo, hay que volver a calcular los errores que contienen los patrones de respuestas de cada
individuo. Ahora tan sólo se encuentran 12 errores (nótese que 4 de ellos están contenidos en el patrón de
respuestas del sujeto 3. Habría que asegurarse de que este sujeto ha seguido las instrucciones, no ha cometido
errores a la hora de codificar sus respuestas, etc.). Tras eliminar el ítem c, el coeficiente de reproductibilidad es:
CR = 1 −
¦errores = 1−
12
= 0.80
N⋅ k 12 ⋅ 5
Puede observarse que el coeficiente ha mejorado sensiblemente. No obstante, sigue estando alejado de
0.90.
b e d a f puntuación
escala tipo perfecta 1 1 0 0 0 2
patrón suj. 2 1 0 0 1 0 2
diferencia 0 1 0 -1 0
CR = 1 − [( 1 + − 1) /5] = 0. 6
2
Aunque Guttman (1950), señaló que el coeficiente de reproductibilidad representa el criterio más
importante a la hora de evaluar si un conjunto de ítems es una buena aproximación a una escala perfecta, propuso
otros criterios a considerar en el marco de esta evaluación. Entre éstos, el criterio del rango de las distribuciones
marginales, según el cual el coeficiente de reproductibilidad de un ítem no puede ser inferior a la mayor de las
proporciones de respuesta que presenta el ítem. Esa proporción de respuesta mayor recibe el nombre de categoría
modal. Mediante este criterio se evita incluir ítems que den lugar a una dicotomización extrema en las respuestas
(p. ej., todo unos o todo ceros). Si aparecieran ítems de este tipo, la reproductibilidad de la escala sería
artificialmente elevada. Además, se trataría de ítems que no mostrarían las diferencias existentes entre los sujetos,
ya que su varianza sería próxima a cero.
En la tabla 5, indicamos las proporciones de respuesta (p: proporción de "de acuerdo"; q: proporción de
"desacuerdo") obtenidas para cada ítem, y su coeficiente de reproductibilidad.
Como se aprecia en la tabla anterior, todos los ítems superan este criterio.
Como se señaló anteriormente, el coeficiente de reproductibilidad puede verse inflado por la existencia
de ítems con proporciones de respuesta extremas. Para valorar este aspecto es útil calcular la Reproductibilidad
Marginal Mínima (RMM), que es la media aritmética de las categorías modales de todos los ítems de la escala. En
nuestro caso, sería:
RMM=(0.75+0.50+0.58+0.67+0.83)/5=0.67.
Un valor elevado de la RMM puede indicar que el coeficiente de reproductibilidad ha sido inflado
artificialmente, siendo un resultado de la existencia de categorías modales extremas. Para facilitar la
interpretación de la RMM, Menzel (1953) propuso el coeficiente de escalabilidad (CE):
CR − RMM PM
CS = =
1− RMM 1 − RMM
donde PM es el porcentaje de mejora que ofrece el CR sobre la RMM. Para que una escala sea considerada una
buena aproximación a una escala perfecta su coeficiente de escalabilidad debe ser igual o superior a 0.60.
En nuestro caso:
CR − RMM PM 0.13
CS = = = = 0.39
1− RMM 1 − RMM 1 − 0.67
6. VALORACIÓN.
Uno de los aspectos destacables del modelo de Guttman es que pone de manifiesto que tanto ítems como
sujetos son escalables, medibles. Los ítems ya no se consideran réplicas unos de otros, como ocurría en el modelo
de Likert. Los ítems difieren en su grado de dificultad, esto es, en el nivel de rasgo que exigen al sujeto para que
éste acierte o respalde el ítem. Esta característica del método de Guttman fue desarrollada más tarde por otros
métodos que permiten escalar con precisión los ítems y ubicarlos a lo largo del continuo psicológico que se
pretende medir.
Uno de los problemas del modelo de Guttman, que dificulta además la construcción de escalas perfectas,
es su carácter determinista. Según este modelo, cuando un sujeto tiene un nivel de rasgo o aptitud igual o superior
al exigido por el ítem –esto es, domina el ítem-, no cabe otra respuesta que acertar o respaldar el ítem (según se
trate de: 1. un ítem de aptitud o 2. un ítem de actitud o personalidad, respectivamente). Sin embargo, la experiencia
demuestra que esto no siempre es así. Por ejemplo, en algunas ocasiones, cuando los estudiantes se enfrentan a
problemas sencillos en un examen, su incredulidad ante la facilidad del ítem, les lleva a reformularlo de manera
compleja, y lo complican tanto que al final no lo resuelven correctamente. También ocurre que a veces, por mero
azar, sujetos con un nivel de aptitud inferior al exigido por el ítem, lo aciertan. Según el modelo determinista de
Guttman, todo esto no debería ocurrir, pero la experiencia demuestra que ocurre. Por ello parece más realista
hablar en términos probabilísticos que en términos deterministas. Así pues, cabe esperar que los sujetos con un
nivel de rasgo o aptitud igual o superior al exigido por el ítem, tengan una gran probabilidad de acertar o respaldar
el ítem; mientras que se espera que los sujetos con un nivel de rasgo o aptitud inferior al exigido por el ítem, tengan
una pequeña probabilidad de acertar o respaldar el ítem. De manera general, bajo un modelo probabilista se espera
que la relación entre la probabilidad de acertar o respaldar un ítem (Pi) y el nivel de rasgo o aptitud sea monotónica,
es decir, que Pi aumente a medida que aumenta el rasgo. Bajo un modelo probabilista la curva característica de un
ítem tendrá una forma parecida a la que se muestra a continuación. Una versión probabilística del modelo de
Guttman que supera este inconveniente es el modelo de Mokken.
Pi
- RASGO +
BIBLIOGRAFIA.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y
Prácticas. Valencia: Cristóbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visiòn
Introducción a la Psicometría
Teoría Clásica de los Tests
y Teoría de la Respuesta al Ítem
(Febrero 2009)
Francisco J. Abad
Carmen García
Julio Olea
Vicente Ponsoda
INTRODUCCIÓN
c) Teorías de los Tests. A principios del siglo XX, Spearman propone una formulación
matemática para estudiar las propiedades métricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recuérdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicológicas superiores. La principal
preocupación de Spearman es incorporar en la formulación matemática los errores de medida
que se cometen en la aplicación de los tests psicológicos. Este es el inicio de la Teoría Clásica
de los Tests (TCT), que será descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la década de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicométricas de los tests, la Teoría de la Respuesta al Ítem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teorías de la medición y
Escalamiento. En las siguientes páginas proporcionamos una descripción de la TCT, cuyos
desarrollos siguen empleándose (en nuestro país casi de forma exclusiva) en la práctica para
analizar la bondad métrica de los tests psicológicos, y una introducción a la TRI, que
pensamos se irá imponiendo progresivamente, tal como ocurre en otros sitios.
Cada vez es mayor el número de tests disponibles en el mercado para su utilización. Basta con
ojear los catálogos de empresas consultoras especializadas (TEA, MEPSA, COSPA,...) para
percatarnos de la gran extensión de atributos psicológicos que podemos ya medir mediante
tests. El psicólogo necesita conocer las posibilidades de cada uno de estos tests: la información
que aporta, cómo se interpretan las puntuaciones que proporciona, en qué grado podemos
fiarnos de estas puntuaciones, para qué tipo de personas resulta apropiada su aplicación,
etc. El manual de estos tests suele incluir datos empíricos sobre todos estos aspectos, que
determinarán en gran parte las garantías que nos ofrece la prueba que vamos a aplicar.
Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicología, los profesionales
no se encuentran con todos los tests que pueden necesitar para su actividad laboral cotidiana. No
resulta extraño, por ejemplo, que un psicólogo social tenga que construir un test concreto para
evaluar la actitud que tiene la población de estudiantes universitarios hacia grupos marginados,
que un orientador escolar necesite elaborar un test para conocer la opinión de los profesores hacia
la LOGSE o que un psicólogo clínico precise de una prueba concreta para evaluar determinados
aspectos de las relaciones de los adolescentes con sus padres.
Parece razonable, por tanto, y así es nuestra opinión, que un psicólogo adquiera las destrezas
necesarias para valorar la información psicométrica que incluyen los tests comercializados y,
además, que conozca los métodos y técnicas fundamentales para diseñar una prueba concreta con
fines específicos. Trataremos de ayudarle a ello en las siguientes páginas.
En la exposición que vamos a realizar en los primeros 5 capítulos, tratamos de describir el proceso
natural que se sigue en la construcción de un test, y que básicamente se resume en las siguientes
fases:
1. Definición del constructo.
2. Construcción del test provisional.
3. Aplicación a una muestra.
4. Análisis de ítems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremación.
Las cuatro primeras fases se refieren a ciertas estrategias lógicas (algunas con cierto fundamento
estadístico) que nos conducen a seleccionar la forma y contenidos más apropiados del test. Las
fases 5 y 6 resultan fundamentales, dado que se refieren a la comprobación empírica de las
garantías psicométricas que la prueba manifiesta como instrumento de medición. Básicamente,
estas garantías se refieren a su precisión (fiabilidad) y a la comprobación práctica del contenido
auténtico que estamos evaluando (validez). La denominada Teoría Clásica de los Tests, cuya
descripción es parte fundamental de estas páginas, permite abordar estos problemas con cierto
rigor. Una vez que disponemos de la versión definitiva del test, aplicada a una muestra
representativa de la población de personas a la que va dirigido, se procede a la fase de
baremación, que sirve para interpretar una puntuación concreta en relación con las que obtiene la
muestra seleccionada.
El último de los temas de estos apuntes pretende iniciar al alumno en los fundamentos de la
Teoría de la Respuesta al Ítem, y será entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripción de los principales contenidos teóricos de la
asignatura Introducción a la Psicometría. Dentro de las actividades prácticas de la asignatura, los
estudiantes habrán de analizar un test de rendimiento óptimo y elaborar un test de rendimiento
típico, para lo que habrán de seguir todos los pasos indicados aquí.
1.- INTRODUCCIÓN
Mientras que la mayoría de los atributos físicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
teóricas que no son accesibles a la medición directa y para los que no existen "metros" o
"balanzas" diseñados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesión grupal, el grado de extroversión, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos específicamente diseñados: los tests, cuestionarios o inventarios. Nadie dudaría
de que un metro bien diseñado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisión de un cuestionario no se puede presuponer; más bien son una cuestión de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario está formado por una serie de elementos o ítems (elementos,
reactivos, preguntas, cuestiones, situaciones análogas,...) a los que cada individuo debe
responder. Después de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuación (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuación que debería
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Nos enfrentamos así a un proceso de medición indirecta que incluye la misma construcción
del instrumento de medida, proceso que se inicia con la definición clara del constructo a
evaluar.
El primer paso consiste en proporcionar una definición operacional del constructo o rasgo
que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer los
diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la
educación de los hijos, ante la religión, en las relaciones familiares,... Muy relacionada con
esta definición operativa es la cuestión del establecimiento de los objetivos que se pretenden
conseguir con el cuestionario.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un ítem
podría ser el siguiente:
Parece razonable suponer que una persona tolerable estaría de acuerdo con esta afirmación,
mientras que otra intolerable estaría en desacuerdo.
Enrelación con la construcción de los ítems existen dos temas importantes a tener en cuenta:
el formato de respuesta y las normas de redacción de los ítems.
a) Elección binaria: De dos alternativas, se elige la que se considera correcta (Sí o No;
verdadero-falso).
b) Elección múltiple: Entre más de dos alternativas se elige la que se considera correcta. Es
sin duda el formato de respuesta más utilizado, entre otras por razones de objetividad y otras
de tipo operativo.
a) Pedal
b) Sillín
c) Manillar
d) Parrilla
c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de conceptos. Por
ejemplo, un ítem de un cuestionario sobre conocimientos de políticos españoles
contemporáneos puede ser:
"Enlace mediante una línea el nombre del político con el partido político al que
pertenece"
J. A. Durán i Lleida PSOE
Carlos Solchaga CIU
Iñaki Anasagasti PNV
Rodrigo Rato PP
a) Opción binaria: La persona debe manifestar si está de acuerdo o en desacuerdo con una
afirmación. Por ejemplo, un ítem de un cuestionario sobre la actitud de los padres hacia los
profesores de sus hijos puede ser:
"En realidad, los profesores en el colegio hacen poco más que cuidar a nuestros
hijos cuando nosotros trabajamos"
Acuerdo ( ) Desacuerdo ( )
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
A veces, se establecen nominalmente los dos extremos del continuo, dejando señaladas las
restantes categorías del mismo:
1 2 3 4 5 6 7
Por ejemplo:
jueces, y comparar las respuestas de una persona con estas valoraciones. En tests de
personalidad puede incluirse una escala de sinceridad.
El número de categorías que se suelen incluir en este tipo de ítems es usualmente de cinco ya
que, a partir de ese número de categorías no mejoran las propiedades psicométricas de los
ítems. Además, un número muy elevado de categorías (siete u ocho) lleva a inconsistencias
en las respuestas, que es una fuente de error. Un número muy reducido (dos ó tres) lleva a
poca discriminación (menor variabilidad) y a reducir la fiabilidad, aunque siempre puede
compensarse con un mayor número de ítems. No obstante, en poblaciones especiales (niños,
discapacitados, mayores…) se aconseja el uso de un menor número de categorías.
Una vez establecido el formato de respuesta que se considera más apropiado para el caso, y
de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuantificar los
posibles resultados a las cuestiones. En general, para los ítems de cuestionarios de
rendimiento óptimo se cuantificará con 1 el acierto y con 0 el error, de tal manera que la
puntuación directa de un sujeto en un cuestionario determinado será igual al número de ítems
que ese sujeto acierta.
Por ejemplo, para un ítem con formato de respuesta de opción binaria (acuerdo/desacuerdo)
puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
el ítem esté planteado para medir de manera directa o inversa el constructo de interés. Estos
pueden ser 2 ítems de un cuestionario de actitud ante al aborto voluntario:
También se puede asignar el 0 a la categoría central, valores negativos a las categorías que se
encuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha.
En estos casos, la puntuación directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; según esto, convendría cuantificar las diversas alternativas con valores entre 1 y n
para evitar una puntuación directa negativa.
Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado
en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede comprobar
estadísticamente de manera sencilla si obtenemos tres indicadores para cada ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de la
población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x ítems:
Ítems
1 2 3................... n X
Sujeto nº 1
Sujeto nº 2
Sujeto nº 3
.
.
.
.
.
.
Sujeto nº N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al ítem
j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en el total
del test.
Veamos cómo se obtienen (y qué sentido tiene su obtención) los tres índices citados
anteriormente.
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por lo que
sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.
Aj
Dj =
Nj
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10
personas a un test formado por 6 ítems dicotómicos (1 indica acierto y 0 error):
Ítems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
Sujetos 5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
Aj 0 5 2 3 3 9
Nj 10 10 7 4 7 9
- El valor mínimo que puede asumir Dj es 0 (ningún sujeto acierta el ítem) y el valor
máximo 1 (todos los sujetos que lo intentan lo aciertan).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los ítems más fáciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, los
más difíciles (con menor Dj). El número de ítems de cada categoría de dificultad que deben
incluirse en el test depende de los objetivos que quiera conseguir la persona que diseña el
cuestionario. En general, la mayor parte de los ítems deben ser de dificultad media.
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems, debemos calcular
la correlación entre las columnas j y la columna X de puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta de categorías
ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
Ítems
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos 3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
El índice de homogeneidad de un ítem nos va a informar del grado en que dicho ítem está
midiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la
homogeneidad o consistencia interna del test. Los ítems con bajos índices de homogeneidad
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
evaluar un rasgo o constructo unitario, deberían eliminarse los que tienen un Hj próximo a
cero.
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este
caso, los Hj deben obtenerse con relación a las puntuaciones directas del subtest concreto.
Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener el índice de
homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un ítem
con las puntuaciones en el total del test después de restar de este total las puntuaciones del
ítem cuyo índice queremos obtener. En el ejemplo precedente, el índice de homogeneidad
corregido para el ítem 1 será 0.49, resultado de correlacionar la 1ª columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Análogamente, los
índices de homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin corregir.
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con las que
estos sujetos obtienen en un criterio de validación externo al test (Y); esta correlación define
el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debería
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podrían valorar el grado de motivación de cada uno y utilizar estas
valoraciones como el criterio de validación de un test de motivación laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y: 5 3 6 0 6
Los elementos que tengan una correlación con el criterio próxima a cero deberían eliminarse
de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende medir. Si lo
que se pretende es seleccionar los ítems que más contribuyen a la validez del cuestionario, de
entre los ítems de igual varianza, serían preferibles los que tienen alto Vj y bajo Hj.
Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones de
respuesta que se han dado a las diferentes alternativas de cada ítem. Para un ítem concreto de
una prueba de rendimiento óptimo, lo ideal es que la alternativa seleccionada en mayor
medida sea la correcta; cada una de las alternativas incorrectas del ítem debe también ser
seleccionada por un número de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
a b c d e
1 b 16 40 15 14 15
2 c 35 15 21 17 12
3 a 60 1 21 18 0
En los tests formados por ítems de opción múltiples de las que sólo una es correcta, podemos
sobrestimar la puntuación directa de una persona dado que alguno de sus aciertos ha podido
producirse por azar. El problema entonces consiste en establecer un procedimiento para
descontar del número total de aciertos (A) los que se han producido por azar (Aa).
P (Aa) = 1/n
Llamemos Ra el nº de respuestas aleatorias que proporciona (es decir, el número de ítems que
ha contestado sin saber la solución). De las Ra, algunas serán aciertos aleatorios (Aa) y otras
serán errores (E). Nuestro objetivo es estimar los Aa para descontarlos del número total de
aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:
El nº total de errores se puede establecer como el producto del valor Ra por la probabilidad de
cometer un error:
n 1
E Ra
n
n
Ra E
n 1
1
Aa Ra
n
n 1 1
Aa E E
n 1 n n 1
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos y del número de
alternativas que tienen los ítems. Podemos observar que cada error se pondera por la
expresión 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay que
descontar 0,33 puntos por cada error; y así sucesivamente.
Xc = A - Aa
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5
opciones de respuesta cada uno. A continuación se detallan el nº de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona A E 0
1 112 28 0
2 110 12 18
3 109 0 31
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más inglés
sabe es la persona 1, seguida de la 2 y en último lugar la persona 3. Sin embargo, corrigiendo
los efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:
28
Xc1 112 105
4
12
Xc 2 110 107
4
0
Xc3 109 109
4
EJERCICIOS
1. A continuación se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con “N” (nunca), “PV” (pocas veces), “AV” (a veces), “MV” (muchas
veces) o “S” (siempre).
a) A menudo me influyen más las opiniones de los demás que las mías propias . . . ______
b) Evito vivir situaciones límites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
c) No me importaría tomar estimulantes para disminuir la sensación de fatiga
física o mental en el trabajo ........................................ ______
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . . ______
e) Me gustaría decir “NO”, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
sujeto 1 S PV MV N S
sujeto 2 PV MV AV MV AV
sujeto 3 N S N MV N
sujeto 4 MV N AV MV PV
a) El índice de homogeneidad de un ítem indica en que grado mide lo mismo que el test.
b) Un ítem con un Hj bajo siempre debe ser descartado en un proceso de selección.
c) El índice de homogeneidad permite ver en qué medida un ítem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos ítems que correlacionen poco con la puntuación total en el test.
e) Un ítem con un índice de homogeneidad alto pero con un bajo índice de validez no es
necesariamente un mal ítem. Estos resultados pueden deberse a que el criterio
seleccionado sea poco adecuado.
a) Complete la tabla.
b) Atendiendo al índice de dificultad, ¿cuál es el peor ítem?
c) Atendiendo al índice de homogeneidad, ¿cuál es el peor ítem?
d) Atendiendo exclusivamente al índice de validez, ¿cuál es el peor ítem?
a) El ítem que menos contribuye a que el test de 4 ítems mida un solo rasgo es el número
____ porque ______________________________________________.
b) El ítem que menos contribuye a la validez del test de 4 ítems es el número ____
porque _____________________________.
c) El ítem que menos contribuye a la varianza del test de cuatro ítems es el número _____
porque ____________________________________.
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
X Xc
sujeto 1 20 18
sujeto 2 15 5
sujeto 3 25 25
sujeto 4 17 12
sujeto 5 23 22
c) Sabiendo que en ninguno de los ítems ha habido omisiones, ¿Cuánto vale la varianza
del ítem de más varianza de los tres?
d) A Laura le ha correspondido en el test una puntuación sin corregir de 20 y una
puntuación tras corregir los aciertos por azar de 16 ¿Cuántos errores ha cometido?
13. Una muestra de 200 personas responde a un test de rendimiento óptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
ítem, y cual es en cada uno la alternativa correcta.
a) Sabiendo que no hubo omisiones en ninguno de los ítems, calcule la media del ítem 1.
b) ¿Cuál es el ítem más difícil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas ¿algún ítem debería ser modificado?
Razone su respuesta
14. Un test de 12 ítems está formado por 2 escalas que miden constructos distintos. La
escala 1 está integrada por los primeros 4 ítems y la escala 2 por los últimos 8 ítems. Las
siguientes dos tablas muestran los índices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros ítems en relación al test de 12 ítems y en relación a
la escala 1.
Diga razonadamente qué tabla contiene los H y HC de los tres ítems en relación al test
completo.
SOLUCIONES
1.
sujeto 2 2 2 3 2 3 12
sujeto 3 1 1 1 2 1 6
sujeto 4 4 5 3 2 2 16
2. a) Verdadero
b) Falso
c) Falso
d) Falso
6. a) El ítem 1: D1 = 0,8
b) H2 = 0.305
c) La persona número 8: Xc = 2
d) V5 = 0.84
8. Por ser un ítem dicotómico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (índice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el único valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el índice de homogeneidad corregido suele ser menor que el índice de
homogeneidad sin corregir, 0.15 y 0.53 serán los índices de homogeneidad corregidos
y sin corregir, respectivamente.
10. n=5
11.
Sujeto Preguntas sin contestar
1 3
2 0
3 0
4 3
5 1
14. HC produce resultados tanto más diferentes de H cuanto menor sea el número de
ítems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:
Tabla 1: 0.116 0.173 0.138
Tabla 2: 0.325 0.417 0.378
Luego el test largo, de 12 ítems, es el que tiene diferencias menores: Tabla 1.
1.- INTRODUCCIÓN
En las Ciencias clásicas (Medicina, Física, Química,...) existen aparatos, con márgenes de
error especificados, para medir determinadas características como son la temperatura, la
presión sanguínea, el peso, la concentración de determinados elementos químicos, etc. En
Psicología no existen instrumentos de medición de la introversión, la actitud hacia el aborto,
la aptitud espacial o la habilidad lectora, características que no son susceptibles de una
medición directa. Para medir los rasgos psicológicos se han elaborado teorías matemáticas o
estadísticas que permiten inferir el nivel de rasgo a partir del rendimiento observado de la
persona.
Si elaboramos, por ejemplo, una prueba de atención, una persona obtiene una determinada
puntuación X en el test. La cuestión que nos planteamos es si esa X representa una buena
manifestación del rasgo auténtico de atención que tiene esta persona. Podemos pensar en las
consecuencias que tiene para el psicólogo que un test no proporcione una buena información
de los niveles de rasgo. Un psicólogo clínico que utiliza un test de depresión en su labor
profesional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el
test resultan buenas cuantificaciones de los niveles de depresión de sus pacientes.
La teoría clásica de los tests (a partir de los trabajos iniciales de Spearman) propone un
modelo formal, denominado como modelo clásico o modelo lineal clásico, fundamentado en
diversos supuestos a partir de los cuales se extraen determinadas consecuencias de
aplicabilidad práctica para determinar el grado en que un test informa de los niveles de rasgo.
(1) X = V + E
que indica que la puntuación empírica directa de una persona en un test (X) está compuesta
de dos componentes hipotéticos: el nivel de rasgo o puntuación verdadera de la persona (V) y
un error de medida (E) que se comete al medir el rasgo con el test. El error de medida se
considera una variable aleatoria compuesta por los diferentes factores (propios del sujeto, del
test y externos a ambos) que hacen que su puntuación empírica no sea exactamente su nivel
de rasgo. Por tanto, el error de medida se establece como la diferencia entre la puntuación
empírica y la verdadera:
E=X-V
(2) V = E[X]
Definimos la puntuación verdadera de una persona como el valor esperado de las posibles
puntuaciones empíricas que puede obtener en el test. Dicho de otro modo, sería el promedio
de las puntuaciones empíricas que obtiene la persona en un número elevado de aplicaciones
del test.
E[E] = 0
(3) UVE 0
Este tercer supuesto nos dice que si en una población conociéramos las puntuaciones V y E
de los individuos, la correlación entre ambas variables sería nula. Se asume que puntuaciones
verdaderas elevadas (bajas) no tienen porqué tener asociados errores elevados (bajos).
(4) UE E j k
0
El cuarto supuesto asume que si en una población conociéramos los errores de medida de
cada individuo en dos tests diferentes (j y k), dada su condición de aleatoriedad, la
correlación entre ambas variables también sería nula.
(5) UE V j k
0
El quinto supuesto nos indica que si en una población conociéramos las puntuaciones E en un
test j y las puntuaciones V en un test k, ambas variables correlacionarían cero.
Ejemplo: Supongamos una población de 5 personas, para las que conocemos sus
puntuaciones V, E y X en dos tests diferentes, denominados con los subíndices 1 y 2 (En
realidad, sólo podemos conocer las puntuaciones X; las restantes puntuaciones se proponen
únicamente por razones didácticas):
V1 E1 X1 V2 E2 X2
12 -2 10 12 0 12
11 0 11 11 -2 9
11 0 11 11 2 13
12 2 14 12 0 12
4 0 4 4 0 4
El lector puede comprobar que se cumplen los supuestos planteados en la página anterior, en
la tabla de puntuaciones.
De cualquier forma, insistimos que en la aplicación real de un test sólo se conocen las
puntuaciones X de las personas, por lo que los supuestos planteados (por muy lógicos y
razonables que sean) no pueden someterse a contrastación empírica, siendo ésta una de las
principales limitaciones de la TCT.
Cuando un psicólogo aplica un test a una persona, únicamente conoce su puntuación directa
X en la prueba. Lo importante, como venimos indicando, es obtener información de las
relaciones entre las X y las V. Un procedimiento sería obtener la correlación entre ambas
para un grupo de N personas, pero nos encontramos con el inconveniente de desconocer las
auténticas V de las N personas. Sí resulta factible, sin embargo, obtener la correlación entre
las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseñadas
ambas para evaluar el mismo rasgo V de los individuos.
Según el modelo clásico, dos formas paralelas de un test se definen mediante dos
condiciones:
El lector puede comprobar en la tabla de datos expuesta anteriormente que los tests 1 y 2
pueden considerarse formas paralelas, dado que se cumplen en los datos las dos condiciones
planteadas. Ahora bien, estamos asumiendo que los datos anteriores se refieren a una
población determinada, en la que conocemos las V y los E de los individuos. En la práctica
desconocemos esas puntuaciones y, además, disponemos generalmente de datos muestrales y
no poblacionales. ¿Cómo determinar entonces si dos formas son o no paralelas? En la tabla
anterior podemos constatar que, si dos formas son paralelas, las medias poblacionales de X en
ambas son iguales, y también los son las varianzas poblacionales de las puntuaciones X.
Según esto, y haciendo uso de los procedimientos empleados en estadística inferencial, si
disponemos de datos muestrales podemos realizar los contrastes oportunos para determinar,
H0 : P1 - P2 = 0
H1 : P1 - P2 z 0
D N
T , que sigue la distribución t con N-1 grados de libertad,
SD
H0 : V1 - V2 = 0
H1 : V1 - V2 z 0
( S12 S 22 ) N 2
T , que sigue la distribución t con N – 2 grados de libertad.
2S1 S 2 1 r122
Ejemplo: Queremos saber, con probabilidad 0.95, si dos tests (1 y 2) son o no formas
paralelas. Aplicamos ambos tests a una muestra de 5 personas y obtienen las siguientes
puntuaciones:
X1 X2
15 15
10 15
13 20
14 10
18 15
Para el contraste de diferencia de medias, obtenemos un valor T = -0.46, lo que nos lleva a no
rechazar H0, mientras que para el contraste sobre diferencia de varianzas obtenemos un
estadístico T = -0.34, que también nos lleva a no rechazar H0 de igualdad de varianzas
poblacionales. Según esto, podemos decir, con probabilidad 0.95, que ambos tests son formas
paralelas.
Los fundamentos de este tipo de contrastes pueden consultarse en el libro de Pardo y San
Martín (1998) "Análisis de datos en Psicología II".
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que los
resultados empíricos de ambas en una población correlacionen de forma elevada. Si esto es
así, ambas formas manifiestan un elevado grado de precisión a la hora de reflejar los diversos
niveles de rasgo. Si ambas correlacionasen de forma mínima, no podemos fiarnos de que
reflejen fidedignamente los niveles de rasgo. Pues bien, definimos inicialmente el coeficiente
de fiabilidad como la correlación entre los resultados que proporcionan dos formas paralelas.
Para datos poblacionales y puntuaciones diferenciales, la expresión de la correlación de
Pearson es la siguiente:
6x1 x 2
U12
NV 1V 2
Según el primer supuesto del modelo clásico, que se cumple también para escala diferencial,
tenemos que x = v + e, con lo que la expresión anterior quedaría como:
6(v1 e1 )(v 2 e2 )
U12
NV 1V 2
Recordando los supuestos del modelo clásico, podemos comprobar que los tres últimos
sumandos son iguales a cero, con lo que nos queda la siguiente expresión:
6v1v2
U12
NV 1V 2
y dado que las puntuaciones v de un mismo individuo en dos formas paralelas las asumimos
idénticas, y también son iguales las varianzas poblacionales en ambas formas, la expresión
anterior queda como:
6v 2 V v2
U12
NV 1V 2 V x2
Los parámetros de la población en una forma paralela podemos designarlos como Vx, Vv , Ve ,
y Uxx . Si unimos las n formas paralelas en un único test, los parámetros de este test alargado
podemos expresarlos como Vnx , Vnv , Vne, y Unxx. Vamos a llegar a determinadas expresiones
para obtener los parámetros del test alargado conociendo los parámetros de una forma
paralela.
V nv2 n 2V v2 nU xx
U nxx
V nx2 n V x 1 n 1U xx 1 (n 1) U xx
2 2
Ejemplo: Un test de aptitud para la dirección empresarial está formado por dos formas
paralelas de 20 ítems cada una. Aplicados a una población de directivos, se obtiene una
correlación de 0.6 entre ambas formas. ¿Cuál será el coeficiente de fiabilidad del test
compuesto por la unión de las dos formas paralelas?
nU xx 2(0.6)
U xx 0.75
1 (n 1) U xx 1 (2 1)0.6
Comprobamos que el coeficiente de fiabilidad del test alargado (de 40 ítems) es superior al
coeficiente de fiabilidad de cualquiera de las formas iniciales de 20 ítems. Esto representa
una propiedad interesante del coeficiente de fiabilidad, dado que nos indica que si alargamos
un determinado test con formas paralelas, podemos incrementar su fiabilidad.
El razonamiento que hemos expuesto se puede generalizar al caso de que los k ítems que
componen un test fueran formas paralelas. En una determinada población, los k ítems de un
test serán paralelos si todos tienen la misma media, la misma varianza y la misma fiabilidad.
Según la fórmula general de Spearman-Brown, el coeficiente de fiabilidad del test se puede
expresar como:
kU il
U xx
1 (k 1) U il
donde k es el número de ítems del test y Ujl es la correlación de Pearson entre cualquier par de
ítems, que indica la fiabilidad de cada uno de los ítems.
EJERCICIOS
TEST 1 TEST 2
X1 V1 E1 X2 V2 E2
persona 1 3 2 1 0 2 -2
persona 2 2 3 -1 5 3 2
persona 3 4 5 -1 7 5 2
persona 4 7 6 1 4 6 -2
Comprobar qué supuestos de la Teoría Clásica se cumplen y cuales no, en cada test.
X V E
persona 1 5 0
persona 2 7 1
persona 3 0
persona 4
MEDIA 6
4. Si dos tests son paralelos, una persona obtendrá la misma puntuación empírica en uno
y otro. V ( ) F ( ) Depende ( ). Razone su respuesta.
a) ¿Cuál es la diferencia mínima que deberíamos haber obtenido para considerar, con
probabilidad 0.95, que las medias poblacionales son diferentes?
b) Suponiendo que las dos medias no alcanzan esa diferencia mínima, ¿podemos afirmar, con
probabilidad 0.95, que ambas formas son paralelas?
8. Complete los valores omitidos en la siguiente tabla, siendo n el número de veces que
se alarga el test.
V2 x V2 v V2 e ρxx n ítems
Test original 25
Test alargado 112 16 4
11. Diga si las siguientes afirmaciones son ciertas (V) o no (F). No necesita razonar sus
respuestas.
SOLUCIONES
1. X = V + E. Se cumple.
La media de los errores es 0. Se cumple el segundo supuesto.
ρVE = 0. Se cumple el tercer supuesto.
Los errores correlacionan. No se cumple el supuesto 4.
Los errores no correlacionan con las puntuaciones verdaderas (ρE1 V2 = ρE2 V1 = 0). Se
cumple el supuesto 5.
3. Si se prolonga el tiempo, cabe suponer que las puntuaciones X de las personas serían
superiores a las que les corresponderían con el tiempo bien controlado. En este caso,
los errores de medida (E = X - V) serán mayoritariamente positivos, con lo cual se
incumple el supuesto de que su media debe ser cero.
4. Depende. El modelo supone que en dos formas paralelas, una misma persona tiene la
misma V, pero sus puntuaciones empíricas en una y otra forma por lo general serán
diferentes.
6. Falso. No tiene por qué ser 1, ya que las puntuaciones empíricas en una y otra forma
no tienen por qué ser las mismas. La correlación entre ambas será un indicador de la
fiabilidad de cualquiera de ellas.
7. rxx = 0.64
8.
σ2 x σ2 v σ2 e ρxx n ítems
9.
Test A 10 1 3 1
Test B 5
11. a) V
b) V
c) V
d) V
e) F
f) F
1.- INTRODUCCIÓN
Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test
como instrumento de medición de un rasgo determinado. Si un herrero mide varias veces con
una cinta métrica la longitud de una barra de hierro, siempre obtendrá la misma medición,
debido a que tanto la cinta métrica como la barra permanecen invariantes. Ahora bien, cuando
empleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni
otro permanezcan invariantes de una situación a otra; análogamente, sería como disponer de una
cinta métrica elástica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto,
más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de
estabilidad del instrumento de medición.
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de
manera consistente.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cuál se
define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas
paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es
uno aplicado dos veces.
1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
últimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hábitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto a
la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza empírica se debe a la variabilidad de las personas a nivel
de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable
(pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medición. Es aconsejable dejar periodos largos entre la evaluación test y la retest
cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlación entre las puntuaciones del test y del retest.
La precisión o fiabilidad de un test se puede entender también como el grado en que diferentes
subconjuntos de items miden un rasgo o comportamiento homogéneo; es decir, el grado en que
covarían, correlacionan o son consistentes entre sí diferentes partes del cuestionario.
Lo más usual es obtener la consistencia entre dos mitades del test (método de dos mitades) o
entre tantas partes como elementos tenga la prueba (consistencia interna).
Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una con
los elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuación directa en
ambas mitades. Disponemos entonces de dos variables (P e I), cuya correlación de Pearson (rPI)
indica su grado de relación.
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo
estadísticamente), la correlación entre ambas sería una medida de la fiabilidad de cada una de
ellas. Ahora bien, cuando hemos deducido la fórmula general de Spearman-Brown hemos visto
que los tests más largos (con más items) suelen ser más fiables, por lo que rPI estará
subestimando el coeficiente de fiabilidad del test total en la medida que P e I son variables
extraídas de la mitad de ítems que tiene el test. Para superar este problema, y así obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown,
considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test
completo tiene el doble de items que cualquiera de sus mitades:
2rPI
rxx
1 rPI
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como la
expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre
ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10
personas que responden a un cuestionario de 6 ítems valorados de forma dicotómica:
Ítems
Sujeto 1 2 3 4 5 6 P I Total
1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 3 1 4
9 0 1 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0
2(0.34)
rxx 0.51
1 0.34
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre sí. Unicamente un 51 % de la varianza de las puntuaciones
empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos afirmar con
suficiente certeza que ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a
responder los ítems más fáciles hasta llegar a los situados al final del test, que son los más
difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la
primera mitad formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.
En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente de
fiabilidad del test podría obtenerse aplicando la fórmula general de Spearman-Brown:
kU jl
U xx
1 (k 1) U jl
siendo k el nº de ítems del test y Ujl la correlación de Pearson entre cualquier par de ítems.
kr jl
rxx
1 (k 1)r jl
k §¨ ¦ S j ·¸
2
D 1
k 1 ¨© S x2 ¸¹
donde k es el nº de ítems
¦S 2
j es la suma de las varianzas de los ítems y Sx2 es la varianza del test
Dado que las puntuaciones en el test son la suma de las puntuaciones en los ítems, la varianza
del test puede expresarse como:
k
S x2 ¦S
j 1
2
j 2¦ cov( j , l )
j l
§ 2¦ cov( j , l ) ·
k ¨ j l ¸
D ¨ ¸
k 1 ¨ S x2 ¸
© ¹
Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son paralelos. En la
práctica, es muy difícil que esto se produzca pero, sin embargo, tiene sentido su aplicación para
establecer el grado en que los diferentes ítems están midiendo una única dimensión o rasgo.
Podemos observar en la última expresión que D depende del grado de covariación de los ítems:
tendrá un valor alto (cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si covarían de forma
escasa). Matemáticamente, D puede asumir valores negativos.
Ejemplo:
Sujetos Ítems X
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
k §¨ ¦ S j ·¸
2
4 § 0.14 0.25 0.14 0.25 ·
D 1 = ¨1 ¸ 0.55
¨
k 1 © 2 ¸
S x ¹ 4 1 © 1.33 ¹
En este caso, el coeficiente D obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariación entre los ítems. No podemos afirmar con rotundidad que este
test mide un rasgo unitario.
El coeficiente D puede obtenerse también entre diferentes grupos de ítems (subtests). En ese
caso, k será el número de subtests y 6S2j la suma de las varianzas de los subtests. Un
coeficiente D bajo indicará que los diferentes subtests miden rasgos o constructos diferentes.
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda versión
del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original
pero con diferentes ítems. Como ya hemos explicado, dos versiones o formas se consideran
paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilísticamente similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas
paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en
que pueden considerarse equivalentes.
Ejemplo:
1 1 4
2 14 12
3 11 13
4 11 9
5 10 12
Medias 9.4 10
Varianzas 19.44 10.8
Varianzas (ins.) 24.3 13.5
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabilidad.
Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determinados
trabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.
Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo
o motivacional, conviene utilizar antes y después del entrenamiento pruebas equivalentes
aunque con contenidos diferentes (formas paralelas) para evitar los efectos del recuerdo.
5.1.- CONCEPTO
X=V+E
A la desviación típica de los errores de medida (Se) se denomina error típico de medida. En
cierta manera, el Se representa también una medida de precisión: cuanto más cercano a cero sea
el error típico de medida de un test, eso significará que dicho test proporciona a cada persona
una puntuación X cercana a su nivel de rasgo V.
V v2
U xx
V x2
S v2 S e2
rxx 1
S x2 S x2
De donde se deduce que el error típico de medida puede obtenerse a partir de la expresión:
Se S x 1 rxx
Un test impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque
sus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadística inferencial,
podemos contrastar, con cierta probabilidad, si dos puntuaciones empíricas diferentes suponen o
no niveles de rasgo distintos.
Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subíndices i
y j) planteamos las siguientes hipótesis:
H0: Vi = Vj
H1: Vi z Vj
Xi X j
Z
Se 2
126 120
Z 0.88
16 1 0.91 2
Con probabilidad 0.95, la zona de aceptación queda establecida entre los límites Z = -1.96 y Z
= 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.
El conocimiento preciso y exhaustivo de los factores que determinan la cuantía del coeficiente
de fiabilidad puede ayudarnos en la tarea de diseñar pruebas adecuadas. El tema es relevante en
la fase de selección de ítems, para saber cuáles deben seleccionarse dependiendo de los objetivos
que se pretenden conseguir. También va a resultar útil para conocer las propiedades y
limitaciones que asumimos cuando aplicamos un determinado cuestionario.
Ya hemos aclarado las diferentes versiones que pueden adquirir la fiabilidad de un cuestionario,
entendida sobre todo como consistencia o como estabilidad temporal.
Respecto a la consistencia interna (coeficiente D), basta inspeccionar las dos expresiones
formales que hemos proporcionado para comprobar que los elementos que covarían de manera
elevada y positiva con los restantes son los que más contribuyen a que D sea elevado. Se puede
comprobar, además, que S2x = (6 Hj Sj)2, con lo que, si sustituimos la expresión en la fórmula de
D, comprobamos también que (entre los elementos de igual variabilidad) los de mayor Hj son los
que más contribuyen a incrementar D. Si en la fase de análisis de items tenemos como objetivo
elaborar un test con elevada consistencia interna, tenemos que quedarnos con los ítems que
manifiestan un mayor índice de homogeneidad.
Además, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la
longitud del test y que resultaría fácil obtener valores elevados cuando se incluyen ítems
redundantes, lo que, evidentemente, no resulta deseable.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos
(muestras de personas donde se obtiene el coeficiente). Más concretamente, un mismo test suele
obtener un rxx mayor en un grupo heterogéneo que en otro menos heterogéneo (de menor
varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una
muestra de la población general que una muestra de universitarios o en otra de personas con
deficiencias cognitivas (estas últimas más homogéneas). La razón es simple: el coeficiente de
fiabilidad, obtenido por el método que sea, se fundamenta estadísticamente en una correlación
de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las
variables que se correlacionan.
Por otra parte, si los ítems están bien formulados y resultan discriminativos, un test incrementará
su rxx a medida que incrementa su longitud (número de ítems), aunque no lo hace de manera
lineal. La siguiente gráfica muestra el coeficiente de fiabilidad de un test alargado N veces (N: 1,
2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:
1,0
,8
,4
0.7
,2
0.4
0,0 0.1
1 7 13 19 25 31 37 43 49
4 10 16 22 28 34 40 46
Queremos indicar con la gráfica anterior que el incremento es más significativo cuando el test
inicial tiene un número pequeño de ítems y bajo coeficiente de fiabilidad, que cuando el test de
partida tiene ya un coeficiente de fiabilidad considerable.
La fórmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra
concreta, permite estimar cuál será el coeficiente de fiabilidad (Rxx) de un test que se forma con
“n” versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
nrxx
R xx
1 (n 1)rxx
Las n-1 formas añadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario,
la fórmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atención de 25 ítems obtiene en un grupo
normativo un rxx= 0,6. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test
alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:
nrxx (4)0.6
R xx 0.86
1 (n 1)rxx 1 (3)0.6
Si las 3 formas añadidas fuesen auténticamente paralelas a la original al pasar de 25 a 100 ítems
el coeficiente de fiabilidad pasa de 0.6 a 0.86.
Imagínese ahora que el test de atención de 25 ítems tiene un rxx = 0,92. Si se añaden 75 ítems
más paralelos, el test alargado tendría de coeficiente de fiabilidad:
nrxx (4)0.92
R xx 0.98
1 (n 1)rxx 1 (3)0.92
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de
atención es de 0.26, mientras que en el segundo caso, el incremento es únicamente de 0.06. Esto
se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el
primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la fórmula
se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el método de
las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sería el coeficiente de
fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el
resultado de esa correlación hay que corregirlo, haciendo n = 2 en la fórmula de Spearman-
Brown, para obtener el coeficiente de fiabilidad del test completo.
Estas relaciones entre fiabilidad y longitud de un test pueden ayudarnos a estimar el coeficiente
de fiabilidad alargando “n” veces o, planteado inversamente, el número de veces que debemos
multiplicar la longitud inicial de un test para alcanzar un Rxx determinado. En la práctica, puede
resultar eficaz diseñar un test inicial corto y estimar cuál debería ser su longitud para alcanzar un
coeficiente de fiabilidad determinado, y así comprobar si merece la pena continuar con ítems
paralelos o reformar los ya generados. Para ello, si despejamos “n” de la fórmula general de
Sperman-Brown, obtenemos la siguiente expresión:
Rxx (1 rxx )
n
rxx (1 R xx )
Ejemplo: Supongamos que un test inicial de 25 ítems obtiene un coeficiente de fiabilidad de 0.6,
considerado bajo para los objetivos que se pretenden conseguir con su aplicación. Una manera
de incrementar su precisión es alargarlo con ítems paralelos a los iniciales. Al constructor de la
prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0.86, y se pregunta
con cuántos ítems lo conseguiría.
0.86(1 0.60)
n 4
0.60(1 0.86)
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de 100
ítems, conseguiremos la precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial
habría que añadir 75 ítems paralelos (3 formas) para conseguir la fiabilidad de 0.86.
El lector puede comprobar que este planteamiento es el inverso al del ejemplo precedente, que
consideraba los mismos datos, y que por eso es lógico que el resultado de “n” sea 4.
EJERCICIOS
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construcción de un cuestionario.
3 puntos (0, 1 ,2). A continuación se detallan las respuestas dadas por un grupo normativo de
8 personas:
Sujetos
nº 1 nº 2 nº 3 nº 4 nº 5 nº 6 nº 7 nº 8
Ítem nº 1 2 2 2 2 2 2 1 0
Ítem nº 2 2 2 2 2 1 1 0 0
Ítem nº 3 2 1 2 0 0 1 0 0
Ítem nº 4 1 1 0 1 0 0 0 0
Obtenga el coeficiente de fiabilidad de test por el método de dos mitades. Aplique para ello
la fórmula de Spearman-Brown .
Sujetos 1 2 3 4 5 6 7 8 9 10
Forma A 6 3 5 4 4 6 5 5 6 3
Forma B 6 3 4 4 5 6 3 5 6 5
Sujeto: 1 2 3 4
───────────────
Xi : 14 6 16 4
b) Obtenga la diferencia mínima que debe producirse entre las puntuaciones de dos
conductores en el test para considerar, con probabilidad 0.99, que sus puntuaciones
verdaderas son distintas.
Ítems
Conductor 1 2 3 4 5 6
1 0 1 1 1 1 1
2 1 1 1 1 0 1
3 0 1 0 1 0 0
4 0 1 1 0 0 0
10. Un test de habilidad verbal de 30 ítems tiene, según el procedimiento de las dos
mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
11. Sean dos tests de tres ítems. La matriz de correlaciones entre los tres ítems en cada
test ha sido:
a) ¿En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) ¿En cual de los tests cabe esperar que sea mayor el índice de homogeneidad del ítem 1?
Razone su respuesta.
12. Un test está formado por 4 ítems dicotómicos que tienen igual media (0.6). La
correlación entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
ítems.
14. Un cuestionario para evaluar el rendimiento en Aritmética está formado por 4 ítems,
que se valoran de forma dicotómica (1 el acierto y 0 el fallo). Se aplicó a una muestra de 100
niños. A continuación se detalla alguna información estadística de la mitad par (P), impar (I)
y del total del test (X). También aparecen las frecuencias de aciertos (F) de cada uno de los 4
ítems, no habiendo omisiones en ninguno.
Correlaciones :
P I X Ítem 1 2 3 4
P 1
F 50 70 60 80
I 0,.45 1
X 0,79 0,74 1
Medias 1,50 1,10 2,60
Sj 0,67 0,83 1,14
15. Un test A tiene 100 ítems y un coeficiente de fiabilidad de 0.5. Un test B tiene el
mismo coeficiente de fiabilidad, pero tiene 10 ítems. ¿Significa esto que si a ambos tests
añadimos 50 ítems paralelos, los dos tests alargados tendrían la misma fiabilidad?
SI( ) NO( ) Depende ( ). Razone su respuesta.
a) ¿Cuántos ítems se han de añadir al test para que su fiabilidad sea 0.95? Realice el cálculo
necesario.
b) ¿Puede el valor “n” de la fórmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
17. Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hipótesis
nula de igualdad de puntuaciones verdaderas.
SOLUCIONES
5. rxx = 0,66
6. rxx = 0,83
7. rxx = 0, 587
8. a) Sv2 = 20,8
b) Se = 2,28
9. a) rxx = 0,778
b) 2.58 será la diferencia mínima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones
verdaderas son diferentes.
10. a) rP I = 0,67
b) Si2 = 6
c) SP I = 4
d) S2n e = 10
11. a) El test A. Cuando las correlaciones entre los ítems son más altas, lo serán las
covarianzas, y por tanto el coeficiente alfa.
b) El test A. Cuando las correlaciones entre los ítems son altas, también lo serán las
correlaciones de cada ítem con el test total (índice de homogeneidad).
§ ·
4 ¨¨ (4)0.24 ¸
D 1 ¸ 0.44
3¨ 1
¨ (4)0.24 2(6) 0.24 ¸¸
© 6 ¹
4§ 0.86 ·
b) S12 = 0.25; S22 = 0.21; S32 = 0.24; S42 = 0.16. D ¨1 ¸ 0.45.
3 © 1.142 ¹
15. NO. En el primer caso, el test inicial se habrá alargado 1.5 veces para llegar a los 150
ítems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
los 60 ítems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestión de qué es lo que auténticamente está evaluando. En el ámbito
psicosocial, los diferentes constructos resultan difícilmente operativizables de manera
indiscutible, y a veces se producen dudas razonables sobre qué mide un determinado test. Una
prueba de inteligencia general tendrá un elevado grado de validez si asigna puntuaciones altas a
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendrá un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.
Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene como
objetivo aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente
se han diferenciado varios procedimientos de validación, alguno de los cuales incluye varios
métodos diferentes de comprobación. Los fundamentales procedimientos son denominados
como validez de contenido, de constructo y referida al criterio.
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...)
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar
o en una especialidad temática concreta), tiene sentido justificar que el conjunto de items que
forman el test conforman una muestra representativa del universo de contenidos que interesa
evaluar. Un test de conocimientos de Química en 8º de EGB, por ejemplo, debería incluir
cuestiones representativas de los diferentes núcleos de contenidos que oficialmente deben
impartirse en ese nivel de estudios. Sería una prueba poco válida si incluye demasiadas
cuestiones de unos temas y muy pocas de otros.
Para justificar, aunque sólo sea racionalmente, que un test posee validez de contenido, debe
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cuáles son los contenidos de Química que debe conocer un alumno de 4º de ESO, cuáles son los
componentes que interesa considerar en un cuestionario de cultura general, qué tipo de
conocimientos y destrezas son las pertinentes para medir el nivel básico de inglés, etc. En
Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente", que se refiere al grado en que un test da la impresión a los evaluandos de que mide lo
que se pretende. En situaciones aplicadas, es importante que las personas perciban que los ítems
del test tienen que ver con la finalidad que se persigue con el procedo de evaluación.
Aunque los métodos a emplear son sin duda variados, así como la técnicas estadísticas para
analizar los datos, podemos encontrar un común denominador a todos ellos, que se sintetiza en
las siguientes fases:
3.- Determinar si se verifican o no las hipótesis planteadas. En el caso de que así sea,
queda confirmado mediante una investigación que el test mide el constructo de interés ya
que, de lo contrario, no habría razones lógicas para que se cumplieran las hipótesis
formuladas. Si las hipótesis no se confirman no significa en principio que el test no es
válido, ya que puede ser debido a que las hipótesis no estaban planteadas de manera
adecuada, lo cual exigiría una revisión de la teoría subyacente.
Imaginemos, por ejemplo, que un investigador está interesado en validar una prueba de
motivación intrínseca-extrínseca que ha construido. Desde la teoría motivacional de partida se
puede deducir que las personas motivadas intrínsecamente (por el mero placer que les supone la
ejecución de determinadas tareas) deberían rendir mejor en actividades escolares que las
personas motivadas por razones extrínsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que demostrar empíricamente que
mide auténticamente el constructo motivacional que se pretende, y podría proceder de la
siguiente manera:
c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo
nivel intelectual medio y que ocupen un número similar de horas en el estudio, pero que
el grupo A tenga niveles altos de motivación intrínseca y el B niveles altos de
motivación extrínseca.
Pueden ser muy variados los métodos a seguir que, cumpliendo el proceso de ejecución
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En cada
caso habrá que seguir el que más convenga para contrastar las hipótesis de partida, pero algunos
métodos suelen ser más frecuentes. Entre ellos destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras variables que deberían
relacionarse con el constructo de interés. Si el modelo teórico está bien fundamentado,
debe establecer relaciones entre el constructo de interés y otros diferentes, y por tanto
debe ser posible establecer diseños de investigación para contrastar las previsiones
teóricas. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala de
susceptibilidad al castigo (que mide el grado de evitación de situaciones reales aversivas)
debe proporcionar puntuaciones relacionadas directamente con neuroticismo e
inversamente con estabilidad emocional.
- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
para comprobar si realmente es así. Resulta un enfoque eminentemente diferencial: si el
test es válido, debería reflejar las diferencias entre grupos que se predicen desde la teoría
psicológica. Por ejemplo, si un test de inteligencia general para edades infantiles es
válido, debería reflejar el mayor rendimiento de los niños de más edad.
- Utilizar una estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulación o selección de los niveles en
una o más variables independientes. El ejemplo expuesto anteriormente sobre
motivación y rendimiento puede servir para entender esta estrategia.
Este último método, denominado validez de constructo factorial, requiere alguna precisión que
puede ser pertinente por fundamentarse en una técnica estadística relativamente sofisticada y,
sobre todo, porque su utilización práctica es muy extensa.
El análisis factorial es una técnica estadística multivariante que sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
información final, proporciona una matriz de tamaño n u p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las “p” dimensiones
extraídas, y que son las correlaciones de Pearson entre cada variable y cada dimensión.
El análisis factorial se realiza con dos objetivos 1) determinar cual es el número de dimensiones
o factores que mide un test y descubrir cual es el significado de cada una; 2) obtener la
puntuación de cada sujeto en cada dimensión. Normalmente, el número de dimensiones que
mide un test es mucho menor que el de ítems. Para descubrir su significado y darles sentido es
necesario fijarse en las variables que saturan de forma elevada en cada dimensión. Cuando el
investigador se enfrenta con la tarea de dar significado a una dimensión, debe realizar un
proceso inferencial para encontrar el nexo de unión entre las variables que manifiestan
correlaciones elevadas en la dimensión. Además, los diferentes factores (dimensiones) extraídos
no tienen la misma importancia. Cada uno explica una determinada cantidad de la varianza total
de los ítems, que se expresa porcentualmente, y que indica la importancia de esa dimensión para
dar cuenta de la covariación entre las variables. Si un factor explica un porcentaje elevado de la
varianza total, eso es síntoma de que las saturaciones de las variables en dicho factor son altas, lo
que significa que es una dimensión importante a la hora de describir las relaciones entre las
variables originales.
Un psicólogo ha elaborado una prueba de cinco ítems para evaluar la actitud hacia las nuevas
tecnologías por parte de las personas mayores. Los ítems, que se responden en una escala de
siete categorías ordenadas (desde 1: “muy en desacuerdo" hasta 7: “muy de acuerdo"), son los
siguientes:
Los 5 ítems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se sometió a un análisis factorial, obteniéndose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlación de cada ítem con cada uno de los factores que mide el test:
1 0.845 -0.126
2 -0.201 0.803
3 0.672 0.012
4 0.052 -0.615
5 0.713 -0.143
Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que
se tipifican las puntuaciones en los ítems; la varianza total sería cinco, que es la suma de la
varianza de cada ítem. El factor I explica un 34% de la varianza total, el factor II explica un 21%
de la varianza total. Con los dos factores se explica el 55% de la varianza de los ítems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologías pueden ser útiles para mejorar su calidad de vida. El ítem 2 tiene una
saturación negativa (aunque baja) porque posiblemente manifiesta una actitud contraria hacia las
nuevas tecnologías. Por tanto, el factor I puede denominarse “Actitud positiva hacia las nuevas
tecnologías como medio para mejorar la calidad de vida”.
En el factor II obtienen saturaciones elevadas (en valor absoluto) los ítems 2 y 4, mientras que el
resto de saturaciones son cercanas a cero. El hecho de que el ítem 2 tenga una saturación
positiva y el 4 negativa significa que las personas con puntuación alta en el factor II tienden a
estar de acuerdo con el ítem 2 y en desacuerdo con el 4. Este segundo factor podría etiquetarse
“Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologías”.
Vemos, pues, que las relaciones de covariación entre los ítems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
no son tan evidentes en la realidad; el investigador debe decidir cuántos factores están presentes
en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
tan sencillo como en este ejemplo. Lo cierto es que la aplicación del análisis factorial aporta
información sobre las dimensiones que estamos midiendo con un determinado cuestionario, es
decir, proporciona información sobre la validez de la prueba.
El análisis factorial se basa en un modelo que es una extensión del utilizado en teoría clásica de
tests. A modo de ejemplo, consideremos los siguientes seis ítems de una escala de Cordialidad
dirigida a población infantil:
Estos ítems se aplicaron a una muestra de 564 chicos y chicas de entre 11 y 14 años. La matriz
de correlaciones obtenida en esta muestra fue:
ª1 º ª 1 º
«r 1 » «0,459 1 »
« 21 » « »
« r31 r32 1 » « 0,313 0,384 1 »
« » « »
«r41 r42 r43 1 » «0,246 0,285 0,240 1 »
«r51 r52 r53 r54 1 » « 0,171 0,274 0,227 0,448 1 »
« » « »
¬« r61 r62 r63 r64 r65 1¼» ¬« 0,150 0,281 0,266 0,286 0,239 1¼»
Observe que unos ítems correlacionan más entre sí que otros. En realidad, el patrón de
correlaciones nos informa de cuántas dimensiones subyacen a las respuestas en esos ítems. A
continuación se verá que, utilizando el análisis factorial, seremos capaces de extraer muchísima
información sobre los ítems a partir de esa matriz de correlaciones.
Puede plantearse que los seis ítems miden una misma característica, la “cordialidad”. Aplicando
el modelo de la teoría clásica de tests a las puntuaciones de los ítems, se obtienen las ecuaciones:
X1 V E1
X2 V E2
X3 V E3
X4 V E4
X5 V E5
X6 V E6
Esto significa que todos los ítems miden la misma característica (la cordialidad), representada
por V en el modelo. Además, hay un error de medida que puede ser distinto para cada ítem (Ei).
Es posible plantearse que no todos miden igual de bien la cordialidad. Por esta razón se definen
los parámetros λi, denominados saturaciones, que indican la relación de cada ítem con la
característica o factor que miden todos ellos. Cuanto mayor sea λi, mejor indicador de la
cordialidad será la puntuación en el ítem. Si a la cordialidad se la denomina F en lugar de V, se
obtiene el modelo de un factor:
X1 O1 F E1
X2 O2 F E 2
X3 O3 F E 3
X4 O4 F E 4
X5 O5 F E 5
X6 O6 F E 6
Las saturaciones se calculan a partir de la matriz de correlaciones entre los ítems. Los cálculos
exigen la aplicación de cálculos de álgebra matricial y se realizan mediante ordenador. Sin
embargo, la lógica es fácil de ejemplificar. Asumamos que las variables X1, X2, X3, X4, X5, X6 y F
están en puntuaciones típicas. Si el modelo unidimensional fuera cierto, la correlación esperada
entre X1 y X2 (que denominaremos r12* ) sería:
6X 1 X 2
r12*
N
Lo que se simplifica a:
6(O1 F E1 )(O 2 F E 2 )
r12*
N
Asumiendo que los errores no correlacionan entre sí ni con la puntuación en el factor (como
en la Teoría Clásica), obtenemos que la correlación esperada según el modelo sería igual al
producto de los pesos de los 2 ítems en el factor:
O1O2 6F 2
r *
12 O1O2
N
6F 2
Para entender la última simplificación, debe recordar que F 2 es la varianza de las
N
puntuaciones F; al estar las puntuaciones F en puntuaciones típicas su varianza es 1. Por
tanto, sabiendo que F 0 :
6F 2
1
N
Si calculáramos cuales son los valores esperados de las correlaciones según el modelo
unidimensional, a las que denominamos correlaciones reproducidas ( r * ), obtendríamos la
siguiente matriz:
ª1 º ª 1 º
«r * 1 » «O O 1 »
« 21 » « 2 1 »
« r31* r32* 1 » «O3 O1 O3 O 2 1 »
« * » « »
«r41 r42* r43* 1 » «O 4 O1 O4 O2 O 4 O3 1 »
« r51* r52* r53* r54* 1 » «O5 O1 O5 O 2 O5 O 3 O5 O 4 1 »
« * » « »
¬« r61 r62* r63* r64* r65* 1¼» ¬«O6 O1 O6 O 2 O 6 O3 O 6 O 4 O 6 O5 1¼»
X1 0,540F E1
X2 0,671F E 2
X3 0,542F E3
X4 0,529F E 4
X5 0,483F E5
X6 0,437 F E6
Lo cual significa que el factor tiene una relación más fuerte con el ítem 2 que con los demás,
aunque todas las saturaciones son elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada ítem con el factor. Pueden tomar valores positivos o
negativos. Si la saturación es cero, o próxima a cero, no existe relación entre el ítem y el factor.
Saturaciones extremas, en cualquier dirección, significan que la relación es fuerte.
Generalmente, en los programas informáticos, las saturaciones se disponen en una matriz que se
denomina matriz factorial:
Matriz factoriala
Factor
1
x1 .540
x2 .671
x3 .542
x4 .529
x5 .483
x6 .437
Método de extracción: Máxima verosimilitud.
a. 1 factores extraídos. Requeridas 4 iteraciones.
ª1 º ª 1 º
«r * 1 » «0,362 1 »
« 21 » « »
« r31* r32* 1 » «0,293 0,363 1 »
« * » « »
«r41 r42* r43* 1 » «0,286 0,355 0,287 1 »
« r51* r52* r53* r54* 1 » « 0,261 0,324 0,262 0,256 1 »
« * » « »
«¬ r61 r62* r63* r64* r65* 1»¼ «¬0,236 0,293 0,237 0,231 0,211 1»¼
Según el modelo de un factor los dos ítems que más deberían correlacionar son los ítems 2 y 3
puesto que son los que más correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero no son iguales. La diferencia
entre una correlación observada y una reproducida se llama residual:
ª 1 º ª 1 º
«r r * 1 » « 0,096 1 »
« 21 21 » « »
« r31 r31* r32 r32* 1 » « 0,020 0,021 1 »
« * » « »
«r41 r41 r42 r42* r43 r43* 1 » « 0,040 0,070 0,046 1 »
« r51 r51* r52 r52* r53 r53* r54 r54* 1 » « 0,090 0,050 0,035 0,192 1 »
« * » « »
«¬ r61 r61 r62 r62* r63 r63* r64 r64* r65 r65* 1»¼ ¬« 0,086 0,012 0,029 0,055 0,028 1¼»
Por ejemplo, el residual para la correlación entre los ítems 1 y 3 ( r31 r31* ) es 0,020.
A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
lineales de variables, la varianza de un ítem puede calcularse como una función de su saturación
en el factor, de la varianza del factor y de la varianza del error. Por ejemplo, sabiendo que:
X1 0,540F E1
V X2 1
0,540 2 V F2 \ 12
1 0,540 2 (1) \ 12
Como se puede ver, una parte de la varianza del ítem depende de su saturación en el factor
común. A esa parte se la denomina comunalidad y se la representa por el símbolo hi2 . El resto
de la varianza del ítem depende de la varianza del error (\ 12 ). A esa parte se la denomina
unicidad. Simbólicamente,
1 h12 \ 12
Es posible formular modelos factoriales en los que cada ítem mida más de una
característica simultáneamente. Supongamos que se hipotetiza que el cuestionario mide dos
factores, denominados F1 y F2. Entonces, las saturaciones se denominan λij (siendo i el ítem y j
el factor), y el modelo de dos factores es:
X1 O11 F1 O12 F2 E1
X2 O21 F1 O22 F2 E 2
X3 O31 F1 O32 F2 E3
X4 O41 F1 O42 F2 E 4
X5 O51 F1 O52 F2 E5
X6 O61 F1 O62 F2 E6
ª1 º
«r * 1 »
« 21 »
« r31* r32* 1 »
« * »
«r41 r42* r43* 1 »
« r51* r52* r53* r54* 1 »
« * »
¬« r61 r62* r63* r64* r65* 1¼»
ª 1 º
«O O O O 1 »
« 21 11 22 12 »
«O31O11 O32 O12 O31O21 O32 O22 1 »
« »
«O 41O11 O 42 O12 O41O21 O 42 O22 O41O31 O42 O32 1 »
«O51O11 O52 O12 O51O21 O52 O22 O51O31 O52 O32 O51O41 O52 O42 1 »
« »
¬«O61O11 O62 O12 O61O21 O62 O22 O61O31 O62 O32 O61O41 O62 O 42 O61O51 O62 O52 1¼»
p
r *
ij ¦O
x 1
ix O jx
De nuevo, el programa busca aquellos valores de O que hacen que las correlaciones
esperadas según el modelo ( r21* , r31* , r41* , r51* , …) se parezcan lo más posible a las
correlaciones observadas (0,459, 0,313, 0,246, 0,171,…). Al estimar las saturaciones a partir
de la matriz de correlaciones se obtiene el resultado:
X1 0,576F1 0,151F2 E1
X2 0,729F1 0,222F2 E 2
X3 0,469F1 0,239F2 E3
X4 0,199F1 0,678F2 E 4
X5 0,174F1 0,606F2 E5
X6 0,270F1 0,340F2 E6
Los programas nos informarán de esas saturaciones, mediante una matriz denominada
matriz de factores rotados:
Factor
1 2
x1 .576 .151
x2 .729 .222
x3 .469 .239
x4 .199 .678
x5 .174 .606
x6 .270 .340
Método de extracción: Máxima verosimilitud.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Puede verse que los ítems 1, 2 y 3 tienen una correlación más fuerte con el factor I que
con el factor II, mientras que ocurre lo contrario para los ítems 4, 5 y 6. Viendo las saturaciones
y el contenido de los ítems, puede suponerse que el factor I significa “Trato a los demás”,
mientras que el factor II podría indicar “Confianza en los demás”.
Al haber dos factores independientes, las comunalidades se calculan mediante hi2 Oi21 Oi22 .
Las comunalidades de los 6 ítems serían 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. Las
unicidades se calculan del mismo modo que en el modelo de un factor (\ i2 1 hi2 ), y son
0,646, 0,419, 0,723, 0,500, 0,603 y 0,812. Las correlaciones reproducidas según el modelo
serían:
ª1 º ª 1 º
«r * 1 » «0,453 1 »
« 21 » « »
« r31* r32* 1 » « 0,306 0,395 1 »
« * * » « »
«r41 r42 r43* 1 » «0,217 0,295 0,255 1 »
« r51* r *
52 r53* r54* 1 » « 0,192 0,262 0,227 0,445 1 »
« * * » « »
«¬ r61 r62 r63* r64* r65* 1»¼ «¬0,207 0,272 0,208 0,284 0,253 1»¼
Indicando que con el modelo de dos factores las diferencias entre las correlaciones reproducidas
y las correlaciones observadas es muy pequeña.
Además, también es posible calcular la varianza explicada por cada factor. Esta varianza es la
suma de las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor x
es O12x O22 x O32 x O24 x O52 x O26 x . Genéricamente, siendo n el número de variables:
¦O
i 1
2
ix
En el ejemplo, la varianza explicada por cada factor es 1,226 y 1,072, que, al ser la varianza total
6, representa un porcentaje del 20 % y del 18 % respectivamente. Por tanto, el porcentaje de
varianza explicada por el modelo de dos factores es del 38 % aproximadamente.
Se ha aplicado el modelo de un factor y el modelo de dos factores a los mismos datos. Las
correlaciones reproducidas según el modelo de un factor se parecían bastante a las correlaciones
observadas en la muestra. Al extraer dos factores, se parecían más aún. Por tanto, parece que las
correlaciones se ajustan un poco mejor al modelo de dos factores. ¿Justifica eso extraer dos
factores? ¿o deberíamos analizar lo que ocurre cuando extraemos tres factores?
El número de factores no se decide de forma caprichosa y se han propuesto varios métodos para
determinar cuál es el número óptimo de factores que deben retenerse. Esta decisión es muy
importante, pues el primer objetivo del análisis factorial es determinar cuantas dimensiones está
midiendo un test, es decir, cuantos factores deben incluirse en la solución factorial.
Veamos un ejemplo. Primero, estimamos varios modelos con distinto número de factores. El
modelo más simple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para
interpretar los resultados y obtener conclusiones. La siguiente tabla muestra los valores del
estadístico X2 para los modelos de uno y dos factores, los grados de libertad (gl) y el nivel crítico
(p).
Factores X2 gl p RMSEA
( intervalo de confianza del 90%)
1 82,213 9 0,000 0,121
(0,098-0,145)
2 10,776 4 0,029 0,055
(0,016-0,096)
Un problema asociado al estadístico X2 es que hace que nuestra decisión sobre el número de
factores a retener dependa mucho del tamaño de la muestra. Si la muestra es suficientemente
grande, residuales muy pequeños pueden resultar significativos y se tenderá a extraer un número
de factores mayor que el necesario desde el punto de vista práctico. En ese caso, el criterio
Algunos autores han propuesto utilizar indicadores de ajuste que nos permitan evaluar el grado
de discrepancia entre las correlaciones reproducidas y las correlaciones observadas en la
muestra. El RMSEA (Root Mean Square Error of Approximation) es uno de esos indicadores.
Valores por debajo de 0,05 indican buen ajuste del modelo a los datos, valores entre 0,05 y 0,08
indican ajuste aceptable, valores entre 0,08 y 0,10 indican ajuste marginalmente aceptable y
valores por encima de 0,10 indican mal ajuste. Si bien no hay que tomar esa clasificación como
las “Tablas de la Ley”, estas guías pueden servir de orientación para tomar una decisión sobre el
número de factores a retener. En nuestro ejemplo, el modelo de un factor muestra mal ajuste.
Siguiendo este criterio podríamos mantener el modelo de dos factores (RMSEA = 0,055) que
muestra un ajuste aceptable. Además puede observarse que el modelo de un factor y el
modelo de dos factores difieren claramente en el RMSEA (ver los intervalos de confianza
para el RMSEA).
Para tomar una decisión sobre el número de factores a retener, ayuda observar los residuales.
En nuestro caso, se observa que los mayores residuales para el modelo de un factor se
encuentran para las correlaciones entre los ítems 4 y 5 (0,192). Ese residual positivo nos indica
que esos dos ítems correlacionan entre sí más de lo que se esperaría si el modelo de un factor
fuera cierto. Naturalmente, cuando extraemos el segundo factor esos dos ítems pesan en él. Su
contenido es muy similar (ítem 4: Confío en los demás; ítem 5: Pienso que otras personas son
buenas y honradas).
Existen otros procedimientos de extracción más sencillos pero también muy criticados como la
regla de Kaiser (regla K1) ó el Scree test. Una descripción de los métodos de extracción y reglas
disponibles en el paquete SPSS puede encontrarse en Pardo y Ruiz2 (2002). Otros métodos
como el método de análisis paralelo o la regla MAP de Vellicer también han sido
recomendados.
3.2.4.- ROTACIONES
Cuando se estima un modelo factorial las saturaciones no siempre son fácilmente interpretables,
en el sentido de que pueden no indicar con claridad qué es lo que están midiendo los factores.
Para interpretar la solución, los ítems se agrupan en factores, y el significado de éstos se infiere
analizando qué tienen en común los ítems que se agrupan en un mismo factor. Esto no siempre
es fácil de descubrir, por ejemplo, si los ítems agrupados en un mismo factor son muy
heterogéneos y no tienen un contenido común. Además, hemos visto que los ítems pueden tener
saturaciones relativamente altas en más de un factor, lo que significa que miden más de una
característica y hace más difícil descubrir su significado.
2
Pardo, A. y Ruíz, M.A. (2002). SPSS 11. Guía para el análisis de datos. Madrid: Mc Graw Hill.
Matriz factoriala
Factor
1 2
x1 .537 -.257
x2 .700 -.303
x3 .512 -.121
x4 .591 .388
x5 .525 .349
x6 .425 .084
Método de extracción: Máxima verosimilitud.
a. 2 factores extraídos. Requeridas 5 iteraciones.
Según está estructura, el primer factor sería un factor general en el que pesan todos los ítems. En
el segundo factor, los pesos mayores son para los ítems 4 y 5 (positivos) y para el ítem 2
(negativo). En principio, esta estructura es difícil de interpretar.
Para facilitar la interpretación se aplica a las saturaciones un proceso denominado rotación, por
el cual se transforman las saturaciones en otras más sencillas de interpretar. Con la rotación se
intenta que la solución factorial se aproxime a la denominada estructura simple. Una estructura
simple implica que: a.) en cada factor pesan alto un conjunto de variables (y pesan bajo o cero
las restantes variables). b.) los conjuntos de ítems definiendo cada factor no deben solaparse
demasiado. c.) cada variable pesa solo en un conjunto pequeño de factores (y pesa bajo o cero en
el resto de los factores). Por ejemplo, si la solución factorial hubiera sido:
F1 F2
X1 0,9 0,0
X2 0,0 0,7
X3 0,8 0,0
X4 0,0 0,6
X5 0,7 0,0
X6 0,0 0,8
Esta solución sería más fácilmente interpretable que la que hemos obtenido porque no hay ítems
que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra una
estructura simple sino una solución lo más parecida posible a la estructura simple. Veremos a
continuación, cuál es la estructura más simple que podemos obtener en nuestro ejemplo.
Gráfico de factor
1,0
0,8
0,6
0,4 x5
x4
0,2
Factor 2
x6
0,0
x3
-0,2
x1 x2
-0,4
-0,6
-0,8
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
La rotación ortogonal consiste en cambiar (girar) los ejes de referencia (los factores) un cierto
número de grados. Observa lo que ocurre cuando cambiamos los ejes de la siguiente forma:
1,0 1,0
0,8 0,8 x4
0,6 0,6 x5
0,4 x5 0,4
x4 x6 x3
0,2 0,2 x2
x1
Factor 2
Factor 2
x6
0,0 0,0
x3
-0,2 -0,2
x1 x2
-0,4 -0,4
-0,6 -0,6
-0,8 -0,8
-1,0 -1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1 Factor 1
Las posiciones relativas de las variables en el espacio factorial no cambian. Al cambiar los
ejes, por ejemplo, las nuevas saturaciones del ítem 5 serían 0,174 y 0,606. La matriz factorial
rotada sería:
Factor
1 2
x1 .576 .151
x2 .729 .222
x3 .469 .239
x4 .199 .678
x5 .174 .606
x6 .270 .340
Método de extracción: Máxima verosimilitud.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Observe que la matriz factorial rotada es más fácil de interpretar que la matriz factorial no
rotada. Sin embargo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas según el modelo. Por ejemplo:
Sí cambia el porcentaje de varianza explicada por cada factor (pero no el total de varianza
explicada por los dos factores en su conjunto):
% de Varianza explicado por Matriz factorial (no rotada) Matriz de factores rotados
Factor 1 30,755 20,428
Factor 2 7,539 17,866
% Total 38,294 38,294
Este es un resultado general de la rotación ortogonal: la varianza explicada por cada factor
cambia después de la rotación, pero no la varianza explicada en total.
La rotación oblicua es más compleja que la ortogonal porque permite que cada factor se rote un
número de grados diferente. En el ejemplo, aplicando la denominada rotación oblicua (el
método OBLIMIN) se llega a la solución:
Matriz de configuración.a
Factor
1 2
x1 .620 -.044
x2 .774 -.020
x3 .462 .100
x4 -.021 .719
x5 -.022 .643
x6 .190 .294
Método de extracción: Máxima verosimilitud.
Metodo de rotación: Normalización Oblimin con Kaiser.
a. La rotación ha convergido en 6 iteraciones.
La siguiente figura muestra las saturaciones obtenidas tras la rotación oblicua. A diferencia de lo
que sucedía en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares. Estadísticamente, esto significa que las puntuaciones en los dos factores están
correlacionadas. En el ejemplo, la correlación es de 0,586.
1,0 1,0
0,8 0,8 x4
0,6 0,6 x5
0,4 x5 0,4
x4
x6
0,2 0,2
Factor 2
Factor 2
x6 x3
0,0 0,0 x1 x2
x3
-0,2 -0,2
x1 x2
-0,4 -0,4
-0,6 -0,6
-0,8 -0,8
-1,0 -1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1 Factor 1
_
Al cambiar los ejes, por ejemplo, las nuevas saturaciones del ítem 5 serían -0,022 y 0,643. Puede
verse que la solución rotada es más sencilla porque los ítems tienen saturaciones altas en un
factor y bajas en el otro. Viendo las saturaciones y el contenido de los ítems, puede suponerse
que el factor I significa “Trato a los demás”, mientras que el factor II podría indicar “Confianza
en los demás”. Como hay una correlación positiva entre los dos factores, los sujetos que tienden
a ser cordiales y afectuosos en el trato también suelen confiar en los demás.
De nuevo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas según el modelo (aunque con esta rotación, el cálculo de las
comunalidades y de las correlaciones reproducidas es más complejo).
La solución obtenida tras la rotación oblicua tiene tres características específicas que deben
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los ítems con los factores, 2)
no es posible determinar la varianza explicada por cada factor, y 3) los factores pueden estar
correlacionados. Estas características no se dan en la solución inicial del análisis factorial ni en
la obtenida tras la rotación ortogonal.
En resumen, en la práctica el análisis factorial se aplica en dos pasos. En primer lugar se obtiene
la solución inicial, lo que permite evaluar la bondad de ajuste del modelo y determinar el
número de factores. En segundo lugar se realiza una rotación, ortogonal u oblicua, según los
propósitos del investigador. La solución rotada sirve para interpretar el sentido de los factores. Si
se realiza la rotación ortogonal, es posible calcular las comunalidades, unicidades y la varianza
explicada por cada factor. Si se realiza la rotación oblicua, se obtiene la correlación entre
factores y unas saturaciones más sencillas de interpretar.
Obtenida una solución factorial definitiva, es posible calcular la puntuación de los sujetos en
cada uno de los factores. De este modo, en lugar de obtener una puntuación única para cada
sujeto en el test, se obtiene la puntuación en cada uno de los factores que se están midiendo.
La siguiente tabla muestra las respuestas de los cinco primeros sujetos, sus puntuaciones
factoriales correspondientes a la rotación factorial y la oblicua. Al haber concluido que el test
mide dos factores sería incorrecto utilizar la puntuación en el test como el resultado de cada
sujeto. En su lugar, habría que utilizar las dos puntuaciones factoriales correspondientes a la
rotación que finalmente se decida aplicar.
Oblicua Ortogonal
Sujeto X1 X2 X3 X4 X5 X6 F1 F2 F1 F2
1 3 2 3 5 2 1 -1,77 -0,34 -1,95 0,27
2 4 3 3 3 3 3 -0,88 -0,47 -0,85 -0,22
3 3 2 1 1 2 4 -2,28 -1,94 -1,93 -1,42
4 5 3 2 2 2 2 -1,01 -1,40 -0,65 -1,26
5 2 4 1 4 3 1 -1,37 -0,43 -1,44 0,01
En la siguiente figura aparecen los diagramas de dispersión de las puntuaciones factoriales de los
564 sujetos del ejemplo. El diagrama izquierdo corresponde a la rotación ortogonal y el derecho
a la oblicua. El diagrama derecho muestra que existe una relación entre las puntuaciones en
ambos factores debida a la correlación existente entre los factores. Esto no sucede así en el
izquierdo.
2 2
1 1
0 0
F2
F2
-1 -1
-2 -2
-3 -3
-4 -3 -2 -1 0 1 2 -4 -3 -2 -1 0 1 2
F1 F1
Cómo ya hemos mencionado anteriormente, el análisis factorial sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. En realidad hay dos estrategias
distintos de análisis factorial: exploratorio y confirmatorio. Hasta ahora hemos visto como se
realiza el primer tipo. En un análisis factorial exploratorio, el investigador no tiene una idea
exacta de cuantos factores subyacen a las relaciones entre variables ni tampoco de qué variables
tienen un peso alto en cada factor. En el análisis factorial confirmatorio, por el contrario, el
investigador plantea hipótesis definidas a priori sobre cuál es el número de factores y cómo
pesan las variables en ellos. A medida que se acumulan estudios dentro de un campo de
conocimiento, los investigadores prefieren utilizar técnicas confirmatorias frente a
exploratorias. Aún así, la teoría que subyace a ambos tipos de análisis factorial es la misma.
Imagínese que en la prueba de Cordialidad, basándose en estudios previos, establece que los
ítems 1, 2 y 3 deben conformar un factor de “trato a los demás” mientras que los ítems 4, 5 y
6 deben conformar un factor de “confianza en los demás”. Esto se podría representar de la
siguiente manera:
E1 E2 E3 E4 E5 E6
1 1 1 1 1 1
X1 X2 X3 X4 X5 X6
F1 F2
X1 O11 F1 E1
X2 O21 F1 E 2
X3 O31 F1 E3
X4 O42 F2 E 4
X5 O52 F2 E5
X6 O62 F2 E6
Factor 1 Factor 2
X1 0,595 0
X2 0,745 0
X3 0,536 0
X4 0 0,690
X5 0 0,616
X6 0 0,440
X2 gl p RMSEA
( intervalo de confianza del 90%)
22,874 8 0,004 0,057
(0,031-0,086)
Validez convergente. Si dos tests miden un mismo rasgo, la correlación entre ellos debe
ser alta.
Validez discriminante. Si dos tests miden rasgos diferentes, las correlación entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo.
Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo.
Cada uno de los rasgos se evalúa mediante dos baterías de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-multimétodo,
denominada así porque se evalúan varios rasgos utilizando varios métodos.
A B
A Factor g Espacial Neuroticismo Factor g Espacial Neuroticismo
Factor g 0,87
Espacial 0,61 0,81
Neurocicismo 0,25 0,31 0,73
B
Factor g 0,65 0,41 0,09 0,81
Espacial 0,35 0,50 0,11 0,33 0,78
Neurocicismo -0,05 0,08 0,62 0,19 0,25 0,74
La matriz inferior izquierda (sombreada) contiene las correlaciones entre los tests de las dos
baterías. En la diagonal están los coeficientes de validez convergente (0,65, 0,50 y 0,62), que
son las correlaciones entre los dos tests que miden el mismo rasgo. Fuera de la diagonal
aparecen los coeficientes de correlación entre distintos rasgos medidos por distintos tests.
Para evaluar los dos tipos de validez mencionados se procede del siguiente modo:
1) Los coeficientes de validez convergente deben ser mayores que las correlaciones entre
tests que miden diferentes rasgos. En estos datos, existe el problema de que, en la batería
A, la correlación entre razonamiento espacial y factor g es excesivamente alta, por lo que
esta batería no parece discriminar bien entre ambas. Este problema no sucede en la
batería B.
2) El método empleado para medir los rasgos no debe afectar a las relaciones entre ellos.
Esto significa que las tres matrices de correlación deben ser similares, exceptuando los
elementos de la diagonal. El resultado no es completamente satisfactorio porque la
batería B discrimina mejor entre los tres rasgos que la batería A.
4.1.- CONCEPTO
Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de
rendimiento (por ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van
a conseguir, el aprovechamiento de un cursillo o la mejora en un proceso terapéutico) conviene
que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe
ser una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones
escolares, total de ventas producidas en un determinado período, estimaciones de un terapeuta de
las mejoras conseguidas por cada persona, etc. A la correlación entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicará
el grado en el que el test sirve para pronosticar con precisión el rendimiento en el criterio.
El lector puede imaginar que no siempre es útil medir un criterio directamente, debido a razones
de coste temporal y económico. Por eso es preciso que los profesionales dispongan de tests con
elevada validez relativa al criterio en ámbitos en los que de una u otra forma deben tomar
decisiones sobre el nivel de los sujetos en un criterio o sobre su admisión o no a un puesto de
trabajo o de estudio determinado.
2
S y2' S y2 y '
r xy 1
S y2 S y2
Sy Sy
Yi ' (Y rxy X ) rxy Xi
Sx Sx
Mediante esta expresión podemos estimar la puntuación directa en el criterio de una determinada
persona pero, como es conocido, esa estimación será tanto más precisa cuanto mayor sea la
correlación entre test y criterio. Estadísticamente, resulta más apropiada una estimación por
intervalos realizada con cierta probabilidad, para lo cual aplicaremos la siguiente expresión:
Alumno X Y
1 7 6
2 13 10
3 10 9
4 9 8
5 11 12
Media 10 9
Varianza 4 4
El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
capacidad de relación interpersonal de sus alumnos.
Y5' = 9.8
Para realizar la estimación por intervalo para este mismo alumno, con probabilidad 0.95, fijamos
el valor Z1-D/2 = 1.96 y calculamos el error típico de estimación:
y el intervalo será:
12.152
9.8 ± (1.96) (1.2)
7.448
Diremos entonces, con probabilidad 0.95, que la puntuación del alumno 5 en el criterio se
encontrará entre 12.152 y 7.448.
Cuando, tanto en contextos aplicados como investigadores, se desea predecir de la forma más
precisa posible las puntuaciones en un determinado criterio, es común utilizar más de un
predictor. En este caso debe aplicarse la técnica estadística de Regresión Múltiple, que
proporciona los pesos (coeficientes de regresión parcial) de cada predictor según la importancia
que tengan para la predicción.
Respecto a los dos primeros factores, aunque no tratamos en toda su extensión el desarrollo
formal de las relaciones, podemos decir que el coeficiente de validez tiende a incrementarse a
medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno u
otro se reflejan mediante una disminución del coeficiente de validez. De hecho, se puede
comprobar que el límite máximo al que puede llegar rxy es r xx r yy . Es decir,
siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.
Demostración:
rxy
¦ ( x x )( y y )
NS x S y
Realizando las sustituciones oportunas que permiten los supuestos de la Teoría Clásica:
rxy
¦ (V x E x V x )(V y E y V y )
NS x S y
Cov(Vx ,V y )
rxy
SxSy
Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo clásico,
son cero.
Dado que la correlación entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.
Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85, mientras
que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73. Según
estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar el
valor de 0.79, que es la raíz cuadrada del producto entre los dos coeficientes de fiabilidad.
De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raíz
cuadrada del coeficiente de fiabilidad del test; también es menor o igual que la raíz cuadrada de
la fiabilidad del criterio:
Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lógico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y
en su caso, del criterio) influya también en rxy aunque de modo indirecto. La fórmula que
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas
paralelas) es:
rxy
Rxy
1 rxx
rxx
n
Demostración:
Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con
lo cual aumentarán su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.
Según las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para el
coeficiente de validez del test inicial y del test alargado:
Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le añadiera una forma
paralela de 30 items, el coeficiente de validez pasaría a valer:
0,51
R xy = = 0,60
1- 0,42
+ 0,42
2
1 rxx
n
rxy2
rxx
Rxy2
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.
En el caso hipotético de un test infinitamente largo o, lo que es lo mismo, de un test con máxima
precisión, en la siguiente fórmula, Rxx valdría 1, y Rxy se podría interpretar como el máximo
coeficiente de validez obtenible como resultado de mejorar la fiabilidad del test todo lo posible.
a)
1 0.4
n 6.7
0.352
0.4
0.52
b)
1 0.4
n 2.4
0.352
0.4
0.9 2
Hemos indicado también que rxy depende de la variabilidad del grupo normativo. De forma
parecida a lo que acontecía con la varianza del grupo en el test y su coeficiente de fiabilidad,
el coeficiente de validez de un test respecto a un criterio es tanto más elevado cuanto mayor
es la varianza de grupo normativo en ambos. Significa esto que, por ejemplo, un test de
aptitud para la venta tendrá un coeficiente de validez mayor en una muestra de la población
general (donde habrá heterogeneidad respecto a la aptitud por ser vendedor) que en una
muestra de vendedores experimentados (seguramente obtendrían todos puntuaciones
elevadas, y por tanto sería un grupo más homogéneo). En la medida que el poder predictivo
de un test respecto a un criterio depende de su rxy, habrá que considerar la variabilidad del
grupo donde se ha obtenido.
Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfacción familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
teórico concreto, lo que ha dado lugar a instrumentos de evaluación de la satisfacción familiar
fundamentados en una pobre definición del constructo. Los trabajos sobre instrumentos
previos de evaluación han estudiado su relación con otras variables (por ejemplo, con la
satisfacción hacia la calidad de vida, con el constructo “locus of control” o con el nivel de
religiosidad) que al menos puede decirse que son cuestionables. Critican también que los
instrumentos hasta entonces disponibles no incluyen suficientemente los componentes
afectivos del constructo. Además, algunos de los cuestionarios previos para evaluar la
satisfacción familiar resultan poco amigables de responder: uno de ellos, por ejemplo,
consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situación real de su
familia y otra sobre lo que sería su familia ideal.
Todo ello les lleva a la opción de construir una nueva escala de satisfacción familiar, para lo
cual siguieron el siguiente procedimiento:
Cada ítem se puntuó desde uno hasta 7, dado que había ese número de categorías ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unánime fueron considerados relevantes para evaluar el constructo.
Análisis y selección de ítems: Se aplicó la escala inicial a una muestra de 274 personas.
Mediante el programa SPSS se obtuvieron varios indicadores psicométricos para cada uno de
los 52 ítems: a) correlación ítem-total, b) varianza, c) saturaciones factoriales (rotación
varimax), y d) coeficiente α de la escala cuando se elimina el ítem. Se retuvieron finalmente
los 27 ítems que cumplieron simultáneamente los siguientes requerimientos: a) correlación
ítem-total mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor
rotado por encima de 0.30, y d) coeficiente α de la escala (al eliminar el ítem) igual o superior
al de la escala completa (α=0.9808).
5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141.
Descripción del síndrome: No existiendo un acuerdo universal sobre los síntomas del
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni
94
en su desarrollo cognitivo, pero que tienen síntomas claramente autistas en lo que se refiere
a problemas de interacción social y de conductas estereotipadas.
Este chico destaca como diferente de otros chicos de su edad en los siguientes
aspectos:
- Carece de sentido común No Algo Sí
- Carece de empatía No Algo Sí
- Tiene movimientos involuntarios en la cara o el cuerpo No Algo Sí
Cada respuesta era cuantificada como 0, 1 ó 2 puntos, con lo que el rango teórico de
puntuaciones podía oscilar entre 0 y 54.
Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos aplicaciones,
fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los profesores.
La correlación entre las evaluaciones de los padres y de los profesores (fiabilidad interjueces)
se obtuvo en los tres grupos de la muestra principal. Considerando la evaluación de la
muestra completa, esta correlación fue 0.66, mientras que resultó 0.77 para los chicos con
espectro autista, 0.27 para los chicos con déficit atencional y 0.19 para los chicos con
trastornos de aprendizaje.
Validez convergente. Los padres y profesores respondieron también a dos escalas generales
de evaluación de psicopatologías en niños, las escalas de Rutter y las de Conners, obteniendo
correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, así como valores de
0.77 y 0.70 en la muestra de profesores.
Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
consistía en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ servía
para diferenciar a los diversos grupos diagnósticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo
95
diagnóstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos
con diagnóstico de espectro autista obtuvieron siempre las medias más elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas por
ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadísticamente similares en
la muestra de validación (síndrome Asperger) que en la submuestra de espectro autista de la
muestra principal.
Las dos proporciones anteriores variarán según la puntuación total en el cuestionario que
establezcamos como punto de corte (en el caso del ASSQ podríamos establecer en teoría
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiéramos como punto de
corte la puntuación 54, que es la máxima posible, obviamente la sensibilidad sería 0 (todos
los chicos con síndrome Asperger quedarían clasificados como no Asperger) y la
especificidad 1 (todos los chicos sin síndrome Asperger quedarían clasificados como tales); si
el punto de corte lo pusiéramos en la puntuación 0, la sensibilidad sería 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte más apropiado tendríamos que
intentar maximizar ambas proporciones simultáneamente, lo cual depende del grado de
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnósticos
posibles. En la práctica, para cada puntuación posible como punto de corte, suele
representarse en un cuadrado unitario la proporción complementaria a la especificidad o
proporción de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de ordenadas).
Esta representación se conoce como curva ROC, y muchas veces interesa establecer como
punto de corte aquella puntuación del cuestionario que queda representada más cerca de la
esquina superior izquierda del cuadrado unitario. Esa puntuación será la que maximiza
simultáneamente la especificidad y la sensibilidad.
Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
errores con los chicos realmente diagnosticados como autistas, sería aconsejable establecer
como punto de corte la puntuación X=13, a partir de la cual se detecta al 91 % de los chicos
con autismo de la muestra principal. El coste de esta clasificación es que clasificaríamos
como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
problemas de aprendizaje. Tal coste no sería muy elevado si el cuestionario representa sólo
una primera detección, y es posible posteriormente profundizar en el diagnóstico diferencial
mediante procedimientos alternativos.
Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que tienen
otros trastornos, los autores optan por establecer un punto de corte en la puntuación X=19, lo
cual minimiza la proporción de verdaderos positivos (0.62) pero también la de falsos
positivos (0.10). Teniendo en cuenta el tamaño muestral, esta decisión equivale a emitir un 84
% de decisiones correctas.
5.3.- Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboración de un banco de ítems,
predicción de la dificultad y diseño de anclaje. Metodología de las Ciencias del
Comportamiento, Vol. Especial, 427-430.
Olea, J., Abad, F.J., Ponsoda, V. y Ximénez, M.C. (2004). Un test adaptativo
informatizado para evaluar el conocimiento del inglés escrito: Diseño y
comprobaciones psicométricas. Psicothema 16, 519-525.
En ambos trabajos se recogen los estudios realizados para poner en funcionamiento un Test
Adaptativo Informatizado (TAI) de conocimientos del idioma inglés en su versión escrita.
Este tipo de tests requieren un amplio banco de ítems, su estudio psicométrico desde la Teoría
de la Respuesta al Ítem, así como un conjunto de programas informáticos para la presentación
de los mejores ítems a cada persona y para la estimación de su nivel (normalmente entre un
rango de valores que oscila entre –4 y +4). Nos centraremos fundamentalmente en el proceso
de construcción del banco de ítems, que conforma el contenido fundamental del TAI, y en el
análisis de sus propiedades psicométricas.
Criterios generales para la elaboración del banco de ítems. Varias especialistas en Filología
Inglesa, junto a varios profesionales de la Psicometría, elaboraron el banco de ítems. Los
psicómetras indicaron a las filólogas algunos criterios a considerar en la elaboración del
banco de ítems: a) debía tener aproximadamente 600 ítems, b) su dificultad previsible debía
ser heterogénea, ya que el TAI pretende evaluar cualquier nivel de dominio del inglés escrito,
d) los ítems debían ser de opción múltiple, siendo el enunciado una frase donde faltarían
ciertas palabras, y 4 opciones de respuesta de las que sólo una es correcta, e) las 3 opciones
incorrectas de un ítem debían cumplir los requisitos de redacción que son aconsejables (ver
tema 1 de estos materiales), f) las filólogas deberían partir de un modelo teórico (ellas dirían
cual) explicativo de lo que representa el conocimiento del inglés escrito.
Elaboración de subtests equivalentes. Para estudiar las propiedades psicométricas del banco
de ítems es necesario aplicarlo a muestras de personas con nivel heterogéneo de inglés. Sin
embargo, es prácticamente imposible aplicar 635 ítems a cada persona, con lo cual es
necesario establecer lo que se denomina un “diseño de anclaje”, que consiste en construir
subtests, de tal forma que sean lo más equivalentes posible en dificultad y en contenidos
incorporados. Así, se elaboraron 15 subtests diferentes, cada uno de los cuales tenía las
siguientes características:
a) Estaba formado por 61 ítems, 41 propios de ese subtest y 20 comunes a todos los
subtests.
b) Tenía una dificultad heterogénea. Los 5 nativos habían valorado subjetivamente la
dificultad de los ítems, y en cada subtest se incluían ítems de amplia gama de
dificultad previsible.
c) La cantidad de ítems de una categoría se decidía según el peso de esa categoría en el
banco completo; por ejemplo, para la categoría “morfología”, que tenía el 35 % de los
ítems del banco (222 de los 635 ítems totales), se eligieron 20 ítems para cada subtest
(aproximadamente el 35 % de 61).
Estudio piloto de uno de los subtests. El primero de los subtests se aplicó a una muestra de
435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicología, y
estudiantes de Filología Inglesa. Se les pidió alguna información adicional, como su
autoevaluación del dominio del inglés y el procedimiento seguido para el aprendizaje del
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
estudio psicométrico fueron:
a) Se eliminaron 9 ítems por ser demasiado fáciles o correlacionar de forma escasa con
el total del subtest.
b) De los 52 ítems retenidos, la media de las correlaciones ítem-total fue 0.556. El
coeficiente α de Cronbach resultó ser de 0.91
c) El análisis factorial sobre la matriz de correlaciones tetracóricas entre los 52 ítems dio
lugar a un factor con varianza explicada de 15.78 (30.35 % de la varianza total), lo
que se consideró como prueba suficiente de unidimensionalidad. Esto es un requisito
para la aplicación del modelo de TRI seleccionado por los investigadores.
d) Se realizó un análisis de regresión múltiple, donde las variables independientes fueron
la información adicional recogida y la variable dependiente el nivel de conocimientos
estimado desde la TRI. El coeficiente de correlación múltiple entre las variables
adicionales (autoevaluación y formación en el idioma) y las puntuaciones estimadas
en el subtest resultó ser 0.747.
observa que los niveles de rasgo medios se incrementan a medida que lo hacen los niveles de
cada una de las variables independientes. Todas las comparaciones múltiples post hoc
(estadístico DHS de Tukey) resultaron significativas (p<0.05). En los valores de los tamaños
del efecto (K2) puede observarse un mayor poder predictivo de las autoevaluaciones del nivel
de inglés que de las variables relacionadas con la formación en el idioma.
Algunas medidas de ajuste del modelo fueron: F 2 gl = 4.599, AGFI = 0.992, RMSEA =
0.037, que son indicadores de un buen ajuste del modelo teórico a los datos empíricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlación entre las estimaciones de nivel de inglés y el factor latente de nivel informado de
inglés es 0.81.
Enseñanza
e
media
0.39
Formación e
0.35
T 0.82
Nivel informado Lectura
estimada de inglés e
0.81
0.86
Escritura e
e 0.89
Conversación
e
3
Ruiz, M.A. (2000). Introducción a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.
EJERCICIOS
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construcción de un cuestionario.
4. Un psicólogo social diseña un test con 5 ítems y obtiene los coeficientes de fiabilidad,
rxx= 0,4, y validez, rxy= 0,36. En vista de estos valores tan bajos, decide rechazar el test.
Valore esta actuación del psicólogo.
Sujetos 1 2 3 4 5 6 7 8 9 10
Test 18 15 12 11 8 4 5 6 9 3
Calificación 9 8 7 6 4 2 4 4 5 2
b) Correlacionando las puntuaciones del test con otro criterio distinto, ¿podríamos
obtener un coeficiente de validez mayor de 0.60? Razone su respuesta.
7. Un pequeño test de aptitudes intelectuales consta de dos ítems de aptitud verbal (el 1 y
el 4) y de dos ítems de aptitud numérica (el 2 y el 3). Después de aplicarse a un grupo
normativo, la matriz de correlaciones se sometió a un análisis factorial, cuya matriz F rotada
se presenta en la tabla que aparece a continuación.
8. Estamos intentando elaborar una escala que mida la calidad de ciertos productos.
Cada ítem consiste en un adjetivo y la persona ha de evaluar de “1” (totalmente en
desacuerdo) a “5” (totalmente de acuerdo) en qué medida el adjetivo se aplica al producto.
Tras un análisis factorial, la matriz rotada resultante ha sido:
a) Realice una estimación puntual de la valoración que recibiría una persona que obtuvo 4
puntos en el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrará la
valoración para esta misma persona.
a) Queremos que su coeficiente de validez alcance el valor de 0.6. ¿Qué longitud debería
tener el test?
b) Queremos que su coeficiente de validez alcance el valor de 0.8. ¿Qué longitud debería
tener el test?
c) ¿Cuál es máximo valor del coeficiente de validez que se puede alcanzar alargando el test?
11. Un psicólogo dispone de tres pruebas de desorden del pensamiento (T1, T2, y T3), de
igual variabilidad, para pronosticar un determinado criterio (esquizofrenia). Los coeficientes
de fiabilidad, de validez y número de ítems de cada test son:
Si los tres tests tuviesen la misma longitud, ¿cuál sería más fiable? ¿cuál, más válido?
13. Asocie cada uno de estos términos a cada una de las frases: coeficiente de fiabilidad,
índice de validez, varianza explicada por un factor, coeficiente de determinación, índice de
homogeneidad, saturación.
a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 ítems.
b) ¿Cuál será la validez de este cuestionario si tomamos las valoraciones realizadas por los
sujetos como un criterio adecuado? Interprételo.
Estadísticos total-elemento
Estadísticos de la escala
Desviación N de
Media Varianza típica elementos
11.65 8.976 2.996 4
Matriz factoriala
Factor
1
IT1 .671
IT2 .508
IT3 .774
IT4 -.196
Método de extracción: Máxima verosimilitud.
a. 1 factores extraídos. Requeridas 4 iteraciones.
19. Si el coeficiente de validez del test es 0.7, la correlación entre las puntuaciones
verdaderas entre dicho test y el criterio será: a) 0,7; b) mayor que 0,7; c) menor que 0,7.
Razone su respuesta.
21. Hemos analizado mediante SPSS un test de 9 Ítems y 5 opciones de respuesta cuyos
ítems son los siguientes:
Estadísticos total-elemento
Estadísticos de fiabilidad
Alfa de
Cronbach
basada en
los
Alfa de elementos N de
Cronbach tipificados elementos
.654 .674 9
Máximo/ N de
Media Mínimo Máximo Rango mínimo Varianza elementos
Medias de los Parte 1 3.149 2.646 3.586 .939 1.355 .172 5a
elementos Parte 2 3.864 3.263 4.404 1.141 1.350 .385 4b
Ambas partes 3.467 2.646 4.404 1.758 1.664 .372 9
Varianzas de los Parte 1 1.504 .939 2.128 1.189 2.266 .229 5a
elementos Parte 2 1.016 .631 1.706 1.075 2.703 .227 4b
Ambas partes 1.287 .631 2.128 1.497 3.372 .266 9
Correlaciones Parte 1 .193 .087 .394 .308 4.542 .008 5a
inter-elementos Parte 2 .154 -.143 .467 .609 -3.273 .052 4b
Ambas partes .187 -.143 .633 .776 -4.442 .027 9
Se ha calculado la matriz de covarianzas y se utiliza en el análisis.
a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.
Estadísticos de fiabilidad
Alfa de Cronbach Parte 1 Valor .531
N de elementos 5a
Parte 2 Valor .403
N de elementos 4b
N total de elementos 9
Correlación entre formas .502
Coeficiente de Longitud igual .669
Spearman-Brown Longitud desigual .671
Dos mitades de Guttman .634
a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.
Factor Factor
1 2 1 2
ITEM01 .255 .290 ITEM01 .128 .364
ITEM02 .744 -.217 ITEM02 .771 .079
ITEM03 .222 .054 ITEM03 .185 .133
ITEM04 .379 .684 ITEM04 .094 .776
ITEM05 .469 .058 ITEM05 .413 .230
ITEM06 .512 -.356 ITEM06 .608 -.138
ITEM07 .396 .348 ITEM07 .237 .471
ITEM08 .080 .575 ITEM08 -.142 .563
ITEM09 .807 -.146 ITEM09 .803 .168
Método de extracción: Máxima verosimilitud. Método de extracción: Máxima verosimilitud.
a. 2 factores extraídos. Requeridas 5 iteraciones. Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Chi-cuadrado gl Sig.
14.327 19 .764
Chi-cuadrado gl Sig.
64.403 27 .000
22. A un grupo normativo de 100 sujetos se le ha aplicado un test (X) formado por 4
ítems y se le ha medido en un criterio (Y), obteniéndose la siguiente matriz de correlaciones.
Se indica también la varianza de cada variable.
a) Diga cuáles son: 1) el ítem que más contribuye a la consistencia interna del test, 2) el ítem
que más contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad,
realice los cálculos oportunos.
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendría el intervalo para estimar la puntuación en el criterio de
cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de
significación de 0.05.
d) Sabiendo que el coeficiente de fiabilidad del test de 4 ítems es 0.80, obtenga e interprete el
coeficiente de validez que tendría el test si le añadimos 12 ítems paralelos a los que ya tiene.
a) Una persona obtiene en el test de responsabilidad una puntuación que se encuentra dos
desviaciones típicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qué
valores estimamos que se encontrará su puntuación directa en el criterio.
b) Obtenga e interprete la proporción de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le añadimos dos formas paralelas.
24. A continuación aparecen distintas partes de una salida de SPSS para el análisis de la
fiabilidad de 6 de los 36 ítems del test de matrices progresivas de Raven en una muestra de
1800 sujetos. En concreto, se analizaron los ítems que ocupaban las posiciones 10ª, 15ª, 20ª,
25ª, 30ª y 35ª del test.
Matriz factoriala
Factor
1
raven10 .484
raven15 .245
raven20 .260
raven25 .358
raven30 .308
raven35 .245 Prueba de la bondad de ajuste
Método de extracción: Máxima verosimilitud. Chi-cuadrado gl Sig.
a. 1 factores extraídos. Requeridas 3 iteraciones. 15.869 9 .070
90.0
80.0
70.0
60.0
50.0
40.0
30.0
37 37
20.0
10.0 15
2 3 4 5
1
0.0 5 6 7 8 9
Estadísticos de fiabilidad
Alfa de Cronbach Parte 1 Valor .258
N de elementos 3a
Parte 2 Valor .255
N de elementos 3b
N total de elementos 6
Correlación entre formas .229
Coeficiente de Longitud igual .373
Spearman-Brown Longitud desigual .373
Dos mitades de Guttman .370
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35.
Desviación
Media típica N
raven10 .82 .381 1800
raven15 .78 .417 1800
raven20 .70 .456 1800
raven25 .61 .488 1800
raven30 .58 .494 1800
raven35 .37 .484 1800
Máximo/ N de
Media Mínimo Máximo Rango mínimo Varianza elementos
Medias de los Parte 1 .769 .704 .824 .120 1.170 .004 3a
elementos Parte 2 .519 .373 .608 .235 1.629 .016 3b
Ambas partes .644 .373 .824 .451 2.208 .027 6
Varianzas de los Parte 1 .176 .145 .208 .064 1.439 .001 3a
elementos Parte 2 .239 .234 .244 .010 1.043 .000 3b
Ambas partes .207 .145 .244 .099 1.687 .002 6
Correlaciones Parte 1 .108 .056 .156 .100 2.777 .002 3a
inter-elementos Parte 2 .102 .080 .115 .035 1.429 .000 3b
Ambas partes .098 .036 .174 .138 4.830 .002 6
Se ha calculado la matriz de covarianzas y se utiliza en el análisis.
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35.
Estadísticos total-elemento
Estadísticos de la escala
Desviación N de
Media Varianza típica elementos
Parte 1 2.31 .636 .797 3a
Parte 2 1.56 .864 .929 3b
Ambas partes 3.86 1.840 1.356 6
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35.
Desviación
Media típica N
item1 1.66 1.278 102
Estadísticos de fiabilidad
item2 1.98 1.134 102
Alfa de item3 1.54 1.224 102
Cronbach item4 1.68 1.055 102
basada en
item5 1.72 1.093 102
los
Alfa de elementos N de item6 2.60 1.065 102
Cronbach tipificados elementos item7 2.22 1.059 102
.592 .598 8 item8 2.65 1.157 102
Estadísticos total-elemento
Estadísticos de fiabilidad
Alfa de Cronbach Parte 1 Valor .216
N de elementos 4a
Parte 2 Valor .448
N de elementos 4b
N total de elementos 8
Correlación entre formas .550
Coeficiente de Longitud igual .710
Spearman-Brown Longitud desigual .710
Dos mitades de Guttman .710
a. Los elementos son: item1, item2, item3, item4.
b. Los elementos son: item5, item6, item7, item8.
Chi-cuadrado gl Sig.
7.648 13 .866
Chi-cuadrado gl Sig.
55.004 20 .000
Responda razonadamente a las siguientes preguntas:a) Asumiendo que las dos mitades son
formas paralelas, obtenga e interprete el coeficiente de fiabilidad del
a.1) test completo de 8 ítems
a.2) subtest formado por los ítems 5, 6,7 y 8
b) Para maximizar la varianza del test habría que eliminar el ítem _____, ya que …
c) El índice de homogeneidad corregido del ítem 2 es ______. Con un nivel de confianza del
95%, ¿considera que la relación entre ese ítem y la puntuación en el resto del test es
significativamente distinta de cero?
d) Para maximizar la consistencia interna del test habría que eliminar el ítem _____, ya que
…
e) Atendiendo a toda la información de las tablas, ¿convendría eliminaría algún ítem? En
caso de respuesta afirmativa, diga qué ítem o ítems convendría eliminar.
f) Obtenga e interprete la comunalidad del ítem 1.
g) Deberían extraerse ____ factores, ya que …
h) Para interpretar el significado del factor 2 utilizaría los ítems
__________________________, ya que …
i) La proporción de varianza total explicada por el factor I no rotado es ______, y por el
factor II rotado es ______.
SOLUCIONES
3. No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En
este caso, la validez máxima que puede alcanzar este test completamente fiable sería la raíz
cuadrada del coeficiente de fiabilidad del criterio, que sería igual a 0.77.
5. a) rxy = 0.98
b) Sy-y' = 0.45
6. a) Sí. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida.
b) No, ya que rxy d 0.25 0.5 .
7. a) Parece que sí, dado que los dos ítems de aptitud verbal obtienen saturaciones altas
en el Factor II, mientras que los dos ítems de aptitud numérica obtienen saturaciones altas en
el Factor I.
b) El porcentaje de varianza explicado por el factor I será (1.77)(100)/4 = 44.
9. a) Y' = 9.475
b) Li = 3.97 Ls = 14.98
10. a) n = 2.04 # 2, debería estar formado por 2 formas paralelas del test inicial; es decir,
por 10 ítems.
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la longitud del
test.
c) El máximo valor del coeficiente de validez obtenible por alargamiento del test es
Rxy d rxy / rxx 0.5 / 0.4 0.79.
11. Si los tres tests tuviesen la misma longitud el más fiable sería el tercero, ya que si
alargásemos el Test 1 hasta que tuviese 40 ítems su coeficiente de fiabilidad valdría
0,46. El más válido sería también el Test 3, ya que al alargar el Test 1 su coeficiente de
validez toma el valor de 0,33.
14. a) 0.8 es mayor que el tope máximo alcanzable (0.54 = 0.42/0.6) alargando el test,
luego NO se puede alcanzar el valor 0.8.
b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.
16. a) Las varianzas de los ítems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 – (7.36/17.67)) = 0.70. Alta consistencia, pues el test es corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
c) La correlación par e impar es 0.33. El coeficiente de fiabilidad del test (dos mitades) es
0.50. El número de formas paralelas necesarias para alcanzar la validez 0.6 es 36.73. El test
deberá tener 36.73x6= 220.38 ítems, por lo que deberemos añadir 220.38 – 6 = 214.38 ó 215
ítems.
18. Sería mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado la
selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar un mayor
coeficiente de validez.
19. La correlación entre las puntaciones verdaderas del test y criterio es mayor o igual que
el coeficiente de validez (véase apartado 4.3).
20.
a) F
b) V
c) F
21.
a) Típico (las medias de los ítems son mayores de 1).
b) 1.398 (el % de varianza explicada sería 15.536).
c) No. Hemos retenido dos factores. El modelo de un factor no ajusta bien a los datos. El
estadístico de contraste muestra que con un nivel de confianza del 95%, podemos decir que
algún residual es distinto de cero. Además el RMSEA es mayor que 0.08. Por el contrario,
para el modelo de dos factores, los indicadores de ajuste muestran valores aceptables (el
RMSEA nos indica que el modelo muestra buen ajuste a los datos ya que su valor es menor
que 0.05).
d) Para el factor 1, se utilizarían los ítems 2, 5, 6 y 9. Podríamos ponerle la etiqueta de
“Percepción de la propia capacidad”. Para el factor 2, se utilizarían los ítems 1, 4, 7 y 8. La
etiqueta, atendiendo al contenido común de esos ítems, podría ser “Curiosidad intelectual”.
e) Primera mitad: ítems 1 a 5. Su alfa es 0.531.
f) El coeficiente de fiabilidad del test de 10 ítems es 0.671 = 2r/(1+r), siendo r la correlación
entre las dos partes y el coeficiente de fiabilidad de cada una. Despejando, r = 0.505.
g) El ítem 8 que tiene el menor índice de homogeneidad corregida (HC = 0.165). Además, al
eliminarlo aumenta alfa desde 0.654 a 0.657
h) Los dos que tengan menores valores en esa columna: ítems 2 y 9.
22. El ítem 2, pues tiene la mayor correlación con el test (0.87). El ítem 4, pues tiene la
mayor diferencia V-H (0.29).
b) El coeficiente alfa vale 0.06. El test no tiene consistencia.
c) 12.97
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de validez
es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del criterio puede
explicarse por las puntuaciones en el test
24.
a) 0.59, pues 0.37/(1-0.37) = 0.587. Lo omiten 666 = (0.37)1800.
b) Las alternativas no son igualmente elegidas.
c) Las diferencias entre puntuaciones y puntuaciones corregidas serán pequeñas, pues el
número de errores en los ítems es bajo y el número de opciones en cada ítem es alto.
d) El coeficiente de fiabilidad por el método de las dos mitades es 0.373. Alargando el test 6
veces, resulta un test con coeficiente de fiabilidad dos mitades de 0.781. El 78% de la
varianza observada se debe a la varianza de los niveles de rasgo. Es una fiabilidad aceptable
para un test de esa longitud.
e) La mitad más consistente es la parte 1 (ítems 10, 15 y 20). Su alfa es 0.258.
f) No, pues el ajuste del modelo de un factor es bueno según ambos indicadores de ajuste.
Podemos mantener que el modelo se ajusta a los datos con un nivel de confianza del 95% y
además el RMSEA indica un buen ajuste (RMSEA < 0.05).
g) Ítem 10, pues la correlación es 0.484.
h) 10.756 (suma de saturaciones al cuadrado dividido por 6 y multiplicado por 100).
i) Claramente no, las dos mitades difieren en media puesto que los ítems están ordenados por
dificultad.
25.
a1) El coeficiente de fiabilidad del test es 0.71. El 71% de la varianza de las puntuaciones
observadas corresponde a variabilidad de las puntuaciones verdaderas (y el 29% al error de
medida).
a2) 0.550, pues es la correlación entre las dos partes.
b) Para maximizar la varianza del test habría que eliminar el ítem 4, ya que al eliminarlo la
varianza del test de 7 ítems alcanza el valor más alto (18.627).
c) El índice de homogeneidad corregido del ítem 2 es 0.344. Si sería significativo, pues
.344 102 3.474 > 1.96.
d) Para maximizar la consistencia interna del test habría que eliminar el ítem 4, ya que, al
eliminarlo, se conseguiría que el test de 7 ítems tenga el mayor alfa (0.590).
e) El ítem 4, por que prácticamente no cambia el coeficiente alfa del test al eliminar ese ítem.
Además, la puntuación en ese ítem no correlacióna significativamente con la puntuación en el
resto del test ( .184 102 1.858 < 1.96)
f) La comunalidad del ítem 1 es (-0.045)2+(0.972)2 = 0.947. El 95% de la varianza del ítem 1
está explicado por los dos factores.
g) Deberían extraerse 2 factores, ya que los indicadores de ajuste muestran que el modelo de
un factor no se ajusta a los datos, mientras que el modelo de dos factores sí.
h) Para interpretar el significado del factor 2 utilizaría los ítems 1 y 8, ya que son los que
tienen saturaciones más altas en ese factor, en la matriz rotada.
i) La proporción de varianza total explicada por el factor I no rotado es 1.534/8 = 0.19, y por
el factor II rotado es 1.381/8 = 0.17.
1.- INTRODUCCIÓN
- Centiles o percentiles.
Para rasgos psicológicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene
sentido comparar la puntuación de un sujeto con las que obtienen los de su misma edad y los de
edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI).
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27
Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
permitir obtener la EM de cualquier niño al que apliquemos el test. Por ejemplo, si un niño
obtiene el test una puntuación directa de 14 puntos, le asignamos una EM de 9 años,
independientemente de su edad cronológica real, ya que esa puntuación es la media que obtienen
los niños de 9 años.
EM
CI 100
EC
Por ejemplo, en el ejemplo anterior, si un niño de 10 años obtiene una puntuación directa de 18
puntos, diremos que su EM es de 11 años, y que su CI es:
11
CI 100 110
10
El modo de cálculo del centil asociado a una puntuación se resume en los siguientes pasos:
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a la
puntuación directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el número
total de sujetos que forman el grupo normativo.
Ejemplo:
X: 28 27 26 25 24 23 22 21 20 19 18
f: 2 4 21 32 45 37 22 18 12 6 1
A partir de estos datos, los centiles correspondientes a cada puntuación directa, se obtienen de la
siguiente forma:
Centiles
X f F C = (100)F/200
28 2 200 100
27 4 198 99
26 21 194 97
25 32 173 86’5
24 45 141 70’5
23 37 96 48
22 22 59 29’5
21 18 37 18’5
20 12 19 9’5
19 6 7 3’5
18 1 1 0’5
Así, si un sujeto obtiene una puntuación directa de 20 puntos en el cuestionario, diremos que
supera en conocimientos informáticos al 9,5% de los sujetos universitarios, mientras que más del
90% de los alumnos universitarios tienen mayor conocimiento en el manejo de ordenadores que
la persona evaluada.
En Análisis de Datos se vio el significado y proceso de cálculo de las puntuaciones típicas (Zx)
asociadas a unas puntuaciones directas determinadas. En este apartado vamos a encontrar una
clara aplicación de estas puntuaciones, y de otras que se derivan de éstas, para baremar un
cuestionario; vamos a diferenciar además entre baremos típicos estándares y baremos
normalizados.
Xi X
Zi
SX
Puede ser positiva o negativa e indica el nº de desviaciones típicas que se aleja de la media una
determinada puntuación directa.
,5
C2
,4
,3
,2
C1
,1 C3
0,0
-5,0 -3,8 -2,6 -1,4 -,2 1,0 2,2 3,4 4,6
-4,4 -3,2 -2,0 -,8 ,4 1,6 2,8 4,0
Pues bien, conociendo la proporción que queda por debajo de un punto dado de la distribución,
podemos utilizar la tabla de la curva normal para obtener sin cálculos la puntuación típica
asociada (Zn), que se denominará puntuación típica normalizada. Indicará el número de
desviaciones típicas que una puntuación se encuentra por encima (si es positiva) o por debajo (si
es negativa) de la media en una distribución normal.
Por ejemplo, las puntuaciones típicas normalizadas asociadas a los centiles 1, 26, 57 y 97 son:
Centil Centil/100 Zn
1 0,01 -2,33
26 0,26 -0,64
57 0,57 0,18
97 0,97 1,88
Si no se puede asumir racionalmente o no se puede comprobar que las puntuaciones siguen una
distribución normal, no se puede hacer uso de las tablas de la curva normal para obtener las Zn.
Sí podrían calcularse las puntuaciones típicas estándares Zx, ya que no asumimos ningún
supuesto sobre la distribución de los datos. Si los datos de una muestra se ajustan a la normal,
entonces cada Zx de una persona es similar a su Zn.
Las puntuaciones típicas (estándares y normalizadas) tienen dos dificultades formales para su
interpretación: la posibilidad de asumir valores no enteros y negativos. Con objeto de superar
estas pequeñas dificultades, se han propuesto otros baremos, que no son más que una
transformación lineal de las puntuaciones típicas, con lo que no se alteran las propiedades de la
escala típica. Estas puntuaciones se denominan escalas típicas derivadas (si el objeto de la
transformación lineal es una puntuación típica estándar) o escalas típicas derivadas
normalizadas (si suponen la transformación lineal de una puntuación típica normalizada),
siendo las principales las denominadas como escala T, escala D y estaninos (o eneatipos):
En definitiva, las puntuaciones T representan una escala con media 50 y desviación típica 10.
Así, una puntuación T = 78 significa que la persona obtiene una puntuación Zi = 2.8, es decir,
2.8 desviaciones típicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviación típica 20. Por ejemplo, una
puntuación D = 35 indica que la persona obtuvo una puntuación Zi = -.75, o lo que es lo mismo,
una puntuación que se encuentra .75 desviaciones típicas por debajo de la media del grupo
normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviación típica 2. Una persona que
obtenga el estanino 8 en un test de aptitud espacial indicará que se encuentra 1.5 desviaciones
típicas por encima de la media del grupo normativo.
Puntuación típica: -2
Escala T: 30
Escala D: 10
Estanino: 1
Todas estas puntuaciones en escalas o baremos diferentes indican lo mismo: que es un sujeto
que se encuentra dos desviaciones típicas por debajo de la media de grupo normativo en aptitud
mecánica.
La interpretación de cada una de las escalas típicas derivadas normalizadas sigue la misma
lógica que su correspondiente escala típica derivada sin normalizar, haciendo siempre la
salvedad de que la interpretación hay que referirla a una distribución normal.
EJERCICIOS
X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
a) Centil.
b) Típica normalizada (Zn).
c) Escala D no normalizada.
d) Estanino.
5. Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70 y 80. Diga
razonadamente qué puntuación corresponde a cada escala:
8. Algunas de las puntuaciones de Juan y Antonio en un examen han sido las siguientes:
Centil Zn En Dn Tn
Juan 93 1,5
Antonio 65
1) Dn = 50 2) Tn = 20 3) En = 5 4) Zn = -3 5) Centil = 90
X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10
a) ¿Qué centil, puntuación típica y típica normalizada corresponden a la persona que obtenga
una puntuación directa de 42?
b) Sabemos que la persona A en la escala T tiene una puntuación que coincide con la de la
persona B en la escala D. ¿Han podido tener las dos personas la misma puntuación en el test?
SOLUCIONES
X Zx T D
X Zn Tn Dn E
3. a) C21= 40
b) Zn = -0,8
c) D = 40
d) E = 3
5. T = 60 D = 70 C80
9.
10.
X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10
1.- INTRODUCCION
La TRI debe su nombre a que se centra más en las propiedades de los ítems individuales que
en las propiedades globales del test, como hacía la TC.
Este capítulo es sólo una breve introducción a la TRI. Lo que vamos a estudiar sólo es
aplicable a ítems que puedan cuantificarse como cero o uno. La TRI permite también el
análisis de ítems con otros formatos de respuesta (por ejemplo, las categorías ordenadas),
pero tales desarrollos no son tratados en estas líneas.
Buena parte de la Psicometría actual está relacionada con la TRI y es muy abundante la
bibliografía existente. Las personas interesadas en ampliar conocimientos, pueden consultar
los libros de Muñiz (1997), Hambleton, Swaminathan y Rogers (1991) y Hambleton y
Swaminathan (1985). Nos hemos basado principalmente en los dos primeros para redactar
este tema.
a) La principal limitación consiste en que las características del test y las puntuaciones
de las personas no pueden ser separados: Se define la puntuación de una persona
como el número de preguntas que acierta, y la dificultad de un ítem como la
proporción de personas que lo responden correctamente en un determinado grupo.
Esto tiene una serie de consecuencias negativas:
- Las características de los ítems dependen del grupo de personas en el que se han
aplicado. Por ejemplo, supongamos que queremos conocer el índice de dificultad de
un determinado ítem que mida conocimientos de tauromaquia. Dicho índice será muy
diferente si utilizamos en la baremación un grupo de personas abonadas a la feria de
San Isidro o un grupo de turistas japoneses.
- Sea cual sea la distribución de los niveles de rasgo obtendremos las mismas
estimaciones de los parámetros de los ítems. Esta propiedad se cumple también en
otros ámbitos. Por ejemplo, en Estadística, si se cumplen los supuestos de la regresión
lineal, se llega a los mismos parámetros cuando se ajusta la recta de regresión a toda
la población o sólo a parte de ella. Análogamente, los parámetros de los ítems deberán
ser los mismos si éstos se han aplicado a un grupo de personas con alto nivel de rasgo,
o a un grupo con niveles bajos. Es decir, los parámetros de los ítems serán los mismos
sea cual sea la distribución de los niveles de habilidad de la muestra en los que se han
aplicado.
b) Una segunda limitación tiene con ver el error de medida. La TC supone que el error
de medida es una propiedad del test y, por lo tanto, igual para todos los sujetos,
independientemente de cual sea su puntuación. Por el contrario, la TRI permite
obtener la precisión con la que cada persona es medida.
La TRI permite superar estas y otras limitaciones de la TC mediante unos supuestos fuertes y
restrictivos, y una metodología más compleja, que requiere establecer modelos matemáticos,
la estimación de sus parámetros, enjuiciar el ajuste entre datos y modelos, etc..
Antes de ver cuales son los supuestos, vamos a estudiar los principales modelos de la TRI.
La curva característica de un ítem (CCI) indica la probabilidad que tienen de acertarlo las
personas que se enfrentan a él. Esta probabilidad depende, naturalmente, de cual sea el nivel
de la persona en la variable medida.
Podemos ver esto con más claridad mediante un ejemplo. Supongamos que tenemos un test
que mide inteligencia y que ha sido aplicado a muchísimas personas (100.000, por ejemplo).
Supongamos que la menor y mayor puntuación obtenidas en el test son 50 y 150. Vamos a
representar el rendimiento en un ítem concreto de la siguiente forma: Nos fijamos en todas
las personas que han obtenido la puntuación 50 (supongamos que son 132). Vemos cuantas
personas de las anteriores han acertado el ítem (supongamos que han sido sólo 5) y
calculamos la proporción (5/132 = 0.04). Hacemos lo mismo con los que obtuvieron en el test
51 puntos (y obtenemos la proporción, supongamos que 0.15),... con las que obtuvieron en
el test 100 (la proporción fue 0.45),... con las que obtuvieron 150 (la proporción fue 0.99). La
siguiente gráfica muestra la proporción de aciertos en el grupo de personas que obtuvo en el
test 50 puntos, 51, .. 150.
Gráfica 1
1,0
,8
Probabilidad de acertar el ítem
,6
,4
,2
0,0
40 60 80 100 120 140 160
Inteligencia
En este ejemplo podemos ver que cuanto mayor es el cociente intelectual de las personas,
mayor es la proporción de aciertos en el ítem. A una puntuación de 100 le corresponde una
proporción de 0.45; mientras que a una de 150 le corresponde una proporción de 0.99.
En la gráfica 1 tenemos una CCI empírica, pero la TRI necesita resumir la información que
contiene cada CCI empírica en una fórmula o modelo en el que uno, dos o tres valores
resuman la información contenida en la CCI empírica. En la aplicación de de la TRI, un paso
inexcusable es optar por un modelo (o fórmula) que sea una buena descripción del
rendimiento en los ítems. Vamos a ver a continuación que son varios los modelos que podrían
dar cuenta de una distribución como la mostrada en la gráfica 1. Los modelos de CCI más
utilizados en la práctica son los logísticos de uno, dos y tres parámetros.
D( T - b)
e 1
P( T ) =
1 + e D( T - b)
1 + e D( T - b)
Donde
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala (en la gráfica 1 se ha
utilizado la escala de cociente intelectual). No obstante, en la práctica, suele utilizarse una
escala típica, con media cero, varianza uno y un rango de valores entre -3.0 y 3.0.
El índice de dificultad (b) es aquel valor de θ para el cual P(θ)= 0.5. Por tanto, cuanto mayor
sea "b" más difícil es el ítem. En la gráfica 2, se han representado dos CCIs. En la primera, la
que está más a la izquierda, el valor de θ al que corresponde P(θ)= 0.5 es aproximadamente -
0.95. Por lo tanto, la dificultad del primer item es b1= -0.95. En el segundo ítem, el valor de θ
al que corresponde P(θ)= 0.5 es aproximadamente 0.6. Por lo tanto, la dificultad del segundo
ítem es b2= 0.6. La gráfica muestra que la probabilidad de acertar el ítem es sistemáticamente
menor en el ítem 2 que en el ítem 1. El ítem 2 es más difícil que el uno, y sus índices de
dificultad así lo muestran (b2 > b1).
Gráfica 2
1,0
,8
,6
,4
Probabilidad
,2
P1
0,0 P2
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Este modelo añade al anterior un segundo parámetro que indica la capacidad discriminativa
del ítem:
Da( T - b)
e 1
P( T ) =
1 + e Da( T - b)
1 + e Da( T - b)
El parámetro "a" indica la mayor o menor inclinación o pendiente de la CCI cuando θ=b.
Normalmente los valores de "a" oscilan entre 0,3 y 2.5, y se suelen considerar items
"discriminativos" los que tienen valores "a" mayores de uno.
En la gráfica 3 vemos la CCI de dos ítems de igual dificultad (b1= b2= 0.75), la principal
diferencia entre ellos es que el ítem 2 (el de la derecha), cuando θ = 0.75, tiene una pendiente
mucho mayor (a2 = 2.4) que la del ítem 1 (a1 = 0.4). Como la pendiente es tan alta, las
personas con θ > 0.75 tienen casi todas ellas una muy alta probabilidad de acertar el ítem 2 (y
casi todas ellas lo acertarán), y las personas con θ < 0.75 tienen casi todas ellas una
probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por lo tanto, el ítem 2
discrimina entre los que tienen θ > 0.75 y los que tienen θ < 0.75.
Por su parte, el ítem 1 tiene muy poca pendiente cuando θ= 0.75. En consecuencia, aunque
la mayoría de las personas con θ > 0.75 lo acertarán, muchas lo fallarán (pues la probabilidad
de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las personas con θ
< 0.75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es claramente
superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida que aumenta θ
por lo que no es buen discriminador entre las personas con θ > 0.75 y las que tienen θ < 0.75.
Gráfica 3
1,0 1,0
,8 ,8
Probabilidad de acertar ítem 1
,4 ,4
,2 ,2
0,0 0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
Este modelo añade a los dos parámetros "a" y "b" un tercero, "c", que representa la
probabilidad de acertar el ítem al azar. Exactamente "c" es el valor de P(θ) para valores
extremadamente bajos de θ. La expresión matemática es la siguiente:
Da( T - b)
(1 c ) e
P( T ) = c
1 + e Da( T - b)
1 c
c
1 + e Da( T - b)
En la gráfica 4 podemos ver la CCI de varios ítems con los mismos valores de a (1) y b
(0), pero distintos valores de parámetro “c” (c1= 0, c2= 0.15 y c3= 0.30).
Gráfica 4
1,0
,8
Probabilidad de acertar el ítem
,6
,4
ítem 1
,2
ítem 2
0,0 ítem 3
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
3.1.- UNIDIMENSIONALIDAD
Tal y como hemos visto en el apartado anterior, en todos los modelos de CCIs, la
probabilidad de acertar un ítem depende únicamente de sus parámetros y de θ. En un ítem
que mida el nivel de vocabulario de inglés, la probabilidad de acertarlo depende de los
valores "a", "b" y "c" del ítem y del nivel de vocabulario inglés de la persona (su θ). La CCI
excluye que el rendimiento en el ítem dependa de los niveles de la persona en otros rasgos
más o menos relacionados con el de vocabulario de inglés (como el nivel de inglés hablado,
el nivel de gramática inglesa, ....). De tener en consideración otros rasgos, en la fórmula
aparecerían los elementos θ2, θ3, etc.. , es decir, los niveles de la persona en esos otros rasgos.
En otras palabras, el rendimiento en un ítem depende del nivel de la persona en un sólo rasgo
o dimensión.
Un test consta de un conjunto de ítems. La TRI supone además que todos los ítems que
forman el test han de medir un mismo y único rasgo. El supuesto de unidimensionalidad
exige que todos y cada uno de los ítems del test midan una única dimensión.
Este supuesto nunca se cumple totalmente porque el rendimiento en un test está influido por
variables cognitivas y de personalidad, como la motivación, ansiedad, etc. Por lo que, en la
práctica, es una cuestión de grado, y no puede afirmarse categóricamente si un conjunto de
ítems son o no unidimensionales. Hay, no obstante, varios métodos para comprobar la
unidimensionalidad. El propuesto por Reckase (1979) se basa en el análisis factorial y
consiste en estudiar la varianza explicada por el primer factor extraído de la matriz de
correlaciones entre ítems. En la práctica, cuando el primer factor explica más de un 25% de la
varianza total, tras haber eliminado los ítems con saturaciones inferiores a 0.10, se considera
que se cumple el supuesto de unidimensionalidad.
Existe independencia local entre los ítems de un test si la respuesta que una persona da a uno
de ellos no depende de las respuestas que da a los otros.
Matemáticamente puede expresarse diciendo que la probabilidad de que un sujeto acierte "n"
ítems es igual al producto de las probabilidades de que acierte cada uno de ellos por separado.
Por ejemplo, un test consta de dos ítems y la probabilidad de que Juan acierte el primero es P1
= 0.4 y la de que acierte el segundo P2 = 0.8. El principio de independencia local establece
que la probabilidad de que acierte los dos viene dada por: (P1)(P2) = (0.4)(0.8) = 0.32.
Supongamos que 100 personas con idéntico nivel de rasgo que Juan contestan al test.
Espereramos aproximadamente los siguientes resultados (1, acierto; 0, error):
Si correlacionamos las cien respuestas al primer item con las cien respuestas al segundo, la
correlación de Pearson es cero. Lo visto sugiere un procedimiento para contrastar si el
supuesto de independencia local se cumple. Consiste en obtener la matriz de correlaciones
entre los ítems, pero no en la muestra completa, sino en submuestras que sean lo más
homogéneas posible en cuanto al nivel de habilidad de sus miembros. En tales submuestras
tiene que ocurrir que ningún ítem correlacione con ningún otro, si se cumple el supuesto.
(Hambleton y otros, 1991, pag. 56).
Seleccionado un modelo de TRI, hay que aplicar el test a una muestra amplia y estimar los
parámetros de cada ítem y la θ de cada sujeto, a partir de la matriz de respuestas obtenidas. Si
tenemos, por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una
muestra de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de
unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el modelo
logístico de tres parámetros, tendremos que estimar los 30 parámetros de los ítems (es decir,
"a", "b" y "c" de cada ítem) y 300 parámetros de las personas (los 300 valores de "θ", uno por
persona). La estimación de parámetros es el paso que nos permite llegar de las respuestas
conocidas de las personas a los ítems a los valores desconocidos de los parámetros de los
ítems y de los niveles de rasgo.
Si lanzamos una moneda diez veces y obtenemos siete caras, el estimador máximo-verosímil
del parámetro "p" (probabilidad de cara de la moneda) es 7/10= 0.7, como se demuestra en
los libros de Estadística (véase Amón (1984), pag. 249 y ss). El resultado "siete caras en diez
lanzamientos" es poco compatible con que la probabilidad de cara sea 0.1, ó 0.2, ... . De
hecho, la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p= 0.1 o si
p= 0.2. Dicha probabilidad pasa a ser 0.117 si p= 0.5, y alcanza el máximo valor (0.267)
cuando p= 0.7. El estimador máximo-verosímil proporciona el valor de "p" bajo el que tiene
máxima probabilidad el suceso que hemos encontrado.
Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems, y se lo
aplicamos a un sujeto. Supongamos también que acierta el primero y falla el segundo. A
partir de estas respuestas, la estimación máximo-verosímil de su θ se puede explicar de forma
gráfica, como lo hacemos a continuación (en este ejemplo, para simplificar la explicación,
suponemos que los parámetros de los ítems son conocidos).
Gráfica 5
1,0
,6
,4
,2
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Si sólo hubiera respondido a ese ítem, a partir de la gráfica anterior podemos ver que no
existe un único valor de θ para el que la probabilidad del suceso encontrado (acierto en el
primer ítem) sea máxima. Por el contrario, son infinitos los valores de θ que para los que la
CCI alcanza el valor máximo 1.
Gráfica 6
1,0
,8
,4
,2
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Esta gráfica nos indica que es más probable que fallen el ítem los sujetos con niveles bajos de
habilidad que los sujetos con niveles altos (cosa bastante lógica). Por lo tanto, si el sujeto sólo
hubiese respondido a este ítem, de nuevo son infinitos los valores de θ que maximizan la
probabilidad del suceso encontrado (error en el segundo ítem).
Como hecho ha respondido a dos ítems, el valor estimado de θ para este sujeto sería aquel
que haga más probable el resultado obtenido (acertar el primer ítem y fallar el segundo).
Según el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto,
la probabilidad de que ocurran ambos conjuntamente es igual al producto de las
probabilidades de acertar el primero (P1) por la de fallar el segundo (Q2). Si representamos
gráficamente la función L = (P1)(Q2) para cada valor de θ, correspondiente al ejemplo que
venimos comentando, obtendríamos una curva parecida a la siguiente:
Gráfica 7
,6
,5
,4
,3
,2
Verosimilitud (L)
,1
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
En este caso vemos que la θ que hace más probable el resultado obtenido (acierto en el primer
ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0.15 será la θ estimada para
este sujeto.
En general, una persona responderá a un número de ítems mayor de dos y producirá una
particular secuencia de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y
errores se puede escribir como:
L = P R Q1- R
Donde:
P(θ)
--------------------------------------------------
Ítems b -3 -2 -1 0 1 2 3
1 -1 0.03 0.15 0.50 0.85 0.97 0.99 0.99
2 0 0.01 0.03 0.15 0.50 0.85 0.97 0.99
3 1 0.01 0.01 0.03 0.15 0.50 0.85 0.97
4 2 0.01 0.01 0.01 0.03 0.15 0.50 0.85
L =(P11Q10)(P21Q20)(P31Q30)(P40Q41)= (P1)(P2)(P3)(Q4)
Aplicando la fórmula anterior a cada uno de los valores de θ se obtienen los siguientes
resultados:
Los restantes valores de L son L(1)= 0.35, L(0)= 0.06, L(-1) = L(-2) = L(-3) = 0.0. Por lo
tanto, de los siete valores de θ considerados, el valor que maximiza L es θ = 2.
Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsqueda
restringida a unos cuantos valores, se necesita hallar el valor de θ que maximiza L de entre
todos los posibles valores, no sólo de entre unos pocos.
En el caso de la TRI no existen fórmulas que permitan obtener las estimaciones de manera
directa. En el ejemplo de las monedas se sabe que el estimador máximo-verosímil de la
proporción poblacional es la proporción muestral. En la TRI, al no existir tales fórmulas, las
estimaciones se obtienen por métodos numéricos, mediante programas de ordenador. En el
caso más general se establece una función L que depende de los parámetros de los ítems y de
los niveles de rasgo. Los programas de ordenador contienen algoritmos que encuentran el
conjunto de estimaciones para el que la función L alcanza el valor máximo. Los parámetros
de los ítems y los niveles de rasgo de las personas serán los valores dados por el programa de
ordenador para una matriz de respuestas particular.
En la Teoría Clásica, una vez aplicados unos ítems a un conjunto de personas, se puede
obtener la puntuación de cada persona en el test combinando las puntuaciones en los ítems
del test. En la TRI, una vez que se han aplicado los ítems, se genera la matriz de respuestas
que contiene los aciertos y fallos de cada persona en cada ítem del test. A continuación, se ha
de aplicar un programa de ordenador (ASCAL, BILOG,..) que nos dará los niveles de rasgo y
los parámetros de los ítems. Según hemos visto, por tratarse de estimaciones por el método de
máxima verosimilitud, los valores que nos da el programa son los que hacen más plausible la
matriz de datos original, son los más compatibles con la matriz de datos original.
Una vez aplicado un conjunto de ítems y estimado el nivel de habilidad de un sujeto, la TRI
nos permite calcular el error típico de estimación (Se) de esa persona en el test aplicado.
Esto es una diferencia fundamental con la TC, que asume que el error es el mismo para todos
los sujetos.
El error típico de estimación nos dice la precisión con que hemos estimado θ. A mayor error,
menos precisión. Su tamaño depende de varios factores:
1- Número de ítems aplicado: En general, al aumentar la longitud del test disminuye Se.
1
Var( T ) = S e2 =
(Pc )2
¦
PQ
Se = Se
2
Por ejemplo, si la θ estimada es 0.8 y su error típico de estimación es 0.22, entonces, el nivel
de rasgo de dicha persona se encuentra entre 0.37 (pues 0.8-(1.96)(0.22)= 0.37) y 1.23 (pues
0.8+(1.96)(0.22) = 1.23), con probabilidad 0.95.
La función de información del test aplicado se define como la inversa de Var(θ), es decir:
1
I( T ) = 2
Se
Por lo tanto,
(Pc )2
I( T ) = ¦
PQ
Cuanto mayor sea I(θ) menor será Se y, por tanto, mayor la precisión de la estimación de θ.
Si se calcula I(θ) para todos los niveles de θ y se representa gráficamente se obtiene una
curva como la que muestra la siguiente gráfica:
Gráfica 8
,4
,3
Información del test de dos ítems
,2
,1
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Vemos que este test (compuesto por dos ítems, cuyos parámetros son a1= 1.5 , b1 = -0.7 a2= 1
y b2 = 2 ) aporta más información para valores de θ en torno a -0.5.
La FI tiene una gran importancia en la utilización de los tests, ya que nos permite elegir aquel
que aporte más información en el intervalo de θ que estemos interesados en medir.
También es muy útil en la construcción del test. A partir de un banco de ítems calibrados (es
decir, de los que hemos estimado sus parámetros) podemos seleccionar aquellos que permitan
que la FI se ajuste a unos objetivos determinados.
Todos los conceptos anteriores referidos a la función de información del test son aplicables
también a cada uno de los ítems por separado. De hecho la FI del test no es más que la suma
de las FFII de cada uno de los ítems que lo componen. En concreto la FI de un ítem sería:
2
(Pc )
I( T ) =
PQ
Vemos que la única diferencia con la FI del test es que ha desaparecido el signo de sumatorio.
Al igual que con el test completo, podemos representar gráficamente la FI de los ítems y ver a
que nivel de θ proporcionan más información. La siguiente gráfica muestra la función de
información de los dos ítems que forman el test y la función de información del test.
Gráfica 9
,4
,3
,2
,1
test
Información
ítem 1
0,0 ítem 2
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Esto nos permite elegir los ítems más adecuados en cada momento en función de nuestras
necesidades. Por ejemplo, si queremos llevar a cabo una selección de personal en la que sólo
vamos a elegir unos pocos sujetos muy competentes, a partir de un banco de ítems
previamente calibrado, podríamos elegir aquellos ítems que proporcionan más información
para niveles altos de θ. Esto nos permite reducir enormemente el número de ítems de un test
sin perder precisión al estimar θ.
6.- APLICACIONES
difieren sustancialmente de los tests al uso. Un TAI consta de un banco de ítems bien
calibrado y de un programa de ordenador encargado de decidir qué ítem del banco presentar a
la persona, de presentárselo, de analizar la respuesta emitida por la persona, de elegir un
nuevo ítem del banco, etc..
Un TAI difiere muchísimo de un test de lápiz y papel. Una primera diferencia es que es
administrado por un ordenador y una segunda es que cada persona es evaluada con items
distintos. Sin embargo, lo fundamental de los TAIs es que los ítems son elegidos con el
criterio de estimar el nivel de habilidad de la persona con la máxima precisión y menor
número de ítems. Más en concreto, un TAI procede como se expone a continuación:
El principal logro de los TAIs es que con muy pocos ítems (veinte, más o menos) se pueden
conseguir precisiones en la medición comparables o mejores que las obtenidas en tests no
adaptativos mucho más largos. Esto es así porque en los TAIs sólo se administran ítems
auténticamente informativos para determinar el nivel de rasgo de la persona y se evitan los
ítems demasiados fáciles o difíciles, que apenas informan sobre el nivel de rasgo. Hemos
construido un TAI de vocabulario inglés (Ponsoda, Olea y Revuelta, 1994) y hemos obtenido
que, en ocasiones, con sólo diez ítems se obtiene una excelente precisión (un error típico de
estimación equivalente a un coeficiente de fiabilidad de 0.9).
EJERCICIOS
1. Dos ítems han sido calibrados con el modelo logístico de dos parámetros. Sus
parámetros son a1=1 y b1= 0.5, y a2= 0.5 y b2= 2.5.
2. Aplicamos tres ítems a 5 personas y sus respuestas han sido las siguientes (1, acierto;
0, error):
a) Todas las personas menos la número cuatro tienen dos aciertos, por lo tanto todas ellas
menos la cuatro deberán obtener el mismo nivel de rasgo. V( ) F( )
b) La dificultad del ítem 1, b1, deberá de ser menor que la del ítem 2, b2. V( ) F( ).
c) El parámetro "c" deberá ser 1/3, pues sólo hay tres ítems. V( ) F( ).
a) ¿Qué probabilidad de acertar el ítem tiene una persona con nivel de habilidad θ = 0?
b) ¿Puede corresponder a una persona una probabilidad de acertar de 0.10 en ese ítem?
5. Elegimos cien personas que tienen exactamente el mismo nivel de rasgo. Se les pasa
un ítem fácil (b= -1) y lo aciertan 80 de los cien. Se les pasa a continuación un ítem más
difícil (b= 0.5) y lo aciertan 40 de los cien. Supongamos que se cumplen los supuestos de la
TRI ¿cabe esperar que los 40 que han resuelto el segundo ítem, el más difícil, hayan también
resuelto el ítem más fácil?
7. Pasados varios ítems, un TAI estima a una persona una ș de 0.5. Los parámetros de
dos ítems que todavía no han sido aplicados son los siguientes: a1= 1, b1= 0.5, a2= 2 y b2= 1.
Si el TAI ha de suministrar un ítem de estos dos ¿Cual suministraría? (La derivada P'
correspondiente al modelo logístico de dos parámetros es P'= DaPQ).
8. El nivel de rasgo de una persona es 1 (es decir, ș= 1). Aplicando el modelo logístico
de dos parámetros obtenemos las CCIs de dos items. La probabilidad de acierto en el item 1
(a1= 1 y b1= 0.5) coincide con su probabilidad de acierto en el item 2 (a2= 2, b2 no conocido).
Obtenga cuanto vale b2.
P(ș)
---------------------------------------------
-3 -2 -1 0 1 2 3
Ítem 1 0.1 0.15 0.2 0.35 0.5 0.65 0.8
Ítem 2 0.0 0.0 0.0 0.10 0.5 0.90 1.0
Ítem 3 0.0 0.10 0.5 0.90 1.0 1.0 1.0
10. Un test consta de sólo dos ítems (a1=1, b1=0, y a2=2, b2=-1).
a) Obtenga la función de información del test para los valores de ș= -3, -2, -1, 0, 1, 2 y 3. (Se
recuerda que en el modelo logístico de dos parámetros P'= DaPQ).
b) ¿Para qué valor de ș (de los expuestos anteriormente) el test proporciona la máxima
información?
c) Obtenga el error típico de estimación con el que el test estimaría la ș de una persona cuya ș
real fuese -1.
SOLUCIONES
2. F, V, F.
3. (1+c)/2.
4. a) P(0) = 0.226.
b) Es imposible, pues P(ș) c = 0.20.
5. No. La independencia local supone que la probabilidad de acertar ambos items será
(80/100)(40/100) = 0.32.
9. b) Misma dificultad (b1=b2= 1). Más discriminativo, el dos; pues su CCI tiene más
pendiente.
c) Más fácil el ítem tres (b3= -1) y misma discriminación.
10. a) En ítem 1, I(-3)= 0.017, I(-2)= 0.091, I(-1)= 0.376, I(0)= 0.72, I(1)= 0.376,
I(2)=0.091 e I(3)=0.017.
En ítem 2, I(-3)= 0.014, I(-2)= 0.364, I(-1)=2.89, I(0)= 0.364, I(1)= 0.014, I(2)=0.000
e I(3)=0.000.
En el test, I(-3)= 0.031, I(-2)= 0.455, I(-1)=3.266, I(0)= 1.084, I(1)= 0.390, I(2)=0.091
e I(3)=0.017.
b) De los niveles de rasgo considerados, el que se estimaría con mayor precisión es ș
= -1. Es decir, el test resulta máximamente informativo para ș= -1.
c) S2e = 1/3.266 = 0.306. Se = 0.55.
ABSTRACT. This paper discusses the criteria that should be considered when selecting
psychological assessment tests in a research context. Traditionally attention has focused –
and still does – on the stages that must govern any process of test construction/adaptation.
This work is guided by internationally accepted standards, whose scientific importance is
agreed by the scientific community. However, beyond any construction/adaptation process,
the use of tests is a constant feature of psychological research, so it is of vital importance to
select the tests adequately. For this reason, in this theoretical study we provide a summary
of the criteria that should guide test construction/adaptation as well as some general
1
Correspondencia: Facultad de Psicología. Universidad de Granada. Campus Cartuja. 18071 Granada
(España). E-mail: hugocd@ugr.es
guidelines to consider when selecting tests for psychological research. The information
presented is organized into six sections, each of which corresponds to a different stage in the
process of test creation: a) conceptual definition of the construct to assess; b) information
about item construction and qualitative assessment; c) results of the statistical analysis of the
items; d) empirical evidence of the internal structure of the test; e) results of the reliability
estimation; and f) external evidence of score validity. The study ends with a reflection on
the scope of the proposed guidelines and the importance of using clear criteria to select the
tests used in research.
KEY WORDS. Standards for the review of instrumental studies. Test construction. Test
adaptation. Test selection. Theoretical study.
Introducción
En la investigación psicológica actual, el uso de instrumentos o herramientas, tales
como las computadoras, sistemas de registro, instrumentos de medida, etc. supone una
característica definitoria de la propia investigación. De hecho, sin dichos instrumentos, la
investigación científica, tal y como actualmente se conoce, sería imposible, requiriéndose
un análisis cuidadoso y cíclico de éstos y de su influencia sobre los resultados de
investigación (Sturm y Ash, 2005). Dentro de los múltiples y variados instrumentos que
pueden ser empleados en un contexto de investigación psicológica, la utilización de tests de
evaluación es algo más que frecuente, sin olvidar igualmente lo generalizado que está el uso
de éstos dentro de la práctica profesional que genera la Psicología como disciplina (Muñiz
et al., 2001).
El hecho es que los psicólogos trabajan con fenómenos no directamente
observables, los cuales pretenden medirse, y para lo que se usan aproximaciones indirectas.
los tests en la mayoría de las publicaciones. Por ejemplo, en un medio como el presente, el
International Journal of Clinical and Health Psychology, el 100% de los estudios originales
publicados durante 2007 han hecho uso de tests para el desarrollo de la investigación. Por
ello, se hace necesario tener en cuenta ciertos criterios para la selección de los tests antes de
proceder a su uso, considerando pues que la mera publicación de un test no garantiza su
calidad. No obstante, y dentro de un contexto delimitado por los artículos científicos, el
debate no estaría centrado en la calidad científica de las medidas usadas, ya que en el
ámbito comentado se entiende que dicha calidad estaría presente como necesidad básica de
toda investigación. La discusión sería otra: ¿los tests usados en las investigaciones
publicadas han sido seleccionados bajos unos criterios de decisión objetivos?, ¿se han
considerado los aspectos diferenciales que presentan instrumentos distintos construidos bajo
objetivos de evaluación similares?, ¿los criterios empleados permiten una mayor seguridad
a la hora de concluir que la herramienta empleada es la mejor opción de entre todas las
disponibles?
El objetivo del presente trabajo es proponer unas directrices generales que guíen la
selección de tests en un contexto de investigación, aunque sin olvidar que muchos de los
criterios propuestos deberían ser igualmente tenidos en cuenta por los profesionales
aplicados. Como resulta lógico, dicha selección debe estar regida por el hecho de poder
garantizar que el instrumento utilizado cumple con unas propiedades científicas mínimas, y
esto significaría que se han seguido las normas internacionalmente aceptadas para la
construcción de tests (AERA et al., 1999). Recientemente se discutieron dichas normas, y
se propusieron unas pautas básicas para el desarrollo y revisión de estudios instrumentales
(Carretero-Dios y Pérez, 2005). Sobre dichas pautas (Anexo 1) se asienta el presente
trabajo, haciendo ahora hincapié en el ejercicio responsable de toma de decisiones que debe
hacer todo investigador que pretenda hacer uso de tests ya disponibles, y por lo tanto
sometidos a análisis científico previo. Este estudio se inserta dentro de una marco más
general que se ocupa de la estandarización de los procederes científicos presentes en sus
distintos ámbitos de acción (Blanton y Jaccard, 2006; Botella y Gambara, 2006; Ramos-
Álvarez, Valdés-Conroy y Catena, 2006).
molecular con variables que requieren un menor nivel de inferencia tales como la ingesta de
alcohol o la agresión física” (Haynes, Richard y Kubany, 1995, p. 239). A pesar de esta
definición, debe tenerse en cuenta que las variables objeto de evaluación dentro de la
Psicología son fundamentalmente constructos que hacen referencia a atributos de carácter
general de las personas evaluadas, y para los que se requiere una aproximación a su
definición que permita tratar con un nivel de especificidad del constructo mucho más
concreto. Esto, tal y como se verá a continuación, tiene importantes implicaciones para la
selección de los tests, y en concreto para la fase en la que se tiene que analizar la definición
aportada de los constructos evaluados.
A continuación se presentan las recomendaciones a tener en cuenta para la selección
de tests. Estas recomendaciones van a desarrollarse en seis apartados, cada uno de los
cuales corresponde a una etapa crucial dentro del proceso de construcción/adaptación de
tests (véase su desarrollo en Carretero-Dios y Pérez, 2005 o un resumen en Anexo 1). Por
ello, el investigador debería hacer un análisis de dichas etapas, y delimitar cómo éstas
quedan reflejadas en los instrumentos con los que pretenda trabajar. La estructuración del
trabajo parte del supuesto de que la persona encargada de la selección de un test ha
considerado, y en primer lugar, el objetivo de evaluación y el para qué de ésta. Por ello, la
exposición se centra a partir del momento en el que el involucrado en la selección de un test
se encuentra con distintas alternativas posibles para un mismo objetivo de evaluación y uso
previsto de las puntuaciones. De esta forma, los apartados que van a guiar la presentación
son: a) delimitación conceptual del constructo objeto de evaluación; b) información sobre la
construcción y evaluación cualitativa de ítems; c) resultados del análisis estadístico de los
ítems; d) evidencias empíricas de la estructura interna de la prueba; e) resultados de la
estimación de la fiabilidad; y f) evidencias externas de la validez de la puntuaciones.
originales, o bien sus posibles adaptaciones, al seleccionar un test debería tenerse en cuenta
si se parte de la denominada tabla de especificaciones del test (Spaan, 2006).
Lord y Novick (1968) también subrayaron la relevancia de especificar una vez
operativizado el construco, la definición sintáctica de la variable o relaciones esperadas
entre el constructo evaluado y otros constructos o indicadores. Al seleccionar un
instrumento se debe tener en cuenta que lo que finalmente le va a dar significado o utilidad
a unas puntuaciones es el entramado de relaciones contrastadas. Por ello, dichas relaciones
deben plantearse a modo de hipótesis a verificar, lo que finalmente posibilitará obtener las
evidencias externas de validez del instrumento, elemento esencial de su validez de
constructo (Smith, 2005).
Para resumir este apartado se insiste en que el autor o autores de una investigación
que han hecho uso de un determinado test deben dejar constancia de que a la hora de
seleccionar éste han atendido a la definición operativa del constructo de interés y a cómo se
ha llegado a ésta, considerando además que dicha definición está insertada en un entramado
teórico de relaciones, el cual permite asignarle significado al trabajo que se haga con la
escala.
seguido las recomendaciones existentes sobre este proceso de traducción (Balluerka et al.,
2007; Hambleton, 1994, 1996; Hambleton y Jong, 2003; Gordon, 2004), sin olvidar la
necesaria equivalencia conceptual entre los ítems originales y traducidos.
Deberá observarse si creados los ítems, las instrucciones de la escala y demás
aspectos formales del futuro instrumento, los autores sometieron a evaluación dichos
aspectos con la intención de detectar fallos en las instrucciones, ítems mal redactados, etc.
Además, téngase en cuenta que al usar un test debemos tener datos que permitan concluir
que sus ítems resultan relevantes desde un punto de vista teórico para los componentes del
constructo (Clark y Watson, 2003). Por ello, debería estudiarse si el test sobre el que se está
interesado proporciona información que asegure que los ítems creados son teóricamente
pertinentes para cada componente, y si éstos están representados por una proporción de
ítems adecuada, es decir, si los autores del instrumentos proporcionan resultados sobre la
validez de contenido del test (Armstrong, Cohen, Eriksen y Cleeland, 2005; Haynes et al.,
1995). En este proceso de valoración de los aspectos formales del tests, y de la relevancia
teórica de los ítems, normalmente se produce una eliminación determinada de elementos. A
la hora de seleccionar un test es importante corroborar que los autores informan sobre qué
se ha eliminado y porqué, ya que da información valiosa sobre lo que se queda y sobre la
estrategia seguida.
en la coherencia aparente que presentan los ítems. Para poder concluir esto, se hace
necesario constatar que se ha usado algún procedimiento que permita evaluar
empíricamente la estructura interna de la escala. Si los autores del instrumento parten de
una definición clara del constructo y de sus componentes, al inspeccionar el test se debe
corroborar que se ha usado una estrategia dirigida a contrastar la hipótesis del investigador
basada en cómo deben de agruparse los ítems.
Tradicionalmente, y desde un punto de vista empírico, la tarea dirigida a explorar la
estructura interna de un test ha sido llevada a cabo a través de la aplicación del análisis
factorial (Floyd y Widaman, 1995). A la hora de seleccionar una prueba, se debería al
menos estar familiarizado con los pormenores de esta técnica. Hay varios trabajos que han
tratado el uso inadecuado e irreflexivo de análisis factorial o temáticas relacionadas (e.g.
Batista-Foguet, Coenders y Alonso, 2004; Elosua, 2005; Ferrando, 1996) siendo un clásico
el apartado “cómo engañarse a uno mismo con el análisis factorial” (Nunnally y Bernstein,
1995 pp. 599-601). Así, a la hora de seleccionar una prueba debería tenerse en cuenta esta
información, y hacer una valoración crítica tanto de los resultados encontrados como del
proceso de aplicación seguido.
En otro lugar (Carretero-Dios y Pérez, 2005) ya insistimos en subrayar que el
análisis factorial exploratorio no entiende de Psicología. El análisis sólo “agrupa”
correlaciones similares, pero conviene resaltar que la agrupación puede ser debida a más
elementos que los propiamente conceptuales, como por ejemplo el formato y tipo de ítems.
“Se recuerda que la técnica debe estar sometida a los intereses conceptuales, y que un
agrupamiento de ítems es sólo eso, un agrupamiento, y que aunque empíricamente
relevante, puede carecer de significado psicológico. Los factores “no psicológicos” que
pueden hacer que unos ítems aparezcan juntos son tantos, que la aplicación de esta técnica
de análisis en el vacío teórico es totalmente improductiva e ineficaz” (Carretero-Dios y
Pérez, 2005, p. 536). Por lo anterior, al seleccionar un test debe apreciarse que la aplicación
de los análisis factoriales ha estado sujeta a premisas teóricas sobre la dimensionalidad
subyacente a los ítems usados. Además, debería apreciarse una contrastación de la
dimensionalidad de la prueba a través de muestras distintas (Elosua, 2005).
sea “consistente” a través de los ítems, pero que lo que refleje este resultado sea una
consistencia a través de ítems que se conectan más con un factor denominado “formato del
instrumento”, que con el concepto subyacente teóricamente supuesto. Además, esta
problemática podría vincularse a los valores “artificialmente” altos que pueden encontrarse
a través del alfa de Cronbach, que los investigadores suelen juzgar como algo muy positivo,
y que sin embargo servirían para poner de manifiesto un grave problema de representación
del constructo por parte de los ítems (consultar la ya clásica problemática de la denominada
paradoja de la atenuación, Loevinger, 1957). “En psicología, valores de consistencia interna
entorno a 0,95 pondrían de manifiesto más un problema de infra-representación del
constructo y validez deficiente, que de adecuada fiabilidad” (Carretero-Dios y Pérez, 2005
p. 541).
Usando valores que puedan servir de guía, que no de constatación irreflexiva, se
podría afirmar que índices de fiabilidad situados alrededor de 0,70 resultarían adecuados si
el objetivo de la escala es la investigación. Cuando el objetivo del test es el diagnóstico o
clasificación, el valor mínimo aconsejado debe situarse entorno a 0,80 (Nunnally y
Bernstein, 1995).
conocimiento sobre el constructo medido, aspectos a los que debe ser igualmente sensible el
responsable de la selección de un test.
Conclusiones
El uso de un test u otro para ser usado en una investigación resulta una problemática
de suma importancia. Con la intención de discutir sobre las posibles dificultades que pueden
aparecer en este proceso de selección de tests, y con la idea de clarificar algunas directrices
que ayuden a realizar dicha selección, se ha escrito este trabajo. Sin embargo, las directrices
propuestas más que convertirse en una guía esquemática y concreta de aplicación, buscan
ser una herramienta que conduzca a la reflexión sobre ciertos elementos y que hagan
sopesar de manera más mesurada algunas de las decisiones. Un investigador jamás podrá
llegar a unas conclusiones rigurosas si la materia prima que usa para plantear éstas son
puntuaciones ofrecidas por instrumentos deficientes. De igual forma, y por la propia ética
que define la actividad científica, el responsable de un estudio no puede contentarse con el
hecho de haber usado un test con cierto respaldo psicométrico y con unas garantías
científicas suficientes. Por el contrario, debe haber una información de base que asegure que
ha usado la mejor opción posible de entre todas las que estaban en su conocimiento.
Un informe de investigación de una revista científica al uso tiene un espacio
restringido. La justificación de por qué un instrumento y no otro rebasaría este espacio, y
por ende resultaría inviable el tratamiento exhaustivo de las razones que han llevado a
trabajar con un test y no con otro. Sin embargo, esto no es óbice para que el autor o autores
de un trabajo de investigación hagan uso del esquema presentado o de cualquier otro que
garantice una selección científica de los tests. Así, y al igual que en otros apartados de un
informe se obvia información para simplemente señalar un procedimiento seguido o
estrategia empleada, en este campo de la selección de tests los editores de las publicaciones
científicas y los revisores deberían insistir en que los autores de un trabajo indiquen al
menos los criterios seguidos para seleccionar los instrumentos y dónde estos criterios
pueden ser tratados con más detenimiento. Resulta sorprendente encontrar en muchas
revistas científicas, y dentro del apartado instrumentos, un mero listado de escalas, y para
las que se informa como mucho de su fiabilidad y de algunas referencias donde éstas se han
aplicado para ser estudiadas. Junto a la indicación de las escalas empleadas se reclama que
deba haber una pregunta que sirva de hilo conductor del apartado citado: ¿por qué estos
tests y no otros? Pregunta que debería poder ser contestada por los autores de cualquier
trabajo científico donde se haga uso de tests de evaluación psicológica.
Referencias
AERA, APA y NCME, (1999). Standards for educational and psychological tests. Washington
DC: American Psychological Association, American Educational Research Association,
National Council on Measurement in Education.
Armstrong, T.S., Cohen, M.Z., Eriksen, L. y Cleeland, C. (2005). Content validity of self-report
measurement instruments: An illustration from the development of the Brain Tumor
Module of the M.D. Anderson Symptom Inventory. Oncology Nursing Forum, 32, 669-
676.
Batista-Foguet, J.M., Coenders, G. y Alonso, J. (2004). Análisis factorial confirmatorio. Su
utilidad en la validación de cuestionarios relacionados con la salud. Medicina Clínica,
122, 21-27.
teóricas.
D.11. Se especifica claramente que ítems son eliminados y por qué.
D.12. Los ítems seleccionados quedan claramente delimitados.
adecuado.
E.22. Para el diagnóstico del modelo el autor usa simultáneamente
varios índices.
E.23. En el trabajo se informa sobre el por qué de los índices
seleccionados y cuáles van a ser los valores de corte a
considerar para estimar la bondad de ajuste del modelo.
E.24. En el trabajo se presentan con claridad los resultados para los
distintos índices de bondad de ajuste.
E.25. Si el autor hace modificaciones para mejorar el ajuste, las
decisiones están claramente fundamentadas (teóricas y
empíricamente), y aparecen con claridad en el estudio.
E.26. El autor presenta el diagrama (path diagram) donde aparece
la distribución de los ítems por factor, el “grado” en el que
cada uno de éstos es predicho por el factor de pertenencia, y en
general todos los parámetros considerados relevantes en la
especificación inicial del modelo.
Tablas
Psicometría Aplicada II
31 07 67 27 68 13 66 73 01 24 99 18 43 42 43 74 30 45 58 02 20 80 43 54 61 71 74 12 01 72 21 16 23 24 78 65 82 71 36 09 54 79 65 68 23 34 56 45 90 32 71 94 27 24 79
27 15 20 11 04 64 42 72 35 39 07 81 55 08 88 54 29 56 18 61 89 28 09 69 26 38 91 31 39 69 32 99 46 41 92 34 34 82 81 52 19 57 37 03 87 28 52 74 63 47 07 75 20 53 08
04 28 66 88 54 79 55 93 91 14 59 50 04 53 32 13 01 45 25 36 81 52 95 52 43 87 78 68 05 56 47 22 38 07 89 95 38 96 89 25 64 78 83 21 30 26 24 90 48 93 88 19 77 21 28
40 10 30 46 32 96 92 87 14 22 76 06 43 58 42 09 08 90 03 19 01 11 72 17 07 26 11 06 55 70 63 27 03 71 71 72 94 38 48 84 56 96 70 38 02 50 87 91 27 17 96 36 71 04 58
40 17 68 33 69 78 18 82 17 38 29 76 41 91 58 12 35 38 24 96 02 29 85 11 64 17 59 06 42 31 74 44 16 15 01 11 06 36 92 92 37 80 21 11 56 19 16 04 05 90 15 62 46 97 25
45 02 93 49 36 57 14 63 23 33 36 58 17 34 97 08 06 92 07 98 13 54 67 27 47 71 43 91 66 84 78 68 37 01 56 98 89 29 11 25 21 93 63 54 36 98 36 21 61 48 29 78 94 52 06
86 87 62 32 58 99 74 03 50 09 09 53 39 99 70 29 78 69 85 22 06 18 40 83 37 11 60 29 43 14 45 29 85 73 48 38 72 63 97 47 79 91 05 57 80 96 48 71 52 54 24 03 63 53 63
24 61 50 55 58 20 80 81 99 12 35 17 96 21 86 16 96 60 49 65 56 70 26 07 31 29 92 88 28 72 37 21 93 67 09 27 91 09 22 02 34 53 78 80 11 46 81 50 12 72 79 30 62 06 91
31 78 74 38 79 77 41 13 54 51 54 94 13 38 60 86 40 90 32 90 33 11 58 70 22 30 97 19 10 56 45 86 64 63 27 35 21 83 54 30 17 14 12 73 98 67 29 67 73 43 93 29 66 61 59
51 72 89 94 52 20 15 04 83 19 66 49 94 65 64 33 32 89 65 20 73 70 75 01 62 83 81 20 36 92 39 20 26 55 03 60 21 60 63 97 16 33 86 46 67 20 50 75 93 32 45 36 60 65 88
11 19 23 16 14 85 46 56 10 65 92 28 79 51 91 52 54 20 89 05 88 74 90 47 74 50 56 91 39 19 86 46 63 91 81 79 72 29 22 19 35 05 85 18 17 61 46 14 56 60 69 58 06 01 15
54 03 78 12 78 76 05 73 53 26 51 13 63 39 29 05 21 74 48 36 33 45 91 86 16 02 63 39 98 11 63 75 44 33 65 93 45 71 96 34 55 72 40 99 52 35 09 43 12 92 77 51 35 79 37
53 06 16 91 04 93 27 09 56 86 36 70 83 03 97 32 61 38 22 70 15 89 38 80 62 35 58 64 92 47 39 51 93 52 22 12 80 12 72 83 05 55 10 19 49 27 11 25 26 30 66 63 04 26 51
60 84 63 82 17 05 98 52 01 04 32 32 71 36 63 63 36 67 47 33 75 20 70 98 71 13 74 85 89 15 16 81 29 60 74 52 06 20 73 54 67 77 92 78 53 27 27 11 04 54 22 80 53 52 45
23 52 16 24 51 69 75 04 15 10 24 85 85 26 08 53 66 72 34 97 85 30 77 83 59 95 16 34 92 92 05 16 81 41 51 28 85 94 90 92 64 71 38 41 39 43 22 61 70 06 16 77 80 90 33
Abril - 2018
37 25 45 47 27 18 10 67 80 50 22 48 37 23 38 25 65 37 63 04 42 40 72 20 25 71 58 06 43 18 40 31 08 30 06 13 03 51 85 97 73 82 70 89 71 91 25 25 42 65 93 51 43 56 62
05 39 08 67 48 80 67 77 13 05 91 66 48 50 76 31 02 79 85 07 65 07 87 31 59 76 03 79 84 74 90 49 53 70 07 60 99 86 38 46 61 66 03 62 92 39 37 69 40 22 92 36 51 42 04
05 25 22 85 69 81 71 39 45 65 07 35 06 20 40 04 85 07 14 33 93 38 21 74 62 06 42 21 85 95 49 46 56 94 97 30 91 30 69 42 33 19 33 57 63 84 05 82 17 82 33 75 84 85 86
12 53 46 57 22 81 85 85 42 37 36 30 70 34 07 17 56 01 85 72 69 99 37 09 14 97 76 20 91 81 15 90 47 87 24 41 96 41 84 22 50 76 46 44 34 11 92 49 48 09 09 77 43 45 09
Compendio - Prof. Enrique Morosini
79 25 28 60 30 75 62 61 41 42 73 50 56 05 80 45 90 59 82 69 85 96 81 33 39 55 74 50 76 82 29 88 91 50 84 33 57 98 99 06 75 77 17 56 97 66 21 79 57 99 01 19 15 37 69
77 48 70 48 75 32 04 98 84 94 51 38 05 47 28 24 87 78 99 76 63 10 51 37 30 19 95 84 91 02 60 50 52 35 64 65 22 56 78 56 35 92 49 96 80 12 94 50 95 07 22 93 80 20 43
58 99 24 23 06 23 32 72 74 39 94 79 43 75 71 72 71 42 66 40 72 08 71 62 03 01 93 45 41 91 61 88 87 55 26 43 93 58 30 65 58 01 46 75 07 37 77 42 69 85 07 72 34 32 02
20 64 71 70 34 27 46 85 08 01 01 43 26 91 68 19 86 92 98 14 31 13 30 85 64 91 41 88 52 09 36 21 07 32 95 47 42 38 71 59 25 01 86 89 75 93 98 68 44 99 98 49 52 75 46
32 83 93 14 46 58 47 82 11 30 57 47 38 07 33 29 94 93 91 08 93 80 49 72 63 74 21 84 09 60 99 10 05 68 46 05 96 25 37 31 69 54 15 30 44 19 03 87 16 62 89 73 16 68 48
39 95 16 72 34 94 70 26 22 89 31 56 08 06 65 06 04 03 22 06 96 70 58 79 15 42 15 67 23 86 40 21 82 17 96 22 18 21 99 22 08 97 72 23 40 80 66 77 88 33 09 31 16 25 14
95 55 74 67 20 13 71 16 76 81 94 25 31 12 99 49 04 64 31 86 10 33 58 26 34 71 95 51 62 89 52 93 92 44 76 99 33 76 69 03 83 89 10 26 54 78 03 59 69 94 57 50 43 73 28
98 04 36 79 83 52 67 33 46 73 93 85 65 62 59 79 15 89 24 21 39 55 02 18 67 15 61 87 52 45 41 49 59 37 16 29 18 85 97 26 70 24 33 53 27 01 82 70 76 45 21 39 22 50 36
77 30 21 22 43 95 63 57 19 75 11 39 65 22 58 42 29 23 81 60 43 05 38 60 12 66 92 32 03 51 77 95 02 52 22 23 95 06 30 36 23 66 81 23 18 67 99 96 37 20 67 97 12 36 30
09 14 64 23 92 07 60 39 91 80 11 32 44 35 95 90 67 10 47 02 44 36 20 08 18 79 86 28 91 96 61 03 88 57 66 11 24 85 59 16 68 20 07 15 52 14 25 29 26 74 32 11 63 56 20
70 78 15 49 74 23 22 30 01 91 19 86 10 18 58 74 50 31 28 57 98 23 25 20 71 66 25 13 90 55 61 07 09 38 67 71 49 08 19 19 52 96 16 69 06 17 48 94 43 01 71 54 92 90 09
50 63 51 60 61 06 13 47 76 71 12 97 03 03 75 35 48 57 36 19 52 25 16 87 03 07 38 85 94 42 84 09 61 38 22 06 05 64 55 58 47 23 39 34 60 90 57 13 18 54 28 27 58 94 21
58 83 51 53 25 54 96 73 29 70 30 83 58 51 80 14 46 73 82 25 22 18 02 71 75 23 61 11 95 50 75 98 08 32 84 62 73 61 36 97 51 69 09 18 34 37 79 05 61 76 07 35 94 79 38
08 83 45 17 67 51 74 75 81 43 88 36 46 92 68 76 04 77 24 65 75 26 62 76 83 39 27 91 99 09 44 48 47 02 91 86 32 80 47 91 47 36 91 88 79 54 83 68 24 91 19 58 15 99 90
43 15 63 24 72 94 62 59 91 31 10 19 94 63 49 77 97 63 25 04 52 27 90 98 70 95 04 34 33 36 79 91 57 68 10 63 30 92 38 04 76 92 31 55 84 05 08 49 33 67 30 52 86 82 33
227
46 98 84 72 84 95 41 69 05 93 64 83 62 71 35 13 30 13 06 40 63 29 40 20 02 06 94 35 37 73 90 05 42 20 95 36 64 82 29 54 37 13 08 32 50 90 59 47 63 46 33 55 41 06 96
Números generados con soporte informático (LibreOffice) siguiendo el formato de RAND Corporation
Compendio - Prof. Enrique Morosini
FUNCIÓN DE DISTRIBUCIÓN NORMAL Z "Norm(media = 0, desv. típica = 1)"
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-4,0 0,00003 0,00003 0,00003 0,00003 0,00003 0,00003 0,00002 0,00002 0,00002 0,00002
-3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003
-3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005
-3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008
-3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011
-3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017
-3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024
-3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035
-3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050
-3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071
-3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100
-2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
-2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
-2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
-2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
-2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
-2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
-2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
-2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
-2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
-2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
-1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
-1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
-1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
-1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
-1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
-1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
-1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08691 0,08534 0,08379 0,08226
-1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
-1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
-1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
-0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
-0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
-0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
-0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
-0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
-0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
-0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
-0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
-0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
-0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414
Nota: En el interior de la tabla se presenta la probabilidad de que la variable aletoria Z, con distribución N(0;1), esté por debajo del valor z.
Psicometría Aplicada II Abril - 2018 228
Compendio - Prof. Enrique Morosini
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
4,0 0,99997 0,99997 0,99997 0,99997 0,99997 0,99997 0,99998 0,99998 0,99998 0,99998
Nota: En el interior de la tabla se presenta la probabilidad de que la variable aletoria Z, con distribución N(0;1), esté por debajo del valor z.
Psicometría Aplicada II Abril - 2018 229
Compendio - Prof. Enrique Morosini
9 1,383029 1,833113 2,262157 2,821438 3,249836 4,780913
10 1,372184 1,812461 2,228139 2,763769 3,169273 4,586894
11 1,363430 1,795885 2,200985 2,718079 3,105807 4,436979
12 1,356217 1,782288 2,178813 2,680998 3,054540 4,317791
13 1,350171 1,770933 2,160369 2,650309 3,012276 4,220832
14 1,345030 1,761310 2,144787 2,624494 2,976843 4,140454
15 1,340606 1,753050 2,131450 2,602480 2,946713 4,072765
16 1,336757 1,745884 2,119905 2,583487 2,920782 4,014996
17 1,333379 1,739607 2,109816 2,566934 2,898231 3,965126
18 1,330391 1,734064 2,100922 2,552380 2,878440 3,921646
19 1,327728 1,729133 2,093024 2,539483 2,860935 3,883406
20 1,325341 1,724718 2,085963 2,527977 2,845340 3,849516
21 1,323188 1,720743 2,079614 2,517648 2,831360 3,819277
22 1,321237 1,717144 2,073873 2,508325 2,818756 3,792131
23 1,319460 1,713872 2,068658 2,499867 2,807336 3,767627
24 1,317836 1,710882 2,063899 2,492159 2,796940 3,745399
25 1,316345 1,708141 2,059539 2,485107 2,787436 3,725144
26 1,314972 1,705618 2,055529 2,478630 2,778715 3,706612
27 1,313703 1,703288 2,051831 2,472660 2,770683 3,689592
28 1,312527 1,701131 2,048407 2,467140 2,763262 3,673906
29 1,311434 1,699127 2,045230 2,462021 2,756386 3,659405
30 1,310415 1,697261 2,042272 2,457262 2,749996 3,645959
35 1,306212 1,689572 2,030108 2,437723 2,723806 3,591147
40 1,303077 1,683851 2,021075 2,423257 2,704459 3,550966
45 1,300649 1,679427 2,014103 2,412116 2,689585 3,520251
50 1,298714 1,675905 2,008559 2,403272 2,677793 3,496013
100 1,290075 1,660234 1,983972 2,364217 2,625891 3,390491
1000 1,282399 1,646379 1,962339 2,330083 2,580755 3,300283
2000 1,281975 1,645616 1,961151 2,328214 2,578290 3,295398
5000 1,281721 1,645158 1,960439 2,327094 2,576813 3,292474
1
2
161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 244,7 245,4 245,9 246,5 246,9 247,3 247,7 248,0
Psicometría Aplicada II
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,43 19,44 19,44 19,44 19,45
4
10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786 8,763 8,745 8,729 8,715 8,703 8,692 8,683 8,675 8,667 8,660
5
7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,936 5,912 5,891 5,873 5,858 5,844 5,832 5,821 5,811 5,803
6
6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,704 4,678 4,655 4,636 4,619 4,604 4,590 4,579 4,568 4,558
7
5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,027 4,000 3,976 3,956 3,938 3,922 3,908 3,896 3,884 3,874
8
5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,603 3,575 3,550 3,529 3,511 3,494 3,480 3,467 3,455 3,445
9
5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,313 3,284 3,259 3,237 3,218 3,202 3,187 3,173 3,161 3,150
10
5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,102 3,073 3,048 3,025 3,006 2,989 2,974 2,960 2,948 2,936
11
4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,943 2,913 2,887 2,865 2,845 2,828 2,812 2,798 2,785 2,774
12
4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,818 2,788 2,761 2,739 2,719 2,701 2,685 2,671 2,658 2,646
13
4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,717 2,687 2,660 2,637 2,617 2,599 2,583 2,568 2,555 2,544
14
4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,635 2,604 2,577 2,554 2,533 2,515 2,499 2,484 2,471 2,459
15
Abril - 2018
4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,565 2,534 2,507 2,484 2,463 2,445 2,428 2,413 2,400 2,388
16
4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,507 2,475 2,448 2,424 2,403 2,385 2,368 2,353 2,340 2,328
17
4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,456 2,425 2,397 2,373 2,352 2,333 2,317 2,302 2,288 2,276
18
Compendio - Prof. Enrique Morosini
4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450 2,413 2,381 2,353 2,329 2,308 2,289 2,272 2,257 2,243 2,230
19
4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,374 2,342 2,314 2,290 2,269 2,250 2,233 2,217 2,203 2,191
20
4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378 2,340 2,308 2,280 2,256 2,234 2,215 2,198 2,182 2,168 2,155
21
4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,310 2,278 2,250 2,225 2,203 2,184 2,167 2,151 2,137 2,124
22
4,325 3,467 3,072 2,840 2,685 2,573 2,488 2,420 2,366 2,321 2,283 2,250 2,222 2,197 2,176 2,156 2,139 2,123 2,109 2,096
23
4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297 2,259 2,226 2,198 2,173 2,151 2,131 2,114 2,098 2,084 2,071
24
4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 2,275 2,236 2,204 2,175 2,150 2,128 2,109 2,091 2,075 2,061 2,048
25
4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255 2,216 2,183 2,155 2,130 2,108 2,088 2,070 2,054 2,040 2,027
26
4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 2,236 2,198 2,165 2,136 2,111 2,089 2,069 2,051 2,035 2,021 2,007
27
4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220 2,181 2,148 2,119 2,094 2,072 2,052 2,034 2,018 2,003 1,990
28
4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 2,204 2,166 2,132 2,103 2,078 2,056 2,036 2,018 2,002 1,987 1,974
30
231
4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 2,177 2,138 2,104 2,075 2,050 2,027 2,007 1,989 1,973 1,958 1,945
4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165 2,126 2,092 2,063 2,037 2,015 1,995 1,976 1,960 1,945 1,932
Material preparado para la Cátedra de Introducción a la Investigación Científica ‐ Psicología ‐ 2do. Curso, 3ra. Sección ‐ Año 2016 ‐ Prof. Enrique Morosini ‐ [prbaF**]
Valores críticos para la distribución F correspondiente al área con P = 0,05, a la derecha de la curva
Valor p
0,05 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Grados de libertad en el numerador (comparaciones "entre" tratamientos: gl = k ‐ 1)
31
32
4,160 3,305 2,911 2,679 2,523 2,409 2,323 2,255 2,199 2,153 2,114 2,080 2,051 2,026 2,003 1,983 1,965 1,948 1,933 1,920
33
4,149 3,295 2,901 2,668 2,512 2,399 2,313 2,244 2,189 2,142 2,103 2,070 2,040 2,015 1,992 1,972 1,953 1,937 1,922 1,908
Psicometría Aplicada II
34
4,139 3,285 2,892 2,659 2,503 2,389 2,303 2,235 2,179 2,133 2,093 2,060 2,030 2,004 1,982 1,961 1,943 1,926 1,911 1,898
35
4,130 3,276 2,883 2,650 2,494 2,380 2,294 2,225 2,170 2,123 2,084 2,050 2,021 1,995 1,972 1,952 1,933 1,917 1,902 1,888
40
4,121 3,267 2,874 2,641 2,485 2,372 2,285 2,217 2,161 2,114 2,075 2,041 2,012 1,986 1,963 1,942 1,924 1,907 1,892 1,878
45
4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077 2,038 2,003 1,974 1,948 1,924 1,904 1,885 1,868 1,853 1,839
50
4,057 3,204 2,812 2,579 2,422 2,308 2,221 2,152 2,096 2,049 2,009 1,974 1,945 1,918 1,895 1,874 1,855 1,838 1,823 1,808
55
4,034 3,183 2,790 2,557 2,400 2,286 2,199 2,130 2,073 2,026 1,986 1,952 1,921 1,895 1,871 1,850 1,831 1,814 1,798 1,784
60
4,016 3,165 2,773 2,540 2,383 2,269 2,181 2,112 2,055 2,008 1,968 1,933 1,903 1,876 1,852 1,831 1,812 1,795 1,779 1,764
65
4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993 1,952 1,917 1,887 1,860 1,836 1,815 1,796 1,778 1,763 1,748
70
3,989 3,138 2,746 2,513 2,356 2,242 2,154 2,084 2,027 1,980 1,939 1,904 1,874 1,847 1,823 1,802 1,782 1,765 1,749 1,734
75
3,978 3,128 2,736 2,503 2,346 2,231 2,143 2,074 2,017 1,969 1,928 1,893 1,863 1,836 1,812 1,790 1,771 1,753 1,737 1,722
80
3,968 3,119 2,727 2,494 2,337 2,222 2,134 2,064 2,007 1,959 1,919 1,884 1,853 1,826 1,802 1,780 1,761 1,743 1,727 1,712
85
3,960 3,111 2,719 2,486 2,329 2,214 2,126 2,056 1,999 1,951 1,910 1,875 1,845 1,817 1,793 1,772 1,752 1,734 1,718 1,703
90
Abril - 2018
3,953 3,104 2,712 2,479 2,322 2,207 2,119 2,049 1,992 1,944 1,903 1,868 1,837 1,810 1,786 1,764 1,744 1,726 1,710 1,695
95
3,947 3,098 2,706 2,473 2,316 2,201 2,113 2,043 1,986 1,938 1,897 1,861 1,830 1,803 1,779 1,757 1,737 1,720 1,703 1,688
100
3,941 3,092 2,700 2,467 2,310 2,196 2,108 2,037 1,980 1,932 1,891 1,856 1,825 1,797 1,773 1,751 1,731 1,713 1,697 1,682
110
3,936 3,087 2,696 2,463 2,305 2,191 2,103 2,032 1,975 1,927 1,886 1,850 1,819 1,792 1,768 1,746 1,726 1,708 1,691 1,676
Compendio - Prof. Enrique Morosini
120
3,927 3,079 2,687 2,454 2,297 2,182 2,094 2,024 1,966 1,918 1,877 1,841 1,810 1,783 1,758 1,736 1,716 1,698 1,682 1,667
130
3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,869 1,834 1,803 1,775 1,750 1,728 1,709 1,690 1,674 1,659
140
3,914 3,066 2,674 2,441 2,284 2,169 2,081 2,010 1,953 1,904 1,863 1,827 1,796 1,769 1,744 1,722 1,702 1,684 1,667 1,652
150
3,909 3,061 2,669 2,436 2,279 2,164 2,076 2,005 1,947 1,899 1,858 1,822 1,791 1,763 1,738 1,716 1,696 1,678 1,661 1,646
200
3,904 3,056 2,665 2,432 2,274 2,160 2,071 2,001 1,943 1,894 1,853 1,817 1,786 1,758 1,734 1,711 1,691 1,673 1,656 1,641
300
3,888 3,041 2,650 2,417 2,259 2,144 2,056 1,985 1,927 1,878 1,837 1,801 1,769 1,742 1,717 1,694 1,674 1,656 1,639 1,623
400
3,873 3,026 2,635 2,402 2,244 2,129 2,040 1,969 1,911 1,862 1,821 1,785 1,753 1,725 1,700 1,677 1,657 1,638 1,621 1,606
500
3,865 3,018 2,627 2,394 2,237 2,121 2,032 1,962 1,903 1,854 1,813 1,776 1,745 1,717 1,691 1,669 1,648 1,630 1,613 1,597
600
3,860 3,014 2,623 2,390 2,232 2,117 2,028 1,957 1,899 1,850 1,808 1,772 1,740 1,712 1,686 1,664 1,643 1,625 1,607 1,592
700
3,857 3,011 2,620 2,387 2,229 2,114 2,025 1,954 1,895 1,846 1,805 1,768 1,736 1,708 1,683 1,660 1,640 1,621 1,604 1,588
800
900
3,853 3,007 2,616 2,383 2,225 2,110 2,021 1,950 1,892 1,843 1,801 1,764 1,732 1,704 1,679 1,656 1,636 1,617 1,600 1,584
1000
232
3,852 3,006 2,615 2,382 2,224 2,109 2,020 1,949 1,890 1,841 1,799 1,763 1,731 1,703 1,678 1,655 1,634 1,615 1,598 1,582
3,851 3,005 2,614 2,381 2,223 2,108 2,019 1,948 1,889 1,840 1,798 1,762 1,730 1,702 1,676 1,654 1,633 1,614 1,597 1,581
Material preparado para la Cátedra de Introducción a la Investigación Científica ‐ Psicología ‐ 2do. Curso, 3ra. Sección ‐ Año 2016 ‐ Prof. Enrique Morosini ‐ [prbaF**]