Material Psicometria Aplicada II - 2018 PDF

Compendio bibliográ fico
Psicometrı́a Aplicada II
Prof. Enrique Morosini
5to. Curso, 1ra. Sección

Psicología
Facultad de Filosofía – UNA
Asunción, 2018
Compendio - Prof. Enrique Morosini
Índice de Contenidos
La Medición de lo Psicológico................................................................................................................ 3
José Muñiz
Psicometría (Teoría de la medición y escalamiento psicológico) ......................................... 24

Vicente González-Romá
- Tema 2: Introducción a la Teoría de la Medición............................................................. 25

- Tema 3: Introducción a los métodos de escalamiento .................................................. 30
- Tema 4: Método de escalamiento unidimensional de Thurstone ............................. 35
- Tema 5: Método de escalamiento unidimensional de Likert ...................................... 40
- Tema 6: Método de escalamiento unidimensional de Guttman ................................ 54
Introducción a la Psicometría: ........................................................................................................... 62

Teoría Clásica de los Tests y Teoría de Respuesta al ítem
Francisco J. Abad, Carmen García, Julio Olea y Vicente Ponsoda
- Tema I: Redacción y análisis de ítems .................................................................................. 65

- Tema II: Modelo clásico y concepto de fiabilidad ............................................................ 87
- Tema III: Fiabilidad del test ...................................................................................................... 99
- Tema IV: Validez del test ......................................................................................................... 119
- Tema V: Baremación de un test............................................................................................ 176
- Tema VI: Introducción a la Teoría de Respuesta al Ítem ........................................... 186
Normas para el desarrollo y revisión de estudios instrumentales: consideraciones

sobre la selección de tests en la investigación psicológica .............................................. 206
Hugo Carretero-Dios y Cristino Pérez
TABLAS:
- Tabla 1. Tabla de 2.200 números (pseudo)aleatorios ................................................ 227

- Tabla 2. Tabla de distribución de probabilidades de la curva normal ................ 228
- Tabla 3. Valores críticos para la prueba t de diferencia de medias ....................... 230
- Tabla 4. Valores críticos para la prueba F (ANOVA).................................................... 231
Psicometría Aplicada II Abril - 2018 2

Psicothema, 1998. Vol. 10, nº 1, pp. 1-21

ISSN 0214 - 9915 CODEN PSOTEG
LA MEDICIÓN DE LO PSICOLÓGICO
José Muñiz
Universidad de Oviedo
Se analiza la problemática implicada en la medición de las variables psicológicas,

y se comentan las soluciones aportadas por los diferentes enfoques psicométricos. En pri-
mer lugar, se subraya cómo las dificultades mayores para medir lo psicológico surgen de
esa naturaleza especial que tiene lo psicológico: una banda interactiva acotada por una ba-
se neurobiológica y un entorno sociocultural. Estas dificultades no fueron óbice para que
se haya ido afianzando en psicología una medición rigurosa, cuyos orígenes pueden ras-
trearse en los trabajos psicofísicos iniciados por Weber y Fechner y que se continúan con
el escalamiento psicológico, a partir de los trabajos pioneros de Thurstone. Otra gran lí-
nea de desarrollo de la medición sigue el rail de la teoría de los tests, cuyos inicios más
rigurosos se ubican en el modelo lineal clásico propuesto por Spearman. A la vez, los te-
óricos de la medición investigan los fundamentos de ésta, destacando dos líneas de avan-
ce: la aproximación clásica, iniciada por Stevens, y el enfoque representacional, surgido
a partir de los años sesenta. Se hace especial hincapié en el gran avance que ha supuesto
para la psicometría la aparición de la Teoría de Respuesta a los Items, enfoque que viene
a dar solución a determinados problemas de la medición que no encontraban una solución
apropiada dentro del marco clásico. Además, la teoría de respuesta a los ítems ha genera-
do nuevos avances tecnológicos para el análisis y construcción de los tests, entre los que
cabe destacar los Tests Adaptativos Computerizados y la Función de Información. Tam-
bién se comentan los problemas de la validez y el uso de los tests en la práctica.
Psychological measurement. This paper analyzes the principle issues involved in

the measurement of psychological variables along with various psychometric solutions
to these problems. First, emphasis is placed on the difficulties that arise in psychologi-
cal measurement due to the unique characteristics inherent in psychological events. The-
se intrinsic limitations, however, were not an obstacle to the development of a rigorous
empirical measurement tradition in psychology. This tradition originates in the psy-
chophysical works of Weber and Fechner as well as the classical test theory formulated
by Spearman. Moreover, two approaches to measurement theory, the classic one propo-
sed by Stevens and the representational view, investigate the logic and foundations of
measurement. This article pays special attention to the psychometric advances brought
by Item Response Theory, which resolves some of the problems not appropriately sol-
ved within the framework of classical test theory. Item response theory serves as the ba-
sis for new technologies to build and assess psychological and educational tests. Finally,
test validity and test use are discussed.
Correspondencia: José Muñiz

Universidad de Oviedo. Facultad de Psicología
Plaza de Feijoo
33003 Oviedo (Spain)
E-mail: jmuniz@sci.cpd.uniovi.es

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ
A grandes rasgos puede decirse que el que serán suficientes para comprender por
objetivo de la Psicología científica es el es- qué a veces la tecnología de la medición
tudio de la conducta humana y las leyes que psicológica se aleja de la metodología gene-
la rigen. Como ocurre con cualquier otra re- ral de la medición utilizada por las ciencias
alidad, para una comprensión adecuada de llamadas duras.
la conducta humana hay que entender tanto
sus aspectos cualitativos como cuantitati- Caracterización de lo psicológico
vos. A continuación trataré de exponer los
aspectos fundamentales implicados en la ¿Cuáles son las características esenciales
cuantificación y medición de las distintas que definen a lo psicológico como campo de
variables y factores que manejan los psicó- estudio? La conducta humana fermenta y se
logos, tanto en sus investigaciones como en desarrolla en una estrecha banda acotada por
la práctica profesional. No se trata de una una base neurobiológica y un entorno socio-
exposición técnica y exhaustiva, la situa- cultural. El yo psicológico, la individuali-
ción y el tiempo no lo permiten, pero sí de dad, la consciencia, y por ende la conducta,
subrayar las líneas centrales de la medición surgen de la interacción entre la estimula-
de los rasgos psicológicos y de los instru- ción ambiental y nuestra constitución bioló-
mentos más utilizados para ello, los tests. gica, pero no se explican ni se agotan en nin-
Medir es inherente a todas las ciencias, y guno de estos dos polos, son otra cosa. Pre-
la Psicología no es una excepción. Si bien cisamente es ése el campo interactivo en el
los principios generales de la teoría de la me- que se mueven los psicólogos, por eso no
dición son aplicables aquí como en el resto son ni biólogos, ni neurólogos, ni sociólo-
de los campos científicos, no es menos ver- gos, ni filósofos, son psicólogos. Cuando
dad que las peculiaridades de los objetos de desde la psicología se explica un determina-
estudio de algunos de estos campos imponen do fenómeno, ya sea una neurosis, una fobia,
determinadas especificidades a la lógica ge- el fracaso escolar o la inadaptación laboral,
neral, y ése es el caso de lo psicológico. se tienen en cuenta tanto los aspectos neuro-
El fin general de toda teoría de la medi- lógicos como los culturales, sociales y edu-
ción, trátese de la ciencia que se trate, es es- cativos, pero su explicación no se agota ni se
timar los errores aleatorios de las medicio- reduce a ninguno de esos ámbitos. Natural-
nes, pues toda medición, mayor o menor, mente, cuanto más avancen las ciencias afi-
conlleva un cierto error. Pero seguramente nes en las que se apoya la psicología tanto
estarán ustedes de acuerdo conmigo en que, mejor, pero eso no significa abogar por un
por ejemplo, no es lo mismo medir la dis- reduccionismo biológico o cultural. Los
tancia entre Oviedo y Gijón, cosa de la que avances en el conocimiento del cerebro ayu-
se ocupan nuestros colegas físicos, que me- dan sin duda a entender la psique y la con-
dir la distancia entre los ovetenses y los gi- ducta humanas, pero es ingenuo y erróneo
joneses, entre sus actitudes, valores, perso- pensar que, cuán glándula, el cerebro segre-
nalidad, etc., labor que ocupa a psicólogos, ga la psique, sencillamente no es así. Algo
sociólogos, antropólogos y otras ciencias parecido, salvando las distancias, a lo que
sociales. Por tanto, para entender cabalmen- ocurre con el software de los ordenadores,
te los problemas a los que se enfrentan los que está íntimamente relacionado con el
psicólogos al medir sus variables de estudio hardware, pero ni se explica ni se reduce a
es necesario tener en mente las singularida- él. ¿Es que alguien en su sano juicio cree que
des de su campo de estudio, de lo psicológi- podría entender todo lo que hacen los orde-
co. Diré dos palabras sobre ello, que creo nadores sólo estudiando su hardware? Evi-

dentemente, no, lo cual tampoco significa tervención tan variados como la Clínica,
que pueda prescindir de él. Trabajo, Educación, Deporte, Calidad de Vi-
Igual de erróneo es pensar que la con- da, Gerontología, Seguridad Vial, etc.
ducta humana venga completamente deter- Cada una de esas variables y campos de
minada por el entorno cultural y social; aplicación tiene su problemática específica,
afortunadamente pasaron los tiempos en los que sería vano intentar tratar aquí, sin em-
que aprendices de ingenieros sociales con- bargo, existen unos problemas generales en
fiaron en hallar un hombre nuevo con sólo la medición de lo psicológico que son inva-
modificar las circunstancias, qué ingenui- riantes a todos los campos y variables men-
dad, hoy sabemos de los nefastos resultados cionadas. En todos los casos, por un lado,
y del alto precio pagado. El ambiente exter- hay que estimar la cuantía de los errores co-
no está ahí, y es una variable clave en la mo- metidos al medir, y, por otro, hay que garan-
dulación de la conducta humana, pero nun- tizar que la medición no es baladí, que tiene
ca es el responsable final de ésta, nunca la entidad explicativa y predictiva. En otras pa-
determina completamente, el único respon- labras, hay que comprobar que las medicio-
sable es la persona. Si admitiésemos lo con- nes son fiables y válidas. Además de estas
trario, estaríamos negando de plano la liber- propiedades que deben de reunir todas las
tad, y, eliminada ésta, no queda lugar para la mediciones empíricas, los teóricos de la me-
dignidad y la responsabilidad, que brotan dición se ocupan de analizar y justificar de
directamente de ella. forma rigurosa el estatus métrico de las me-
Pues bien, en este ámbito peculiar e inte- diciones, contemplado a la luz de los avan-
ractivo, descrito a grandes rasgos, que carac- ces de la teoría de la medición. De esos tres
teriza a lo psicológico, no resulta sencillo grandes aspectos generales de la medición,
medir con rigor en sentido clásico, acorde fiabilidad, validez y fundamentos teóricos,
con los axiomas de Hölder (1901) y las pro- es de lo que nos ocuparemos aquí, pero an-
puestas ortodoxas de Campbell (1920, 1921, tes de entrar en ellos déjenme que diga unas
1928, 1938, 1940). Sin embargo, los psicó- palabras sobre cómo empezó todo, sobre los
logos miden sus variables y desarrollan so- orígenes de la medición psicológica.
fisticados instrumentos a tal efecto, los más
conocidos de los cuales para el público son Inicios de la medición
los tests, si bien los especialistas utilizan una
gama mucho más amplia en sus investiga- Los primeros intentos de medir con rigor
ciones e intervenciones. Y miden en campos los atributos psíquicos tuvieron lugar a fina-
muy diversos, según su área de especiali- les del siglo pasado en los laboratorios ale-
zación, que van desde los procesos más bá- manes, de la mano de Fechner (Fechner,
sicos, tales como los Tiempos de Reacción, 1860/1966), pionero de las investigaciones
Potenciales Evocados (Paz y Muñiz, 1989), sobre las relaciones entre la estimulación fí-
Tiempo de Inspección, Conductancia de la sica y las sensaciones psicológicas produci-
piel, etc., a los rasgos de personalidad, co- das por ésta. Para estudiar la conexión entre
mo Neuroticismo, Depresión, Psicoticismo, ambos continuos, el físico y el psicológico,
Autoconcepto, por citar algunos, o aspectos Fechner tenía que medir cada uno de ellos y
cognoscitivos, como la Inteligencia, Memo- luego establecer la relación correspondiente.
ria, Rapidez Perceptiva, Comprensión Ver- Si bien medir los estímulos físicos, tales co-
bal, etc., o variables más conectadas con la mo el peso, el sonido, la longitud, etc., no
esfera sociocultural como las actitudes y va- suponía ningún problema, se encontró con
lores. Y todo ello aplicado a campos de in- que no disponía de métodos para medir rigu-

rosamente las sensaciones, para lo cual desa- La tradición psicofísica llega hasta nues-
rrolló todo un conjunto de ellos, hoy clási- tros días, constituyendo un campo con gran-
cos, denominados métodos psicofísicos indi- des implicaciones aplicadas, piénsese, por
rectos (Baird, 1997; Baird y Noma, 1978; ejemplo, en la importancia de conocer con
Blanco, 1996; Falmage, 1985; Fechner, precisión los efectos del ruido, la luminosi-
1966; Gescheider, 1985; Muñiz, 1991). Ba- dad, sabores, olores, etc., sobre nuestro sis-
sándose en los trabajos previos de Weber, tema perceptivo. En la actualidad gran par-
Fechner estableció que la función que unía te de las investigaciones psicofísicas se lle-
la estimulación física con las sensaciones van a cabo dentro del marco general de la
psicológicas suscitadas obedece a una fun- Teoría de la Decisión y de la Teoría de la
ción logarítmica. Ello quiere decir que al au- Detección de Señales (Egan, 1975; Green y
mentar la estimulación física geométrica- Swets, 1966; Swets, 1996), un modelo desa-
mente las sensaciones lo hacen aritmética- rrollado originariamente por los ingenieros
mente. O, en otras palabras, que si bien al para la detección de señales con ruido de
principio al aumentar la estimulación física fondo, y que se ajusta bien a los humanos
aumenta rápidamente las sensaciones, éstas considerados como perceptores de señales.
van necesitando cada vez mayor incremento El sistema perceptivo humano es muy
de la estimulación física para experimentar peculiar, y la Teoría de la Detección de Se-
algún aumento. La misma ley había sido ob- ñales permite estudiar su funcionamiento
servada con anterioridad en el campo de la bajo diferentes condiciones. El nuestro no
economía entre el crecimiento de la fortuna es un sistema perceptivo “neutral”, pues
y el placer experimentado por el afortunado. aunque con determinados invariantes, viene
Este campo de estudio iniciado por Weber y influido en gran medida por las consecuen-
Fechner se denomina Psicofísica, pues, co- cias de lo percibido, por la “matriz de pa-
mo su nombre indica, trata de poner en co- gos” asociada a la situación perceptiva, es
nexión las sensaciones psicológicas con la decir, el mismo sistema perceptivo actúa de
estimulación física que las suscita. La ley de distinta forma en función de la situación
Fechner ha sido revisada por la Nueva Psi- perceptiva. Esta versatilidad permite inves-
cofísica (Stevens, 1961, 1975), que defiende tigar y mejorar situaciones aplicadas de to-
que la función que une ambos continuos, el do tipo en las que los humanos tienen que
físico y el psicológico, no es logarítmica si- tomar decisiones, siendo clave, por ejem-
no potencial. Para someter a prueba su hipó- plo, para una racionalización y optimiza-
tesis han propuesto todo un conjunto de nue- ción de las condiciones de trabajo. Piénsese,
vos métodos psicofísicos alternativos a los sin ir más lejos, en situaciones tales como,
de Fechner, denominados directos. ¿bajo qué condiciones se maximiza la per-
cepción de piezas defectuosas por un traba-
jador de control de calidad?, o ¿cuáles son
Leyes Psicofísicas las causas de la accidentabilidad de los tra-
bajadores en puestos aislados? Esas pregun-
Función Logarítmica (Fechner): S = C log E tas y otras sólo tienen respuesta correcta
Función Potencial (Stevens): S = K Eb cuando se conoce el funcionamiento del sis-
tema perceptivo humano bajo determinadas
donde: condiciones.
S: es la medida de la sensación producida Nuestras percepciones vienen con fre-
E: es la medida de la estimulación física cuencia condicionadas por sesgos cuyo es-
C, K y b son constantes a determinar tudio es sumamente importante, tanto a ni-

vel teórico como aplicado, para entender el de sumo interés. Pocos productos salen hoy
comportamiento humano. Les citaré un al mercado sin un estudio concienzudo de
ejemplo clásico de uno de estos sesgos, ima- las actitudes de los consumidores hacia
gínense una ciudad en la que hay dos hospi- ellos, y es que la relación calidad/precio no
tales, uno grande, en el que nacen al mes lo es todo, así que no conviene confiar cie-
unos doscientos bebés, cien niños y cien ni- gamente en nuestro querido refrán asturiano
ñas aproximadamente, y otro pequeño, en el de que “el buen pan en la masera se vende”.
que sólo nacen veinte al mes, diez niños y Seguramente todos ustedes tienen alguna
diez niñas, más o menos. Si les digo que el experiencia de primera mano de lo difícil
último mes en uno de los dos hospitales to- que resulta que las personas cambien sus ac-
dos los nacidos fueron niñas, ¿de qué hospi- titudes, y es que están formadas por una tra-
tal se trata? ¿del grande o del pequeño? No ma en la que información, razón y emoción
hace falta que contesten aquí en público, pe- se entretejen de forma compleja. La razón y
ro sé de buena tinta que una parte impor- la información son importantes para que se
tante de ustedes por una curiosa razón, bien produzca un cambio de actitudes, pero rara-
estudiada por los psicólogos, pensó que se mente son suficientes sin apelar a los aspec-
trataba del hospital grande, cuando en reali- tos emocionales. Por ejemplo, dada la infor-
dad es obvio que se trata del pequeño. Si en mación de la que disponemos hoy acerca de
un caso tan claro como éste ya hay proble- los efectos cancerígenos del tabaco sobre
mas, ¿qué no ocurrirá en nuestra vida dia- los que fuman y los que les rodean, nadie
ria? Por ejemplo, ¿por qué los vendedores medianamente informado debería osar tocar
de lotería agotan rápidamente los números un cigarrillo, sin embargo la realidad es
“bonitos” y les cuesta tanto vender los “fe- muy otra. Los psicólogos que diseñan las
os”, si es obvio que la probabilidad de que campañas antitabaco saben esto y en sus
salgan es exactamente la misma para todos? anuncios tratan más bien de tocar la fibra
Seguramente dirán algunos de ustedes, “es sensible que de introducir nueva informa-
que la gente no es lógica”, y naturalmente ción en el sistema. De nuevo aquí observa-
tienen razón, la gente no es lógica, y es que mos que la conducta se aleja de la lógica li-
la conducta humana responde a las leyes de neal, y es que como nos recordó certera-
la psicología y no de la lógica, por eso se mente Kant, nada estrictamente recto puede
ocupan de ella los psicólogos y no los ex- hacerse del torcido leño del que están he-
pertos en lógica. chos los humanos.
Otro campo de la medición psicológica Esta es a grandes rasgos una de las vías
en la que desembocan estos estudios psico- por las que ha entrado la medición en psico-
físicos es la medición de las actitudes, en logía, y cuyo objetivo es el escalamiento de
cuyo caso desaparece el continuo físico los estímulos, bien sea con referente físico
(Thurstone, 1927, 1928; Summers, 1970; (Psicofísica), o sin él (Actitudes). La otra
Triandis, 1971). Medir actitudes es averi- gran línea de progreso de la medición, mu-
guar las preferencias de las personas hacia cho más conocida para el público en general
determinados estímulos, bien sean objetos, es el escalamiento de los sujetos, es decir,
ideas o conceptos. Las actitudes constituyen los tests. El origen de éstos hay que ubicar-
un entramado clave para entender a los hu- lo en las primeras pruebas sensomotoras uti-
manos, son el cristal a través del que mira- lizadas por Galton (1822-1911) en su famo-
mos el mundo. Medir su fuerza, conocer su so laboratorio antropométrico de Kensing-
formación, su relación con la conducta y la ton. El primero en utilizar la palabra “test
manera de cambiarlas constituyen campos mental” será James McKeen Cattell (1860-

1944) en su artículo “Mental Tests and Me- diciones para que su uso sea el adecuado?
asurements” publicado en la revista Mind en Como ya se ha señalado, básicamente tres
1890. Un giro radical lo constituye la esca- propiedades: que sean fiables, que sean vá-
la individual construida por Binet y Simon lidas, y que estén bien fundamentadas teóri-
(1905) para la medición de la inteligencia, camente. Veamos cada una de ellas.
al introducir tareas de carácter más cognos-
citivo dirigidas a evaluar aspectos como el Fiabilidad
juicio, la comprensión y el razonamiento,
que según los autores constituían los com- Bajo la denominación genérica de fiabili-
ponentes fundamentales del comportamien- dad se agrupan todo un conjunto de méto-
to inteligente. Pero la verdadera eclosión de dos y técnicas utilizadas por los psicólogos
los tests se producirá tras la primera guerra para estimar el grado de precisión con el
mundial. Cuando Estados Unidos decide que están midiendo sus variables. Hace más
entrar en la guerra no dispone de ejército, y de cuarenta años, Robert L. Thorndike em-
la selección y clasificación de los soldados pezaba su famoso trabajo sobre fiabilidad
se lleva a cabo confiando en los test Alfa y con estas palabras: “Cuando medimos algo,
Beta, diseñados a tal efecto por un comité bien sea en el campo de la física, de la bio-
dirigido por el psicólogo Yerkes. Puesto que logía o de las ciencias sociales, esa medi-
los aliados ganaron la guerra, no sabemos ción contiene una cierta cantidad de error
que hubiera pasado con los tests si la hubie- aleatorio. La cantidad de error puede ser
ran perdido, no parecía que los tests hubie- grande o pequeña, pero está siempre presen-
sen hecho un mal trabajo, de modo que la te en cierto grado” (Thorndike, 1951, pág.
industria y las instituciones se volcaron en 560). Sus palabras siguen siendo tan ciertas
su uso para todo tipo de fines, especialmen- hoy como entonces, pues en lo esencial los
te en la selección de personal y en la orien- problemas de la medición cambian poco,
tación profesional y educativa. Su uso masi- aunque los instrumentos de medida vayan y
vo se extiende hasta nuestros días, siendo vengan. Ahora bien, ¿cómo estiman los psi-
difícil encontrar a alguien en las sociedades cólogos el grado de error que hay en sus me-
desarrolladas que primero o después no se diciones? Veamos la lógica general.
tenga que enfrentar a ellos. Cuando un psicólogo aplica un test, una
En resumen, puede decirse que las dos escala o cualquier otro instrumento de me-
grandes avenidas de entrada de la medición dida a una persona, obtiene una cierta pun-
en Psicología fueron a través del escala- tuación, que por razones obvias se denomi-
miento de estímulos (Psicofísica y Actitu- na puntuación empírica. ¿Cómo estar segu-
des) y escalamiento de sujetos (Tests). Co- ros de que esa puntuación obtenida es la que
mo casi toda partición, ésta tiene también verdaderamente le corresponde a esa perso-
algo de arbitrario, pues la mayoría de los na en esa prueba? En otras palabras, ¿cuán-
modelos podrían generalizarse tanto a estí- to error afecta a esa puntuación empírica?
mulos como a sujetos, si bien no faltan pro- Responder estas preguntas es el objetivo de
blemas específicos que justifiquen la divi- la fiabilidad. Visto así de frente, parecería
sión (Muñiz y Hambleton, 1992). Ambos que tales interrogantes son incontestables,
acercamientos tendrán sus síntesis más clá- pues, al fin y al cabo, el error cometido, sea
sicas en los textos de Gulliksen (1950) y el que sea, está diluido en la puntuación em-
Torgerson (1958) respectivamente. pírica y no hay manera de separarlo. Efecti-
Ahora bien, se mida de un modo u otro, vamente, no la hay directamente, como ocu-
¿qué condiciones deben de reunir esas me- rre también con los compuestos químicos.

Por ejemplo, sabemos que el agua del mar prueba, que llamaremos V, y un cierto error
contiene cierta cantidad de sal, pero para es- e. Es decir, formalmente el modelo se po-
timar con precisión la cantidad de sal habrá dría expresar así:
que buscar alguna técnica indirecta que per-
mita la separación. Esas técnicas en el caso X=V+e (1)
de los tests las proporcionarán los estudios
de fiabilidad. Nótese que este problema de Donde X es la puntuación empírica obte-
estimar los errores de medida es común a nida, V la puntuación verdadera y e el error
todas las ciencias, pudiendo decirse que la de medida.
lógica seguida también lo es, si bien la na- Para poder derivar las fórmulas necesa-
turaleza de las variables medidas en las dis- rias para el cálculo de la fiabilidad, Spear-
tintas ciencias impone ciertas peculiarida- man añade al modelo tres supuestos y una
des. Por ejemplo, cuando pesamos un obje- definición. Asume que 1) la verdadera pun-
to y obtenemos un cierto valor, o aplicamos tuación de una persona en una prueba sería
un test a un sujeto y saca una determinada la que obtendría como promedio si se le
puntuación empírica, o medimos la distan- aplicase infinitas veces la prueba [V=
cia entre dos ciudades, en los tres casos se E(X)], 2) no hay relación entre la verdadera
nos plantea la duda de cuánto error estamos puntuación de las personas y los errores de
cometiendo. Pues bien, para el caso de las medida (ρve= 0), y 3) los errores de medida
variables psicológicas, la propuesta pionera de los tests no están relacionados [ρ(ej,ek)=
y más fructífera para la estimación de los 0]. Además, define el concepto de tests pa-
errores fue hecha ya a principios de siglo ralelos como aquéllos que miden lo mismo
por Spearman (1904, 1907, 1913) y la de- aunque utilizando distintos ítems. Todo lo
nominamos hoy Modelo Lineal Clásico, cual puede expresarse del siguiente modo:
dando origen a todo un enfoque general so-
bre los tests que suele conocerse como Teo-
ría Clásica de los Tests. A partir sobre todo Modelo Lineal Clásico
de los años 60-70 aparecen nuevos modelos
para abordar la estimación de los errores de Modelo: X= V+e
medida, agrupándose los más utilizados ba- Supuestos: V= E(X)
jo la denominación genérica de Teoría de ρve= 0
Respuesta a los Items. ρ(ej,ek)= 0
Definición: Dos tests j,k se consideran para-
Modelo Clásico lelos si: Vj = Vk y σ2ej= σ2ek
La propuesta de Spearman para estimar

los errores cometidos al medir es un claro A partir del modelo, mediante los desa-
ejemplo de cómo a partir de un sencillo mo- rrollos correspondientes, que aquí se omi-
delo y de unas asunciones básicas es posible ten, va a ser posible llegar a fórmulas ope-
deducir las fórmulas más complejas para la rativas para la estimación de los errores (e),
estimación de los errores de medida. y por ende de las puntuaciones verdaderas
En primer lugar, Spearman considera que (V) de los sujetos. Todas estas deducciones
la puntuación empírica de un sujeto en una necesarias son lo que conforma el corpus
prueba, puntuación que llamaremos X, psicométrico de la teoría clásica de los tests,
consta de dos componentes, la puntuación cuya formulación se recoge en textos tan
que verdaderamente le corresponde en esa clásicos como los de Gulliksen (1950) o

Lord y Novick (1968). Exposiciones siste- (1945), Flanagan (1937), KR20 y KR21 (Ku-
máticas pueden consultarse también en der y Richardson, 1937), o el popular Coefi-
Guilford (1936, 1954), Magnuson (1967), ciente Alfa (Cronbach, 1951), que expresa la
Allen y Yen (1979), Thorndike (1982), fiabilidad del test en función de su consis-
Crocker y Algina (1986) o Traub (1994). En tencia interna. Una forma alternativa pero
castellano véase, por ejemplo, Yela (1984), equivalente de expresar la fiabilidad de los
Santisteban (1990), García-Cueto (1993) o tests es mediante el Error Típico de Medida,
Muñiz (1994, 1996a). o fiabilidad absoluta.
Mediante los desarrollos correspondien- Se utilice el índice que se utilice, y en ca-
tes se obtiene la fórmula del Coeficiente de da caso hay razones técnicas para utilizar
Fiabilidad (ρxx’) que permite estimar la uno u otro, lo importante es que toda medi-
cuantía de los errores cometidos al medir. ción lleva asociado un grado de precisión
Su fórmula expresa la cantidad de varianza que es empíricamente calculable. Tal vez al-
de verdadera medida (σ2v) que hay en la guno de ustedes se pregunte por qué se co-
empírica (σ2x), o en términos de la Teoría de meten errores al medir, o, en otras palabras,
la Información, la proporción señal-ruido cuáles son las fuentes del error más habitua-
del proceso de medición: les en la medición psicológica. Es este un
asunto exhaustivamente estudiado por los
ρxx’= σ2v/σ2x (2) especialistas, que han llegado a clasificar
con todo detalle las posibles fuentes de error
Lo ideal es que toda la varianza empírica (Cronbach, 1947; Schmidt y Hunter, 1996;
se deba a la verdadera, lo cual ocurriría Stanley, 1971; Thorndike, 1951), si bien
cuando σ2v= σ2x, en cuyo caso la fiabilidad simplificando bastante puede decirse que
es perfecta, la prueba mide sin ningún error. son tres las grandes avenidas por las que pe-
El cálculo empírico del valor del coeficiente netra el error aleatorio en la medición psi-
de fiabilidad no se puede llevar a cabo me- cológica: a) la propia persona evaluada, que
diante la fórmula (2), que es meramente conviene con determinado estado de ánimo, ac-
ceptual; la estimación empírica puede obte- titudes y temores ante el test, ansiedad, o
nerse utilizando varias estrategias, entre las cualquier tipo de evento previo a su evalua-
que destacan: a) la correlación entre dos for- ción, todo lo cual puede influir en la cuantía
mas paralelas del test, b) la correlación entre de los errores, b) el instrumento de medida
dos mitades aleatorias del test corregida me- utilizado, que con sus características especí-
diante la fórmula de Spearman-Brown, y c) ficas puede influir diferencialmente en los
la correlación entre dos aplicaciones del evaluados, y c) la aplicación, corrección e
mismo test a una muestra de personas. Cada interpretación hecha por los profesionales.
uno de estos procedimientos tiene sus pros y Si todo se hace con rigor se minimizarán los
sus contras y se ajustan mejor a unas situa- errores en todo el proceso, y es precisamen-
ciones que a otras. En todos los casos el va- te de lo que nos informa la fiabilidad de la
lor obtenido es un valor numérico entre 0 y prueba, de los errores cometidos. Una vez
1, indicando a medida que se acerca a 1 que conocida la cuantía de estos errores, a partir
el test está midiendo con precisión. Dado de la puntuación empírica resulta sencillo
que la fórmula (2) es conceptual, no operati- estimar a cierto nivel de confianza elegido
va, en literatura abundan las fórmulas clási- la puntuación verdadera de las personas en
cas para la obtención del valor empírico del una prueba. Si la fiabilidad de una prueba es
coeficiente de fiabilidad, entre las que cabría perfecta (ρxx’=1), las puntuaciones empíri-
destacar las de Rulon (1939), Guttman cas y las verdaderas de las personas en di-

cha prueba coincidirán, pero si no es perfec- cobertura teórica a la mayoría de las aplica-
ta las puntuaciones verdaderas de las perso- ciones de los tests, y puede decirse que, con
nas en el test se estiman mediante un inter- sus luces y sus sombras, el balance es clara-
valo confidencial en torno a la puntuación mente positivo (Muñiz, 1994). Ello no quie-
empírica. La implicación práctica inmediata re decir que no hubiese ciertos problemas y
de todo ello es que si se toman decisiones ciertas áreas en las que el enfoque clásico
importantes basadas en las puntuaciones de mostrase limitaciones. Las dos más impor-
las personas en los tests hay que asegurarse tantes, en las que no voy a entrar aquí, se re-
de que éstos tienen una fiabilidad elevada. fieren 1) a la ausencia de invarianza de las
Ahora bien, el modelo lineal clásico in- mediciones respecto del instrumento utiliza-
forma de la cuantía de los errores, pero no de do, es decir, bajo el modelo clásico cuando
la fuente originaria de éstos, que asume ig- se utilizan tests distintos para evaluar la
nota y aleatoria. Otros muchos modelos se misma variable no se obtienen directamente
han ocupado de desglosar el error y ofrecer resultados en la misma escala, por lo que
así no sólo la fiabilidad, sino también el ori- hay que proceder a equiparar las puntuacio-
gen de los errores (Bock y Wood, 1971; No- nes obtenidas. Y 2) a la dependencia que las
vick, 1966; Sutcliffe, 1965), pero su comple- propiedades del instrumento utilizado tie-
jidad técnico-formal y las complicaciones nen de las propias personas evaluadas, lo
operativas introducidas, en relación con las cual no es deseable dentro de un marco ri-
ventajas ofrecidas, ha hecho que ninguno ha- guroso de medición.
ya cuajado en la práctica. Mención especial Aparte de estas dos limitaciones de fon-
al respecto merece la Teoría de la Generali- do, en lo que concierne al cálculo de la fia-
zabilidad propuesta por Cronbach y colabo- bilidad de los tests, el problema que no en-
radores (Cronbach, Rajaratnam, Glesser, contraba una respuesta adecuada dentro del
1963; Glesser, Cronbach y Rajaratnam, marco clásico era el de la dependencia entre
1965). Mediante el uso de complejos diseños la cantidad de error y el nivel de las perso-
de Análisis de Varianza, este modelo permi- nas en la variable medida. Me explico. Den-
te hacer estimaciones sobre el tamaño de dis- tro del marco clásico se estima el coeficien-
tintas fuentes de error previamente contem- te de fiabilidad de una determinada prueba y
pladas en el proceso de medición. El progra- se asume que es el mismo para todas las per-
ma de ordenador GENOVA (Crick y Bren- sonas a las que se aplica la prueba; sin em-
nan, 1982) ha sido especialmente diseñado bargo, se ha ido acumulando suficiente evi-
para llevar a cabo los cálculos implicados en dencia empírica a lo largo de los años que
el modelo. En 1972 los autores publican un demuestra que el mismo test no mide con la
exhaustivo tratado (Cronbach, Glesser, Nan- misma precisión a todas las personas, que su
da, y Rajaratman, 1972), verdadera biblia del precisión está en función del nivel de la per-
modelo, pudiendo consultarse también expo- sona en la variable medida. Sin salirse del
siciones sistemáticas en Brennan (1983), marco clásico la solución más lógica a este
Crocker y Algina (1986), Shavelson y Webb problema es calcular diferentes coeficientes
(1991) o Shavelson, Webb y Rowley (1989); de fiabilidad para una prueba en función de
en castellano véase Paz (1994). los distintos niveles de puntuaciones de las
personas evaluadas, lo cual es práctica habi-
Teoría de Respuesta a los Items tual (Feldt y Qualls, 1996; Lord, 1984;
Qualls, 1992; Thorndike, 1951). Si bien es
A lo largo de este siglo la Teoría Clásica esta una salida enjundiosa al problema, la
de los tests y sus variantes han ido dando solución radical y novedosa va a venir de la

mano de un nuevo enfoque psicométrico mismo test para evaluar a todas las perso-
que domina la escena actual de la medición nas, se elige aquél que mida con mayor pre-
psicológica y educativa denominado Teoría cisión a cada cual, es lo que se ha dado en
de Respuesta a los Items (TRI). llamar Tests Adaptativos Computerizados
Bajo la óptica de la TRI la fiabilidad de (Olea y Ponsoda, 1996; Renom, 1993; Wai-
una prueba pasa a denominarse Función de ner, 1990), ampliamente utilizados en otros
Información, y es una función matemática países y en fase embrionaria en el nuestro,
continua a lo largo de la escala de las pun- aunque algunas compañías multinacionales
tuaciones de la prueba (Véase su fórmula ya los utilizan en España para certificacio-
matemática más adelante, una vez formula- nes profesionales.
dos los modelos de TRI). Es decir, el test ya Tal vez se pregunten ustedes, cómo se
no tiene un coeficiente de fiabilidad deter- procede para elegir la prueba más adecuada
minado, éste depende, está en función, del para cada persona. La estrategia consiste en
nivel de la persona en la variable medida. buscar aquella prueba cuya dificultad mejor
La fiabilidad se expresa mediante una fun- se ajuste al examinado. Para ello se van
ción (Función de Información) que toma presentando uno a uno los ítems extraídos
distintos valores según el nivel de la perso- de un Banco de ítems y en función de las
na en el test. De modo que el mismo test es respuestas, según sean aciertos o errores, se
más fiable para unas personas que para va aumentando o disminuyendo la dificul-
otras, lo cual no es difícil de entender. tad de los ítems subsiguientes. De este mo-
Piénsese, por ejemplo, en una prueba edu- do se evita presentar los ítems muy difíciles
cativa de cualquier materia que sea real- a las personas con un nivel bajo y los muy
mente difícil, muy difícil, será precisa para fáciles a las de nivel elevado, con el consi-
evaluar a los muy competentes en la mate- guiente ahorro de tiempo y mejora de la
ria, pero todos los que posean conocimien- motivación y fiabilidad de la prueba. Podría
tos medios o bajos sacarían (en el caso ex- parecer que por esta regla de tres aquéllos
tremo) un cero, la prueba no discrimina en- que reciben ítems fáciles saldrían favoreci-
tre ellos, está midiendo sus conocimientos dos, pero no hay tal, puesto que cara a la
con un error elevado. Es lo mismo que ocu- puntuación final no es lo mismo acertar
rre cuando se desea medir con precisión la ítems fáciles que difíciles, éstos puntúan
altura que salta una persona, hay que ir más. El uso de estas pruebas está cambian-
ajustando el listón a sus posibilidades hasta do la forma tradicional de evaluar y en paí-
encontrar justamente lo que es capaz de su- ses como Estados Unidos, Holanda, Israel o
perar. Mutatis mutandis, lo mismo ocurre Canadá, por citar algunos, son de uso gene-
para medir con precisión el nivel de una ralizado para el acceso a la universidad, al
persona en una variable psicológica o edu- doctorado, o para certificaciones profesio-
cativa. La tecnología evaluativa basada en nales. Señalar, de paso, que cuando se ob-
la teoría de respuesta a los ítems nos ha li- servan los avances habidos en los últimos
berado de la necesidad de tener que utilizar años en el campo de la evaluación psicoló-
el mismo test con todas las personas para gica y educativa y vemos, por ejemplo,
poder compararlas. ahora que está en boca de todos, cómo se
Esta nueva conceptualización del error lleva a cabo la Selectividad Universitaria
permitida por el marco de la TRI ha llevado en España, uno tiene la impresión de estar
a una verdadera revolución en la evaluación circulando en un carro de bueyes en tiem-
psicológica y educativa en los últimos años. pos del automóvil y de las autopistas infor-
Puesto que ya no es necesario utilizar el máticas. Técnicamente nuestro sistema de

selectividad es manifiestamente mejorable, jetos con las probabilidades de que acier-

y no hacen falta grandes inventos, basta con ten un ítem es a lo que se denomina Curva
echar una ojeada alrededor y ver lo que se Característica del Item (CCI), dado que
hace en otros países. ciertamente califica, caracteriza al ítem.
Cada ítem tendrá la suya propia, su carnet
Conceptos básicos de la TRI de identidad. Las CCI más habituales
adoptan la forma de “S” como las de la fi-
Conviene señalar de entrada que los nue- gura 1.
vos modelos de TRI no reemplazan al enfo-
que clásico, sino que mas bien constituyen
un excelente complemento, permitiendo re-
solver problemas que no encontraban solu-
ción adecuada en el marco clásico, e impul-
sando otros campos completamente nove-
dosos de la medición psicológica y educati-
va. Los orígenes lejanos de la TRI (Muñiz y
Hambleton, 1992) pueden rastrearse en los
trabajos pioneros de Richardson (1936),
Lawley (1943), Tucker (1946), Lord (1952,
1953a) y Birnbaum (1957), si bien su ver- Figura 1. Curvas características de cinco ítems con di-
dadero desarrollo surge a raíz del trabajo de ferentes parámetros.
Rasch (1960), y, sobre todo, del libro de
Lord y Novick (1968). A partir de entonces En el eje de abscisas aparecen los va-
se produce una eclosión de publicaciones y lores de la variable medida, denominada
de programas de ordenador que permitirán (θ), que está expresada en una escala que
la aplicación de la TRI en la práctica. En la va de –∞ a +∞. En ordenadas aparece la
actualidad las fuentes bibliográficas son probabilidad de acertar el ítem. Ello
abundantes (Hambleton, 1990, 1994; Ham- quiere decir que mediante la CCI sabe-
bleton y Swaminathan, 1985; Hambleton et mos la probabilidad de que las personas
al., 1991; López-Pina, 1995; Lord, 1980; con un determinado valor de θ superen el
Muñiz, 1997, 1996b). ítem.
Si la piedra angular del enfoque clásico La forma exacta de la CCI va a quedar
era asumir que la puntuación empírica ve- especificada una vez que se elija una fun-
nía dada por la verdadera más un error ale- ción matemática genérica, por ejemplo la
atorio (X= V+e), la TRI va a hacer una curva Normal acumulada, o la Función
asunción ciertamente más restrictiva, a sa- Logística, entre otras, y se determinen los
ber, que existe una relación matemática o parámetros correspondientes que la singu-
función que conecta la competencia de los larizan. Según el tipo de curva que se
sujetos con la probabilidad de que éstos adopte y el número de parámetros que se
respondan correctamente a los ítems. En contemplen se tendrán los distintos tipos
otras palabras, que dada la competencia de de modelos de TRI. Aunque las posibili-
una persona en la variable medida, conoce- dades son casi ilimitadas, a modo de ilus-
mos la probabilidad que tiene de acertar el tración se presentan a continuación los
ítem. tres más utilizados en la práctica, que
A la función matemática asumida que adoptan la Función Logística como Curva
une los niveles de competencia de los su- Característica:

Modelos Logísticos de 1, 2 y 3 parámetros donde:

n: número de ítems del test
Pi(θ) = eD(θ-bi)/[1+eD(θ-bi)] (3) Pi(θ): valores de las CCI de los ítems
Pi(θ) = eDai(θ-bi)/[1+eDai(θ-bi)] (4) Qi(θ): 1- Pi(θ)
Pi(θ) = ci + (1-ci)[eDai(θ-bi)]/[1+eDai(θ-bi)] (5) P’i(θ): Derivada de Pi(θ)
donde:
θ: representa los valores de la variable me-
dida
Pi(θ): probabilidad de acertar el ítem para
un determinado valor de θ
ai: índice de discriminación del ítem
bi: índice de dificultad del ítem
ci: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D=1,7 los valores se
acercan a los generados por la distribu- Figura 2. Funciones de Información de cinco ítems y
ción Normal) del Test formado por ellos.
En suma, bajo el enfoque de la teoría de

La estimación de los parámetros de los respuesta a los ítems los errores cometidos al
modelos se lleva a cabo mediante diversos medir se estiman mediante la Función de In-
programas de ordenador existentes a tal formación, que permite especificar la preci-
efecto (BICAL, BILOG, LOGIST, MULTI- sión de las mediciones en función del nivel
LOG, RASCAL, ASCAL, etc.), la mayoría de las personas en la variable medida. Esto
de los cuales utilizan procedimientos de má- supone un avance importante respecto del
xima verosimilitud o bayesianos. Aparte de coeficiente de fiabilidad clásico y abre todo
los tres modelos incluidos aquí por ser de un abanico nuevo de posibilidades en el
los primeros formulados y muy utilizados campo de la medición psicológica y educati-
en la práctica, las líneas de investigación va.
más activas trabajan actualmente con mode-
los bastante más complejos, una buena revi- Validez
sión de los cuales puede consultarse en Van
der Linden y Hambleton (1997). Determinar la cantidad de error de los
instrumentos de medida es básico para cual-
Función de Información del test quier ciencia, y hemos visto en líneas gene-
rales cómo se lleva a cabo para el caso de
Una vez estimados los parámetros del los tests desde distintos enfoques psicomé-
modelo puede calcularse la Función de In- tricos. Pero el problema de la medición no
formación del test, que indica la precisión sólo no acaba ahí, casi puede decirse que
con la que éste mide a lo largo de la escala empieza, pues una vez que existen garantías
de la variable medida: de que un instrumento mide con precisión,
surge la pregunta clave: ¿son válidas las in-
n ferencias hechas a partir de él? Porque no se
[ P'i (θ)] 2
I(θ) = ∑
i=1
Pi (θ)Qi (θ)
trata sólo de medir con precisión, además, y,
sobre todo, hay que garantizar que las infe-

rencias y decisiones que se hacen basadas to (Anastasi, 1986; Messick, 1989; Muñiz,
en esas mediciones son correctas. Es este el 1994; Paz, 1996; Wainer y Braun, 1988).
problema de la Validez, concepto clave de la La validez de contenido tiene un carácter
medición en las ciencias sociales. Que las básico, y va encaminada a comprobar que la
mediciones sean fiables es una condición prueba recoge una muestra representativa
necesaria, pero no suficiente para que sean de los contenidos correspondientes al cam-
válidas. Se puede estar midiendo con gran po evaluado. Por ejemplo, si se trata de una
precisión algo que no tiene ninguna capaci- escala de actitudes hay que asegurarse que
dad explicativa o predictiva. No en vano los todos los componentes que conforman la
grandes debates acerca de la utilidad de los actitud están representados en la escala, o si
tests, las escalas y otras mediciones psicoló- la prueba es de ansiedad, que no se dejan
gicas y educativas se centran generalmente fuera aspectos importantes. No estará de
en torno al problema de su validez. más señalar dentro de este marco profesoral
Para probar la validez de las inferencias en el que nos encontramos, que este aspecto
hechas a partir de las pruebas, como ocurre tan elemental de la validez es descuidado
para someter a prueba cualquier otra hipóte- con demasiada frecuencia por los profesores
sis científica, hay que recoger evidencia em- en sus exámenes, al no constituir éstos una
pírica que corrobore o refute las inferencias. muestra representativa de la materia a eva-
Como señala Messick (1989), la validación luar, con lo que se abre la puerta al azar en
de un test abarca todas las cuestiones experi- las calificaciones. Personalmente, me sor-
mentales, estadísticas y filosóficas por me- prenden con frecuencia las ideas tan inge-
dio de las cuales se evalúan las hipótesis y nuas de muchos profesores acerca de la me-
teorías científicas. En realidad lo que se va- dición educativa, a pesar de la importancia
lida no es la prueba en sí, sino las inferencias que tiene sobre las vidas futuras de los
hechas a partir de ella. La forma estándar de alumnos. Conscientes de este problema, por
validar las inferencias es derivar prediccio- ejemplo, recientemente en Estados Unidos
nes y contrastarlas con los datos. Con sus lu- el sindicato de profesores más importante
ces y sus sombras, el método hipotético de- (American Federation of Teachers, 1990),
ductivo experimental sigue siendo el canon junto con otras organizaciones, ha publica-
para la validación, eso sí, sin ingenuidades do unos estándares técnicos que los profe-
acerca de su infabilidad, y conscientes de sus sores deben de seguir en sus evaluaciones.
limitaciones, bien avisados, como estamos, La Validez Predictiva se centra en la
por los ríos de tinta que los teóricos y los fi- comprobación de que las pruebas predicen
lósofos de la ciencia han vertido y vierten al aquello para lo que fueron diseñadas. Cons-
respecto (Block, 1980, 1981; Bunge, 1985; tituye un aspecto clave en la utilización
Feyerabend, 1981; Fuentes, 1994; Hanson, aplicada de los tests y las escalas en ámbitos
1969; Kendler, 1981; Kuhn, 1962; Lakatos y en los cuales se toman decisiones importan-
Musgrave, 1970; Mayor, 1989; Pinillos, tes para las personas basándose en las prue-
1980; Popper, 1959, 1963, 1972; Staats, bas, por ejemplo en el ámbito de la selec-
1983; Staats y Mos, 1987; Suppe, 1977; ción de personal, orientación, o situaciones
Toulmin, 1972; Yela, 1987, 1994; etc.) de carácter clínico, por citar algunos. La ca-
Dentro de ese marco general hay tres pro- pacidad predictiva de una prueba suele ex-
cedimientos clásicos y muy utilizados para presarse mediante su Coeficiente de Validez
recabar información empírica probatoria de (ρxy), que es la correlación entre las puntua-
la validez, denominados Validez de Conteni- ciones en la prueba (x) y la ejecución en el
do, Validez Predictiva y Validez de Construc- criterio que se pretende predecir (y). A me-

dida que el valor del coeficiente de validez las puntuaciones en los tests de inteligencia
se acerca a 1 mayor es la capacidad predic- son bastante estables a lo largo de la vida de
tiva de la prueba. Cuando se utilizan varias las personas, lo cual no quiere decir que no
pruebas para predecir un criterio se utiliza cambien ni sean modificables (Neisser et
como coeficiente de validez la correlación al., 1996). Lo que mejor predicen los tests
múltiple de las pruebas con el criterio (Ryy’). de inteligencia es el rendimiento escolar,
La Validez de Constructo, propuesta ori- con una correlación en torno a 0.50 entre las
ginariamente por Cronbach y Meehl (1955), puntuaciones en los tests de inteligencia y
trata de asegurar que las variables o cons- las notas escolares. Ello significaría que la
tructos medidos, además de capacidad pre- inteligencia explica sólo un 25% del rendi-
dictiva, tienen entidad y rigor, y se encuen- miento escolar. El otro 75% vendría expli-
tran insertas dentro de un marco teórico co- cado por otros factores tales como persis-
herente. Las formas de recoger evidencia tencia, motivación, interés académico, fac-
empírica para comprobarlo son en general tores culturales, refuerzos recibidos de los
las utilizadas para comprobar cualquier teo- padres y maestros, competencia del profe-
ría científica, si bien se han hecho habituales sor, etc. (Neisser et al., 1996). Esta relación
las recogidas de datos a través de una matriz positiva entre la inteligencia tal como la mi-
multirrasgo multimétodo (Campbell y Fiske, den los tests y el rendimiento escolar tiene
1959), o mediante diferentes técnicas de como consecuencia que los niños más inte-
análisis multivariado, entre las que destaca ligentes permanecen por término medio más
el Análisis Factorial, tanto exploratorio co- años dentro del sistema educativo, con los
mo confirmatorio. En el primer caso suele efectos positivos que ello conlleva para su
hablarse de validez convergente-discrimi- éxito social y laboral, por lo que indirecta-
nante y en el segundo de validez factorial. mente los tests de inteligencia también tie-
En definitiva, para poder asegurar que una nen poder predictivo para estos aspectos. La
prueba psicológica, educativa o sociológica validez de las mediciones de la inteligencia
es válida hay que aportar diferentes tipos de para predecir aspectos de la vida laboral y
evidencia que lo garantice, no se pueden ha- social de las personas no es que sea muy
cer afirmaciones generales ni definitivas, elevada, en torno al 25%, pero si hay que
pues como cualquier otra validación científi- elegir un sólo predictor, sigue siendo segu-
ca, la de los tests es un proceso abierto en el ramente el mejor del que se dispone. Curio-
que siempre cabe añadir nueva evidencia em- samente, se conocen más exhaustivamente
pírica que corrobore o refute la pertinencia de las predicciones que se pueden hacer a par-
las inferencias hechas a partir del test. tir de las mediciones de la inteligencia (va-
lidez predictiva) que la propia naturaleza de
El uso de los tests la inteligencia (validez de constructo), exis-
tiendo un intenso debate acerca de los fac-
Un buen ejemplo de este proceso conti- tores responsables de las diferencias indivi-
nuo de validación lo constituyen los Tests de duales en inteligencia, en el cual los tres in-
Inteligencia. Tras ya casi un siglo de inves- gredientes básicos son la herencia, el am-
tigación empírica desde que apareciese el biente y los procesos psicológicos básicos,
primer test propiamente de inteligencia, tales como tiempos de reacción, potenciales
propuesto por Binet, hoy conocemos bas- evocados, tiempo de inspección, capacidad
tante bien con qué fines pueden usarse y con atencional, rapidez de acceso a la memoria,
cuales no, aunque queden aún varias cues- etc. Si bien la teorización sobre la inteligen-
tiones abiertas. Por ejemplo, sabemos que cia ha avanzado notablemente, en compara-

ción los tests con los que se mide no han ex- el juicio subjetivo de supervisores y profe-
perimentado grandes cambios (Sternberg y sores. Ése fue su espíritu originario, y sigue
Kaufman, 1996). siéndolo, sus problemas potenciales de uso
Como no podía ser de otro modo, existen no deben enmascarar el paso adelante que
tests malos, regulares, buenos y muy bue- supone esta filosofía frente a posiciones re-
nos, es el profesional en cada caso el que trógradas como las mencionadas, tendentes
tiene que evaluar la calidad y proceder en a mantener el statu quo, independientemen-
consecuencia. Como ocurre con las tecnolo- te de la valía personal.
gías de otros muchos campos del saber,
siempre existe la posibilidad de su uso ina- Teoría de la Medición
decuado, observándose últimamente un in-
terés especial en las organizaciones profe- Paralelo a la medición empírica de las
sionales por impulsar los aspectos éticos de variables psicológicas, cuya problemática
la práctica, especialmente en lo que a los se acaba de exponer a grandes rasgos, exis-
instrumentos de medida se refiere (Franca- te toda una línea de trabajo más teórica en-
Tarragó, 1996; Keith-Spiegel y Koocher, caminada al análisis del estatus teórico de
1985; Kimmel, 1996; Muñiz, en prensa; las mediciones psicológicas, que hinca sus
Schmeiser, 1992; Schuler, 1982; Stanley, raíces en los trabajos originarios del campo
Sieber y Melton, 1996). Debido a que la de la Física (Campbell, 1920, 1921, 1928,
mayoría de los problemas con los instru- 1938; Hölder, 1901). Será precisamente un
mentos de medida psicológicos y educati- comité de expertos dirigidos por Campbell
vos provienen en gran parte de su uso ina- quienes en 1940 (Campbell et al., 1940)
decuado más que de las propiedades técni- emitan un informe en el que dudan que las
cas per se, existe actualmente un debate en mediciones de carácter psicológico y psico-
curso entre los investigadores y profesiona- físico reúnan las condiciones exigidas por
les acerca de la conveniencia o no de incluir los axiomas de Hölder (1901). La aproxi-
las consecuencias del uso de las pruebas mación de Campbell al problema de la me-
dentro del propio marco de la validez (Linn, dición era ciertamente restrictiva y tomada
1997; Mehrens, 1997; Messick, 1980, 1989, al pie de la letra dejaría fuera incluso mu-
1995; Popham, 1997; Shepard, 1997). chas de las mediciones físicas, por lo cual
Señalar, finalmente, que el uso adecuado ya fue criticada por el propio Bertrand Rus-
de los instrumentos de medida no sólo im- sell (1937). El argumento central de Camp-
plica que las propiedades técnicas (Fiabili- bell era que para poder hablar de medición
dad y Validez) sean las adecuadas, hay otros debe de darse un isomorfismo entre la can-
aspectos relativos a la propia situación de tidad y las magnitudes de la propiedad a
aplicación que deben de controlarse, tales medir; para lo cual había que demostrar que
como la relación examinado-examinador, la las magnitudes obedecían a los axiomas de
ansiedad ante las pruebas (Spielberger y cantidad desarrollados por Hölder (1901).
Vagg, 1995), entrenamiento previo, diferen- Representa una postura de carácter Platóni-
cias culturales, deseabilidad social, etc. co, bajo cuya óptica las propiedades de la
Se olvida a veces que los tests psicoló- cantidad no son negociables.
gicos y educativos representan la posibili-
dad de juzgar a las personas de forma igua- Aproximación Clásica
litaria, por sus méritos demostrados, no por
criterios como la cuna, la tribu, la familia, la La revolución copernicana en la funda-
apariencia, las cartas de recomendación, o mentación teórica de la medición psicológi-

ca vendrá de la mano de Stevens (1946, sigue avanzando en el campo empírico, sino

1951), al eliminar la restricción de que los que recibe un fuerte empujón en lo que a la
números asignados como medidas tengan evaluación de su estatus teórico se refiere.
que obedecer necesariamente a las leyes de Tanto la aproximación de Stevens como la
la cantidad, abriendo así la posibilidad a de Campbell al análisis teórico de la medi-
otros tipos de escalas (Fraser, 1980). Stevens ción se mueven dentro de un marco clásico,
define la medición como la asignación de pues, como señala Fraser (1980), si bien
números a objetos según determinadas re- Campbell consideraba claves las relaciones
glas. La flexibilización introducida al permi- empíricas, Stevens subraya las propiedades
tirse diferentes reglas de asignación extiende de la escala. Ambos tratan la relación entre
el sistema de Campbell y permite el estable- los sistemas empírico y formal como axio-
cimiento de las hoy clásicas cuatro escalas mática, y por tanto debe de estar presente
de medición, Nominal, Ordinal, Intervalo y para llevar a cabo la medición.
Razón, que vienen definidas por cuatro re- Por el contrario, el nuevo enfoque Repre-
glas distintas de asignación de los números a sentacional sobre teoría de la medición que
los objetos. Para representar un sistema em- aparece en los años sesenta (Coombs, 1964;
pírico concreto no habrá por qué utilizar to- Krantz et al., 1971; Luce y Narens, 1986;
das las propiedades del sistema numérico. Mitchell, 1990; Narens, 1985; Narens y Lu-
La escala Nominal sólo tiene en cuenta la ce, 1986; Pfanzagl, 1968; Roberts, 1979;
propiedad de los números igual/desigual, los Savage y Ehrlich, 1990; Schwager, 1991;
números actúan aquí como nombres. En la Suppes y Zinnes, 1963) se caracteriza fun-
Ordinal, además de igualdad/desigualdad, se damentalmente por reconocer explícitamen-
tiene en cuenta el orden. La escala de Inter- te el papel que juega la teoría en la medi-
valo además de las anteriores propiedades ción, pasando ésta a formar parte integral de
añade la igualdad/desigualdad de las dife- la teoría. Medir es construir un modelo de
rencias, no existiendo un cero absoluto de la alguna realidad existente en el mundo. Por
escala. Finalmente, en la escala de Razón tanto, como cualquier otra modelización,
existe el cero absoluto de la escala e igual- implica establecer una correspondencia en-
dad de razones. tre el sistema relacional empírico (el mun-
Tras la propuesta de Stevens surgen nu- do) y un sistema relacional formal (el mo-
merosas clasificaciones de escalas (Coombs, delo), de tal modo que se pueda decir que
1952, 1964; Torgerson, 1958), pues no hay uno representa al otro; si el modelo es nu-
ninguna razón para limitar las propiedades a mérico entonces la representación se deno-
las cuatro mencionadas. Además, la literatu- mina medición (Fraser, 1980). En este con-
ra sobre en qué escala vienen medidos los texto los problemas de la medición no son
distintos atributos psicológicos y la relación otros que los problemas científicos genera-
entre el tipo de escala y las operaciones es- les para establecer modelos de la realidad, la
tadísticas permitidas para cada tipo de esca- medición pasa a ser modelización en la que
la inundan la bibliografía especializada el sistema relacional formal son los núme-
(Gaito, 1980; Lord, 1953b; Michell, 1986; ros. Por tanto el problema central a resolver
Stine, 1989; Townsend y Ashby, 1984). será el de la Representación, es decir, ase-
gurarse que el modelo representa adecuada-
Enfoque Representacional mente la realidad. Medir es modelizar.
Si bien este enfoque es actualmente do-
En definitiva, a partir del trabajo pionero minate entre los teóricos y filósofos de la
de Stevens la medición psicológica no sólo ciencia, su influencia en la psicología apli-

cada es escasa, pues como señala Schwa- de la medición psicológica quedan muchos
ger (1991) en una crítica reciente, este ele- problemas teóricos y aplicados por resolver,
gante enfoque trata de garantizar la repre- de modo que no faltará el trabajo de inves-
sentabilidad formal, que es importante, pe- tigación para quienes se dedican a estos me-
ro no ha aportado hasta la fecha gran cosa nesteres. Esperemos, parafraseando al fa-
a la teoría psicológica y menos aún a la moso matemático Hilbert (1902), cuando
práctica profesional aplicada. Una buena presentó en París, ya va para un siglo, los 23
síntesis de los problemas de carácter apli- problemas más importantes de las matemá-
cado aún pendientes de una solución idó- ticas aún sin resolver, que para tales menes-
nea fue expuesta recientemente por Wainer teres contemos entre nosotros con los mejo-
(1993), para una excelente revisión y aná- res maestros y los más entusiastas y apasio-
lisis de los problemas de la medición en nados discípulos.
psicología puede consultarse el trabajo de
Michell (1997). Nota
Estos son, en suma, y a grandes rasgos,
algunas de las certezas y de las dudas que El texto corresponde a la conferencia pronun-
ocupan a quienes trabajamos en el campo de ciada por el autor como lección inaugural del
la medición psicológica, espero no haberles curso académico 1997-1998 en la Universidad
aburrido demasiado con ellas. En el campo de Oviedo.
Referencias
Allen, M. J. y Yen, W. M. (1979). Introduction to Blanco, M. (1996). Psicofísica. Madrid: Univer-

Measurement Theory. Monterrey, CA: Bro- sitas.
oks/Cole Publishing Company. Block, N. (Ed.) (1980, 1981). Readings in philo-
American Federation of Teachers, National Coun- sophy of psychology (2 vols.). Cambridge,
cil on Measurement in Education y National MA: Harvard University Press.
Education Association (1990). Standards for Bock, R. D. y Wood, R. (1971). Test theory. An-
teacher competence in educational assessment nual Review of Psychology, 22, 193-224.
of students. Washington, DC: Autor. Brennan, R. L. (1983). Elements of generalizabi-
Anastasi, A. (1986). Evolving concepts of test vali- lity theory. Iowa City, IA: American College
dation. Annual Review of Psychology, 37, 1-15. Testing.
Baird, J. C. (1997). Sensation and judgment: Bunge, M. (1985). La investigación científica.
complementary theory of psychophysics. (2ª ed.). Barcelona: Ariel.
Mahwah, NJ: LEA. Campbell, D. T. y Fiske, A. W. (1959). Conver-
Baird, J. C. y Noma, E. (1978). Fundamentals of gent and discriminant validation by the multi-
scaling and psychophysics. Nueva York: Wiley. trait-multimethod matrix. Psychological Bu-
Binet, A. y Simon, T. H. (1905). Methodes nou- lletin, 56, 81-105.
velles pour le diagnostic du niveau intellec- Campbell, N. R. (1920). Physics. The Ele-
tuel des anormaux. L’Année Psychologique, ments. Cambridge: Cambridge University
11, 191-244. Press.
Birnbaum, A. (1957). Efficient design and use of Campbell, N. R. (1921). What is science? (Reim-
tests of ability for various decision-making preso). Nueva York: Dover Publications.
problems (Series Report nº 58-16, Project nº Campbell, N. R. (1928). An account of the prin-
7755-23). Randolph Air Force Base, TX: ciples of measurement and calculation. Lon-
USAF School of Aviation Medicine. dres: Longmans Green.

Campbell, N. R. (1938). Symposium: Measu- Ferrando, P. J. (1996). Evaluación de la unidi-

rement and its importance for philosophy. mensionalidad de los ítems mediante análisis
Aristotelian Society, vol. 17 (Suplemento). factorial. Psicothema, 8(2), 397-410.
Londres: Harrison. Feyerabend, P. (1981). Tratado contra el método.
Campbell, N. R. et al. (1940). Final Report. Ad- Madrid: Tecnos.
vance Science, núm. 2, 331-349. Flanagan, J. L. (1937). A note on calculating the
Cattell, J. Mck. (1890). Mental tests and measu- standard error of measurement and reliability
rements. Mind, 15, 373-380. coefficients with the test score machine. Jour-
Coombs, C. H. (1952). A theory of psychologi- nal of Applied Psychology, 23, 529.
cal scaling. Engineering Research Bulletin, Franca-Tarragó, O. (1996). Etica para psicólo-
34. Ann Arbor, MI: University of Michigan gos. Introducción a la psicoética. Bilbao:
Press. Desclée de Brouwer.
Coombs, C. H. (1964). A theory of data. Nueva Fraser, C. O. (1980). Measurement in psycho-
York: Wiley. logy. British Journal of Psychology, 71, 23-
Crick, J. E. y Brennan, R. L. (1982). GENOVA. 34.
A generalized Analysis of Variance System Fuentes, J. B. (1994). Introducción del concepto
(FORTRAN IV Computer Program and Ma- de “conflicto de normas irresuelto personal-
nual). Doschester, MA: Computer Facilities, mente” como figura antropológica (específi-
University of Massachusetts at Boston. ca) del campo psicológico. Psicothema, 6(3),
Crocker, L. y Algina, J. (1986). Introduction to 421-446.
classical and modern test theory. Nueva Gaito, J. (1980). Measurement scales and statis-
York: Holt, Rinehart and Winston. tics: resurgence of an old misconception. Psy-
Cronbach, L. J. (1947). Test reliability: its mea- chological Bulletin, 87, 564-567.
ning and determination. Psychometrika, 12, García-Cueto, E. (1993). Introducción a la psi-
1-16. cometría. Madrid: Siglo XXI.
Cronbach, L. J. (1951). Coefficient alpha and the Gescheider, G. A. (1985). Psychophysics: met-
internal structure of tests. Psychometrika, 16, hod, theory, and application. Hillsdale, NJ:
297-334. LEA.
Cronbach, L. J., Glesser, G. C., Nanda, H. y Ra- Glesser, G. C., Cronbach, L. J. y Rajaratnam, N.
jaratnam, N. (1972). The dependability of Be- (1965). Generality of scores influenced by
havioral Measurement: Theory of Generali- multiple sources of variance. Psychometrika,
zability for scores and profiles. Nueva York: 30, 395-418.
Wiley. Green, D. M. y Swets, J. A. (1966). Signal de-
Cronbach, L. J. y Meehl, P. E. (1955). Construct tection theory and psychophysics. Nueva
validity in psychological tests. Psychological York: Wiley.
Bulletin, 52, 281-302. Guilford, J. P. (1936, 1954). Psychometric Met-
Cronbach, L. J., Rajaratnam, N., Glesser, G. C. hods. Nueva York: McGraw-Hill.
(1963). Theory of Generalizability: a libe- Gulliksen, H. (1950). Theory of Mental Tests.
ralization of reliability theory. The British Nueva York: Wiley (Reimpreso en 1987).
Journal of Statistical Psychology, 16, 2, 137- Guttman,L. (1945). A basis for analyzing test-re-
163. test reliability. Psychometrika, 10, 255-282.
Egan, J. (1975). Signal detection theory and Hambleton, R. K. (1990). Item response theory:
ROC analysis. Nueva York: Academic Press. introduction and bibliography. Psicothema, 2,
Falmage, J. C. (1985). Elements of psychophysi- 97-107.
cal theory. Nueva York: Oxford University Hambleton, R. K. (1994). Item response theory:
Press. A broad psychometric framework for measu-
Fechner, G. T. (1860/1966). Elements of psy- rement advances. Psicothema, 6(3), 535-556.
chophysics. Nueva York: Holt, Rinehart and Hambleton, R. K. y Swaminathan, H. (1985).
Winston. Item response theory: Principles and applica-
Feldt, L. S. y Qualls, A. L. (1996). Estimation of tions. Boston: Kluwer.
measurement error variance at specific score Hambleton, R. K., Swaminathan, H. y Rogers,
levels. Journal of Educational Measurement, H. J. (1991). Fundamentals of item response
33(2), 141-156. theory. Beverly Hills, CA: Sage.

Hanson, N. R. (1969). Perception and discovery. Lord, F. M. (1980). Applications of item respon-
San Francisco: Freeman. se theory to practical testing problems. Hills-
Hilbert, D. (1902). Mathematical problems. Bu- dale, NJ: LEA.
lletin of the American Mathematical Society, Lord, F. M. (1984). Standard errors of measu-
8, 437-479. rement at different ability levels. Journal of
Hölder, O. (1901). Die axiome de quantität die Educational Measurement, 21(3), 239-243.
lehre von mass. Berichte ueber die Verhand- Lord, F. M. y Novick, M. R. (1968). Statistical
lugen der Königlich Sachsischen Gessells- theories of mental tests scores. Reading, MA:
chaft der Wissenschaften zu Leipzig, Mat- Addison-Wesley.
hematisch-Psysische Class, 53, 1-64. Luce, R. D. y Narens, L. (1986). The mathema-
Intelligence (1997). Número especial dedicado a tics underlying measurement on the conti-
“Intelligence and Social Policy”. Intelligence, nuum. Science, 236, 1527-1532.
24(1). Magnuson, D. (1967). Test Theory. Reading,
Keith-Spiegel, P. y Koocher, G. P. (1985). Ethics MA: Addison-Wesley. (Traducción española:
in psychology. Professional standards and ca- Mexico: Trillas, 1972).
ses. Nueva York: Random House. Mayor, J. (1989). El método científico en psico-
Kendler, H. H. (1981). Psychology: A science in logía. En J. Arnau y H. Carpintero (Comps.).
conflict. Nueva York: Oxford. Tratado de psicología general, Vol. I: Histo-
Kimmel, A. J. (1996). Ethical issues in beha- ria, teoría y método. Madrid: Alhambra.
vioral research. Cambridge, MA: Black- Mehrens, W. A. (1997). The consequences of
well. consequential validity. Educational Measu-
Krantz, D. H. Luce, R. D., Suppes, P. y Twersky, rement: Issues and Practice, 16(2), 16-18.
A. (1971). Foundations of measurement. Vol Messick, S. (1980). Test validity and the ethics
1. Additive and polynomial representations. of assessment. American Psychologist, 35,
Nueva York: Academic Press. 1012-1027.
Kuder, G. F. y Richardson, M. W. (1937). The Messick, S. (1989). Validity. En R. L. Linn (Ed.),
theory of estimation of test reliability. Psy- Educational Measurement. Nueva York:
chometrika, 2, 151-160. Macmillan.
Kuhn, T. S. (1962). The structure of scientific re- Messick, S. (1995). Validity of psychological as-
volutions. Chicago: University of Chicago sessment. American Psychologist, 50, 741-
Press. 749.
Lakatos, I. y Musgrave, A. (Eds.) (1970). Criti- Michell, J. (1986). Measurement scales and
cism and the growth of knowledge. Londres: statistics: a clash of paradigms. Psychological
Cambridge University Press. Bulletin, 100, 398-407.
Lawley, D. N. (1943). On problems connected Michell, J. (1990). An introduction to the logic of
with item selection and test construction. Pro- psychological measurement. Hillsdale, NJ:
ceedings of the Royal Society of Edimburg, LEA.
61, 273-287. Michell, J. (1997). Quantitative science and the
Linn, R. L. (1997). Evaluating the validity of as- definition of measurement in psychology.
sessments: the consequences of use. Educa- British Journal of Psychology, 88, 355-383.
tional Measurement: Issues and Practice, Muñiz, J. (1991). Introducción a los métodos
16(2), 14-16. psicofísicos. Barcelona: PPU.
López-Pina, J. A. (1995). Teoría de respuesta al Muñiz, J. (1994). Teoría clásica de los tests. Ma-
ítem: fundamentos. Barcelona: PPU. drid: Pirámide. (2ª ed.).
Lord, F. M. (1952). A theory of test scores. Psy- Muñiz, J. (1996a). Fiabilidad. En J. Muñiz (Co-
chometric Monographs, nº 7. or.), Psicometría. Madrid: Universitas.
Lord, F. M. (1953a). An application of confiden- Muñiz, J. (Coor.). (1996b). Psicometría. Madrid:
ce intervals of maximum likelihood to the es- Universitas.
timation of an examinee’s ability. Psychome- Muñiz, J. (1997). Introducción a la teoría de
trika, 18, 57-75. respuesta a los ítems. Madrid: Pirámide.
Lord, F. M. (1953b). On the statistical treatment Muñiz, J. (en prensa). Aspectos éticos y deonto-
of football numbers. The American Psycholo- lógicos de la evaluación psicológica. En Eva-
gist, 8, 750-751. luación Psicológica, Madrid: TEA Ediciones.

Muñiz, J. y Hambleton, R. K. (1992). Medio si- Roberts, F. S. (1979). Measurement theory. Rea-
glo de teoría de respuesta a los ítems. Anuario ding, MA: Addison Wesley.
de Psicología, 52, 41-66. Rulon, P. J. (1939). A simplified procedure for
Narens, L. (1985). Abstract measurement: the determining the reliability of a test by split-
theory of numerical assignment. Psychologi- halves. Harvard Educational Review 9, 99-
cal Bulletin, 99, 166-180. 103.
Narens, L. y Luce, R.D. (1986). Measurement: Russell, B. (1937). The Principles of Mathema-
the theory of numerical assignment. Psycho- tics (2ª Ed.). Nueva York: Norton.
logical Bulletin, 99, 166-180. Santisteban, C. (1990). Psicometría. Teoría y
Neisser, U. et al. (1996). Intelligence: knowns práctica en la construccción de tests. Madrid:
and unknows. American Psychologist, 51(2), Norma.
77-101. Savage, L. W. y Ehrlich, R. (Eds.). (1990). Phi-
Novick, M. R. (1966). The axioms and principal losophical and foundational issues in measu-
results of classical test theory. Journal of rement theory. Hillsdale, NJ: LEA.
Mathematical Psychology, 3, 1-18. Schmeiser, C. B. (1992). Ethical codes in the
Olea, J. y Ponsoda, V. (1996). Tests adaptativos professions. Educational Measurement: Is-
informatizados. En J. Muñiz (Coor.), Psico- sues and Practice, 5-11.
metría. Madrid: Universitas. Schmidt, F. L. y Hunter, J. E. (1996). Measu-
Paz, M. D. (1994). Teoría de la Generalizabili- rement error in psychological research: les-
dad. En J. Muñiz, Teoría clásica de los tests. sons from 26 research scenarios. Psychologi-
Madrid: Pirámide. cal Methods, 1(2), 199-223.
Paz, M. D. (1996). Validez. En J. Muñiz (Coor.), Schuler, H. (1982). Ethical problems in psycho-
Psicometría. Madrid: Universitas. logical research. London: Academic Press.
Paz, M. D. y Muñiz, J. (1989). Potenciales evo- Schwager, K. W. (1991). The representational
cados y tiempos de reacción. Psicothema, 1, theory of measurement: an assessment. Psy-
97-117. chological Bulletin, 110(3), 618-626.
Pfanzagl, J. (1968). Theory of measurement. Shavelson, R. y Webb, N. (1991). Generalizabi-
Nueva York: Wiley. lity theory. Beverly Hills, CA: Sage.
Pinillos, J. L. (1980). Problemas actuales de la Shavelson, R. Webb, N. y Rowley, G. L. (1989).
psicología científica. Análisis y Modificación Generalizability Theory. American Psycholo-
de Conducta, 6, 11-12. gist, 44 (6), 922-932.
Popham, W. J. (1997). Consequential validity: Shepard, L. A. (1997). The centrality of test use
right concern-wrong concept. Educational Me- and consequences for test validity. Educatio-
asurement: Issues and Practice, 16(2), 9-13. nal Measurement: Issues and Practice, 16(2),
Popper, K. R. (1959). The logic of scientific dis- 5-8.
covery. Londres: Hutchinson. Spearman, C. (1904). The proof and measu-
Popper, K. R. (1963). Conjectures and refuta- rement of association between two things.
tions. Nueva York: Harper. American Journal of Psychology, 15, 72-101.
Popper, K. R. (1972). Objective knowledge. Ox- Spearman, C. (1907). Demonstration of formulae
ford: Clarenton Press. for true measurement of correlation. Ameri-
Qualls, A. L. (1992). A comparison of score le- can Journal of Psychology, 18, 161-169.
vel estimates of the standard error of measu- Spearman, C. (1913). Correlations of sums and
rement. Journal of Educational Measu- differences. British Journal of Psychology, 5,
rement, 29(3), 213-225. 417-126.
Rasch, G. (1960). Probabilistic models for some Spielberger, C. D. y Vagg, P. R. (Eds.) (1995).
intelligence and attainment tests. Copenha- Test anxiety. Theory, assessment and treat-
gen: The Danish Institute for Educational Re- ment. Washington, DC: Taylor and Francis.
search. Staats, A. W. (1983). Psychology’s crisis of de-
Renom, J. (1993). Tests adaptativos computeri- sunity. Philosophy and method for a unified
zados. Barcelona: PPU. science. Nueva York: Praeger.
Richardson, M. W. (1936). The relationship bet- Staats, A. W. y Mos, L. P. (Eds.) (1987). Annals
ween difficulty and the differential validity of of theoretical psychology. Vol. 5. Nueva
a test. Psychometrika, 1, 33-49. York: Plenum Press.

Stanley, B. H., Sieber, J. E. y Melton, G. B. Thorndike, R. L. (1982). Applied Psychometrics.

(Eds.). (1996). Research ethics. A psychologi- Boston: Hougton Mifflin.
cal approach. Lincoln, NE: University of Ne- Thurstone, L. L. (1927). A law of comparative
braska Press. judgment. Psychological Review, 34, 273-
Stanley, J. C. (1971). Reliability. En R. L. Thorn- 286.
dike (ed.), Educational Measurement. Was- Thurstone, L. L. (1928). Attitudes can be measu-
hington. DC: American Council on Educa- red. American Journal of Sociology, 33, 529-
tion. 554.
Sternberg, R. J. y Kaufman, J. C. (1996). Inno- Torgerson, W. S. (1958). Theory and methods of
vation and intelligence testing: the curious ca- scaling. Nueva York: Wiley.
se of the dog that didn’t bark. European Jour- Toulmin, S. (1972). Human understanding. Prin-
nal of Psychological Assessment, 12(3), 175- ceton: Princeton University Press.
182. Townsend, J. T. y Ashby, F. G. (1984). Measu-
Stevens, S. S. (1946). On the theory of scales of rement scales and statistics: the misconcep-
measurement. Science, 103, 677-680. tion misconceived. Psychological Bulletin,
Stevens, S. S. (1951). Mathematics, measu- 96, 394-401.
rement and psychophysics. En S. S. Stevens Traub, R. E. (1994). Reliability for the social
(Ed.), Handbook of experimental psychology. sciences: Theory and applications. Londres:
Nueva York: Wiley. Sage.
Stevens, S. S. (1961). To honor Fechner and re- Triandis, H. C. (1971). Attitude and attitude
peal his law. Science, 133, 80-86. change. Nueva York: Wiley.
Stevens, S. S. (1975). Psychophysics: introduc- Tucker, L. R. (1946). Maximum validity of a test
tion to its perceptual, neural, and social pros- with equivalent items. Psychometrika, 11, 1-
pects. Nueva York: Wiley. 13.
Stine, W. W. (1989). Meaningful inference: the Van der Linden, W. J. y Hambleton, R. K. (Eds.).
role of measurement in statistics. Psychologi- (1997). Handbook of modern item response
cal Bulletin, 105, 1, 147-155. theory. Nueva York: Springer-Verlag.
Summers, G. F. (Ed.) (1970). Attitude measu- Wainer, H. (Ed.). (1990). Computerized adaptive
rement. Chicago: Rand McNally. testing: a primer. Hillsdale, NJ: LEA.
Suppe, F. (Ed.). The structure of scientific theo- Wainer, H. (1993). Measurement problems.
ries. Urbana, IL: University of Illinois Press. Journal of Educational Measurement, 30(1),
Suppes, P. y Zinnes, J. L. (1963). Basic measu- 1-21.
rement theory. En R. D. Luce, R. R. Bush y E. Wainer, H. y Braun, H. I. (Eds.). (1988). Test va-
Galanter (Eds.), Handbook of mathematical lidity. Hillsdale, NJ: LEA.
psychology. Vol. I, págs. 1-76. Nueva York: Yela, M. (1984). Introducción a la teoría de los
Wiley. tests. Madrid: Facultad de Psicología, Univer-
Sutcliffe, J. P. (1965). A probability model for sidad Complutense.
error of classification, I: General considera- Yela, M. (1987). Toward a unified psychological
tions. Psychometrika, 30, 73-96. science. En A. W. Staats y L. P. Mos (Eds.),
Swets, J. A. (1996). Signal detection theory and Annals of theoretical psychology. Vol. 5. Nue-
ROC analysis in psychology and diagnostics: va York: Plenum Press.
collected papers. Mahwah, NJ: LEA. Yela, M. (1994). El problema del método cientí-
Thorndike, R. L. (1951). Reliability. En E. L. fico en psicología. Anuario de Psicología, 60,
Lindquist (Ed.), Educational Measurement 3-12.
(págs. 560-620). Washington, DC: American
Council on Education. Aceptado el 10 de octubre de 1997

Teoría de la medición y del escalamiento psicológico

TEMA 2. INTRODUCCION A LA TEORIA DE LA MEDICION.
En palabras de Aftanas (1988, p. 325), "las teorías de la medición intentan

explicar cómo y bajo qué circunstancias es posible usar números para representar la
información acerca de las magnitudes de atributos".
A lo largo del presente siglo, y desde el marco de la Psicología, se han

desarrollado diversas teorías y modelos de medición, que incluso han incidido sobre otras
áreas científicas (Santisteban, 1990; Jáñez, 1989). Según Jáñez (1989, p. 400), "la
Psicología ha realizado con la teoría de la medición la máxima contribución posible al
progreso del conocimiento". Veamos a continuación cuáles han sido las propuestas
teóricas más relevantes desarrolladas durante el presente siglo a través de una
aproximación histórica y conceptual.
1. APROXIMACION HISTORICA Y CONCEPTUAL.
Allen y Yen (1979), citando a DuBois (1970), señalan como uno de los
antecedentes más remotos de la medición de la conducta, la selección de funcionarios
mediante diversas pruebas en China hace unos 3.000 años. Jáñez (1989) señala que ya en
la Atenas de Aristóteles existía cierta preocupación por la medición de atributos
subjetivos. Todos estos antecedentes remotos de medición de la conducta sugieren que
éste fue un tema que preocupó pronto al hombre. Sin embargo, no es hasta principios de
este siglo cuando se desarrollan las teorías que intentan establecer las condiciones y
fundamentos de la medición. El origen de los esfuerzos sistemáticos por medir variables
psicológicas puede situarse en cuatro áreas diferentes (Jáñez, 1989; Santisteban, 1990):
1. la psicofísica y la medición de la sensación; 2. los estudios sobre el tiempo de reacción
y sus aplicaciones al cronometraje de los actos mentales; 3. el análisis cuantitativo del
aprendizaje iniciado por Ebbinghaus; y 4. el estudio de las diferencias individuales y su
medida iniciado por Galton.
Jáñez (1989) ha distinguido tres épocas en el desarrollo de las teorías de la

medición: época del idealismo platónico, época de la teoría de las escalas de medición, y
época de la teoría representacional. Por su parte, López Feal (1986) incluye las
aportaciones que aparecen en las dos primeras épocas señaladas por Jáñez (1989) dentro
de lo que denomina teoría clásica de la medida.
La época del idealismo platónico se caracteriza porque se supone que en los

objetos existe un valor verdadero de la propiedad que está siendo medida; ese valor
verdadero se denomina magnitud (López Feal, 1986; Jáñez, 1989). Según Jáñez (1989),
en las ciencias físicas esta perspectiva filosófica cristalizó en la teoría axiomática del
matemático O. Hölder (1901), "en la que se expresan las condiciones que debe satisfacer
una magnitud para ser susceptible de medición" (Jáñez, 1989, p. 400). Sin embargo, hay
que hacer notar que, según Narens y Luce (1986), las aportaciones de Hölder constituyen
un desarrollo de las ideas de H. von Helmholtz (1887), un físico-médico de finales del
siglo XIX. Narens y Luce (1986) afirman que las investigaciones de Helmholtz
constituyen el punto de arranque de la moderna teoría de la medición. Sus estudios acerca
de la naturaleza formal de ciertos atributos físicos básicos, como la masa y la longitud, le

llevaron a la conclusión de que estos atributos tenían la misma estructura matemática que
los números reales positivos con adición (+) y orden natural (≥) (Re+, ≥, +) (Narens y
Luce, 1986, p. 166). Efectivamente, entre un conjunto de objetos podemos observar una
relación natural empírica de orden, , "donde el orden refleja cualitativamente el grado
o cantidad del atributo a medir que es mostrado por los objetos" (Narens y Luce, 1986, p.
166). Si x e y son dos varillas metálicas, fácilmente podemos comparar su longitud y
determinar si son iguales (x ~ y) o si x es más larga que y (x ! y). Asimismo, "también
podemos encontrar una operación natural empírica, ◦, que combine cualquier par de
objetos que muestren el atributo en un objeto compuesto que también muestre el atributo"
(Narens y Luce, 1986, p. 166). Colocando la varilla x a continuación de la varilla y,
realizamos la operación de combinación, obteniendo como resultado x ◦ y. Formalmente,
esta operación de combinación se denomina concatenación. El conjunto de todos los
objetos bajo consideración (X), la relación de orden observada entre ellos (), y todas las
combinaciones que puede formarse mediante ◦, constituyen una estructura cualitativa [χ
= (X, , ◦)], mientras que una estructura como (Re+, ≥, +) que puede utilizarse para
representar a χ recibe el nombre de estructura numérica o de representación (Narens y
Luce, 1986).
Helmholtz (1887) estableció una serie de supuestos sobre χ que cuando se

satisfacen "la medición puede llevarse a cabo en el siguiente sentido: Existe una
aplicación matemática, α, llamada un homomorfismo, de X en los números reales
positivos tal que para cada x e y en X,
a. x y si y sólo si α(x) ≥ α(y)2, y
b. α(x◦ y) = α(x) + α(y)3. ... .
Esos homomorfismos de χ en (Re+, ≥, +) son denominados representaciones
aditivas" (Narens y Luce, 1986, p. 167).
Partiendo del trabajo de Helmholtz, Hölder (1901) estableció que para que una
estructura cualitativa χ = (X, , ◦) tuviera una representación en (Re+, ≥, +) aquélla tenía
que satisfacer los siguientes axiomas (Narens y Luce, 1986):
1. Orden débil.
La relación ≥ es transitiva [∀ x, y, z ∈ X4, si x y e y z, entonces x z] y conectada [∀
x, y ∈ X se cumple que x y o y x].
1
! y ~ son operadores que utilizamos para definir relaciones observadas en el plano empírico,
entre objetos o sujetos a partir de alguna de sus propiedades. Por ejemplo, si observamos que la varilla x
es más larga que la varilla y, podemos escribir: x ! y. Hay que diferenciarlos de los operadores ≥ , > y =
, que son utilizados para definir relaciones entre números. Asimismo, la operación de combinación entre
objetos que denominamos concatenación, y que representamos mediante ◦ , se aplica a objetos o sujetos
en el plano empírico. El operador análogo en el plano numérico, + , se aplica a números en el plano
formal.
2
El objeto x es igual o mayor a y si y sólo si la imagen numérica de x según α (esto es, el número que
asignamos a x según el homomorfismo) es igual o mayor a la imagen numérica de y según α.
3
La concatenación de x e y se puede representar mediante la suma de sus imágenes numéricas.
4
Esta expresión se puede leer así: para todo x, y, z (es decir, para una serie de tres objetos) que
pertenezca a X (el conjunto de objetos a medir) si ...

2. Monotonicidad.
[∀ x, y, w, z ∈ X si x y y z w, entonces x ◦ z y ◦ w. Esto es, la concatenación de
objetos preserva el orden.
3. Resolubilidad limitada.
Para cada x, y ∈ X si x ! y, existe algún z tal que x ! y ◦ z.
4. Positividad.
∀ x, y ∈ X se cumple que x ◦ y ! x y que x ◦ y ! y.
5. Asociatividad.
∀ x, y, z ∈ X se cumple que x ◦ (y ◦ z) ~ (x ◦ y) ◦ z.
Una estructura que satisfaga estos axiomas es denominada extensiva (Narens y

Luce, 1986). Si imaginamos que x, y, w, z son varillas metálicas y que la propiedad objeto
de medición es su longitud, podremos verificar que todos los axiomas se cumples.
Según Jáñez (1989), el desencadenante de la segunda época (época de las escalas

de la medición) fue el estudio realizado por un comité formado en 1938 por The British
Association for the Advancement of Science (BAAS) para comparar las medidas
psicológicas con las físicas (Keats, 1988); concretamente, se le encargó que estudiara "la
posibilidad de medir las sensaciones, y para hacer más viable el diálogo, se restringió el
estudio a la sensación auditiva" (Jáñez, 1989, p. 401). Campbell, un filósofo de la física,
formaba parte del citado comité, y según Narens y Luce (1986, p. 168) fue "una fuerza
importante en su creación". Campbell (1928) había distinguido entre medición
fundamental y medición derivada. La primera "depende de las leyes que relacionan
varias cantidades del constructo. ... es un medio por el que los números pueden ser
asignados, de acuerdo con leyes naturales, para representar la propiedad y sin embargo no
presupone la medición de otras variables. ... Las propiedades extensivas de la física, por
ejemplo, la longitud, la resistencia, y el volumen, son ejemplos de propiedaes medibles
por un procedimiento fundamental" (Torgerson, 1958, p. 22). La medición derivada es
"aquélla que se define a partir de mediciones fundamentales", como ocurre, por ejemplo,
en la medición de la densidad. Campbell sostenía que la medición fundamental se basaba
en operaciones monotónicas y asociativas de combinación (Narens y Luce, 1986). La
conclusión final del comité fue que "la medición fundamental en Psicología era
imposible porque tales operaciones empíricas no se dan" (Narens y Luce, 1986, p. 168).
Según Jáñez (1989, p. 401), la conclusión del comité de la BAAS "carecía de

fundamento, tal como se iba a demostrar más tarde. De todos modos, iba a ser el
detonante que haría estallar la concepción platónica de la medición y daría paso a nuevas
ideas", las ideas de Stevens.
A finales de los años treinta, Stevens también había discutido con una serie de
filósofos y científicos cuestiones similares a las planteadas por la comisión de la BAAS
(Narens y Luce, 1986). A diferencia de Campbell, para Stevens la estructura empírica y
su representación no constituían el único aspecto importante de la medición. Lo
realmente crucial era la unicidad o singularidad de la representación, esto es, el grupo de
transformaciones que dejan invariante la forma de las escalas (Narens y Luce, 1986;

Jáñez, 1989). Entre 1946 y 1951, Stevens distinguió cuatro grupos de transformaciones, e
introdujo los términos de escala nominal, ordinal, de intervalos, y de razón, para referirse
a las mismas (Narens y Luce, 1986). Estas ideas, junto con su concepción de la medición,
constituyen las aportaciones más relevantes e innovadoras de Stevens (Jáñez, 1989). Para
Stevens, medir ya no consiste en "buscar el número que representa la cantidad de
magnitud presente en un objeto" (Jáñez, 1989, p. 402). Medir es asignar números a los
objetos según cierta regla (Stevens, 1951), de manera que "los números asignados en la
medición, no representan propiamente cantidades, sino relaciones" (Jáñez, 1989, p. 402).
Esta concepción de la medición será tomada y desarrollada más tarde por la teoría
representacional.
Por otra parte, también hay que señalar que en respuesta a las conclusiones del
comité de la BAAS, varias aportaciones contemporáneas a Stevens mostraron que la
medición fundamental mediante escalas de intervalo era también posible para las
estructuras no extensivas (Narens y Luce, 1986). Según los citados autores, la prueba más
clara al respecto la ofreció la teoría de la medición conjunta aditiva (Krantz, 1964;
Holman, 1971).
A partir de la década de los sesenta, se desarrollan una serie de teorías
axiomáticas de la medición (Suppes Zinnes, 1963; Krant, Luce, Suppes y Tversky, 1971;
Luce y Tukey, 1964; Roberts, 1979) que dan paso a lo que Jáñez (1989) denomina época
de la teoría representacional, ya que desde esta perspectiva "los símbolos asignados a los
objetos deben representar las relaciones percibidas entre los atributos de los objetos"
(Leaning y Filkenstein, 1980, p. 73; citado en Jáñez, 1989, p. 404). Esta teoría distingue
con claridad entre un sistema relacional empírico (X), un sistema relacional numérico
(R), y una aplicación u homomorfismo de X en R. El sistema relacional empírico hace
referencia al conjunto de objetos que muestran el atributo de interés, y las relaciones entre
los mismos; y el sistema relacional numérico alude al conjunto de números y sus
relaciones que pueden ser usados para representar las relaciones observadas entre los
objetos bajo consideración (Narens y Luce, 1986; Aftanas, 1988). Medir implica traducir
la información que contiene el sistema empírico al marco del sistema relacional numérico
mediante una aplicación u homomorfismo (Aftanas, 1988, p. 326).
Según Jáñez (1989), los conceptos de sistema relacional (empírico y numérico) y
homomorfismo o aplicación que permite transformar un sistema en otro, constituyen los
fundamentos de las teorías modernas de la medición. Estas teorías abordan tres
problemas básicos: el de la representación, el de la unicidad, y el de la significación.
El problema de la representación consiste en determinar, "las condiciones que
debe satisfacer el sistema relacional empírico para que exista un sistema relacional
numérico y un homomorfismo entre ambos que permita considerar este último como
representación de aquél" (Jáñez, 1989, p. 409).
El problema de la unicidad consiste en determinar cuáles son las
transformaciones admisibles para un homomorfismo determinado sin que la escala
pierda su representación (Jáñez, 1986; Santisteban, 1990). La respuesta a esta cuestión
permite conocer el tipo de escala resultante.
El problema de la significación alude a la validez formal de las inferencias que se
realizan sobre un sistema relacional empírico a partir de las propiedades descubiertas en
un sistema relacional numérico (Jáñez, 1986; Santisteban, 1990).
Texto para preparar este punto: Capítulo 18 del libro:
Jáñez, L. (1989). Fundamentos de Psicología Matemática. Madrid: Pirámide.
REFERENCIAS BIBLIOGRAFICAS.
Adams, G. R. y Schvaneveldt, J. D. (1985). Understanding research methods. New

York: Longman.
Aftanas, M. S. (1988). Theories, models, and standard systems of measurement. Applied
Psychological Measurement, 12, 325-338.
Allen, M. y Yen, W. M. (1979). Introduction to mesurement theory. Belmont, CA:
Wadsworth.
Campbell, N. R. (1928). An account of the principles of measurement and calculation.
London: Longmans.
DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn & Bacon.
Helmholtz, H. von (1887). ZŠhlen und Messen erkenntnis-theoretisch betrachet.
Philosophische AusfŠtz Eduard Zeller gewidmet, Leipzig. (Reimpreso en
Wissenschaftliche Abhandlungen, 1985, 3, 356-391. C. L. Bryan (trad.), Counting
and measuring. Princeton, NJ: Van Nostrand, 1930).
Hölder, O. (1901). Die Axiome der QuantitŠt und die Lehre wom Mass. SŠchsische
Akademie Wissenschaften zu Leipzig, Mathematisch-Physische Klasse, 53, 1-64.
Holman, E. W. (1971). A note on conjoint measurement with restricted solvability.
Journal of Mathematical Psychology, 8, 489-494.
Jáñez, L. (1989). Fundamentos de Psicología Matemática. Madrid: Pirámide.
Krantz, D. H.; Luce, R. D.; Supes, P. y Tversky, A. (1971). Foundamentations of
measurement. I: additive and polynomial representations. New York: Academic
Press.
Krantz, D. H. (1964). Conjoint measurement: the Luce-Tukey axiomatization and some
extensions. Journal of Mathematical Psychology, 1, 248-277.
López Feal, R. (1986). Construcción de instrumentos de medida en ciencias sociales y
conductuales. (Vol. I). Barcelona: Alamex.
Luce, R. D. y Tukey, J. W. (1964). Simultaneous conjoint measurement: a new type of
fundamental measurement. Journal od Mathematical Psychology, 1, 1-27.
Meliá, J. L. (1990a). La construcción de la Psicometría como ciencia teórica y aplicada.
Alhorí, Valencia.
Meliá, J. L. (1990b). Introducción a la medición y análisis de datos. Alhorí, Valencia.
Narens, L. y Luce, R. D. (1986). Measurement: the theory of numerical assignment.
Psychological Bulletin, 99, 166-180.
Roberts, F. S. (1979). Measurement theory. With applications to decision making, utility
and the social sciences. En Encyclopedia of Mathematics and its applications. Vol.
7. London: Addison-Wesley.
Santisteban, C. (1990). Psicometría. Teoría y práctica en la construcción de tests.
Norma, Madrid.
Stevens, S.S. (1951). Mathematics, measurement and psychophysics. En S. S. Stevens
(ed.)., Handbook of Experimental Psychology. New York: Wiley. 1-49. (Traducido
en C. H. Wainerman (1976), Escalas de medición en ciencias sociales. Buenos
Aires: Nueva Visión. 15-74).
Supes, P. y Zinnes, J. (1963). Basic measureemnt theory. En R. D. Luce; R. R. Bush y E.
Galanter (eds.), Handbook of Mathematical Psychology. Vol. I. New York: Wiley.
1-76.
Torgerson, W. S. (1958). Theory and methods of scaling. New York: John Wiley and
Sons.

TEMA 3. INTRODUCCION A LOS METODOS DE ESCALAMIENTO.
1.1. La Psicofísica y su papel en el desarrollo del escalamiento psicológico.
1.2. El escalamiento psicológico. Métodos de escalamiento unidimensional.
2. CRITERIOS Y CLASIFICACION DE METODOS.
1.1. La Psicofísica y su papel en el desarrollo del escalamiento psicológico.
El origen de los desarrollos en el área de los métodos de escalamiento es generalmente ligado a la

figura de Theodor Gustav Fechner y sus "Elemente der Psychophysik" de 1860. Fechner definió la Psicofísica
como una ciencia exacta acerca de las relaciones funcionales de dependencia entre el cuerpo y la mente
(Gulliksen, 1958). Esas relaciones se concretaron en las relaciones existentes entre los estímulos y las
sensaciones que producen (Psicofísica externa), lo cual llevó a la Psicofísica de Fechner a ocuparse de la
medida de estímulos sensoriales, de la medida de las sensaciones de los sujetos, y de las relaciones entre
continuos psicológicos (sensaciones) y contínuos físicos (estímulos). El interés de Fechner por estudiar la
relación entre estímulos y sensaciones fue producto de una imposibilidad de su tiempo: la de estudiar la
relación entre actividad cerebral y sensación (Psicofísica interna).
Parece que fue el 22 de Octubre de 1850 cuando Fechner dio forma a su conocida ley logarítmica
(Gescheider, 1988). Según esta ley, acuñada con el nombre de Ley de Fechner, la sensación (S) es una función
lineal del logaritmo del nivel de estimulación (E) (S = C ln(E) + K; o S= K logE, donde C y K son dos
constantes); de modo que, sobrepasado un umbral absoluto, incrementos aritméticos en el nivel de sensación
son consecuencia de incrementos geométricos en el nivel de estimulación. Para desarrollar esta ley, Fechner
asumió como supuesto la Ley de Weber que afirma que la cantidad de estimulación necesaria para que se
advierta un cambio en el continuo de la sensación es proporcional al nivel de estimulación ya alcanzado (∆E =
K E).
La Ley de Fechner fue ampliamente aceptada durante unos cien años, y su influencia trascendió los
dominios de la Psicología dejándose notar en disciplinas como la neurofisiología y la ingeniería (Gescheider,
1988). Sin embargo, no ha estado exenta de críticas, algunas de las cuales permiten formular funciones de
relación alternativas (Ponsoda, 1986). Eso fue lo que hizo Stevens casi un siglo después de la publicación de
los "Elemente der Psychophysik" de Fechner (Stevens, 1953, 1954, 1955).
Las diferencias entre las funciones de relación que propusieron ambos investigadores tienen su base
en los procedimientos experimentales empleados. Así, mientras que Fechner obtenía datos acerca de la
discriminabilidad de los estímulos y elaboraba la escala de sensación a partir de las diferencias apenas
perceptibles, Stevens preguntaba directamente a los sujetos por el valor de su sensación, admitiendo sus
respuestas como su verdadero nivel de sensación, obteniendo así datos acerca de la estimación de la
magnitud de los estímulos. Con ello, la "nueva Psicofísica" de Stevens se ocupa de la relación entre los niveles
de estimulación y las respuestas que evoca en los sujetos (Stevens, 1966), reflejando así la influencia del
conductismo y el operacionalismo dominante en la época.
Tras obtener información en diversos continuos estimulares, Stevens y sus colaboradores

concluyeron que la función que mejor se ajustaba a las relaciones observadas entre estímulos (E) y respuestas
(R) era una función potencial. Esa función [R = k Ec; o ln(R)= ln(K) + c ln(E)] expresa la conocida Ley de
Stevens, e indica que razones iguales entre estímulos producen razones subjetivas iguales (Stevens, 1975).

Con la formulación de la Ley de Stevens en la década de los cincuenta se reanimó la investigación de

carácter psicofísico, y con ella aparecieron las críticas a la mencionada ley y a los procedimientos empleados
por su autor. Así, se cuestionó la fiabilidad de los sujetos como instrumentos de medida, ya que "sus
mediciones dependen de varios factores no relacionados con la sensibilidad del observador" (Ponsoda, 1986,
p. 25). Además, se obtuvieron datos empíricos que no se ajustaban a la función potencial.
Por otra parte, como fruto de la actividad investigadora despertada por Stevens, a principios de los
sesenta aparecieron una serie de trabajos que en cierta manera reconciliaban las leyes de Fechner y Stevens.
Helm, Messick y Tucker (1961) y Galanter y Messick (1961) derivaron una relación exponencial entre las
escalas de estimación de magnitudes empleadas por Stevens y las escalas de discriminación utilizadas por
Fechner (Tucker, 1963). Como señala el citado autor, "una consecuencia de esta relación es que tanto Stevens
como Fechner podrían estar en lo cierto. Las escalas de estimación de magnitudes, tal como defendía Stevens,
podrían tener una relación potencial con la magnitud física, mientras que las escalas de discriminación
podrían tener una relación logarítmica con la magnitud física" (Tucker, 1963, p. 351).
Este breve repaso por los hitos de la historia de la Psicofísica permite vislumbrar que uno de los
problemas fundamentales que tuvo que afrontar la Psicofísica desde sus inicios fue la medida de la sensación
(Gesheider, 1988). Para ello se idearon diversas tareas y métodos que posteriormente serían utilizados por
Thurstone para medir atributos psicológicos de estímulos que no tenían un correlato físico medible
(Gulliksen, 1958), dando lugar así a los métodos de escalamiento psicológico. Puede afirmarse que ésta es la
importante aportación de la Psicofísica a la Psicometría, en general, y a una de sus áreas -el escalamiento- en
particular. Así, podemos afirmar que "el escalamiento fue primero escalamiento psicofísico, y después,
psicológico" (Meliá, 1990a, p. 89). Además, la Psicofísica tuvo una notable influencia en el nacimiento de la
Psicología Experimental (Ponsoda, 1986), fue pionera en la formulación matemática de los modelos teóricos,
y sus métodos han sido aplicados a otras áreas de la Psicología (Stevens, 1975).
1.2. El escalamiento psicológico. Métodos de escalamiento unidimensional.
Como sugerimos en el apartado anterior, con Louis Leon Thurstone se inicia el escalamiento
psicológico propiamente dicho. Thurstone advirtió que ciertos métodos empleados en la investigación
psicofísica podían ser utilizados para medir atributos psicológicos con precisión si se desarrollaba un modelo
teórico apropiado (Gulliksen, 1958). En 1927, Thurstone presentó su modelo bajo la denominación de Ley del
Juicio Comparativo. Esta es un conjunto de ecuaciones que relaciona: 1. la proporción de veces que un
estímulo es juzgado mayor que otro respecto a un atributo o continuo psicológico concreto, con 2. los valores
escalares y las dispersiones discriminativas de los dos estímulos. Un supuesto básico de esta ley es que el
grado en que dos estímulos cualesquiera pueden ser discriminados es una función directa de la diferencia de
su posición respecto al atributo en cuestión (McIver y Carmines, 1981; p. 18). A partir de aquí, y usando el
método de las comparaciones apareadas -un método elaborado por Fechner-, Thurstone fue capaz de ubicar a
los estímulos en un continuo unidimensional, asignándoles valores escalares.
Además de importar de la Psicofísica el método de las comparaciones apareadas, Thurstone ideó

otros métodos, como el de los intervalos aparentemente iguales y el de los intervalos sucesivos. Si bien sus
aportaciones representan una de las contribuciones más importantes a la medida de atributos psicológicos,
no están exentas de algunas limitaciones y problemas. Entre ellos cabe destacar que los métodos de
Thurstone presumen la unidimensionalidad de la escala, pero no ofrecen ninguna evidencia al respecto; y
que la construcción de escalas mediante sus métodos requiere por lo general mucho tiempo y trabajo.
El método de escalamiento propuesto por Likert (1932) superaría la primera y cuarta limitaciones
señaladas anteriormente. Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la
medición de las actitudes, Likert (1932) se preguntó si la construcción de escalas de medida mediante
procedimientos más sencillos daría resultados tan buenos como los obtenidos por Thurstone en cuanto a la
fiabilidad y validez de las medidas, y si sería posible construir escalas evitando asumir supuestos estadísticos
innecesarios.

El método de medición de Likert consiste básicamente en la presentación a los sujetos de una serie de
items ante los que tienen que expresar su posición escogiendo una alternativa de respuesta entre las
ofrecidas. La puntuación del sujeto se determina sumando o promediando los valores de las alternativas de
respuesta escogidas ante cada ítem (Likert, 1932). El modelo aditivo de Likert asume que los items que se
presentan a los sujetos miden un único atributo bajo investigación, y que cada uno de esos items está
monotónicamente relacionado con el continuo del atributo subyacente.
Una diferencia fundamental respecto a los métodos propuestos por Thurstone para la medición de
actitudes reside en que no se necesita que los items o enunciados sean calibrados previamente, lo cual supone
un ahorro de tiempo y trabajo considerable.
Likert (1932) comparó distintos procedimientos de puntuación de las respuestas dadas a los items,
comprobando que el procedimiento más sencillo, consistente en asignar valores de 1 a 5 a cada una de las
cinco alternativas de respuesta ofrecidas (entre "Muy de acuerdo" y "Muy en desacuerdo"), ofrecía unos
niveles de fiabilidad tan buenos como otros procedimientos más complejos. Asimismo, comprobó que las
escalas construidas con su método presentaban niveles de fiabilidad incluso superiores a escalas similares
elaboradas mediante los métodos ideados por Thurstone, mostrando a su vez una buena validez (Likert,
1932). A estas propiedades hay que añadir que para la construcción de escalas siguiendo el método propuesto
por Likert no era necesario recurrir a jueces, evitando así los inconvenientes asociados.
Todo ello contribuyó a que el uso del método de escalamiento de Likert se extendiera rápidamente.
Pero este método también presenta ciertas limitaciones. Una de ellas hace referencia a la interpretación de las
puntuaciones de los sujetos en la escala. El método de Likert no ofrece como resultado "la ubicación de los
items individuales en un continuo actitudinal subyacente. Consecuentemente, no se puede ofrecer una
interpretación absoluta de la puntuación de un sujeto en términos de ese continuo" (McIver y Carmines, 1981,
p. 27). Por todo ello, la interpretación de la puntuación de un sujeto en una escala sumativa de Likert depende
de la distribución de las puntuaciones del grupo de sujetos al que pertenece el sujeto. Otras críticas recibidas
por el método de Likert aluden a los procedimientos empleados para garantizar la unidimensionalidad de la
escala, basados en el análisis de la homogeneidad de los items (McIver y Carmines, 1981). A pesar de estas
limitaciones, y debido principalmente a su sencillez, el método de escalamiento de sujetos propuesto por
Likert es hoy el más extendido en el campo de la medición de actitudes.
A partir de 1941 Louis Guttman publica una serie de trabajos en los que presenta su aproximación
innovadora al escalamiento. Su método, conocido por los nombres de escalamiento acumulativo y análisis de
escalograma, permite escalar items y sujetos sobre una dimensión acumulativa subyacente. En el caso ideal,
la puntuación total en una escala Guttman permite reproducir las respuestas dadas ante cada uno de los
items que configuran la escala.
Una de las características del modelo de Guttman es que se trata de un modelo determinista: las
respuestas de los sujetos a los items están determinadas por la situación de los sujetos y los items en el
continuo del rasgo subyacente que se pretende medir. Por ejemplo, desde este modelo se espera que un sujeto
que tenga un nivel de aptitud numérica igual o superior al que exige un problema aritmético, siempre dará
con la solución correcta. Sin embargo, la práctica nos muestra que éste no es siempre el caso, y que a veces el
sujeto fallará. Mokken (1971) desarrolló una versión probabilística del modelo de Guttman. En este modelo es
la probabilidad de dar una determinada respuesta la que depende de la situación de los sujetos y los items en
el continuo del rasgo subyacente que se pretende medir.

2. CRITERIOS Y CLASIFICACION DE METODOS.
Son diversos los criterios que se han propuesto para clasificar los distintos métodos de escalamiento
existentes (ver Torgerson, 1958; López Feal, 1986). Sin embargo, uno de los criterios todavía hoy más
utilizados (p. ej., McIver y Carmines, 1981) fue propuesto hace ya más de cuatro décadas por Torgerson
(1958). Tal criterio alude a la atribución de la variabilidad de las respuestas que dan los sujetos frente a los
estímulos. En base a ese criterio, Torgerson distinguió tres tipos de métodos:
1. 0pWRGRVFHQWUDGRVHQHOVXMHWR: La variabilidad de las respuestas es atribuida a las diferencias

entre los sujetos. Estos métodos pretenden medir personas. (Por ejemplo, el método de Likert).
2. 0pWRGRVFHQWUDGRVHQHOHVWtPXORRPpWRGRVGHMXLFLR: La variabilidad de las respuestas es atribuída

a las diferencias que presentan los estímulos en relación a un determinado atributo. El propósito
inmediato de estos métodos es escalar estímulos. (Por ejemplo, el método de las comparaciones
aparedas de Thurstone).
3. 0pWRGRV GH UHVSXHVWD: La variabilidad de las respuestas es atribuida tanto a las diferencias
individuales como a las estimulares. Estos métodos permiten escalar tanto sujetos como
estímulos. (Por ejemplo, el método de Guttman).
Torgerson (1958) clasifica los PpWRGRVGHMXLFLR en base a los procedimientos empleados para obtener la
unidad de medida de la escala resultante. Así distingue entre los métodos de MXLFLRFXDQWLWDWLYR y los métodos
basados en la YDULDELOLGDG de los juicios. En los primeros, la unidad de medida se obtiene directamente a partir
de los juicios cuantitativos acerca de los estímulos (por ejemplo, métodos de estimación subjetiva, métodos de
fraccionamiento, métodos de equisección). En los segundos, la unidad de medida se obtiene a partir de la
variabilidad de los juicios ofrecidos ante los estímulos (métodos de sensibilidad diferencial, métodos
thurstonianos).
Para clasificar los PpWRGRVGHUHVSXHVWD, Torgerson (1958) propone tres criterios:
1. &RQVLGHUDFLyQ GH OD YDULDQ]D GH HUURU R QR VLVWHPiWLFD. Este criterio permite distinguir entre
métodos o modelos GHWHUPLQtVWLFRV y SUREDELOtVWLFRV. Los primeros no consideran la varianza de
error, y asumen que las respuestas están totalmente determinadas por los parámetros asociados
al sujeto y al estímulo. Los probabilísticos sí consideran la varianza de error, y, en este caso, los
parámetros asociados al sujeto y al estímulo determinan la probabilidad de que el sujeto dé una
determinada respuesta.
2. 'DWRV TXH VH UHTXLHUHQ GH ORV VXMHWRV. Aquí Torgerson distingue entre métodos aplicables a
respuestas FDWHJyULFDV y métodos aplicables a respuestas FRPSDUDWLYDV. Y por último,
3. 1~PHUR GH GLPHQVLRQHV VREUH ODV TXH VH PLGHQ ORV HVWtPXORV \ ORV VXMHWRV. Este criterio permite
diferenciar los métodos XQLGLPHQVLRQDOHV y los métodos PXOWLGLPHQVLRQDOHV.
Hay que hacer notar que Torgerson (1958) no propone ninguna clasificación de los métodos
centrados en el sujeto, lo que justifica señalando que esta aproximación "no ha llevado, en gran medida, al
desarrollo de los modelos de escalamiento" (Torgerson, 1958, p. 47).

7(0$ 0(72'2'((6&$/$0,(17281,',0(16,21$/
'(7+856721(
1. LA LEY DEL JUICIO COMPARATIVO.
2. EL METODO DE LAS COMPARACIONES APAREADAS (CASO V).
3. FIABILIDAD.

Thurstone (1927) propuso una serie de métodos útiles para ordenar objetos a lo largo de un
continuo psicológico. Los objetos psicológicos son estímulos que provocan cierta reacción en el sistema
sensorial de las personas; estos objetos o estímulos pueden ser el sonido de un teléfono, una persona bien
vestida, una tela de seda, una caramelo, o un perfume. También pueden incluirse en esta categoría mensajes
visuales como ❤, o afirmaciones como "Me gusta la escuela".
Todos los métodos que propuso se basan en su Ley del Juicio Comparativo.
La Ley del Juicio Comparativo.
Thurstone estaba preocupado principalmente por el problema de cómo los estímulos psicológicos
pueden ser medidos y comparados entre sí. En contraste, la medida de objetos físicos, es simple y directa.
Si un científico quiere averiguar el peso de una serie de objetos, por ejemplo, tan sólo tiene que utilizar la
escala y el instrumento de medida adecuados y anotar el peso correspondiente a cada uno de ellos.
Seguidamente, los objetos pueden ser ordenados del más ligero al más pesado. Sin embargo, si no hay
ninguna escala disponible, el proceso de ordenar los objetos en función de su peso relativo se complica
considerablemente, ya que ineludiblemente implica juicios individuales. Se podría, por ejemplo, pedir a
cada uno de los miembros de un grupo de personas que ordenaran los objetos desde el más ligero al más
pesado sopesando en la mano cada uno de los objetos uno cada vez. Alternativamente, se podrían presentar
todos los pares posibles de objetos y preguntar a cada persona qué objeto del par es el más pesado. En
ambos casos, obtendríamos una ordenación de los pesos de los objetos basada en los juicios comparativos
de un grupo de personas.
Thurstone reconoció que ésta era precisamente la situación del científico social que intenta medir
un estímulo psicológico. Y su solución reside también en los juicios humanos. Imaginemos el siguiente
ejemplo: a un grupo de personas se les da una lista de profesiones y se les pide que evalúen cada una en
base a su prestigio social relativo. La lista de profesiones representa los estímulos, y el supuesto es que cada
una de ellas puede ser ordenada a lo largo de un continuo en función del grado de prestigio social que cada
una tiene. La Ley del Juicio Comparativo presupone que para cada estímulo -en este caso, para cada
profesión- existe una respuesta que ocurre con la mayor frecuencia. Esta respuesta más frecuente es
denominada respuesta, reacción o proceso discriminatorio modal. La respuesta de cada individuo implica
un juicio acerca del grado de prestigio de cada profesión. No se supone que cada estímulo evoque siempre
la misma respuesta para distintos individuos ni incluso para un mismo individuo en diferentes ocasiones.
De este modo, aunque la profesión de médico elicitará una respuesta modal del grupo de individuos en
relación a su prestigio, esta respuesta modal no caracterizará todas las respuestas evocadas, pues no hay que
olvidar que la respuesta modal es sólo la que se da en más ocasiones.
Thurstone asume que la distribución de todas las respuestas evocadas por cualquier estímulo es
normal, siendo la media la respuesta modal. Sabemos que la distribución normal puede ser descrita
mediante dos parámetros: su media y su desviación típica; y que en cualquier distribución normal, la media,
la mediana y la moda tienen el mismo valor. La respuesta modal para un determinado estímulo (que
equivale a la media de la distribución de las respuestas evocadas) es considerada el valor de la escala para
ese estímulo, y la desviación típica de la mencionada distribución es la dispersión discriminal para ese
estímulo. Así pues, cualesquiera dos profesiones puede diferenciarse en términos de sus respuestas
modales, esto es, sus valores en la escala, y sus dispersiones discriminales. Ahora las distintas profesiones
podrían ser ordenadas a lo largo del continuo psicológico que representa prestigio social, calculando sus
valores en la escala y ordenándolas desde la más a la menos prestigiosa.

El supuesto básico que subyace la Ley del Juicio Comparativo es el siguiente: el grado en el que
dos estímulos cualesquiera pueden ser discriminados es una función directa de la diferencia percibida
existente en relación con el atributo en cuestión. Continuando con el ejemplo anterior, probablemente
muchos individuos juzgarán que la profesión de médico tiene más prestigio social que la de mecánico de
automóviles. Sus valores relativos en la escala reflejarán esta diferencia. Si se juzga que dos estímulos
tienen exactamente el mismo valor en la escala -es decir, el 50% de los sujetos consideran que la profesión
A es más prestigiosa que la profesión B, y el otro 50% exactamente a la inversa-, entonces se considera que
los dos estímulos tienen la misma cantidad de la propiedad. De este modo, la ubicación de las profesiones a
lo largo del continuo de prestigio social debe reflejar el grado en el que los individuos pueden discriminar
entre el prestigio percibido de las distintas profesiones. A mayor distancia en el continuo entre dos
profesiones cualesquiera, mayor grado en el que los individuos están de acuerdo en que una de las
profesiones tiene más prestigio que la otra. Inversamente, cuanto menor sea la distancia en el continuo
entre cualesquiera dos profesiones, mayor confusión existirá acerca del prestigio relativo de las dos
profesiones. El grado en el que dos profesiones cualesquiera pueden ser discriminadas es un reflejo directo
de sus diferencias percibidas en cuanto a su prestigio social.
Así pues, los objetos psicológicos pueden tomar valores de una escala, pero sólo dentro de un
marco de comparaciones relativas. Para ello es necesario, por lo menos, disponer de dos objetos de manera
que la comparación pueda ser realizada. En este caso, Thurstone asume que las respuestas a cada objeto se
distribuyen normalmente y que la varianza de las respuestas alrededor de cada media es igual para ambos
objetos. Veamos pues a través de un ejemplo sencillo cómo podrían asignarse valores relativos a dos
estímulos que son comparados. Supongamos que i y j son dos objetos psicológicos que tienen que ser
juzgados en relación al siguiente continuo: actitud positiva hacia la asistencia a la escuela. Supongamos
que i es el siguiente estímulo: "Odio la escuela", y j :"A veces la escuela es aburrida".
Podríamos pedir a un grupo de sujetos que juzgaran qué afirmación es menos desfavorable a la
asistencia a la escuela. Si el 80% de los sujetos eligiera j como menos desfavorable que i , y, por lo tanto, el
20% restante eligiera a i como menos desfavorable que j, podríamos argumentar que la respuesta media a j
debería ser mayor que la respuesta media a i en una escala referida al continuo [aunque desconozcamos el
valor de tales medias], es decir,
s j ² si
La distancia entre las dos medias [esto es, entre las respuestas modales de i y j] es una función del número
de veces que j es valorada por encima de i. Utilizando comparaciones apareadas podríamos contar el
número de veces que se da este juicio, y transformar esta frecuencia en una proporción de preferencia. Si en
un grupo de 50 sujetos, j es preferida sobre i [es valorada como menos desfavorable a la asistencia a la
escuela] 40 veces, entonces la proporción es 40/50 o 0.80.
Sin embargo, las proporciones pueden ser expresadas como puntuaciones normales de desviación
(por ejemplo, puntuaciones típicas (z)). En el caso del ejemplo, y utilizando las tablas de la distribución
normal, para una proporción igual a 0.80 corresponde una puntuación normal de desviación zij=0.84. La
distancia en la escala entre dos objetos psicológicos puede definirse en términos de esta puntuación normal
de desviación, esto es,
z ij = s j − s i
Gráficamente, podemos decir que en algún lugar del continuo de "actitud hacia la asistencia a la escuela" j
e i están separados por una distancia de 0.84 del modo siguiente:

A veces la escuela
Odio la escuela
es aburrida.
negativo i j positivo
.84
Continuo: actitud hacia la asistencia a la escuela
Nótese que a pesar de que la media de la distribución de las respuestas alrededor de los estímulos
nunca será conocida, la diferencia entre dos medias cualesquiera puede ser obtenida si se acepta el
supuesto de normalidad mencionado anteriormente. El uso que hace Thurstone de la puntuación normal de
desviación como una medida de la distancia entre las medias se justifica de la siguiente forma:
el test de la diferencia entre medias de dos distribuciones normales es:
X1 − X 2
z 12 =
2 2
S 1 + S 2 − 2 r 12 S 1 S 2
Thurstone resuelve esta ecuación obteniendo un valor para la diferencia entre las medias de la siguiente
forma:
2 2
X 1 − X 2 = z 12 S 1 + S 2 − 2 r 12 S 1 S 2
X X
Sean 1 y 2 los valores en la escala de los dos estímulos (la media y la moda son iguales en una
distribución normal), y asumiendo que los estímulos no correlacionan (esto es, r=0), la fórmula se reduce a:
2 2
X −X =z S +S
1 2 12 1 2
Asumiendo que las varianzas de respuesta son iguales para los dos estímulos, el valor bajo la raíz se
convierte en una constante, y en este caso la fórmula se reduce a
X −X =z ⋅ cons tan te
1 2 12
Aunque la constante puede tomar cualquier valor, generalmente se escoge el valor de 1.
Thurstone desarrolló tres métodos de escalamiento basados en la Ley del Juicio Comparativo: el
método de las comparaciones apareadas, el método de los intervalos sucesivos, y el método de los
intervalos aparentemente iguales. El ejemplo anterior corresponde a una breve ejemplificación del método
de las comparaciones apareadas, del que pasamos a ocuparnos a continuación con mayor profundidad.
El método de las comparaciones apareadas (caso V).
Este procedimiento de Thurstone para encontrar las distancias entre estímulos en una escala parte
de las elecciones derivadas de una lista de comparaciones apareadas de objetos. Las elecciones pueden ser
acumuladas en una tabla de doble entrada, escribiendo un 1 en cada intersección de una fila y una columna
donde el objeto de la columna es preferido sobre el objeto de la fila. Supongamos que con cuatro objetos A,
B, C, y D, formamos todas las parejas posibles, y un sujeto responde de la siguiente manera:

elecciones pares matriz
3 AB A B C D
AC A - 0 0 0
AD B 1 - 0 0
2 BC C 1 1 - 0
BD D 1 1 1 -
1 CD 3 2 1 0

En cada par el objeto subrayado fue el preferido.

8QDPDWUL]SXHGHDFXPXODUXQJUDQQ~PHURGHUHVSXHVWDVGHGLIHUHQWHVVXMHWRV(QHOVLJXLHQWH
HMHPSORILFWLFLRODSULPHUDWDEODWDEODFRQWLHQHODIUHFXHQFLDGHHOHFFLRQHVGHORVREMHWRVcafetería,
gimnasio, teatro, biblioteca, aula, UHDOL]DGDV SRU VXMHWRV $ pVWRV VH OHV SLGLy TXH MX]JDUDQ OD
LPSRUWDQFLDGHFDGDXQRHQUHODFLyQDVXHGXFDFLyQXQLYHUVLWDULD/RVREMHWRVIXHURQHPSDUHMDGRVHQODV
IRUPDVSRVLEOHV\ODVHOHFFLRQHVDFXPXODGDVHQXQDPDWUL]GHIUHFXHQFLDV

,QLFLDOPHQWH VH FDOFXODQ ORV VXPDWRULRV GH ORV YDORUHV GH FDGD FROXPQD WDEOD \ VL ORV
UHVXOWDGRVQRDSDUHFHQHQRUGHQFRPRHVHOFDVRODVILODV\ODVFROXPQDVVRQGLVSXHVWDVGHPDQHUDTXHODV
VXPDVGHODVFROXPQDVTXHGHQRUGHQDGDVGHODPHQRUDODPD\RU/DPDWUL]UHRUGHQDGDDSDUHFHHQODWDEOD
%DMRHOPRGHORGH7KXUVWRQHODVIUHFXHQFLDVVRQWUDQVIRUPDGDVHQSURSRUFLRQHVWDOFRPRVHPXHVWUDHQ
ODILJXUD

7DEOD0DWUL]GH)UHFXHQFLDV$FXPXODGDVQ

i
aula cafet gim biblio teatro
aula - 20 30 35 10
cafet 80 - 30 40 20
gim 70 70 - 45 15
biblio 65 60 55 - 25
teatro 90 80 85 75 -
. 305 230 200 195 70

Cada entrada de la matriz indica el número de veces que el objeto de la columna es preferido
sobre el objeto de la fila.

7DEOD0DWUL]GHIUHFXHQFLDVRUGHQDGDV

i
teatro biblio gim cafet aula
teatro - 75 85 80 90
biblio 25 - 55 60 65
gim 15 45 - 70 70
cafet 20 40 30 - 80
aula 10 35 30 20 -
. 70 195 200 230 305

7DEOD0DWUL]GHSURSRUFLRQHV

i
teatro .50 .75 .85 .80 .90
biblio .25 .50 .55 .60 .65
gim .15 .45 .50 .70 .70
cafet .20 .40 .30 .50 .80
aula .10 .35 .30 .20 .50

(QODGLDJRQDOGHODPDWUL]GHSURSRUFLRQHVVHLQGLFDXQDSURSRUFLyQGHEDMRHOVXSXHVWRGH
TXHFXDOTXLHUREMHWRMX]JDGRFRQWUDVtPLVPRUHFLELUtDXQQ~PHURD]DURVRGHHOHFFLRQHV/DH[SHFWDWLYDHV
TXHHOGHODVYHFHVHOVXMHWRHOHMLUtDHOREMHWRGHODFROXPQD\HORWURHOREMHWRGHODILOD

(QHOVLJXLHQWHSDVRODVSURSRUFLRQHVVRQWUDQVIRUPDGDVDSXQWXDFLRQHVWtSLFDVXWLOL]DQGRODWDEOD
GHODGLVWULEXFLyQQRUPDOYHUWDEOD

7DEOD0DWUL]GHSXQWXDFLRQHVWtSLFDV]

1 2 3 4 5
teatro .00 .67 1.03 .84 1.28
biblio -.67 .00 .13 .25 .38
gim -1.03 -.13 .00 .52 .52
cafet -.84 -.25 -.52 .00 1.17
aula -1.28 -.38 -.52 -1.17 .00

)LQDOPHQWHVHFDOFXODQODVGLIHUHQFLDVHQWUHODVFROXPQDVFRUUHVSRQGLHQWHVDFDGDHVWtPXORWDO
FRPRVHPXHVWUDHQODWDEOD

7DEOD0DWUL]GHGLIHUHQFLDV

2-1 3-2 4-3 5-4
biblio-teatro gim-biblio cafet-gim aula-cafet
.67 .37 -.19 .44
.67 .13 .12 .13
.90 .13 .52 .00
.59 -.27 .52 1.17
.90 -.14 -.55 1.17
. 3.73 .22 .42 2.91
n 5 5 5 5
media .746 .044 .084 .582

6L QR IDOWD QLQJ~Q GDWR ODV GLIHUHQFLDV HQWUH ODV VXPDV GH GRV GH ODV FROXPQDV GH
SXQWXDFLRQHVWtSLFDVGHODWDEODVRQLJXDOHVDODVVXPDGHODVGLIHUHQFLDVGHODFROXPQDFRUUHVSRQGLHQWH
GHODWDEOD

6DELHQGRODVGLIHUHQFLDVHQWUHORVREMHWRVSRGHPRVDVLJQDUYDORUHVGHODHVFDODDFDGDXQR
DFXPXODQGRODVGLVWDQFLDVRGLIHUHQFLDVTXHKD\HQWUHHOORVWRPDQGRFRPRSXQWRGHSDUWLGDHOHVWtPXORTXH
REWLHQHPHQRUQ~PHURGHHOHFFLRQHVVREUHORVGHPiVHQHVWHFDVRWHDWUR$VtREWHQGUtDPRVORVVLJXLHQWHV
YDORUHVHQODHVFDODGHLPSRUWDQFLDSDUDODHGXFDFLyQ

valores
teatro = 0.00
biblioteca: 0.00+0.746 = 0.746
gimnasio: 0.00+0.746+0.044 = 0.79
cafetería: 0.00+0.746+0.044+0.084 = 0.874
aula: 0.00+0.746+0.044+0.084+0.582 = 1.456

Una representación gráfica de los valores de cada objeto a lo largo del continuo puede realizaese
de la siguiente manera:
gim
teatro aula
biblio cafet
0 .746 .874 1 1.456

.5 .79
Si en los datos aparecen proporciones superiores a 0.98, éstas deben reducirse al valor señalado.
Igualmente con las proporciones menores que 0.02, deben igualarse a 0.02. La razón de esta restricción es
que las puntuaciones típicas para proporciones extremas generalmente resultan en distorsiones extremas de
los valores de la escala. Si hay datos faltantes las correspondientes celdillas de las matrices se dejan en
blanco, y no se calculan diferencias para tales celdillas. En ese caso, las medias de las diferencias de cada
columna se hallan dividiendo por el número de celdillas completas en la columna. El método del caso V
requiere el supuesto de igual dispersión de las respuestas a distintos objetos, y no correlación entre los
juicios de diferentes objetos. Si estos supuestos no pueden ser satisfechos algún otro método o caso puede
ser usado. El caso V es el más sencillo de los que Thurstone exploró.
Fiabilidad.
Un test sobre la efectividad de cualquier escala lineal puede basarse en la suficiencia de las
puntuaciones de la escala para reproducir las frecuencias o las proporciones originales utilizadas para
elaborar la escala. Tradicionalmente (para el modelo del caso V) esto se hace transformando los valores de
la escala en proporciones obtenidas (p*). Esto es, hay que encontrar las diferencias entre todos los pares de
valores z de la escala, y convertir cada diferencia en una proporción. Luego, se calcula la diferencia media
entre las proporciones originales y las obtenidas (p*). Esta medida llamada desviación media (DA) es
usada como un índice de escalabilidad.
BIBLIOGRAFIA.
Arce, C. (1994). &RQVWUXFFLyQGHHVFDODVSVLFROyJLFDV Madrid: Síntesis.
García Cueto, E. (1993). ,QWURGXFFLyQDODSVLFRPHWUtDMadrid: Siglo XXI.
Meliá, J. L. (1991). 0pWRGRVGHHVFDODPLHQWRXQLGLPHQVLRQDO Valencia: Cristóbal Serrano Villalba.
Muñiz, J. (1991). ,QWURGXFFLyQDORVPpWRGRVSVLFRItVLFRV Barcelona: PPU.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). 3VLFRPHWUtD3UREOHPDV\3UiFWLFDV

Valencia: Cristóbal Serrano Villalba.

TEMA 5. MÉTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.
1. INTRODUCCIÓN.
2. SUPUESTOS.
3. CONSTRUCCIÓN DE UNA ESCALA LIKERT.
4. INTERPRETACIÓN DE LAS PUNTUACIONES.
5. VALORACIÓN.
1. INTRODUCCIÓN.
El método de escalamiento de Likert es el método más utilizado en Psicología para medir

actitudes, y su uso se ha extendido a la medición de otros constructos, como por ejemplo las
dimensiones de personalidad.
Likert (1932) propuso su método de escalamiento a finales del primer tercio del siglo XX.
Previamente, Thurstone (1928) había propuesto un método para la medición de actitudes que
implicaba la participación de sujetos que desempeñaban el papel de jueces (el método de los
intervalos aparentemente iguales). Según Thurstone (1928), el número de jueces debeía oscilar entre
200 y 300. La tarea de estos sujetos consistía en valorar un conjunto de ítems. A partir de estas
valoraciones, se calibraban los ítems, es decir, se estimaba el valor del ítem en la escala. Una vez se
disponía de un conjunto de ítems calibrados que constituían un cuestionario, éste se aplicaba al grupo
de sujetos que se deseaba estudiar, y se les pedía que marcaran los ítems con los que estaban de
acuerdo y aquéllos con los que disentían. La puntuación de cada persona consistía en la media de los
valores de los ítems con los que estaban de acuerdo. El empleo de un número elevado de jueces y la
necesidad de calibrar los ítems hacían que este método fuera muy costoso y laborioso. Asimismo, el
método de Thurstone implicaba una serie de supuesto estadísticos que no habían sido verificados, por
ejemplo, que los valores de escala de los enunciados son independientes de la distribución de
actitudes de los jueces que los valoran (Likert, 1932).
Tras reconocer la importancia de las aportaciones de Thurstone en el terreno de la medición

de las actitudes, Likert (1932) se preguntó si la construcción de escalas de medida mediante
procedimientos más sencillos daría resultados tan buenos como los obtenidos por Thurstone en
cuanto a la fiabilidad y validez de las medidas, y si sería posible construir escalas evitando asumir
supuestos estadísticos innecesarios. Así pues, el objetivo principal de Likert (1932) fue desarrollar un
método de medición de actitudes sencillo y simple.
Brevemente, el método de medición de Likert consiste en la presentación a los sujetos de una

serie de ítems o enunciados ante los que tienen que expresar su posición escogiendo una alternativa
de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los ítems que componen una
escala de actitud hacia la pena de muerte dijera: “La pena de muerte debe abolirse”, y que las
alternativas de respuesta ofrecidas para contestar el ítem fueran:
1. Completamente en desacuerdo.
2. En desacuerdo.
3. Indeciso.
4. De acuerdo.
5. Completamente de acuerdo.
Un sujeto que tuviera una actitud contraria a la pena de muerte contestaría 4 o 5. Una vez que
el sujeto a contestado todos los ítems, la puntuación del sujeto en el cuestionario se determina
sumando o promediando los valores de las alternativas de respuesta escogidas ante cada ítem (Likert,
1932). Por esta razón las escalas o cuestionarios construidos siguiendo este método se denominan
escalas sumativas.

2. SUPUESTOS.
Likert no elaboró un modelo matemático que fundamentara su método de escalamiento. No

obstante, su método implica una serie de supuesto que conviene conocer. Estos supuestos pueden
calificarse de débiles porque no son muy restrictivos ni difíciles de asumir.
El método de Likert es un método de escalamiento centrado en los sujetos (Torgerson, 1958).

Su objetivo es medir sujetos, mostrar las diferencias individuales en relación con una determinada
actitud. Por ello, se asume que la variabilidad observada en las respuestas de los sujetos se debe a
diferencias entre éstos, esto es, a que tienen niveles de actitud diferentes.
El método de Likert no pretende medir o calibrar los ítems. Éstos son considerados réplicas
unos de otros, es decir, se supone que todos tiene el mismo valor de escala.
Asimismo, se supone que cada ítem presenta una relación monotónica con la actitud
subyacente que pretende medir. Esto quiere decir que cuanto más favorable o positiva sea la actitud
de un sujeto, mayor será la puntuación que obtendrá en el ítem, y cuanto más desfavorable o negativa
sea la actitud de un sujeto, menor será la puntuación que obtendrá en el ítem. Gráficamente, esta
relación puede representarse de la siguiente forma:
Figura 1. Relación monotónica entre el ítem y el continuo de la actitud.
Puntuación
ítem
-
- ACTITUD +
Por último, al tratarse de un método de escalamiento unidimensional, se supone que los ítems
miden una única actitud subyacente. Este es el supuesto de unidimensionalidad.
3. CONSTRUCCION DE UNA ESCALA LIKERT.
La construcción de una escala Likert para medir actitudes implica las siguientes tareas:
1. Elaborar una base o banco inicial de items.

2. Determinar cómo se puntuarán los ítems y cómo se obtendrán las puntuaciones de
los sujetos.
3. Análisis y selección de ítems.
4. Evaluación de la fiabilidad y validez de la escala.
3.1. Elaboración de una base o banco inicial de ítems.
La elaboración de un instrumento de medida psicológica comienza con la definición de

aquéllo que queremos medir. A continuación, hay que escribir un conjunto suficientemente amplio de
ítems o enunciados acerca de la actitud en cuestión. Este conjunto de ítems configura el banco o base
inicial de ítems. Es importante que el número de ítems sea, como se ha dicho, suficientemente
amplio, pues hay que evitar que en el caso de que haya que eliminar algunos ítems debido a su baja
calidad, nos quedemos al final del proceso con una escala compuesta por pocos ítems que no
muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales
existentes.
A la hora de elaborar ítems es conveniente considerar los siguientes criterios (Likert, 1932):
1. Un criterio general es que los ítems tienen que ser redactados de tal manera que dos personas
con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una actitud
desfavorable) lo contesten de manera diferente. Un ítem que pueda ser respondido de igual
forma por dos personas con actitudes diferentes es un ítem inadecuado.
2. Los ítems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos
personas con actitudes diferentes ante la pena de muerte seguramente estarán de acuerdo en lo
que dice el siguiente enunciado: “La pena de muerte acaba con la vida de las personas”. Este
enunciado es un enunciado de hecho, y no es útil para discriminar entre dos personas con
actitudes diferentes. En cambio, ante un enunciado valorativo como “La pena de muerte es un
crimen”, dos personas con actitudes diferentes contestarían de manera distinta. Una persona a
favor de la pena de muerte estaría en desacuerdo con el enunciado; una persona en contra de
la pena de muerte estaría de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr este
objetivo, resulta útil utilizar el vocabulario más sencillo posible, de manera que las personas
con un nivel cultural más bajo pertenecientes al grupo al que va dirigido el cuestionario
puedan entender los ítems. La experiencia señala que es preciso evitar frases con dobles
negaciones, incluso con una sola negación. Los enunciados con doble sentido, y los
compuestos por varias frases también deben evitarse, ya que pueden producir ambigüedad o
confusión en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932)
recomendó que aproximadamente la mitad de los ítems representaran manifestaciones de
actitudes positivas o favorables, y la otra mitad de los ítems constituyeran manifestaciones de
actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo un
cuestionario de actitudes hacia la escuela para adolescentes. Un ítem favorable podría ser:
“La escuela es divertida”. Un ítem desfavorable podría ser: “La escuela es un rollo”.
Obsérvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de cinco
puntos como la presentada anteriormente, un sujeto con una actitud muy favorable hacia la
escuela contestará los ítems favorables con cincos, mientras que responderá los ítems
desfavorables con unos. Lo contrario ocurrirá en el caso de un sujeto con una actitud mus
desfavorable hacia la escuela. Así pues, si el cuestionario contiene tanto ítems favorables
como desfavorables, ningún sujeto debería responder a los ítems con una respuesta
estereotipada, como por ejemplo, contestar siempre “5. Completamente de acuerdo”. Es
imposible estar de acuerdo con ítems favorables a la escuela y con ítems desfavorables. Si
encontramos algún sujeto que ha contestado de esta manera estereotipada, seguramente lo
habrá hecho sin prestar atención al contenido de los ítems, y por ello, es conveniente
eliminarlo de la base de datos.
3.2. Puntuación de los ítems y de los sujetos.
Likert (1932) ensayó diversas formas de puntuar los ítems. La más sencilla de todas ellas
consistía en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de
desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En desacuerdo;
3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprobó que esta forma de puntuar los
ítems ofrecía resultados muy similares a los obtenidos mediante otras técnicas más complejas y
costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar los ítems
también se conoce como puntuación mediante números enteros (Andrich & Schoubroeck, 1989).

Las escalas de respuesta empleadas para puntuar los ítems de una escala Likert pueden
presentar un número diferente de alternativas de respuesta. Las escalas con cinco alternativas son
muy frecuentes. Pero no es extraño encontrar escalas de respuestas con cuatro, seis y siete
alternativas. Las escalas con números pares omiten la categoría de respuesta central, que suele ser
“Indeciso”, “Indiferente”, “No estoy seguro”, o “Ni de acuerdo ni en desacuerdo”. Existe cierto
debate sobre si la categoría central debería incluirse o no. Algunos investigadores han recomendado
el uso de la categoría de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn,
1989), argumentando que es preferible no forzar las respuestas de los sujetos indecisos hacia un polo
(acuerdo o desacuerdo) que podría no describirles. Sin embargo, otros estudios han cuestionado el
uso de las categorías centrales porque éstas pueden atraer a las personas que las seleccionan por
razones diferentes de cuál es su posición en la actitud medida (Bock y Jones, 1968; Worthy, 1969;
Kaplan, 1972; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han revelado que
casi un 50% de los sujetos que responde mediante diferentes tipos de categorías de respuesta
centrales lo hace por razones diferentes a la de estar en el punto medio de la dimensión medida
(Espejo, 1998; Espejo y González-Romá, 1999). Otros estudios han mostrado que incluso los sujetos
con niveles medios en la dimensión medida, tiene una probabilidad muy pequeña de contestar
utilizando la categoría central, y es más probable que respondan utilizando otras categorías de
respuesta adyacentes, como “En desacuerdo” o “De acuerdo” (Andrich, de Jong y Sheridan, 1997;
Hernández, Espejo, González-Romá y Gómez-Benito, en prensa; Espejo y González-Romá, 2001).
Así pues, en base a los más recientes resultados de la investigación sobre el tema, parece que la
utilidad de la categoría de respuesta central está seriamente cuestionada.
Las escalas de respuesta con seis alternativas suelen ser muy similares a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.
Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una categoría
de respuesta central a la que se le asigna la puntuación de 4.
Todas las escalas de respuesta que se utilizan en las escalas Likert son politómicas, pues
presentan más de dos alternativas de respuesta. Además, son escalas de respuesta ordenadas o
graduadas, ya que la asignación de los números enteros a las distintas respuestas constituye una
escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo ítem,
podemos hacer inferencias acerca de quiénes tienen una actitud más o menos favorable, pero no
podemos determinar cuál es la distancia entre sujetos que responden con alternativas diferentes.
Una vez se ha determinado cómo se puntuará cada ítem, pero antes de calcular la puntuación
de cada sujeto en el cuestionario, hay que detectar los ítems invertidos y transformar la puntuación
obtenida en ellos de manera que tenga el mismo significado que la puntuación obtenida en el resto de
ítems. Como señalamos anteriormente, Likert (1932) recomendó que aproximadamente la mitad de
los ítems representaran manifestaciones de actitudes positivas o favorables, y la otra mitad de los
ítems constituyeran manifestaciones de actitudes negativas o desfavorables. Si se sigue este criterio,
nos encontraremos con que no todos los ítems están redactados en el mismo sentido, y esto tiene
importantes repercusiones en el significado de las puntuaciones de los ítems. Volvamos a nuestro
ejemplo del cuestionario de actitudes hacia la escuela. Una puntuación de 5 (Completamente de
acuerdo) a un ítem favorable (“La escuela es divertida”), no tiene el mismo significado que una
puntuación de 5 a un ítem desfavorable (“La escuela es un rollo”). En el primer caso la puntuación
denota una actitud favorable, mientras que en el segundo indica una actitud desfavorable. Por ello,
estas puntuaciones no pueden sumarse para obtener una puntuación de los sujetos. Previamente, es
preciso que todas las puntuaciones en los ítems estén en la misma dirección. Para ello se procede a
transformar las puntuaciones de los ítems que no estén redactados en el sentido que más interesa. Por
ejemplo, si interesa obtener una puntuación que indique el grado de actitud hacia la escuela de
manera que a mayor puntuación se pueda inferir una actitud más favorable, entonces habrá que
transformar los ítems que denotan una actitud desfavorable. Antes de la transformación, estos ítems
suelen denominarse ítems invertidos.
Cuando se trabaja con una base de datos grande, la transformación de los ítems invertidos
puede realizarse fácilmente con la ayuda de un programa estadístico de análisis de datos, o incluso
con una hoja de cálculo, implementando una fórmula de transformación. Si la escala de respuesta
empleada presenta como valor más pequeño el 1 (que es lo más frecuente), entonces la fórmula de
transformación es:
Pi = (Pm+1) - Po
donde:
Pi : puntuación transformada en el ítem invertido lista para calcular la puntuación total en el
cuestionario;
Pm : puntuación máxima que puede darse al ítem;
Po : puntuación original obtenida en el ítem invertido.
Si la escala de respuesta utilizada para contestar los ítems presenta como valor más pequeño
el cero, entonces la fórmula de transformación es:
P i = P m - Po
Por ejemplo, supongamos que un sujeto ha contestado cuatro ítems del cuestionario de
actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este
mismo apartado. Imaginemos que sus puntuaciones en los ítems son las siguientes:
Items Puntuación (Po)

1. La escuela es divertida .................................................... 5
2. En la escuela aprendo cosas útiles. ................................. 6
3. La escuela es un rollo ...................................................... 2
4. En la escuela pierdo el tiempo. ....................................... 1
Los ítems 1 y 2 manifiestan una actitud favorable, mientras que los ítems 3 y 4 denotan una actitud
desfavorable. Procedamos ahora a transformar los ítems 3 y 4 aplicando la fórmula correspondiente.
Como la escala de respuesta oscila entre 1 y 6, aplicaremos la fórmula Pi = (Pm+1) - Po.
Items Puntuación (Po) Puntuación transformada (Pi)

3. La escuela es un rollo ................................... 2 .................................... (6+1)-2 = 5
4. En la escuela pierdo el tiempo. .................... 1 .................................... (6+1)-1 = 6
Ahora que ya hemos transformado las puntuaciones obtenidas en los ítems invertidos,
podemos calcular la puntuación total de cada sujeto en el cuestionario. Como se indicó al comienzo
de este tema, la puntuación total de un sujeto en el cuestionario se determina sumando o promediando
los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932), razón por la que
las escalas o cuestionarios construidos siguiendo este método se denominan escalas sumativas. En el
ejemplo anterior, la puntuación total del sujeto sería:
Items Puntuación
1. La escuela es divertida .................................................... 5
2. En la escuela aprendo cosas útiles. ................................. 6
3. La escuela es un rollo ...................................................... 5
4. En la escuela pierdo el tiempo. ....................................... 6
Puntuación total (suma) ..................................................... 22
3. 3. Análisis y selección de ítems.
Una vez que ya se ha elaborado un banco inicial de ítems, y se ha aclarado cómo se puntuará
cada uno de ellos y cómo se obtendrá la puntuación de cada sujetos, se inicia la fase de análisis
cuantitativo de los ítems. El banco de ítems ha de aplicarse a una muestra que sea representativa de la
población a la cual va dirigida el test. Esta muestra proporcionará los datos que utilizaremos para
realizar el análisis cuantitativo de los ítems.
Likert propuso dos tipos de análisis: 1. un análisis correlacional de los ítems, y 2. un análisis
basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981).
3.3.1. Análisis correlacional de los ítems.
El análisis correlacional consiste en calcular la correlación entre cada ítem y la puntuación

total en el cuestionario o test (es decir, la suma de todos los ítems). Esta correlación es conocida en el
marco de la Teoría Clásica de los Tests como índice de homogeneidad (IH). Si el ítem analizado mide
lo mismo que el resto de ítems, el índice de homogeneidad será elevado, de manera que los sujetos
que puntúan alto en el ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos que
puntúan bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si el índice de homogeneidad es
bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de ítems. Likert
denominó a los ítems con un índice de homogeneidad bajo como ítems indiferenciadores (Likert,
1932).
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que se
está midiendo, por ello no tiene sentido combinarlos con el resto de ítems para obtener una
puntuación total (McIver y Carmines, 1981). Además, como demuestra la Teoría Clásica de los
Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems
indiferenciadores deben eliminarse.
El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y

la puntuación en el test (en adelante, correlación ítem-test) tiene el siguiente inconveniente: la
puntuación total en el test incluye al ítem como componente, es decir, el ítem analizado aparece en las
dos variables que se correlacionan, y esto aumentará artificialmente el coeficiente de correlación que
se obtenga. Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el test una
vez que se ha eliminado de este último la contribución del ítem. Esta correlación recibe el nombre de
índice de homogeneidad corregido(IHc), y se indica mediante la expresión ri(T-i) . La fórmula para
calcular el índice de homogeneidad corregido es (Peters y Van Vorhis, 1940):
riT S T Si
ri T i
2 2
S T S i 2 riT S T S i
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el
ítem, y ST es la desviación típica que presentan las puntuaciones en test.
Para interpretar el índice de homogeneidad corregido suele tomarse como valor de referencia
0.20. De manera que todos los ítems que presentan ri(T-i) con valores inferiores a 0.20 son eliminados
del banco de ítems por ser indiferenciadores.

Ejemplo de cálculo.
Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de actitudes
hacia la escuela que utilizamos anteriormente. Después de transformar los ítems invertidos, se han
calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuación. Vamos a ilustrar
cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST

1 4 5 5 4 18
2 2 2 1 2 7
3 5 6 4 5 20
4 3 2 3 3 11
5 5 6 4 5 20
6 2 1 1 1 5
7 5 3 2 5 15
8 4 5 5 5 19
9 2 1 1 2 6
10 3 2 1 1 7
11 2 3 1 2 8
12 4 5 6 4 19
13 2 3 1 1 7
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
La fórmula de cálculo del IHc implica la obtención del IH y de las desviaciones típicas del
test y del ítem. Recordemos que las fórmulas para calcular el coeficiente de correlación de Pearson y
la desviación típica son:
n n
2
z xI z yI Xi X
i 1 i 1
rxy Sx
n n
donde n es el tamaño de la muestra, y z denota puntuaciones típicas.
En la tabla siguiente, se muestran los estadísticos necesarios para calcular IH. Tan sólo hay
que recordar que en nuestro caso la variable X es el ítem 1, y la variable Y la puntuación en el test.
Así pues, vemos que zítem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto
cruzado de las puntuaciones típicas, que es el numerador de la fórmula del coeficiente de correlación.

ZITEM1 X
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST ZITEM1 ZTEST ZTEST
1 4 5 5 4 18 0,58 0,81 0,47
2 2 2 1 2 7 -0,97 -0,95 0,92
3 5 6 4 5 20 1,36 1,13 1,54
4 3 2 3 3 11 -0,19 -0,31 0,06
5 5 6 4 5 20 1,36 1,13 1,54
6 2 1 1 1 5 -0,97 -1,27 1,23
7 5 3 2 5 15 1,36 0,33 0,45
8 4 5 5 5 19 0,58 0,97 0,57
9 2 1 1 2 6 -0,97 -1,11 1,08
10 3 2 1 1 7 -0,19 -0,95 0,18
11 2 3 1 2 8 -0,97 -0,79 0,77
12 4 5 6 4 19 0,58 0,97 0,57
13 2 3 1 1 7 -0,97 -0,95 0,92
14 4 5 4 6 19 0,58 0,97 0,57
15 1 2 1 2 6 -1,74 -1,11 1,94
16 4 5 6 5 20 0,58 1,13 0,66
SUMA 13,47
MEDIA 3,25 3,50 2,88 3,31 12,94
D.T. 1,29 1,75 1,96 1,74 6,23
Luego, el valor del IH será:

z íte
ítem 1 z test 1
13 .47
IH rit 0.84
n 16
Ahora ya podemos calcular el índice de homogeneidad corregido (IHc):
riT S T Si 0.84 6.23 1.29

ri T i 0.76
2 2 2 2
S T S i 2 riT S T S i 6.23 1.29 2 0.84 6.23 1.29
El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que
componen el test, debido a que miden la misma actitud. Como cabía esperar, el IHc es menor que el
IH, y la diferencia es apreciable debido a la pequeña longitud del test: tan sólo 4 ítems. En este caso
un 25% del test (es decir, 1 ítem de 4) es parte de las dos variables que correlacionamos cuando
calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test (cuando la
longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello,
cuanto mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando
trabajamos con tests muy largos la diferencia es muy pequeña.
3.3.2. Análisis basado en el criterio de consistencia interna.

Cuando Likert (1932) desarrolló su método de escalamiento, los investigadores no disponían
de ordenadores para realizar los cálculos implicados en los análisis cuantitativos de los ítems.
Calcular los índices de homogeneidad de un test aplicado a una muestra grande conllevaba mucho
tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarrolló un segundo tipo de
análisis basado en “el criterio de consistencia interna”. Este análisis consiste en comparar las
puntuaciones en el ítem del grupo que tiene las puntuaciones más altas en el test (y que por lo tanto,
tiene una actitud favorable), con las puntuaciones en el ítem del grupo que tiene las puntuaciones más
bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En principio, cabe esperar
que dos grupos con actitudes diferentes tengan puntuaciones medias diferentes en el ítem analizado.
Si esto no ocurre se debe a que el ítem no es un buen indicador de la actitud medida, y se trata de un
ítem indiferenciador. Si los dos grupos obtienen puntuaciones medias en el ítem diferentes, entonces
puede afirmarse que el ítem discrimina entre los grupos, y, por lo tanto, es un buen indicador de la
actitud medida.
Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con
puntuaciones más altas y más bajas en el test; no obstante, Likert (1932) también utilizó otros
porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el cálculo de la
diferencia entre las medias de los dos grupos en el ítem. Sin embargo, esta diferencia no tenía en
cuenta que los dos grupos podían presentar variabilidades distintas en el ítem. Para evitar esta
deficiencia, más tarde se comenzó a usar una prueba t para evaluar la diferencia entre las medias
considerando la variabilidad del ítem en los dos grupos. El estadístico t sigue una distribución t de
Student con (nA + nB – 2) grados de libertad –donde n es el tamaño del grupo, y los subíndices A y B
denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la fórmula:
XA XB
t
nA 1 S 2A nB 1 S B2 1 1
nA nB 2 nA nB
donde el numerador es la diferencia entre las medias en el ítem de los dos grupos, y S 2 indica la
varianza en el ítem del grupo correspondiente.
Vamos a aplicar este tipo de análisis basado en el criterio de consistencia interna a los datos
que utilizamos anteriormente. Como en el caso anterior, el análisis se centrará en el ítem 1. En la
siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero éstos han sido ordenados de manera
decreciente en función de su puntuación en el test. Los sujetos que configuran los dos grupos con
puntuaciones extremas en el test están marcados en negrita.
SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST

3 5 6 4 5 20
5 5 6 4 5 20
16 4 5 6 5 20
8 4 5 5 5 19
12 4 5 6 4 19
14 4 5 4 6 19
1 4 5 5 4 18
7 5 3 2 5 15
4 3 2 3 3 11
11 2 3 1 2 8
2 2 2 1 2 7
10 3 2 1 1 7
13 2 3 1 1 7
9 2 1 1 2 6
15 1 2 1 2 6
6 2 1 1 1 5
MEDIA A 4,5
MEDIA B 1,75
D. T. A 0,5
D. T. B 0,43
Si el ítem discrimina entre los dos grupos, entonces observaremos que:

XA XB
Las hipótesis estadísticas implicadas en esta prueba de diferencias entre medias son:
H0 : A B
H1 : A B
Conociendo las medias y las desviaciones típicas que los dos grupos presentan en el ítem 1, vamos a
calcular el estadístico t1.
XA XB 4.5 1.75
t 8.34
nA 1 S 2
nB 1 S
A
2
B 1 1 4 1 0.5 2 4 1 0.43 2 1 1
nA nB 2 nA nB 4 4 2 4 4
Si asumimos un nivel de significación =0.05, en la tabla de distribución de probabilidad t

de Student, observamos que el valor de t para 1- = 0.95 y 6 grados de libertad es: 0.95 t 6 = 1.943.
Como el valor empírico obtenido para el estadístico t (11.75) es mucho mayor que el valor obtenido
en las tablas para un =0.05, podemos afirmar que la probabilidad de obtener una diferencia entre las
medias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequeña. Por ello, dudamos
de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto significa que el ítem sí que discrimina
entre los dos grupos.
Ya señalamos anteriormente que el análisis basado en el criterio de consistencia interna

estuvo motivado por el elevado coste en tiempo y esfuerzo que suponía el cálculo de correlaciones
cuando Likert desarrolló su método. Hoy en día, gracias al uso de los ordenadores y programas
estadísticos, este argumento carece de sentido. En la práctica, es el análisis correlacional basado en el
cálculo de IHc el que se desarrolla.
Likert (1932) estudió la relación entre los resultados producidos por los dos métodos de
análisis. Ordenó un conjunto de ítems en función de su IH, y los ordenó también en función de la
diferencia que los dos grupos extremos mostraban en cada ítem. La relación entre los dos órdenes fue
estimada mediante el coeficiente de correlación rho, que presentó un valor de 0.91. Este resultado
indica un grado de relación muy alto entre los dos órdenes obtenidos, lo cual sugiere que los dos
métodos de análisis tienden a producir resultados similares. Esto no es de extrañar, ya que si un ítem
presenta un elevado IH, los sujetos que puntúan alto en el ítem tenderán a puntuar alto en el test, y los
sujetos que puntúan bajo en el ítem tenderán a puntuar bajo en el test. Y viceversa: el grupo con
puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem, y el grupo con
puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem. Sin embargo, hay que
tener en cuenta que Likert correlacionó órdenes de clasificación (esto es, rankings), y que los órdenes
no informan acerca de si un determinado criterio de análisis es superado o no (por ejemplo: IHc ≥
0.20). Por ello, aunque los resultados de ambos tipos de análisis están relacionados, pueden no
conducir necesariamente a la misma conclusión (McIver y Carmines, 1981). Así pues, cuando se han
aplicado los dos tipos de análisis es conveniente eliminar los ítems que tengan IHc bajos y los que no
discriminen entre los grupos con puntuaciones extremas en el test. Estos ítems son los ítems
indiferenciadores.
1
El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el análisis de ítems. En la práctica, y
trabajando con muestras más grandes, es necesario verificar hasta qué punto se cumplen los supuestos de la prueba.
Likert (1932) señaló algunas de las razones por las que un ítem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de ítems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.
3.4. Evaluación de la fiabilidad y validez de la escala.
Una vez se ha seleccionado un conjunto de ítems, hay que evaluar las propiedades
psicométricas del test o cuestionario que forman considerado como un todo. Las dos propiedades
psicométricas más importantes son la fiabilidad, y la validez2. Para que un test sea un instrumento de
medida útil hay que demostrar su fiabilidad y su validez. Brevemente, señalaremos que la fiabilidad
hace referencia al grado de precisión que ofrecen las medidas obtenidas mediante un test. Supone
también un intento por cuantificar el grado de error que afecta a esas medidas. Un método bastante
extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de Cronbach,
cuya fórmula es la siguiente:
n
S i2
n i 1
1
n 1 S 2x
donde n es la longitud del test (es decir, el número de ítems que lo componen), S2i es la varianza del
ítem i, y S2x es la varianza que muestran las puntuaciones totales en el test. Un criterio bastante
extendido para interpretar el coeficiente alfa es que éste ha de ser igual o superior a 0.70 (Nunnally,
1978), entonces puede afirmarse que el test tiene una fiabilidad suficiente.
Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del
cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las
desviaciones típicas de cada uno de los cuatro ítems y de las puntuaciones totales en el test. Con esta
información ya podemos aplicar la fórmula del coeficiente alfa de Cronbach:
n
S i2
n i 1 4 1.29 2 1.75 2 1.96 2 1.74 2
1 1 0.93
n 1 S 2x 3 6.23 2
El resultado obtenido indica que el cuestionario es fiable.
La validez de un test hace referencia al grado en el que un test mide lo que pretende medir. El
estudio de la validez de un test se desarrolla a partir de la verificación de las hipótesis de validación.
Una hipótesis de validación hace referencia a las relaciones que presentará el test objeto de estudio
con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en el caso del
cuestionario de actitudes hacia la escuela una hipótesis de validación podría ser la siguiente: Se
espera que las puntuaciones totales en el test presenten una correlación positiva con el rendimiento
2
Estas dos propiedades serán objeto de un estudio más detenido en el bloque de temas dedicado a la Teoría de los Tests.
académico, de manera que a mayor puntuación en el test se observe un mayor rendimiento

académico. Las hipótesis de validación se fundamentan en teorías contrastadas y/o en resultados
empíricos previos. La hipótesis de validación indica cuál es el método estadístico que se utilizará para
su verificación. En el caso anterior, la hipótesis alude a la relación entre dos variables cuantitativas,
por lo tanto, su verificación se realizaría calculando el coeficiente de correlación entre las variables.
Las hipótesis de validación pueden tomar diversas formas, y por lo tanto, pueden ser diversos los
métodos estadísticos implicados en su verificación. Para ilustrar este punto, veamos otro ejemplo.
Supongamos que se ha elaborado un cuestionario de actitud hacia el aborto. Si el test mide la actitud
que pretende medir, las puntuaciones en el test de dos grupos de sujetos que mantienen actitudes
extremas y opuestas, deberían ser diferentes. Por lo tanto, en el proceso de validación del test se ha
elaborado la siguiente hipótesis de validación: La puntuación media en el test de un grupo de mujeres
pertenecientes a asociaciones feministas será mayor que la puntuación media de un grupo de mujeres
pertenecientes a asociaciones católicas. En este caso, la hipótesis de validación implica la
comparación de dos medias, comparación que se puede realizar mediante la prueba t correspondiente.
Obsérvese que a diferencia de lo que ocurría cuando se usaba el criterio de consistencia interna para
analizar los ítems, aquí se definen los dos grupos con actitudes opuestas y extremas en base a un
factor externo al test: su pertenencia a asociaciones que mantienen posturas contrarias respecto al
aborto.
El proceso de validación de un test es un proceso continuo, en el que se van acumulando

evidencias acerca de su validez. Sólo cuando se ha acumulado un número suficientemente amplio de
evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la validez.
4. INTERPRETACIÓN DE LAS PUNTUACIONES.
Las puntuaciones obtenidas en una escala Likert no tienen una interpretación directa.
Sabemos que un sujeto que obtuviera una puntuación de 24 (puntuación máxima) en el cuestionario
de actitudes hacia la escuela del ejemplo tendría una actitud muy favorable, y que un sujeto que
obtuviera una puntuación de 4 (puntuación mínima) presentaría una mus desfavorable. Pero, ¿qué
podemos decir de un sujeto que obtiene una puntuación de 14? El método de Likert no permite
“medir” los ítems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar
de acuerdo con un ítem. Por lo tanto, no es posible ofrecer una interpretación absoluta de la
puntuación de un sujeto (McIver y Carmines, 1981). Si supiéramos que un sujeto respalda los ítems
que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces
podríamos inferir que ese sujeto tiene un nivel de actitud muy favorable.
Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es
necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el sujeto.
Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (Xi) y la media del
grupo (es decir, calcular las puntuaciones diferenciales). Además, podemos medir esas diferencias
utilizando como unidad de medida la desviación típica de las puntuaciones en el cuestionario en ese
grupo. Para ello dividiremos las diferencias por la desviación típica, lo cual no es más que
transformar las puntuaciones directas en el test (Xi) en puntuaciones típicas (zi):
Xi X
zi
Sx
Las puntuaciones típicas nos indican cuántas desviaciones típicas se aleja la puntuación del
sujeto de la media de su grupo, y en qué sentido. Por ejemplo, si un sujeto presenta una z i = -0.5,
entonces podemos decir que se trata de un sujeto que está media desviación típica por debajo de la
media del grupo. Si las puntuaciones en el test siguen una distribución aproximadamente normal,
entonces, con ayuda de las tablas de la distribución normal, podemos transformar esa puntuación
típica en el porcentaje de sujetos que quedan por debajo (o por encima) de esa puntuación. El valor de
probabilidad (función de distribución) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el
sujeto que ha obtenido una zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las
puntuaciones en el test no siguen una distribución aproximadamente normal no debe realizarse esta
última transformación. Entonces podemos calcular el centil que corresponde a cada puntuación en el
test. De esta manera sabremos cuál es el porcentaje de sujetos que queda por debajo de cada
puntuación en el test.
5. VALORACIÓN.
Una de las críticas que suele hacerse del método de escalamiento de Likert es que no está
basado en un modelo matemático determinado. Esta es una diferencia importante con los métodos
desarrollados por Thurstone, que basó sus métodos en una serie de supuestos formales y unas leyes
(por ejemplo, la Ley del Juicio Comparativo). En todo caso, el método de Likert puede emnarcarse
dentro del ámbito más general de la Teoría Clásica de los Tests.
Otra crítica se refiere al uso del coeficiente de correlación ítem-test (índice de

homogeneidad) como base para realizar el análisis correlacional de los ítems. Ya hemos señalado que
para evitar aumentar artificialmente esa correlación es necesario utilizar el índice de homogeneidad
corregido.
La verificación de la unidimensionalidad del test también presenta ciertas deficiencias.

Likert (1932) suponía que una vez se hubiera eliminado todos los ítems indiferenciadores, los ítems
restantes medirían una misma dimensión subyacente o actitud. Sin embargo, esto no tiene que ser
necesariamente así. Si un test mide dos actitudes diferentes pero relacionadas, los IHc serán
probablemente elevados, y llevarán a la conclusión errónea de que los ítems miden una única actitud.
El cálculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En su lugar
hay que utilizar métodos más apropiados como el análisis factorial.
Recordemos que Likert pretendía desarrollar un método sencillo para medir las actitudes que
ofreciera resultados similares al método más costoso de los intervalos aparentemente iguales
desarrollado por Thurstone. Likert (1932) observó que la fiabilidad de los cuestionarios producidos
por los dos métodos era muy similar, y que la correlación entre las puntuaciones obtenidas por los dos
métodos era muy elevada. Estos resultados muestran que Likert consiguió su objetivo. Quizás lo que
no previó Likert es que su método tuviera tanto éxito. Su relativa sencillez, en comparación a otros
métodos más modernos, es la responsable de que actualmente sea todavía el método más utilizado
para medir actitudes, dimensiones de la personalidad, y otros constructos psicológicos.
BIBLIOGRAFIA.
Arce, C. (1994). Construcción de escalas psicológicas. Madrid: Síntesis.

García Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI.
Meliá, J. L. (1991). Métodos de escalamiento unidimensional. Valencia: Cristóbal Serrano Villalba.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y
Prácticas. Valencia: Cristóbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visión.

Referencias bibliográficas.
Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a psychometric analysis
using latent trait theory. Psychological Medicine, 19, 469-485.
Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with the Rasch model for
ordered response categories. En J. Rost y R. Langeheine (Eds.), Applications of latent trait
and latent class models in the social sciences (pp. 58-68). Münster, Germany: Waxman
Verlag.
Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and choice. San
Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mark response
category in attitude scales. Educational and Psychological Measurement, 35, 869-884.
Edwards, A. L. (1957). Techniques of attitude scale construction. New York:
Appleton-Century-Crofts.
Espejo, B. y González-Romá, V. (1999). El significado de las categorías centrales en las escalas
tipo Likert. Trabajo presentado al VI Congreso de Metodología de las CC. Sociales y de la
Salud. Oviedo, España.
Espejo, B. y González-Romá, V. (2001). Orden y relevancia de las alternativas de respuesta "no estoy
seguro", "término medio" y "?". Trabajo presentado al VII Congreso de Metodología de las CC.
Sociales y de la Salud. Madrid, España.
Hernández, A.; Espejo, B.; González-Romá, V. y Gómez-Benito, J. (en prensa). Escalas de respuesta
tipo Likert: ¿es relevante la alternativa “indiferente”?. Metodología de Encuestas
Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory: A suggested
modification of the semantic differential technique. Psychological Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50.
(Traducción al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medición en ciencias
sociales, pp-199-260. Buenos Aires: Nueva visión.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate distributions and
applications to rating scales. Dissertation Abstracts International, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New
York: McGraw-Hill.
Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. En Sudman, S. y
Bradburn, N. M. (Eds.). Asking questions: a practical guide to questionnaire design. San
Francisco: Jossey-Bass Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response style scores.
Psychological Reports, 24, 189-190.

TEMA 6. MÉTODO DE ESCALAMIENTO UNIDIMENSIONAL DE GUTTMAN.
1. INTRODUCCIÓN.
2. SUPUESTOS.
3. EL MÉTODO DE CONTEO DEL ERROR DE GOODENOUGH.
4. EL COEFICIENTE DE REPRODUCTIBILIDAD.
5. OTROS COEFICIENTES Y CRITERIOS PARA EVALUAR DE LAS ESCALAS.
6. VALORACIÓN.
1. INTRODUCCIÓN.
El escalograma es un método de escalamiento unidimensional desarrollado por Guttman que permite

medir o ‘escalar’ estímulos (ítems) y sujetos. Según el criterio de clasificación de los métodos de escalamiento que
se refiere a la variabilidad de las respuestas que dan los sujetos frente a los estímulos, este método de escalamiento
es un método de respuesta: se asume que la variabilidad de las respuestas se debe tanto a las diferencias
individuales como a las diferencias entre los estímulos o ítems.
Louis Guttman describió una escala unidimensional como aquélla en la que las respuestas de los sujetos a
los estímulos ubicarían a los individuos en perfecto orden. Idealmente, las personas que contestan unas cuestiones
correctamente tienen mayor habilidad que las personas que responden las mismas cuestiones incorrectamente. Las
cuestiones de aritmética ofrecen buenos ejemplos de este tipo de escalas.
Supongamos que a un grupo de niños de 2º de Primaria se les presenta las siguientes sumas:
1) 2 2) 12 3) 28 4) 86 5) 228
+3 +15 +24 +88 +894
Es probable que si un sujeto A responde correctamente al ítem 5, responda también correctamente a los ítems 1, 2,
3, y 4. Si el sujeto B puede responder correctamente el ítem 2 y no el ítem 3, es probable que pueda responder
correctamente el ítem 1, pero será incapaz de responder correctamente los ítems 4 y 5. Puntuando con un 1 cada
acierto y con un 0 las respuestas incorrectas, puede obtenerse un patrón o perfil de las respuestas de un individuo.
Si las cuestiones aritméticas forman una escala perfecta, la suma de las respuestas correctas a los cinco ítems
puede utilizarse para revelar la escala tipo -el patrón de respuestas a los ítems- de una persona en términos de una
sucesión de unos y ceros. En nuestro ejemplo:
ítems
1 2 3 4 5 suma
La escala tipo del sujeto A es: 1 1 1 1 1 5
La escala tipo del sujeto B es: 1 1 0 0 0 2
Si las cuestiones aritméticas forman una escala perfecta conociendo sólo el número total de aciertos de cada sujeto
podríamos pronosticar las respuestas que ha dado a cada ítem. Supongamos que ése sea el caso, y que el sujeto C
ha obtenido una puntuación de 3 aciertos; pronosticaríamos que sus respuestas han sido las siguientes:
ítems
1 2 3 4 5 suma
respuestas del sujeto C: 1 1 1 0 0 3
El propósito de Guttman cuando diseñó este método de escalamiento fue lograr escalas perfectas, de manera que
conociendo únicamente un número -el de aciertos- pudiera reproducirse la serie de respuestas dadas ante los ítems.

Y ¿cómo se reconoce que una serie de ítems o cuestiones forman una escala perfecta? Visualmente se
reconoce cuando los patrones de respuesta de los sujetos coinciden con las escalas tipo posibles. Si la escala está
compuesta por cinco ítems que se puntúan como correcto (1) o incorrecto (0), hay seis escalas tipo posibles:
escalas tipo puntuación

1 1 1 1 1 1 5
2 1 1 1 1 0 4
3 1 1 1 0 0 3
4 1 1 0 0 0 2
5 1 0 0 0 0 1
6 0 0 0 0 0 0
Como puede apreciarse:
- a un acierto sólo le precede otro acierto, pudiéndole seguir un acierto o un error; y
- a un error sólo le sigue otro error.
Si los patrones de respuesta de los individuos coincidieran con los indicados arriba, podríamos afirmar que las
cinco cuestiones aritméticas forman una escala perfecta.
Obsérvese que, aunque existen 32 combinaciones posibles de cinco unos y ceros (2 alternativas de respuesta, 5
ítems, 25=32 combinaciones), sólo seis forman escalas tipo. En general, el número de escalas tipo para datos
puntuados de manera dicotómica (acierto=1, error=0) es K+1, donde K es el número de objetos, estímulos o ítems.
Aunque las escalas perfectas que deseaba Guttman son díficiles de encontrar en la práctica, pueden obtenerse
aproximaciones a las mismas a través de una selección cuidadosa de los ítems y un detallado análisis de las
respuestas de un conjunto de sujetos a un gran número de ítems, de los que una parte se utilizarán en la escala final.
2. SUPUESTOS.
El método de Guttman es un método unidimensional y de respuesta, de manera que se asume que tanto
ítems como sujetos pueden ser ordenados en una única dimensión subyacente.
La Curva Característica del Ítem (CCI) es una función que relaciona el nivel de rasgo o aptitud de los
sujetos con la probabilidad de acertar o respaldar un ítem (Pi). Bajo el modelo de Guttman la CCI de un ítem tiene
la forma que se muestra en la figura 1. Hasta que el sujeto alcanza el nivel de rasgo exigido por el ítem, o dificultad
del ítem (bi), su probabilidad de acertar o respaldar el ítem es cero. Una vez que el nivel de rasgo del sujeto iguala
o supera la dificultad del ítem, la probabilidad de acertar o respaldar el ítem es uno.
Sea θj el nivel de rasgo del sujeto j, y bi el nivel de dificultad del ítem i. Un aspecto importante es que θj y
bi se refieren al mismo continuo psicológico: el rasgo que interesa medir; luego, son cantidades expresadas en la
misma escala de medida, y por lo tanto son comparables. Así pues, la CCI de un ítem en el modelo de Guttman
indica que:
Pi = 0 si θj < bi
Pi = 1 si θj ≥ bi

Figura 1. Curva característica de un ítem bajo el modelo de Guttman.
Pi
0
bi
- RASGO +
2. EL MÉTODO DE CONTEO DEL ERROR DE GOODENOUGH.
Vamos a seguir el método que proponen Goodenough (1944) y Edwards (1948) para evaluar si un
conjunto de estímulos o ítems constituyen una escala perfecta o escala Guttman.
Hay que tener en cuenta que los estímulos o ítems que se escojan para formar la escala deben ser capaces
de discrimar entre los sujetos con actitudes o percepciones distintas sobre los estímulos a lo largo de una única
dimensión que se pretende medir. Supongamos que las seis afirmaciones que se muestran abajo se han presentado
a doce sujetos, que han respondido a las mismas utilizando la siguiente escala de respuesta: 1. De acuerdo. 0.
Desacuerdo. Nos formulamos la siguiente pregunta: ¿constituyen las seis afirmaciones una escala perfecta o escala
Guttman a lo largo de la dimensión actitudes hacia la escuela? Recuérdese que si la respuesta fuera afirmativa,
conociendo tan sólo el número de respuestas "de acuerdo" podríamos reproducir las respuestas de cada individuo a
cada uno de los ítems o afirmaciones.
Afirmaciones:
a. La escuela está bien.
b. Voy a la escuela con regularidad.
c. Pienso que la escuela es importante.
d. Es bueno estar en la escuela.
e. Pienso que la escuela es divertida.
f. Pienso que la escuela es mejor que un circo.
Las respuestas de cada individuo a cada ítem pueden organizarse en una matriz como la que se
presenta en la tabla 1.

Tabla 1. Matriz de respuestas.
sujetos a b c d e f puntuación
1 0 1 1 1 1 0 4
2 1 1 1 0 0 0 3
3 1 0 0 0 0 1 2
4 1 1 0 0 0 0 2
5 0 0 1 1 1 0 3
6 0 1 0 1 1 0 3
7 0 1 0 0 1 0 2
8 0 1 1 0 0 0 2
9 1 1 0 1 1 1 5
10 0 1 1 1 0 0 3
11 0 0 1 0 0 0 1
12 0 1 1 0 1 0 3
4 9 7 5 6 2 33
Es conveniente reordenar la tabla de manera que su configuración se aproxime a la que mostraría una
escala perfecta. Para ello, y tal como ocurre cuando la escala es perfecta, la primera columna debe corresponder al
ítem que evoca mayor cantidad de unos, siguiendo la ordenación de manera decreciente. Asimismo, el primer
sujeto debe ser el que más unos ha "respondido", siguiendo también la ordenación de manera decreciente hasta el
sujeto que menos unos responde. Tras realizar estas reordenaciones obtendríamos la matriz que aparece en la tabla
2. Aquí los ítems están ordenados en función de su nivel de dificultad1, esto es, en función del nivel de rasgo que
exigen al sujeto para que éste dé una respuesta de acuerdo. Éste es el escalamiento de estímulos que produce el
método de Guttman: una escala ordinal de ítems.
Tabla 2. Matriz reordenada de respuestas.
sujetos b c e d a f puntuación
9 1 0 1 1 1 1 5
1 1 1 1 1 0 0 4
2 1 1 0 0 1 0 3
5 0 1 1 1 0 0 3
6 1 0 1 1 0 0 3
10 1 1 0 1 0 0 3
12 1 1 1 0 0 0 3
3 0 0 0 0 1 1 2
4 1 0 0 0 1 0 2
7 1 0 1 0 0 0 2
8 1 1 0 0 0 0 2
11 0 1 0 0 0 0 1
9 7 6 5 4 2 33
A continuación se calculan los errores -las desviaciones- que contiene cada patrón de respuesta de cada
individuo en relación a la escala tipo perfecta que le correspondería según su puntuación total. Por ejemplo, el
sujeto 9 obtiene una puntuación de 5, en virtud a esta puntuación le corresponde la escala tipo perfecta siguiente:
b c e d a f puntuación
escala tipo perfecta
para una punt.=5 1 1 1 1 1 0 5
1
En sentido estricto, con tests de actitudes y personalidad no tiene sentido hablar de dificultad de los
ítems, ya que en estos tests no hay respuestas correctas ni incorrectas y los ítems no se aciertan ni se fallan. La
dificultad de los ítems sólo tiene sentido en los ítems de rendimiento y aptitud. Sin embargo, el término “dificultad
del ítem” se ha generalizado a ítems de cuestionarios de actitudes y personalidad para hacer referencia al nivel de
rasgo exigido por el ítem para tener una determinada probabilidad de respaldar el ítem.

Sin embargo, su patrón de respuestas es:
patrón suj. 9 1 0 1 1 1 1 5
Comparando ambos patrones, se observa que hay dos errores, uno en el ítem c y otro en el f:
escala tipo perfecta 1 1 1 1 1 0 5
patrón suj. 9 1 0 1 1 1 1 5
diferencia 0 1 0 0 0 -1
El número de errores también puede calcularse restándole a la escala tipo perfecta, el patrón de
respuestas obtenido por el sujeto, tal como se indica en la tabla anterior. La suma de los valores absolutos de cada
diferencia es igual al número de errores. En el caso del sujeto 9: 1 + − 1 = 2 .
Tras contabilizar los errores que contienen los patrones de respuestas de cada individuo, se contabilizan
los errores totales (ver tabla 3).
Tabla 3. Matriz reordenada de respuestas con indicaciones de los errores.
sujetos b c e d a f puntuación errores

9 1 0* 1 1 1 1* 5 2
1 1 1 1 1 0 0 4 0
2 1 1 0* 0 1* 0 3 2
5 0* 1 1 1* 0 0 3 2
6 1 0* 1 1* 0 0 3 2
10 1 1 0* 1* 0 0 3 2
12 1 1 1 0 0 0 3 0
3 0* 0* 0 0 1* 1* 2 4
4 1 0* 0 0 1* 0 2 2
7 1 0* 1* 0 0 0 2 2
8 1 1 0 0 0 0 2 0
11 0* 1* 0 0 0 0 1 2
9 7 6 5 4 2 33 20
errores 3 6 3 3 3 2
CRi .75 .5 .75 .75 .75 .83
* Indica error.
3. EL COEFICIENTE DE REPRODUCTIBILIDAD.
¿Cómo puede obtenerse un estimador de cuánto se aproxima la matriz de las tabla 2 y 3 a una escala
perfecta? Guttman propone un estimador a partir de la proporción de errores obtenida. El número total de posibles
errores es igual al producto entre el número de sujetos (N) y el de ítems (k); en nuestro caso: (12) (6)= 72. Si no
existiera ninguna coincidencia entre los patrones de respuesta de los individuos y las escalas tipo perfectas, la
matriz estaría llena de errores. Como las dimensiones de la matriz son 12 por 6, contendría un total de 72 errores.
Para calcular el estimador señalado en el párrafo anterior hay que realizar las siguientes operaciones: 1º)
hallar el cociente entre los errores hallados y las respuestas posibles (20/72=0.277); 2º) restar de uno la cantidad
resultante: 1-0.27=0.723. El resultado es un coeficiente que indica la capacidad de la escala para reproducir las
respuestas de los sujetos a partir de sus puntuaciones totales. Ese coeficiente recibe el nombre de coeficiente de
reproductibilidad (CR):
CR = 1 −
¦ errores
N⋅k

Guttman señaló que una escala con un coeficiente de reproductibilidad inferior a 0.90 no puede ser considerada
una aproximación efectiva a una escala perfecta.
Tras los resultados obtenidos parece claro que los ítems no forman una buena aproximación a una escala
perfecta. Para detectar cuáles son los ítems que peor funcionan, se puede calcular el coeficiente de
reproductibilidad de cada ítem (CRi):
Nerroresen ítem i
CR i = 1−
N sujetos
En la tabla 3, puede observarse que el ítem c (pienso que la escuela es importante) es el que presenta un CRi más
bajo contiene (0.5); contiene 6 errores de un total de 12 posibles. Por ello parece razonable eliminarlo o
reformularlo. Supongamos que se elimina el ítem c. Tras realizar esta operación, hay que volver a reordenar a los
sujetos pues la puntuación de algunos de ellos habrá variado. Una vez concluidas este conjunto de operaciones
obtendríamos la siguiente matriz de respuestas:
Tabla 4. Matriz de respuestas tras eliminar el ítem c y reordenar los sujetos.
sujetos b e d a f puntuación errores

9 1 1 1 1 1 5 0
1 1 1 1 0 0 3 0
6 1 1 1 0 0 3 0
12 1 1 0 0 0 2 0
7 1 1 0 0 0 2 0
2 1 0* 0 1* 0 2 2
4 1 0* 0 1* 0 2 2
10 1 0* 1* 0 0 2 2
5 0* 1 1* 0 0 2 2
3 0* 0* 0 1* 1* 2 4
8 1 0 0 0 0 1 0
11 0 0 0 0 0 0 0
∑ 9 6 5 4 2 26 12
* Indica error.
Asimismo, hay que volver a calcular los errores que contienen los patrones de respuestas de cada
individuo. Ahora tan sólo se encuentran 12 errores (nótese que 4 de ellos están contenidos en el patrón de
respuestas del sujeto 3. Habría que asegurarse de que este sujeto ha seguido las instrucciones, no ha cometido
errores a la hora de codificar sus respuestas, etc.). Tras eliminar el ítem c, el coeficiente de reproductibilidad es:
CR = 1 −
¦errores = 1−
12
= 0.80
N⋅ k 12 ⋅ 5
Puede observarse que el coeficiente ha mejorado sensiblemente. No obstante, sigue estando alejado de
0.90.
También es posible asignar un coeficiente de reproductibilidad a un sujeto. En este caso es necesario

realizar las siguientes operaciones: 1º) restar el patrón de respuestas del sujeto de la escala tipo perfecta
correspondiente según su puntuación total (tal como hicimos anteriormente), 2º) hallar la suma de las diferencias
absolutas halladas, 3º) dividir esa suma por el número de ítems, y 4º) restar esa cantidad de 1. Por ejemplo, el CR
para el sujeto 2 de la tabla 5 sería:
puntuación del sujeto=2.
b e d a f puntuación
escala tipo perfecta 1 1 0 0 0 2
patrón suj. 2 1 0 0 1 0 2
diferencia 0 1 0 -1 0
CR = 1 − [( 1 + − 1) /5] = 0. 6
2

4. OTROS COEFICIENTES Y CRITERIOS PARA EVALUAR DE LAS ESCALAS.
Aunque Guttman (1950), señaló que el coeficiente de reproductibilidad representa el criterio más
importante a la hora de evaluar si un conjunto de ítems es una buena aproximación a una escala perfecta, propuso
otros criterios a considerar en el marco de esta evaluación. Entre éstos, el criterio del rango de las distribuciones
marginales, según el cual el coeficiente de reproductibilidad de un ítem no puede ser inferior a la mayor de las
proporciones de respuesta que presenta el ítem. Esa proporción de respuesta mayor recibe el nombre de categoría
modal. Mediante este criterio se evita incluir ítems que den lugar a una dicotomización extrema en las respuestas
(p. ej., todo unos o todo ceros). Si aparecieran ítems de este tipo, la reproductibilidad de la escala sería
artificialmente elevada. Además, se trataría de ítems que no mostrarían las diferencias existentes entre los sujetos,
ya que su varianza sería próxima a cero.
En la tabla 5, indicamos las proporciones de respuesta (p: proporción de "de acuerdo"; q: proporción de
"desacuerdo") obtenidas para cada ítem, y su coeficiente de reproductibilidad.
Tabla 5. Proporciones de respuesta y coeficientes de resproductibilidad de los ítems.
sujetos b e d a f puntuación errores

9 1 1 1 1 1 5 0
1 1 1 1 0 0 3 0
6 1 1 1 0 0 3 0
12 1 1 0 0 0 2 0
7 1 1 0 0 0 2 0
2 1 0* 0 1* 0 2 2
4 1 0* 0 1* 0 2 2
10 1 0* 1* 0 0 2 2
5 0* 1 1* 0 0 2 2
3 0* 0* 0 1* 1* 2 4
8 1 0 0 0 0 1 0
11 0 0 0 0 0 0 2
9 6 5 4 2 26 12
p .75 .50 .42 .33 .17
q .25 .50 .58 .67 .83
errores 2 4 2 3 1
CRi .83 .67 .83 .75 .92
Como se aprecia en la tabla anterior, todos los ítems superan este criterio.
Como se señaló anteriormente, el coeficiente de reproductibilidad puede verse inflado por la existencia
de ítems con proporciones de respuesta extremas. Para valorar este aspecto es útil calcular la Reproductibilidad
Marginal Mínima (RMM), que es la media aritmética de las categorías modales de todos los ítems de la escala. En
nuestro caso, sería:
RMM=(0.75+0.50+0.58+0.67+0.83)/5=0.67.
Un valor elevado de la RMM puede indicar que el coeficiente de reproductibilidad ha sido inflado
artificialmente, siendo un resultado de la existencia de categorías modales extremas. Para facilitar la
interpretación de la RMM, Menzel (1953) propuso el coeficiente de escalabilidad (CE):
CR − RMM PM
CS = =
1− RMM 1 − RMM
donde PM es el porcentaje de mejora que ofrece el CR sobre la RMM. Para que una escala sea considerada una
buena aproximación a una escala perfecta su coeficiente de escalabilidad debe ser igual o superior a 0.60.
En nuestro caso:
CR − RMM PM 0.13
CS = = = = 0.39
1− RMM 1 − RMM 1 − 0.67

6. VALORACIÓN.
Uno de los aspectos destacables del modelo de Guttman es que pone de manifiesto que tanto ítems como
sujetos son escalables, medibles. Los ítems ya no se consideran réplicas unos de otros, como ocurría en el modelo
de Likert. Los ítems difieren en su grado de dificultad, esto es, en el nivel de rasgo que exigen al sujeto para que
éste acierte o respalde el ítem. Esta característica del método de Guttman fue desarrollada más tarde por otros
métodos que permiten escalar con precisión los ítems y ubicarlos a lo largo del continuo psicológico que se
pretende medir.
Uno de los problemas del modelo de Guttman, que dificulta además la construcción de escalas perfectas,
es su carácter determinista. Según este modelo, cuando un sujeto tiene un nivel de rasgo o aptitud igual o superior
al exigido por el ítem –esto es, domina el ítem-, no cabe otra respuesta que acertar o respaldar el ítem (según se
trate de: 1. un ítem de aptitud o 2. un ítem de actitud o personalidad, respectivamente). Sin embargo, la experiencia
demuestra que esto no siempre es así. Por ejemplo, en algunas ocasiones, cuando los estudiantes se enfrentan a
problemas sencillos en un examen, su incredulidad ante la facilidad del ítem, les lleva a reformularlo de manera
compleja, y lo complican tanto que al final no lo resuelven correctamente. También ocurre que a veces, por mero
azar, sujetos con un nivel de aptitud inferior al exigido por el ítem, lo aciertan. Según el modelo determinista de
Guttman, todo esto no debería ocurrir, pero la experiencia demuestra que ocurre. Por ello parece más realista
hablar en términos probabilísticos que en términos deterministas. Así pues, cabe esperar que los sujetos con un
nivel de rasgo o aptitud igual o superior al exigido por el ítem, tengan una gran probabilidad de acertar o respaldar
el ítem; mientras que se espera que los sujetos con un nivel de rasgo o aptitud inferior al exigido por el ítem, tengan
una pequeña probabilidad de acertar o respaldar el ítem. De manera general, bajo un modelo probabilista se espera
que la relación entre la probabilidad de acertar o respaldar un ítem (Pi) y el nivel de rasgo o aptitud sea monotónica,
es decir, que Pi aumente a medida que aumenta el rasgo. Bajo un modelo probabilista la curva característica de un
ítem tendrá una forma parecida a la que se muestra a continuación. Una versión probabilística del modelo de
Guttman que supera este inconveniente es el modelo de Mokken.
Figura. Curva característica de un ítem bajo un modelo de probabilístico.
Pi
- RASGO +
BIBLIOGRAFIA.
Arce, C. (1994). Construcción de escalas psicológicas. Madrid: Síntesis.
García Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI.
Meliá, J. L. (1991). Métodos de escalamiento unidimensional. Valencia: Cristóbal Serrano Villalba.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y
Prácticas. Valencia: Cristóbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visiòn

Introducción a la Psicometría
Teoría Clásica de los Tests
y Teoría de la Respuesta al Ítem
(Febrero 2009)
Francisco J. Abad
Carmen García
Julio Olea
Vicente Ponsoda

INTRODUCCIÓN
La Psicometría se ocupa de los problemas de medición en Psicología, utilizando la Estadística

como pilar básico para la elaboración de teorías y para el desarrollo de métodos y técnicas
específicas de medición. Usualmente, suelen diferenciarse varios núcleos temáticos diferentes
propios de la Psicometría:
a) Teorías de la medición. Tienen como objetivo establecer las condiciones y propiedades de

las asignaciones numéricas que pueden realizarse. El establecimiento de diferentes escalas de
medida, tal como lo hizo Stevens, es un ejemplo de este primer núcleo de interés.
b) Escalamiento. En el terreno de la Psicofísica, e históricamente desde los trabajos de

Fechner en el siglo XIX, se plantea el problema de la medición de las sensaciones que
generan diferentes niveles de estimulación física. Thurstone será el responsable del tránsito
del escalamiento psicofísico al escalamiento psicológico, donde se proponen modelos y
técnicas para la medición de atributos estrictamente psicológicos.
c) Teorías de los Tests. A principios del siglo XX, Spearman propone una formulación
matemática para estudiar las propiedades métricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recuérdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicológicas superiores. La principal
preocupación de Spearman es incorporar en la formulación matemática los errores de medida
que se cometen en la aplicación de los tests psicológicos. Este es el inicio de la Teoría Clásica
de los Tests (TCT), que será descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la década de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicométricas de los tests, la Teoría de la Respuesta al Ítem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teorías de la medición y
Escalamiento. En las siguientes páginas proporcionamos una descripción de la TCT, cuyos
desarrollos siguen empleándose (en nuestro país casi de forma exclusiva) en la práctica para
analizar la bondad métrica de los tests psicológicos, y una introducción a la TRI, que
pensamos se irá imponiendo progresivamente, tal como ocurre en otros sitios.
La actividad profesional del psicólogo requiere en muchos momentos la utilización y/o

construcción de tests que pretenden evaluar determinados constructos psicológicos no
susceptibles a un proceso de medición directa. Resulta usual, por ejemplo, en el ámbito de la
Psicología Educativa, la aplicación de tests de inteligencia, de hábitos de estudio, de
motivación, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapia
individual, un psicólogo aplica determinadas pruebas para diagnosticar los problemas
depresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o su
nivel de asertividad. Los psicólogos que se ocupan de la selección de personal en grandes
organizaciones también utilizan tests para determinar, al menos inicialmente, cuáles son las
personas del grupo de aspirantes que mejor pueden desempeñar el puesto de trabajo.

Cada vez es mayor el número de tests disponibles en el mercado para su utilización. Basta con
ojear los catálogos de empresas consultoras especializadas (TEA, MEPSA, COSPA,...) para
percatarnos de la gran extensión de atributos psicológicos que podemos ya medir mediante
tests. El psicólogo necesita conocer las posibilidades de cada uno de estos tests: la información
que aporta, cómo se interpretan las puntuaciones que proporciona, en qué grado podemos
fiarnos de estas puntuaciones, para qué tipo de personas resulta apropiada su aplicación,
etc. El manual de estos tests suele incluir datos empíricos sobre todos estos aspectos, que
determinarán en gran parte las garantías que nos ofrece la prueba que vamos a aplicar.
Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicología, los profesionales
no se encuentran con todos los tests que pueden necesitar para su actividad laboral cotidiana. No
resulta extraño, por ejemplo, que un psicólogo social tenga que construir un test concreto para
evaluar la actitud que tiene la población de estudiantes universitarios hacia grupos marginados,
que un orientador escolar necesite elaborar un test para conocer la opinión de los profesores hacia
la LOGSE o que un psicólogo clínico precise de una prueba concreta para evaluar determinados
aspectos de las relaciones de los adolescentes con sus padres.
Parece razonable, por tanto, y así es nuestra opinión, que un psicólogo adquiera las destrezas
necesarias para valorar la información psicométrica que incluyen los tests comercializados y,
además, que conozca los métodos y técnicas fundamentales para diseñar una prueba concreta con
fines específicos. Trataremos de ayudarle a ello en las siguientes páginas.
En la exposición que vamos a realizar en los primeros 5 capítulos, tratamos de describir el proceso
natural que se sigue en la construcción de un test, y que básicamente se resume en las siguientes
fases:
1. Definición del constructo.
2. Construcción del test provisional.
3. Aplicación a una muestra.
4. Análisis de ítems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremación.
Las cuatro primeras fases se refieren a ciertas estrategias lógicas (algunas con cierto fundamento
estadístico) que nos conducen a seleccionar la forma y contenidos más apropiados del test. Las
fases 5 y 6 resultan fundamentales, dado que se refieren a la comprobación empírica de las
garantías psicométricas que la prueba manifiesta como instrumento de medición. Básicamente,
estas garantías se refieren a su precisión (fiabilidad) y a la comprobación práctica del contenido
auténtico que estamos evaluando (validez). La denominada Teoría Clásica de los Tests, cuya
descripción es parte fundamental de estas páginas, permite abordar estos problemas con cierto
rigor. Una vez que disponemos de la versión definitiva del test, aplicada a una muestra
representativa de la población de personas a la que va dirigido, se procede a la fase de
baremación, que sirve para interpretar una puntuación concreta en relación con las que obtiene la
muestra seleccionada.
El último de los temas de estos apuntes pretende iniciar al alumno en los fundamentos de la
Teoría de la Respuesta al Ítem, y será entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripción de los principales contenidos teóricos de la
asignatura Introducción a la Psicometría. Dentro de las actividades prácticas de la asignatura, los
estudiantes habrán de analizar un test de rendimiento óptimo y elaborar un test de rendimiento
típico, para lo que habrán de seguir todos los pasos indicados aquí.

TEMA I: REDACCIÓN Y ANÁLISIS DE ÍTEMS
1.- INTRODUCCIÓN
Mientras que la mayoría de los atributos físicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
teóricas que no son accesibles a la medición directa y para los que no existen "metros" o
"balanzas" diseñados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesión grupal, el grado de extroversión, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos específicamente diseñados: los tests, cuestionarios o inventarios. Nadie dudaría
de que un metro bien diseñado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisión de un cuestionario no se puede presuponer; más bien son una cuestión de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario está formado por una serie de elementos o ítems (elementos,
reactivos, preguntas, cuestiones, situaciones análogas,...) a los que cada individuo debe
responder. Después de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuación (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuación que debería
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Nos enfrentamos así a un proceso de medición indirecta que incluye la misma construcción
del instrumento de medida, proceso que se inicia con la definición clara del constructo a
evaluar.
2.- DEFINICIÓN DEL CONSTRUCTO
El primer paso consiste en proporcionar una definición operacional del constructo o rasgo
que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer los
diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la
educación de los hijos, ante la religión, en las relaciones familiares,... Muy relacionada con
esta definición operativa es la cuestión del establecimiento de los objetivos que se pretenden
conseguir con el cuestionario.
También es necesario especificar el tipo de población al que va a aplicarse la prueba y las

decisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muy
diferente, y determinará su contenido, que un test de inteligencia se vaya a aplicar a personas
de la población general o a personas con problemas intelectuales. Un cuestionario de
depresión puede utilizarse con fines científicos en una investigación o para decidir el ingreso
en un centro psiquiátrico de personas con problemas depresivos.

3.- CONSTRUCCIÓN PROVISIONAL DEL CUESTIONARIO
De la definición operacional del constructo y de la delimitación de sus componentes debemos

llegar a establecer un conjunto de elementos o ítems (frases, preguntas, situaciones análogas,
tareas, etc.) que representen estos componentes, o mejor, las conductas mediante las que se
manifiestan los diversos componentes del constructo.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un ítem
podría ser el siguiente:
“Deberíamos facilitar la integración de los gitanos en nuestro país”
Parece razonable suponer que una persona tolerable estaría de acuerdo con esta afirmación,
mientras que otra intolerable estaría en desacuerdo.
Enrelación con la construcción de los ítems existen dos temas importantes a tener en cuenta:
el formato de respuesta y las normas de redacción de los ítems.
3.1.- FORMATO DE RESPUESTA
En tests de rendimiento óptimo (pruebas de rendimiento y de inteligencia) se pretende medir

el rendimiento máximo al que llega cada persona ante una serie de preguntas o tareas.
Usualmente, el formato de respuesta de estos ítems se ajusta a uno de los siguientes tres
formatos:
a) Elección binaria: De dos alternativas, se elige la que se considera correcta (Sí o No;
verdadero-falso).
Por ejemplo, un ítem de un test de rendimiento en Historia Moderna puede ser:
"Pi y Margall fue uno de los presidentes de la 1ª República Española" V F
b) Elección múltiple: Entre más de dos alternativas se elige la que se considera correcta. Es
sin duda el formato de respuesta más utilizado, entre otras por razones de objetividad y otras
de tipo operativo.
Por ejemplo, un ítem de un test de aptitud verbal puede ser:
"Automóvil es a volante como bicicleta es a ....”
a) Pedal
b) Sillín
c) Manillar
d) Parrilla

c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de conceptos. Por
ejemplo, un ítem de un cuestionario sobre conocimientos de políticos españoles
contemporáneos puede ser:
"Enlace mediante una línea el nombre del político con el partido político al que
pertenece"
J. A. Durán i Lleida PSOE
Carlos Solchaga CIU
Iñaki Anasagasti PNV
Rodrigo Rato PP
Mediante las pruebas de rendimiento típico se quiere reflejar el comportamiento ordinario

de las personas, no teniendo sentido el concepto de rendimiento máximo dado que el objeto
de la evaluación es algún tipo de opinión, actitud o rasgo de personalidad. El formato de
respuesta de los cuestionarios de rendimiento típico se ajusta a alguno de los siguientes:
a) Opción binaria: La persona debe manifestar si está de acuerdo o en desacuerdo con una
afirmación. Por ejemplo, un ítem de un cuestionario sobre la actitud de los padres hacia los
profesores de sus hijos puede ser:
"En realidad, los profesores en el colegio hacen poco más que cuidar a nuestros
hijos cuando nosotros trabajamos"
Acuerdo ( ) Desacuerdo ( )
b) Categorías ordenadas: El formato establece un continuo ordinal de más de dos

categorías, que permite a la persona matizar mejor su respuesta. Normalmente, este continuo
está formado por 5 ó 7 categorías ordenadas, con una categoría central para indicar la
valencia neutra y a partir de la cual posicionarse en uno u otro sentido. Por ejemplo, un ítem
sobre la actitud de los adolescentes hacia el consumo de drogas, podría ser el que sigue:
"Las drogas pueden realmente resolver problemas de uno mismo"
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
A veces, se establecen nominalmente los dos extremos del continuo, dejando señaladas las
restantes categorías del mismo:
MD ____ ____ ____ ____ ____ MA
o se ordenan numéricamente las categorías sucesivas:
1 2 3 4 5 6 7

c) Adjetivos bipolares: Este formato es típico de lo que se denomina "diferencial

semántico", un instrumento formado por pares de adjetivos opuestos, cada uno de los cuales
representa un continuo bipolar con varias categorías, y que permite estudiar el significado
semántico que se atribuye a determinados constructos, personas o instituciones.
Por ejemplo:
Alegre ________ ________ ________ __ Triste

Listo ________ ________ ________ __ Tonto
Simpático ________ ________ ________ Antipático
Feliz ________ ________ ________ __ Infeliz
Social___ ________ ________ ________ __Asocial
3.2.- REDACCIÓN DE ÍTEMS
Algunas de las recomendaciones generales en la redacción de ítems en pruebas de

rendimiento óptimo son las siguientes:
- La idea principal del ítem debe estar en el enunciado.

- Simplicidad en el enunciado.
- Evitar los conocimientos excesivamente triviales o excesivamente “rebuscados”.
- Evitar dar información irrelevante en el enunciado.
- Evitar dar indicios sobre la solución.
- Evitar cuestiones sobre opiniones.
- No encadenar unos ítems con otros.
- Anticipar la dificultad e incluir preguntas de todo rango de dificultad (casi siempre
conviene más preguntas de dificultad media).
- La dificultad no debe estar en la comprensión del ítem.
- Minimizar el tiempo de lectura.
- Evitar el uso de negaciones (si se incluyen, subrayarlas), errores gramaticales y
ortográficos.
En cuanto al número de opciones, con dos distractores es suficiente; pero si la prueba es

corta, es necesario un mayor número de distractores para evitar los efectos de los aciertos
aleatorios. Todos los distractores deben ser de longitud y lenguaje parecidos y también se
deben evitar los solapamientos entre ellos. Por supuesto, se deben evitar los llamados “ítems
defectuosos” que son aquellos ítems con más de una respuesta correcta; aunque parezca
absurdo son errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, se
deben evitar las opciones del tipo “no lo sé”, “todas las anteriores son correctas” o “ninguna
de las anteriores es correcta”; así como balancear la posición de la opción correcta en las
diferentes preguntas para que no se sitúe siempre en la misma opción.

En las pruebas de rendimiento óptimo es muy importante tener en cuenta la dificultad

existente en crear las alternativas incorrectas, dado que no deben ser posibilidades absurdas
de respuesta que se puedan eliminar con cierto grado de sentido común. Bien al contrario,
esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente
tienen las personas que no conocen la respuesta correcta de la pregunta en cuestión. Deben
estar escritas en lenguaje técnico y ser plausibles para quien no conoce la respuesta, evitando
en todo momento alternativas “graciosas” u otras que no serían elegidas por nadie. Otra
buena recomendación en este sentido sería el uso de alternativas de respuesta que son
verdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el establecimiento
de alternativas múltiples exige un claro conocimiento tanto del contenido a evaluar como de
las personas a las que va dirigida la prueba. Una reciente revisión de las orientaciones a
seguir a la hora de escribir ítems de opción múltiple se encuentra en Haladyna, Downing y
Rodríguez (2002).1
Otras recomendaciones a tener presente en las pruebas de rendimiento óptimo son:
- El número de preguntas debe ser proporcional a la importancia dada a cada tema.

- Corregir los aciertos obtenidos por azar.
- Cuantos más ítems, mejor.
Respecto a la manera de formular las cuestiones en tests de rendimiento típico

(declaraciones o afirmaciones ante las cuales se debe opinar), se han propuesto algunas
sugerencias que pueden ayudar a su correcta redacción:
- Utilizar el tiempo presente.

- Deben ser “relevantes”, en el sentido de que su contenido debe relacionarse
claramente con el rasgo.
- Contenido claro, evitando excesiva generalidad. Frases cortas, simples e inteligibles.
Evitar incluir dos contenidos en un ítem.
- Tener en cuenta que lo que se dice en la declaración pueda ser asumido por alguien, y
no por todos.
- En escalas de actitudes, no plantear la existencia o no de hechos, sino el
posicionamiento personal sobre la afirmación. Redactar ítems que discriminen entre
los de actitud positiva y los de actitud negativa.
- Para minimizar la aquiescencia (tendencia a responder afirmativamente,
independientemente del contenido por el que se pregunta) conviene redactar ítems de
modo directo e inverso (declaraciones tanto en sentido positivo como en sentido
negativo). A posteriori, se puede comprobar cómo una persona ha respondido a los
ítems directos e inversos. También puede comprobarse que la correlación entre ambos
tipos de ítems es alta.
- Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de universales (todo,
siempre, nada,...).
- En lo posible, aunque no es fácil, se debe minimizar la posibilidad de deseabilidad
social (emitir respuestas socialmente aceptables para transmitir una imagen positiva).
Puede deberse a varias cosas: desajuste psicológico, insinceridad consciente,... El
grado de deseabilidad social que manifiestan los ítems puede evaluarse mediante
1
Haladyna, T.M., Downing, S.M. & Rodríguez, M.C. (2002). A review of multiple–choice item writing
guidelines for classroom assessment. Applied Measurement in Education 15, 309-334.

jueces, y comparar las respuestas de una persona con estas valoraciones. En tests de
personalidad puede incluirse una escala de sinceridad.
El número de categorías que se suelen incluir en este tipo de ítems es usualmente de cinco ya
que, a partir de ese número de categorías no mejoran las propiedades psicométricas de los
ítems. Además, un número muy elevado de categorías (siete u ocho) lleva a inconsistencias
en las respuestas, que es una fuente de error. Un número muy reducido (dos ó tres) lleva a
poca discriminación (menor variabilidad) y a reducir la fiabilidad, aunque siempre puede
compensarse con un mayor número de ítems. No obstante, en poblaciones especiales (niños,
discapacitados, mayores…) se aconseja el uso de un menor número de categorías.
También se ha planteado en ítems de rendimiento típico (principalmente en escalas de

actitudes o tests de personalidad donde no se pide el grado de frecuencia de un
comportamiento) si es correcto o no la inclusión de una categoría central en las opciones de
respuesta (“indiferente”, “neutral”, “dudo”, “no sé”…). Podrían generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo que se les
está preguntando, que el enunciado les resulta ambigüo o simplemente que ignoran el
contenido del enunciado. En realidad, deberían ser seleccionadas por las personas
auténticamente indecisas. La investigación en este sentido nos dice que los indicadores
psicométricos de los ítems no se alteran mucho con o sin categoría central, cuando el número
de categorías es mayor de tres. En todo caso, se puede comprobar si las personas con nivel
medio en el total del test tienden a elegir más frecuentemente las categorías centrales.
4.- CUANTIFICACIÓN DE LAS RESPUESTAS
Una vez establecido el formato de respuesta que se considera más apropiado para el caso, y
de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuantificar los
posibles resultados a las cuestiones. En general, para los ítems de cuestionarios de
rendimiento óptimo se cuantificará con 1 el acierto y con 0 el error, de tal manera que la
puntuación directa de un sujeto en un cuestionario determinado será igual al número de ítems
que ese sujeto acierta.
La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere ciertos

matices. Dado un formato de respuesta determinado (opción binaria, categorías ordenadas o
adjetivos bipolares) es necesario cuantificar las posibles respuestas a un ítem teniendo en
cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y
opinión.
Por ejemplo, para un ítem con formato de respuesta de opción binaria (acuerdo/desacuerdo)
puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
el ítem esté planteado para medir de manera directa o inversa el constructo de interés. Estos
pueden ser 2 ítems de un cuestionario de actitud ante al aborto voluntario:
Ítem A: "Abortar es matar".

De acuerdo ( ) En desacuerdo( )

Ítem B: “El bienestar de la madre también importa”.

De acuerdo ( ) En desacuerdo ( )
En el ítem A, el acuerdo se puntuaría con 1 y el desacuerdo con 2, ya que estar en desacuerdo

con esa afirmación indica una actitud más positiva hacia el aborto voluntario. En el ítem B,
sin embargo, el acuerdo se puntuaría con 2 y el desacuerdo con 1, ya que estar de acuerdo con
esa afirmación indica una actitud más positiva hacia el aborto.
Si el formato de respuesta es de “n” categorías ordenadas, las diversas categorías se

cuantificarán normalmente desde 1 hasta n, teniendo en consideración (como en el caso
anterior) la dirección de la afirmación o cuestión. Por ejemplo, para 5 categorías, las dos
posibles cuantificaciones serán:
Muy en desacuerdo Bastante en desacuerdo Neutral Bastante de acuerdo Muy de acuerdo

1 2 3 4 5
5 4 3 2 1
También se puede asignar el 0 a la categoría central, valores negativos a las categorías que se
encuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha.
En estos casos, la puntuación directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; según esto, convendría cuantificar las diversas alternativas con valores entre 1 y n
para evitar una puntuación directa negativa.
5.- ANÁLISIS DE ÍTEMS
Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado
en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede comprobar
estadísticamente de manera sencilla si obtenemos tres indicadores para cada ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de la
población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x ítems:

Ítems
1 2 3................... n X
Sujeto nº 1
Sujeto nº 2
Sujeto nº 3
.
.
.
.
.
.
Sujeto nº N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al ítem
j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en el total
del test.
Veamos cómo se obtienen (y qué sentido tiene su obtención) los tres índices citados
anteriormente.
5.1.- ÍNDICE DE DIFICULTAD
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por lo que
sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.
El índice de dificultad de un ítem j se define como el cociente entre el nº de sujetos que lo

han acertado (Aj) y el nº total de sujetos que lo han intentado resolver (Nj)
Aj
Dj =
Nj
Atendiendo a la disposición de datos en la matriz expuesta más arriba, el índice de dificultad

de un ítem (columna) j será el cociente entre el nº de unos y el total de unos y ceros que tiene
la columna. Los sujetos que han omitido el ítem (no han contestado) no se contabilizan en
Nj.

Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10
personas a un test formado por 6 ítems dicotómicos (1 indica acierto y 0 error):
Ítems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
Sujetos 5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
Aj 0 5 2 3 3 9
Nj 10 10 7 4 7 9
Dj 0 0.5 0.29 0.75 0.43 1
Con estos resultados podemos comprobar varios aspectos de la interpretación de Dj:
- El valor mínimo que puede asumir Dj es 0 (ningún sujeto acierta el ítem) y el valor
máximo 1 (todos los sujetos que lo intentan lo aciertan).
- A medida que Dj se acerca a 0 indica que el ítem ha resultado muy difícil; si se

acerca a 1, que ha resultado muy fácil; y si se acerca a 0,5, que no ha resultado ni fácil
ni difícil.
- Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza es igual a

cero; a medida que Dj se acerca a 0,5, la varianza del ítem aumenta. De nada sirve un
ítem con Dj = 0 o Dj = 1, ya que no discriminaría entre los diferentes sujetos (todos
aciertan o todos fallan).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los ítems más fáciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, los
más difíciles (con menor Dj). El número de ítems de cada categoría de dificultad que deben
incluirse en el test depende de los objetivos que quiera conseguir la persona que diseña el
cuestionario. En general, la mayor parte de los ítems deben ser de dificultad media.

5.2.- ÍNDICE DE HOMOGENEIDAD
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem (Hj) se

define como la correlación de Pearson entre las puntuaciones de los N sujetos en el ítem j y
las puntuaciones X en el total del test:
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems, debemos calcular
la correlación entre las columnas j y la columna X de puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta de categorías
ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
Ítems
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos 3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Puede comprobarse que los índices de homogeneidad de los 3 elementos son:
H1= r1x= 0,75

H2= r2x= 0,94
H3= r3x= 0,86
El índice de homogeneidad de un ítem nos va a informar del grado en que dicho ítem está
midiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la
homogeneidad o consistencia interna del test. Los ítems con bajos índices de homogeneidad
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
evaluar un rasgo o constructo unitario, deberían eliminarse los que tienen un Hj próximo a
cero.
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este
caso, los Hj deben obtenerse con relación a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificación de las

respuestas que se ha seguido en ese ítem. Si un ítem obtiene una correlación negativa y alta
con el total de la prueba, seguramente es debido a que se ha cuantificado erróneamente el
ítem (se ha tomado como directo siendo inverso, o viceversa).

Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener el índice de
homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un ítem
con las puntuaciones en el total del test después de restar de este total las puntuaciones del
ítem cuyo índice queremos obtener. En el ejemplo precedente, el índice de homogeneidad
corregido para el ítem 1 será 0.49, resultado de correlacionar la 1ª columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Análogamente, los
índices de homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin corregir.
5.3.- ÍNDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con las que
estos sujetos obtienen en un criterio de validación externo al test (Y); esta correlación define
el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debería
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podrían valorar el grado de motivación de cada uno y utilizar estas
valoraciones como el criterio de validación de un test de motivación laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y: 5 3 6 0 6
Los índices de validez de los tres ítems serán:
V1= r1Y = 0,87
V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlación con el criterio próxima a cero deberían eliminarse
de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende medir. Si lo

que se pretende es seleccionar los ítems que más contribuyen a la validez del cuestionario, de
entre los ítems de igual varianza, serían preferibles los que tienen alto Vj y bajo Hj.
6.- ANÁLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones de
respuesta que se han dado a las diferentes alternativas de cada ítem. Para un ítem concreto de
una prueba de rendimiento óptimo, lo ideal es que la alternativa seleccionada en mayor
medida sea la correcta; cada una de las alternativas incorrectas del ítem debe también ser
seleccionada por un número de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de

tres ítems de un determinado test:
Ítem Opción correcta Porcentaje de respuesta
a b c d e
1 b 16 40 15 14 15
2 c 35 15 21 17 12
3 a 60 1 21 18 0
El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la mayor parte de la

muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por
un porcentaje parecido de personas. El ítem 2 seguramente no es muy adecuado, pues la
muestra selecciona en mayor grado una alternativa incorrecta como la buena; al menos,
habría que reformular esa alternativa incorrecta. Para el ítem 3, los problemas se refieren a
dos alternativas incorrectas que apenas si son seleccionadas por la muestra; también habría
que reformular esas dos opciones de respuesta.
7.- CORRECCIÓN DE LOS EFECTOS DEL AZAR
En los tests formados por ítems de opción múltiples de las que sólo una es correcta, podemos
sobrestimar la puntuación directa de una persona dado que alguno de sus aciertos ha podido
producirse por azar. El problema entonces consiste en establecer un procedimiento para
descontar del número total de aciertos (A) los que se han producido por azar (Aa).

Si asumimos que, cuando no se conoce la respuesta correcta a un ítem, todas las

alternativas de respuesta son equiprobables, la probabilidad de acertar al azar ese ítem se
puede establecer como:
P (Aa) = 1/n
siendo n el número de alternativas del ítem.
De la misma forma, la probabilidad de errar el ítem será:
P(E) = 1 - (1/n) = (n-1) / n
Llamemos Ra el nº de respuestas aleatorias que proporciona (es decir, el número de ítems que
ha contestado sin saber la solución). De las Ra, algunas serán aciertos aleatorios (Aa) y otras
serán errores (E). Nuestro objetivo es estimar los Aa para descontarlos del número total de
aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:
El nº total de errores se puede establecer como el producto del valor Ra por la probabilidad de
cometer un error:
n 1
E Ra
n
Si despejamos Ra de esta expresión, podremos estimarla a partir de datos conocidos (E y n):
n
Ra E
n 1
Siguiendo el mismo razonamiento, el número de aciertos aleatorios se puede estimar

multiplicando el valor Ra por la probabilidad de cometer un acierto por azar (Aa):
1
Aa Ra
n
Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:
n 1 1
Aa E E
n 1 n n 1
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos y del número de
alternativas que tienen los ítems. Podemos observar que cada error se pondera por la
expresión 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese

cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay que
descontar 0,33 puntos por cada error; y así sucesivamente.
La puntuación directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A - Aa
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5
opciones de respuesta cada uno. A continuación se detallan el nº de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona A E 0
1 112 28 0
2 110 12 18
3 109 0 31
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más inglés
sabe es la persona 1, seguida de la 2 y en último lugar la persona 3. Sin embargo, corrigiendo
los efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:
28
Xc1 112 105
4
12
Xc 2 110 107
4
0
Xc3 109 109
4
Podemos comprobar que la corrección afecta sensiblemente al orden que establecemos

respecto al dominio del idioma inglés. Además, si nos fijamos en la corrección hecha para la
persona 3, vemos que no se le ha descontado nada; esto es debido a que no cometió ningún
error.

EJERCICIOS
1. A continuación se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con “N” (nunca), “PV” (pocas veces), “AV” (a veces), “MV” (muchas
veces) o “S” (siempre).
a) A menudo me influyen más las opiniones de los demás que las mías propias . . . ______
b) Evito vivir situaciones límites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
c) No me importaría tomar estimulantes para disminuir la sensación de fatiga
física o mental en el trabajo ........................................ ______
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . . ______
e) Me gustaría decir “NO”, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
Las respuestas de 4 personas a la escala han sido las siguientes:
ítem a ítem b ítem c ítem d ítem e
sujeto 1 S PV MV N S
sujeto 2 PV MV AV MV AV
sujeto 3 N S N MV N
sujeto 4 MV N AV MV PV
A partir de la información anterior, complete la siguiente tabla de datos. Para ello

deberá obtener las puntuaciones en cada ítem y en el total de la escala:
ítem a ítem b ítem c ítem d ítem e TOTAL

sujeto 1
sujeto 2
sujeto 3
sujeto 4
2. Diga si las siguientes afirmaciones referidas al índice de dificultad (Dj) son

verdaderas o falsas.
a) Sólo tiene sentido su cálculo en pruebas de rendimiento óptimo.

b) Se deben seleccionar sólo aquellos ítems con Dj próximos a 1.
c) Si un ítem tiene una alta varianza, su índice de dificultad será alto.
d) A un ítem de baja varianza le corresponde necesariamente un índice de dificultad bajo.

3. A continuación se ofrece una matriz ítems por sujetos:
a) ¿Cuál es el ítem más fácil?

b) ¿Cuál es el más difícil?
c) ¿Cuál es el ítem en el que las personas muestran más variabilidad?
d) ¿Cuál es en el que muestran menos variabilidad?
ítem 1 ítem 2 ítem 3 item 4 ítem 5 ítem 6

sujeto 1 1 1 0 1
sujeto 2 1 1 1 1 1 0
sujeto 3 0 1 0 0 0 0
sujeto 4 1 1 0 0
sujeto 5 1 1 0 1 0 0
sujeto 6 0 1 1 0 0 0
4. Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero o

falso. Justifique sus respuestas.
a) El índice de homogeneidad de un ítem indica en que grado mide lo mismo que el test.
b) Un ítem con un Hj bajo siempre debe ser descartado en un proceso de selección.
c) El índice de homogeneidad permite ver en qué medida un ítem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos ítems que correlacionen poco con la puntuación total en el test.
e) Un ítem con un índice de homogeneidad alto pero con un bajo índice de validez no es
necesariamente un mal ítem. Estos resultados pueden deberse a que el criterio
seleccionado sea poco adecuado.
5. Un test tiene 3 ítems dicotómicos y su media es 1.7. Sabemos que no se han

dejado ítems sin responder y que
ítem 1 ítem 2 ítem 3

Dj ? ? 0.8
Sj2 0.25 ? ?
Hj 0.6 0.4 0.2
Vj 0.4 0.3 0.5
a) Complete la tabla.
b) Atendiendo al índice de dificultad, ¿cuál es el peor ítem?
c) Atendiendo al índice de homogeneidad, ¿cuál es el peor ítem?
d) Atendiendo exclusivamente al índice de validez, ¿cuál es el peor ítem?

6. Se ha construido una pequeña prueba de 6 elementos de Verdadero-Falso, para

realizar una primera valoración de la rapidez visomotora de las personas que desean
obtener el carnet de conducir. Un grupo de 10 personas respondió al test y a una prueba
de agilidad psicomotora, que se consideró como un criterio adecuado de validación. La
siguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuaciones
en el criterio.
ítem 1 ítem 2 ítem 3 ítem 4 ítem 5 ítem 6 Y

sujeto 1 1 1 0 1 1 1 12
sujeto 2 1 1 1 0 1 1 11
sujeto 3 1 0 0 1 0 1 7
sujeto 4 1 0 1 1 1 0 8
sujeto 5 0 1 0 0 0 0 4
sujeto 6 1 1 0 0 1 1 10
sujeto 7 1 0 1 1 0 0 7
sujeto 8 0 0 1 1 1 1 10
sujeto 9 1 1 0 1 1 1 11
sujeto 10 1 1 1 1 1 1 12
a) Diga cuál es el ítem con mayor índice de dificultad.

b) Obtenga un indicador del grado en el que el elemento 2 mide lo mismo que la prueba.
c) Obtenga la puntuación directa corregida para la persona 8.
d) Obtenga el grado en que el ítem 5 mide lo mismo que el criterio Y.
7. Los indicadores de cuatro ítems dicotómicos han sido los siguientes:
ítem 1 ítem 2 ítem 3 ítem 4

Dj 0,4 0,8 0,3 0,6
Hj 0,1 0,5 0,8 0,4
Vj 0,2 0,1 0,6 0,3
a) El ítem que menos contribuye a que el test de 4 ítems mida un solo rasgo es el número
____ porque ______________________________________________.
b) El ítem que menos contribuye a la validez del test de 4 ítems es el número ____
porque _____________________________.
c) El ítem que menos contribuye a la varianza del test de cuatro ítems es el número _____
porque ____________________________________.

8. A continuación se ofrecen ciertos datos de un ítem dicotómico: su índice de

dificultad, varianza, índice de homogeneidad e índice de homogeneidad corregido.
Identifíquelos.
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
9. En un test de rendimiento óptimo, un ítem tiene 4 posibles respuestas y ha sido

respondido por 350 personas. 100 personas han elegido cada una de las alternativas
incorrectas y 50 personas, la correcta.
a) ¿Es un ítem adecuado o debería ser modificado?
b) ¿Cuánto vale su índice de dificultad?
c) ¿Cuanto vale su varianza?
10. Una persona completa un test de 50 ítems. Acierta 30 y falla 4. Su puntuación

corregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. ¿Cuántas
alternativas tiene cada ítem?
11. Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como

“0” o “1”. A continuación se ofrecen las puntuaciones sin corregir (X) y corregidas para
eliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Diga
razonadamente qué personas han dejado preguntas sin contestar.
X Xc
sujeto 1 20 18
sujeto 2 15 5
sujeto 3 25 25
sujeto 4 17 12
sujeto 5 23 22
12. Creamos un test para medir conocimientos sobre el código de la

circulación. Los ítems son de opción múltiple con 3 opciones de las que sólo una es
correcta. Las medias de tres ítems del test han sido las siguientes: 0.1 (ítem 1), 0.6 (ítem
2) y 1 (ítem 3). Responda razonadamente.
a) ¿Qué ítem es más difícil?
b) ¿Es posible que la mitad de la muestra haya fallado simultáneamente los dos primeros
ítems?

c) Sabiendo que en ninguno de los ítems ha habido omisiones, ¿Cuánto vale la varianza
del ítem de más varianza de los tres?
d) A Laura le ha correspondido en el test una puntuación sin corregir de 20 y una
puntuación tras corregir los aciertos por azar de 16 ¿Cuántos errores ha cometido?
13. Una muestra de 200 personas responde a un test de rendimiento óptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
ítem, y cual es en cada uno la alternativa correcta.
Alternativa Alternativa Alternativa Alternativa

“a” “b” “c” correcta
Ítem 1 30 80 90 a
Ítem 2 140 0 60 a
Ítem 3 90 10 100 c
Ítem 4 70 80 50 b
Ítem 5 60 50 90 c
a) Sabiendo que no hubo omisiones en ninguno de los ítems, calcule la media del ítem 1.
b) ¿Cuál es el ítem más difícil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas ¿algún ítem debería ser modificado?
Razone su respuesta
14. Un test de 12 ítems está formado por 2 escalas que miden constructos distintos. La
escala 1 está integrada por los primeros 4 ítems y la escala 2 por los últimos 8 ítems. Las
siguientes dos tablas muestran los índices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros ítems en relación al test de 12 ítems y en relación a
la escala 1.
Tabla 1 Ítem 1 Ítem 2 Ítem 3

H 0.572 0.454 0.575
HC 0.456 0.281 0.437
Tabla 2 Ítem 1 Ítem 2 Ítem 3

H 0.562 0.622 0.611
HC 0.237 0.205 0.233
Diga razonadamente qué tabla contiene los H y HC de los tres ítems en relación al test
completo.

SOLUCIONES
1.
ítem item item ítem ítem TOTAL

a b c d e
sujeto 1 5 4 4 5 5 23
sujeto 2 2 2 3 2 3 12
sujeto 3 1 1 1 2 1 6
sujeto 4 4 5 3 2 2 16
2. a) Verdadero
b) Falso
c) Falso
d) Falso
3. Tal y como se desprende de la tabla siguiente:

a) El ítem más fácil es el número 2, ya que todos los sujetos lo aciertan.
b) El ítem más difícil es el número 6, ya que nadie lo acierta.
c) El ítem en el que hay más variabilidad es el número 4, porque presenta la mayor
varianza.
d) Los ítems de menos variabilidad son los números 2 y 6, porque la varianza es
nula en ambos.
ítem 1 ítem 2 ítem 3 ítem 4 ítem 5 ítem 6

Dj 0,67 1 0,33 0,5 0,25 0
Sj2 0,22 0 0,22 0,25 0,19 0
4. a) Verdadero, dado que es una correlación entre las puntuaciones en el ítem y en el

test.
b) Falso. Siempre que se pretenda medir un único rasgo con el test, debe ser
descartado; si se pretenden medir varios rasgos, podría ser admitido.
c) Falso, la afirmación hace referencia al índice de validez.
d) Falso. Al diseñar un test que mida varios rasgos, se pretende buscar ítems que
correlacionen con los ítems que miden el mismo rasgo, y que además no
correlacionen con otros ítems que miden un rasgo diferente. En esta situación, la
correlación entre los ítems y las puntuaciones del test pueden ser bajas.
e) Verdadero. El ítem mide lo mismo que el test, pero no mide lo mismo que el
criterio, que podría ser poco adecuado.

5. a) D1 = 0,5 D2 = 0,4 S22 = 0,24 S32 = 0,16

b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, es
algo peor.
c) El ítem 3.
d) El ítem 2.
6. a) El ítem 1: D1 = 0,8
b) H2 = 0.305
c) La persona número 8: Xc = 2
d) V5 = 0.84
7. a) El ítem 1 (menor H).

b) El ítem 2 (menor V-H).
c) El ítem 2 (D más distante de 0.5).
8. Por ser un ítem dicotómico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (índice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el único valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el índice de homogeneidad corregido suele ser menor que el índice de
homogeneidad sin corregir, 0.15 y 0.53 serán los índices de homogeneidad corregidos
y sin corregir, respectivamente.
9. a) Debería ser modificado. La alternativa más seleccionada debería ser la correcta.

b) Dj = 50/350 = 0.14
c) Sj2 = (0.14)(0.86) =0.12
10. n=5
Xc = A – E/(n-1). Luego, 29 = 30 – 4/(n-1)
11.
Sujeto Preguntas sin contestar
1 3
2 0
3 0
4 3
5 1

12 a) El ítem 1, pues tiene el menor (0.1) índice de dificultad.

b) No. Pues el ítem 2 ha sido acertado por el 60% de la muestra.
c) Var (item 1) = (0.1)(0.9) = 0.09
Var (item 2) = (0.6)(0.4) = 0.24
Var (item 3) = (1)(0) = 0
El ítem de más varianza es el ítem 2 (0.24).
d) Xc = X –E/2. 16 = 20 – E/2. Luego, E = 8.
13. a) 30/200 = 0.15

b) El 1, pues su índice de dificultad (0.15) es el más bajo. En los otros ítems sus
índices de dificultad son: 0.7 (ítem 2), 0.5 (ítem 3), 0.4 (ítem 4) y 0.45 (ítem 5)
c) El 1, pues las opciones incorrectas son más elegidas que la correcta. El 2, pues una
alternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias
parecidas.
14. HC produce resultados tanto más diferentes de H cuanto menor sea el número de
ítems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:
Tabla 1: 0.116 0.173 0.138
Tabla 2: 0.325 0.417 0.378
Luego el test largo, de 12 ítems, es el que tiene diferencias menores: Tabla 1.

TEMA II: MODELO CLÁSICO Y CONCEPTO DE FIABILIDAD
1.- INTRODUCCIÓN
En las Ciencias clásicas (Medicina, Física, Química,...) existen aparatos, con márgenes de
error especificados, para medir determinadas características como son la temperatura, la
presión sanguínea, el peso, la concentración de determinados elementos químicos, etc. En
Psicología no existen instrumentos de medición de la introversión, la actitud hacia el aborto,
la aptitud espacial o la habilidad lectora, características que no son susceptibles de una
medición directa. Para medir los rasgos psicológicos se han elaborado teorías matemáticas o
estadísticas que permiten inferir el nivel de rasgo a partir del rendimiento observado de la
persona.
Si elaboramos, por ejemplo, una prueba de atención, una persona obtiene una determinada
puntuación X en el test. La cuestión que nos planteamos es si esa X representa una buena
manifestación del rasgo auténtico de atención que tiene esta persona. Podemos pensar en las
consecuencias que tiene para el psicólogo que un test no proporcione una buena información
de los niveles de rasgo. Un psicólogo clínico que utiliza un test de depresión en su labor
profesional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el
test resultan buenas cuantificaciones de los niveles de depresión de sus pacientes.
La teoría clásica de los tests (a partir de los trabajos iniciales de Spearman) propone un
modelo formal, denominado como modelo clásico o modelo lineal clásico, fundamentado en
diversos supuestos a partir de los cuales se extraen determinadas consecuencias de
aplicabilidad práctica para determinar el grado en que un test informa de los niveles de rasgo.
2.- SUPUESTOS FUNDAMENTALES
El modelo de puntuación verdadera se concreta en un primer supuesto:
(1) X = V + E
que indica que la puntuación empírica directa de una persona en un test (X) está compuesta
de dos componentes hipotéticos: el nivel de rasgo o puntuación verdadera de la persona (V) y
un error de medida (E) que se comete al medir el rasgo con el test. El error de medida se
considera una variable aleatoria compuesta por los diferentes factores (propios del sujeto, del
test y externos a ambos) que hacen que su puntuación empírica no sea exactamente su nivel
de rasgo. Por tanto, el error de medida se establece como la diferencia entre la puntuación
empírica y la verdadera:
E=X-V

El problema es que E y V resultan en principio desconocidos, si bien podemos obtener

información sobre ellos si se plantean determinados supuestos adicionales:
(2) V = E[X]
Definimos la puntuación verdadera de una persona como el valor esperado de las posibles
puntuaciones empíricas que puede obtener en el test. Dicho de otro modo, sería el promedio
de las puntuaciones empíricas que obtiene la persona en un número elevado de aplicaciones
del test.
Del supuesto anterior se desprende que:
E[E] = 0
Asumiendo que X y E son dos variables aleatorias, mientras que la puntuación V de la

persona es constante, resulta fácil comprobar la igualdad anterior, puesto que:
E[E] = E[X - V] = E[X] - E[V] = E[X] – V = V – V = 0
(3) UVE 0
Este tercer supuesto nos dice que si en una población conociéramos las puntuaciones V y E
de los individuos, la correlación entre ambas variables sería nula. Se asume que puntuaciones
verdaderas elevadas (bajas) no tienen porqué tener asociados errores elevados (bajos).
(4) UE E j k
0
El cuarto supuesto asume que si en una población conociéramos los errores de medida de
cada individuo en dos tests diferentes (j y k), dada su condición de aleatoriedad, la
correlación entre ambas variables también sería nula.
(5) UE V j k
0
El quinto supuesto nos indica que si en una población conociéramos las puntuaciones E en un
test j y las puntuaciones V en un test k, ambas variables correlacionarían cero.
Ejemplo: Supongamos una población de 5 personas, para las que conocemos sus
puntuaciones V, E y X en dos tests diferentes, denominados con los subíndices 1 y 2 (En
realidad, sólo podemos conocer las puntuaciones X; las restantes puntuaciones se proponen
únicamente por razones didácticas):

V1 E1 X1 V2 E2 X2
12 -2 10 12 0 12
11 0 11 11 -2 9
11 0 11 11 2 13
12 2 14 12 0 12
4 0 4 4 0 4
El lector puede comprobar que se cumplen los supuestos planteados en la página anterior, en
la tabla de puntuaciones.
De cualquier forma, insistimos que en la aplicación real de un test sólo se conocen las
puntuaciones X de las personas, por lo que los supuestos planteados (por muy lógicos y
razonables que sean) no pueden someterse a contrastación empírica, siendo ésta una de las
principales limitaciones de la TCT.
3.- CONCEPTO DE FORMAS PARALELAS
Cuando un psicólogo aplica un test a una persona, únicamente conoce su puntuación directa
X en la prueba. Lo importante, como venimos indicando, es obtener información de las
relaciones entre las X y las V. Un procedimiento sería obtener la correlación entre ambas
para un grupo de N personas, pero nos encontramos con el inconveniente de desconocer las
auténticas V de las N personas. Sí resulta factible, sin embargo, obtener la correlación entre
las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseñadas
ambas para evaluar el mismo rasgo V de los individuos.
Según el modelo clásico, dos formas paralelas de un test se definen mediante dos
condiciones:
a) Un individuo tiene la misma puntuación V en ambas formas.
b) La varianza de los errores de medida en ambas formas es la misma.
El lector puede comprobar en la tabla de datos expuesta anteriormente que los tests 1 y 2
pueden considerarse formas paralelas, dado que se cumplen en los datos las dos condiciones
planteadas. Ahora bien, estamos asumiendo que los datos anteriores se refieren a una
población determinada, en la que conocemos las V y los E de los individuos. En la práctica
desconocemos esas puntuaciones y, además, disponemos generalmente de datos muestrales y
no poblacionales. ¿Cómo determinar entonces si dos formas son o no paralelas? En la tabla
anterior podemos constatar que, si dos formas son paralelas, las medias poblacionales de X en
ambas son iguales, y también los son las varianzas poblacionales de las puntuaciones X.
Según esto, y haciendo uso de los procedimientos empleados en estadística inferencial, si
disponemos de datos muestrales podemos realizar los contrastes oportunos para determinar,

con cierta probabilidad, si dos formas son o no paralelas.
Para muestras relacionadas, el contraste sobre diferencia de medias se plantea como:
H0 : P1 - P2 = 0
H1 : P1 - P2 z 0
Siendo el estadístico de contraste:
D N
T , que sigue la distribución t con N-1 grados de libertad,
SD
donde D es la media de las diferencias, N el tamaño de la muestra y SD la desviación típica

insesgada de las diferencias.
El contraste sobre diferencia de varianzas, para muestras relacionadas, se plantea como:
H0 : V1 - V2 = 0
H1 : V1 - V2 z 0
Siendo el estadístico de contraste:
( S12 S 22 ) N 2
T , que sigue la distribución t con N – 2 grados de libertad.
2S1 S 2 1 r122
donde r12 es la correlación de Pearson entre X1 y X2.
Ejemplo: Queremos saber, con probabilidad 0.95, si dos tests (1 y 2) son o no formas
paralelas. Aplicamos ambos tests a una muestra de 5 personas y obtienen las siguientes
puntuaciones:
X1 X2
15 15
10 15
13 20
14 10
18 15
Para el contraste de diferencia de medias, obtenemos un valor T = -0.46, lo que nos lleva a no
rechazar H0, mientras que para el contraste sobre diferencia de varianzas obtenemos un
estadístico T = -0.34, que también nos lleva a no rechazar H0 de igualdad de varianzas

poblacionales. Según esto, podemos decir, con probabilidad 0.95, que ambos tests son formas
paralelas.
Los fundamentos de este tipo de contrastes pueden consultarse en el libro de Pardo y San
Martín (1998) "Análisis de datos en Psicología II".
4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que los
resultados empíricos de ambas en una población correlacionen de forma elevada. Si esto es
así, ambas formas manifiestan un elevado grado de precisión a la hora de reflejar los diversos
niveles de rasgo. Si ambas correlacionasen de forma mínima, no podemos fiarnos de que
reflejen fidedignamente los niveles de rasgo. Pues bien, definimos inicialmente el coeficiente
de fiabilidad como la correlación entre los resultados que proporcionan dos formas paralelas.
Para datos poblacionales y puntuaciones diferenciales, la expresión de la correlación de
Pearson es la siguiente:
6x1 x 2
U12
NV 1V 2
Según el primer supuesto del modelo clásico, que se cumple también para escala diferencial,
tenemos que x = v + e, con lo que la expresión anterior quedaría como:
6(v1 e1 )(v 2 e2 )
U12
NV 1V 2
Desarrollando la fórmula anterior, obtenemos que:
6v1v 2 6v1e2 6e1v2 6e1e2

U12
NV 1V 2 NV 1V 2 NV 1V 2 NV 1V 2
Recordando los supuestos del modelo clásico, podemos comprobar que los tres últimos
sumandos son iguales a cero, con lo que nos queda la siguiente expresión:
6v1v2
U12
NV 1V 2
y dado que las puntuaciones v de un mismo individuo en dos formas paralelas las asumimos
idénticas, y también son iguales las varianzas poblacionales en ambas formas, la expresión
anterior queda como:
6v 2 V v2
U12
NV 1V 2 V x2

lo que significa que el coeficiente de fiabilidad es el cociente entre la varianza de las

puntuaciones verdaderas y la varianza de las puntuaciones empíricas. Se puede interpretar
como la proporción de la varianza empírica que puede atribuirse a la variabilidad de las
personas a nivel de rasgo o puntuaciones verdaderas. Nótese además que el coeficiente de
fiabilidad puede asumir valores entre 0 y 1, ya que las varianzas siempre serán positivas.
En las siguientes páginas estudiaremos varios procedimientos para calcular el coeficiente de

fiabilidad de un test.
5.- FIABILIDAD DE UN TEST DE POR "n" FORMAS PARALELAS
Imaginemos que disponemos de n formas paralelas para medir un rasgo psicológico

determinado. Según lo visto, las “n” formas tendrán en la población las mismas varianzas
empíricas. Además, las correlaciones entre todos los posibles pares de formas paralelas que
podemos establecer serán también iguales, e indicarán la fiabilidad de cualquiera de ellas a la
hora de determinar los niveles de rasgo.
Los parámetros de la población en una forma paralela podemos designarlos como Vx, Vv , Ve ,
y Uxx . Si unimos las n formas paralelas en un único test, los parámetros de este test alargado
podemos expresarlos como Vnx , Vnv , Vne, y Unxx. Vamos a llegar a determinadas expresiones
para obtener los parámetros del test alargado conociendo los parámetros de una forma
paralela.
a) La varianza empírica del test formado por n formas paralelas será:
V2nx = n V2x + n(n-1) V2x Uxx = n V2x >1 + ( n – 1 ) Uxx]
b) La varianza verdadera del test formado por n formas paralelas será:
V2nv = n V2v + n(n-1) V2vUvv = n V2v >1 + ( n – 1 ) ] = n2 V2v
c) La varianza error del test formado por n formas paralelas será:
V2ne = n V2e + n (n-1) V2e Uee = n V2e
d) A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad

es el cociente entre la varianza verdadera y la varianza empírica, podemos obtener el
coeficiente de fiabilidad del test alargado:

V nv2 n 2V v2 nU xx
U nxx
V nx2 n V x 1 n 1U xx 1 (n 1) U xx
2 2
La expresión anterior se conoce como fórmula general de Spearman-Brown, y permite

obtener el coeficiente de fiabilidad de un test compuesto por n formas paralelas.
Ejemplo: Un test de aptitud para la dirección empresarial está formado por dos formas
paralelas de 20 ítems cada una. Aplicados a una población de directivos, se obtiene una
correlación de 0.6 entre ambas formas. ¿Cuál será el coeficiente de fiabilidad del test
compuesto por la unión de las dos formas paralelas?
nU xx 2(0.6)
U xx 0.75
1 (n 1) U xx 1 (2 1)0.6
Comprobamos que el coeficiente de fiabilidad del test alargado (de 40 ítems) es superior al
coeficiente de fiabilidad de cualquiera de las formas iniciales de 20 ítems. Esto representa
una propiedad interesante del coeficiente de fiabilidad, dado que nos indica que si alargamos
un determinado test con formas paralelas, podemos incrementar su fiabilidad.
El razonamiento que hemos expuesto se puede generalizar al caso de que los k ítems que
componen un test fueran formas paralelas. En una determinada población, los k ítems de un
test serán paralelos si todos tienen la misma media, la misma varianza y la misma fiabilidad.
Según la fórmula general de Spearman-Brown, el coeficiente de fiabilidad del test se puede
expresar como:
kU il
U xx
1 (k 1) U il
donde k es el número de ítems del test y Ujl es la correlación de Pearson entre cualquier par de
ítems, que indica la fiabilidad de cada uno de los ítems.

EJERCICIOS
1. Cuatro personas responden a dos tests. Sus puntuaciones en X (conocidas) y en V y E

(nunca conocidas, pero supuestamente conocidas en el ejemplo) son las siguientes:
TEST 1 TEST 2
X1 V1 E1 X2 V2 E2
persona 1 3 2 1 0 2 -2
persona 2 2 3 -1 5 3 2
persona 3 4 5 -1 7 5 2
persona 4 7 6 1 4 6 -2
Comprobar qué supuestos de la Teoría Clásica se cumplen y cuales no, en cada test.
2. Un test se aplica a 4 personas. Suponemos conocidas algunas de sus puntuaciones

verdaderas y errores. Sabiendo que en los siguientes datos se cumple exactamente la Teoría
Clásica, complete las puntuaciones que faltan en la tabla:
X V E
persona 1 5 0
persona 2 7 1
persona 3 0
persona 4
MEDIA 6
3. En la aplicación de un test de aptitud numérica, el encargado de controlar el tiempo

prolonga 1 minuto el período establecido para resolver las diversas tareas. ¿Cuál es el
supuesto de la Teoría Clásica que se vería afectado por tal error, y que por tanto sería difícil
de asumir racionalmente?
4. Si dos tests son paralelos, una persona obtendrá la misma puntuación empírica en uno
y otro. V ( ) F ( ) Depende ( ). Razone su respuesta.
5. Después de aplicar a 5 personas dos formas de un test de razonamiento analógico, se

obtienen los siguientes datos (las desviaciones típicas tienen denominador n-1):
SA = 3,79 SB = 2,83 SD = 1,41 rAB = 0,95
a) ¿Cuál es la diferencia mínima que deberíamos haber obtenido para considerar, con
probabilidad 0.95, que las medias poblacionales son diferentes?

b) Suponiendo que las dos medias no alcanzan esa diferencia mínima, ¿podemos afirmar, con
probabilidad 0.95, que ambas formas son paralelas?
6. Si dos formas paralelas de un test se aplican en el mismo momento a un grupo

normativo, la correlación entre los resultados de ambas aplicaciones debe ser igual a 1.
V ( ) F ( ). Razone su respuesta.
7. Si la varianza verdadera de un test es el 64 % de su varianza empírica, ¿cuál es su

coeficiente de fiabilidad?
8. Complete los valores omitidos en la siguiente tabla, siendo n el número de veces que
se alarga el test.
V2 x V2 v V2 e ρxx n ítems
Test original 25
Test alargado 112 16 4
9. En un test A de 10 ítems la varianza de las puntuaciones verdaderas es 3 y la varianza

error es 1. Elaboramos 4 formas paralelas del test A y formamos un nuevo test (test B),
resultado de añadir al test A las 4 formas paralelas anteriores. Justifique sus respuestas.
a) El test B tendrá _____ ítems.

b) La varianza de las puntuaciones verdaderas del test B será _________.
c) La varianza de las puntuaciones empíricas obtenidas en el test B será ________.
10. El coeficiente de fiabilidad de un test X de 10 ítems es 0.67. Responda

razonadamente.
a) ¿Qué proporción de la varianza de X se debe a las diferencias en los verdaderos niveles de

rasgo?
b) Formamos el test doble (de 20 ítems). ¿Qué proporción de la varianza del test doble se
debe a los errores de medida?
c) Si correlacionamos las puntuaciones obtenidas entre las dos formas paralelas que forman el
test doble, ¿qué correlación esperamos encontrar? ¿Qué proporción de la varianza de las
puntuaciones obtenidas en la primera forma depende de las puntuaciones obtenidas en la
segunda forma?
11. Diga si las siguientes afirmaciones son ciertas (V) o no (F). No necesita razonar sus
respuestas.

a) El índice de homogeneidad de un ítem depende de la relación entre el ítem y las

puntuaciones en el test. V( ) F( )
b) Si se aumenta la longitud de un test con ítems paralelos aumentará la varianza error.
V( ) F( )
c) Si se aumenta la longitud de un test con ítems paralelos aumentará la varianza verdadera.
V( ) F( )
d) Si se aumenta la longitud de un test con ítems paralelos aumentará la varianza empírica.
V( ) F( )
e) Según el modelo clásico, los errores de medida NO pueden ser negativos. V( ) F( )
f) En el modelo clásico se asume que las puntuaciones verdaderas y empíricas correlacionan
0 en la población. V( ) F( )

SOLUCIONES
1. X = V + E. Se cumple.
La media de los errores es 0. Se cumple el segundo supuesto.
ρVE = 0. Se cumple el tercer supuesto.
Los errores correlacionan. No se cumple el supuesto 4.
Los errores no correlacionan con las puntuaciones verdaderas (ρE1 V2 = ρE2 V1 = 0). Se
cumple el supuesto 5.
2. Como la media de los errores ha de ser cero, E4 = -1.

Como la correlación entre V y E es cero, tendrá que ser cero su
numerador, ¦ (V V )( E E ) . Es decir, (5-6).(0)+ (7-6).(1)+(V3-6)(0)+(V4-6).(-1) =
0, luego, V4 = 7.
Como la media de V ha de coincidir con la media de X, se obtiene V3 = 5
Como X = V + E, X1 = 5; X2 = 8; X3 = 5 y X4 = 6.
3. Si se prolonga el tiempo, cabe suponer que las puntuaciones X de las personas serían
superiores a las que les corresponderían con el tiempo bien controlado. En este caso,
los errores de medida (E = X - V) serán mayoritariamente positivos, con lo cual se
incumple el supuesto de que su media debe ser cero.
4. Depende. El modelo supone que en dos formas paralelas, una misma persona tiene la
misma V, pero sus puntuaciones empíricas en una y otra forma por lo general serán
diferentes.
5. a) La diferencia mínima es 1.75.

b) El estadístico T para contrastar si las dos varianzas poblacionales son iguales es
1.65, menor que el valor de las tablas (3.182). Aceptamos que son formas paralelas.
6. Falso. No tiene por qué ser 1, ya que las puntuaciones empíricas en una y otra forma
no tienen por qué ser las mismas. La correlación entre ambas será un indicador de la
fiabilidad de cualquiera de ellas.
7. rxx = 0.64
8.
σ2 x σ2 v σ2 e ρxx n ítems
Test original 10 6 4 0,6 1 25
Test alargado 112 96 16 0,86 4 100

9.
Items n S2v S2e
Test A 10 1 3 1
Test B 5
a) El número de ítems del test B será (5)(10) = 50.

b) Snv2 = (n2 )Sv2 = (25)(3) = 75
c) 80. Pues Sne2 = (n) Se2 = (5)(1) = 5 y Snx2 = Snv2 + Sne2 = 80.
10. a) El coeficiente de fiabilidad es 0.67. Luego la proporción que piden es 0.67.

b) En el test doble, R = 2(0.67)/(1+0.67) = 0.8. Luego, la proporción que piden es 0.2.
c) La correlación es rxx, que vale 0.67. La proporción pedida es 0.672 = 0.45.
11. a) V
b) V
c) V
d) V
e) F
f) F

TEMA III: FIABILIDAD DEL TEST
1.- INTRODUCCIÓN
Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test
como instrumento de medición de un rasgo determinado. Si un herrero mide varias veces con
una cinta métrica la longitud de una barra de hierro, siempre obtendrá la misma medición,
debido a que tanto la cinta métrica como la barra permanecen invariantes. Ahora bien, cuando
empleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni
otro permanezcan invariantes de una situación a otra; análogamente, sería como disponer de una
cinta métrica elástica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto,
más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de
estabilidad del instrumento de medición.
Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento de la fiabilidad

como correlación entre formas paralelas, se han establecido en términos paramétricos; es decir,
suponiendo conocidos los datos de la población de referencia. Lo real es que en la práctica
vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto significa
que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de dicha
muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos.
Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de
manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
2.- FIABILIDAD COMO ESTABILIDAD TEMPORAL
Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un

tiempo, volvemos a medir a las mismas personas en el mismo test, cabe suponer que siendo el
test altamente fiable, deberíamos obtener una correlación de Pearson elevada entre ambos
mediciones. Dicha correlación entre la evaluación test y la evaluación retest (rxx) se denomina
coeficiente de fiabilidad test-retest, e indicará tanta mayor estabilidad temporal de la prueba
cuanto más cercano a uno sea.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cuál se
define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas
paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es
uno aplicado dos veces.

Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hábitos de

estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo
las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Persona Test Restest
1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
últimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hábitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto a
la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza empírica se debe a la variabilidad de las personas a nivel
de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable
(pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medición. Es aconsejable dejar periodos largos entre la evaluación test y la retest
cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlación entre las puntuaciones del test y del retest.

3.- FIABILIDAD COMO CONSISTENCIA INTERNA
La precisión o fiabilidad de un test se puede entender también como el grado en que diferentes
subconjuntos de items miden un rasgo o comportamiento homogéneo; es decir, el grado en que
covarían, correlacionan o son consistentes entre sí diferentes partes del cuestionario.
Lo más usual es obtener la consistencia entre dos mitades del test (método de dos mitades) o
entre tantas partes como elementos tenga la prueba (consistencia interna).
3.1.- MÉTODO DE DOS MITADES
Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una con
los elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuación directa en
ambas mitades. Disponemos entonces de dos variables (P e I), cuya correlación de Pearson (rPI)
indica su grado de relación.
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo
estadísticamente), la correlación entre ambas sería una medida de la fiabilidad de cada una de
ellas. Ahora bien, cuando hemos deducido la fórmula general de Spearman-Brown hemos visto
que los tests más largos (con más items) suelen ser más fiables, por lo que rPI estará
subestimando el coeficiente de fiabilidad del test total en la medida que P e I son variables
extraídas de la mitad de ítems que tiene el test. Para superar este problema, y así obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown,
considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test
completo tiene el doble de items que cualquiera de sus mitades:
2rPI
rxx
1 rPI
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como la
expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre
ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10
personas que responden a un cuestionario de 6 ítems valorados de forma dicotómica:

Ítems
Sujeto 1 2 3 4 5 6 P I Total
1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 3 1 4
9 0 1 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0
Media 1.6 1.3 2.9

Desviación típica 1.28 1.19 2.02
En este caso se obtiene que rPI = 0.34, y por tanto:
2(0.34)
rxx 0.51
1 0.34
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre sí. Unicamente un 51 % de la varianza de las puntuaciones
empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos afirmar con
suficiente certeza que ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a
responder los ítems más fáciles hasta llegar a los situados al final del test, que son los más
difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la
primera mitad formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.

3.2.- COEFICIENTE D DE CRONBACH
En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente de
fiabilidad del test podría obtenerse aplicando la fórmula general de Spearman-Brown:
kU jl
U xx
1 (k 1) U jl
siendo k el nº de ítems del test y Ujl la correlación de Pearson entre cualquier par de ítems.
Expresada la fórmula anterior para datos muestrales, quedaría como:
kr jl
rxx
1 (k 1)r jl
Una fórmula equivalente a la anterior; es decir, que proporciona exactamente el mismo

resultado, es la denominada coeficiente D de Cronbach:
k §¨ ¦ S j ·¸
2
D 1
k 1 ¨© S x2 ¸¹
donde k es el nº de ítems
¦S 2
j es la suma de las varianzas de los ítems y Sx2 es la varianza del test
Dado que las puntuaciones en el test son la suma de las puntuaciones en los ítems, la varianza
del test puede expresarse como:
k
S x2 ¦S
j 1
2
j 2¦ cov( j , l )
j l
por lo que la expresión inicial puede quedar como:
§ 2¦ cov( j , l ) ·
k ¨ j l ¸
D ¨ ¸
k 1 ¨ S x2 ¸
© ¹

Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son paralelos. En la
práctica, es muy difícil que esto se produzca pero, sin embargo, tiene sentido su aplicación para
establecer el grado en que los diferentes ítems están midiendo una única dimensión o rasgo.
Podemos observar en la última expresión que D depende del grado de covariación de los ítems:
tendrá un valor alto (cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si covarían de forma
escasa). Matemáticamente, D puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como ocurre en la

práctica totalidad de los tests, los ítems no son paralelos. Suele considerarse una "estimación por
defecto" del coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si los ítems son
paralelos) o menor (cuando no lo son). Debe interpretarse como un indicador del grado de
covariación entre los ítems, y es aconsejable complementarlo con otras técnicas estadísticas (por
ejemplo Análisis Factorial) antes de interpretarlo como una medida de unidimensionalidad.
Ejemplo:
Sujetos Ítems X
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
Varianzas 0.14 0.25 0.14 0.25 1.33
k §¨ ¦ S j ·¸
2
4 § 0.14 0.25 0.14 0.25 ·
D 1 = ¨1 ¸ 0.55
¨
k 1 © 2 ¸
S x ¹ 4 1 © 1.33 ¹
En este caso, el coeficiente D obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariación entre los ítems. No podemos afirmar con rotundidad que este
test mide un rasgo unitario.
El coeficiente D puede obtenerse también entre diferentes grupos de ítems (subtests). En ese
caso, k será el número de subtests y 6S2j la suma de las varianzas de los subtests. Un
coeficiente D bajo indicará que los diferentes subtests miden rasgos o constructos diferentes.

4.- FIABILIDAD COMO CORRELACIÓN ENTRE FORMAS PARALELAS
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda versión
del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original
pero con diferentes ítems. Como ya hemos explicado, dos versiones o formas se consideran
paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilísticamente similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas
paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en
que pueden considerarse equivalentes.
Ejemplo:
Sujetos Forma 1 Forma 2
1 1 4
2 14 12
3 11 13
4 11 9
5 10 12
Medias 9.4 10
Varianzas 19.44 10.8
Varianzas (ins.) 24.3 13.5
rxx = r12 = 0.883
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabilidad.
Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determinados
trabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.
Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo
o motivacional, conviene utilizar antes y después del entrenamiento pruebas equivalentes
aunque con contenidos diferentes (formas paralelas) para evitar los efectos del recuerdo.

5.- EL ERROR TÍPICO DE MEDIDA
5.1.- CONCEPTO
Asumiendo el postulado fundamental del modelo clásico, que expresa la relación:
X=V+E
es fácil demostrar que se cumple la siguiente relación para datos muestrales:
Sx2 = Sv2 + Se2
A la desviación típica de los errores de medida (Se) se denomina error típico de medida. En
cierta manera, el Se representa también una medida de precisión: cuanto más cercano a cero sea
el error típico de medida de un test, eso significará que dicho test proporciona a cada persona
una puntuación X cercana a su nivel de rasgo V.
En términos paramétricos, habíamos demostrado en el tema anterior que:
V v2
U xx
V x2
Para datos muestrales, la expresión anterior queda establecida como:
S v2 S e2
rxx 1
S x2 S x2
De donde se deduce que el error típico de medida puede obtenerse a partir de la expresión:
Se S x 1 rxx

5.2. APLICACIÓN: CONTRASTE SOBRE PUNTUACIONES VERDADERAS
Un test impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque
sus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadística inferencial,
podemos contrastar, con cierta probabilidad, si dos puntuaciones empíricas diferentes suponen o
no niveles de rasgo distintos.
Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subíndices i
y j) planteamos las siguientes hipótesis:
H0: Vi = Vj
H1: Vi z Vj
Puede comprobarse que el estadístico de contraste se expresa como:
Xi X j
Z
Se 2
Si el valor de Z se encuentra dentro de la zona de aceptación, admitiremos, con la probabilidad

establecida, que las puntuaciones V de las dos personas son las mismas; de lo contrario,
admitiremos que difieren sus niveles de rasgo.
Ejemplo: Un test de Inteligencia general manifiesta en un grupo normativo un coeficiente de

fiabilidad de 0.91 y una desviación típica de 16. Dos personas obtienen en el test unas
puntuaciones directas de 126 y 120 puntos, respectivamente. ¿Podemos afirmar, con
probabilidad 0.95, que ambas personas difieren en sus rasgos intelectuales?.
En este caso, el estadístico será:
126 120
Z 0.88
16 1 0.91 2
Con probabilidad 0.95, la zona de aceptación queda establecida entre los límites Z = -1.96 y Z
= 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.

6.- FACTORES QUE AFECTAN A LA FIABILIDAD DE UN TEST
El conocimiento preciso y exhaustivo de los factores que determinan la cuantía del coeficiente
de fiabilidad puede ayudarnos en la tarea de diseñar pruebas adecuadas. El tema es relevante en
la fase de selección de ítems, para saber cuáles deben seleccionarse dependiendo de los objetivos
que se pretenden conseguir. También va a resultar útil para conocer las propiedades y
limitaciones que asumimos cuando aplicamos un determinado cuestionario.
Ya hemos aclarado las diferentes versiones que pueden adquirir la fiabilidad de un cuestionario,
entendida sobre todo como consistencia o como estabilidad temporal.
Respecto a la consistencia interna (coeficiente D), basta inspeccionar las dos expresiones
formales que hemos proporcionado para comprobar que los elementos que covarían de manera
elevada y positiva con los restantes son los que más contribuyen a que D sea elevado. Se puede
comprobar, además, que S2x = (6 Hj Sj)2, con lo que, si sustituimos la expresión en la fórmula de
D, comprobamos también que (entre los elementos de igual variabilidad) los de mayor Hj son los
que más contribuyen a incrementar D. Si en la fase de análisis de items tenemos como objetivo
elaborar un test con elevada consistencia interna, tenemos que quedarnos con los ítems que
manifiestan un mayor índice de homogeneidad.
Además, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la
longitud del test y que resultaría fácil obtener valores elevados cuando se incluyen ítems
redundantes, lo que, evidentemente, no resulta deseable.
En cuanto al coeficiente de fiabilidad (rxx), su cuantía depende en parte de la variabilidad de la

muestra donde se obtiene y también de la longitud (número de ítems) del test.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos
(muestras de personas donde se obtiene el coeficiente). Más concretamente, un mismo test suele
obtener un rxx mayor en un grupo heterogéneo que en otro menos heterogéneo (de menor
varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una
muestra de la población general que una muestra de universitarios o en otra de personas con
deficiencias cognitivas (estas últimas más homogéneas). La razón es simple: el coeficiente de
fiabilidad, obtenido por el método que sea, se fundamenta estadísticamente en una correlación
de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las
variables que se correlacionan.
Por otra parte, si los ítems están bien formulados y resultan discriminativos, un test incrementará
su rxx a medida que incrementa su longitud (número de ítems), aunque no lo hace de manera
lineal. La siguiente gráfica muestra el coeficiente de fiabilidad de un test alargado N veces (N: 1,
2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:

1,0
,8
Fiabilidad del test alargado N veces

,6
,4
0.7
,2
0.4
0,0 0.1
1 7 13 19 25 31 37 43 49
4 10 16 22 28 34 40 46
Queremos indicar con la gráfica anterior que el incremento es más significativo cuando el test
inicial tiene un número pequeño de ítems y bajo coeficiente de fiabilidad, que cuando el test de
partida tiene ya un coeficiente de fiabilidad considerable.
La fórmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra
concreta, permite estimar cuál será el coeficiente de fiabilidad (Rxx) de un test que se forma con
“n” versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
nrxx
R xx
1 (n 1)rxx
Las n-1 formas añadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario,
la fórmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atención de 25 ítems obtiene en un grupo
normativo un rxx= 0,6. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test
alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:
nrxx (4)0.6
R xx 0.86
1 (n 1)rxx 1 (3)0.6

Si las 3 formas añadidas fuesen auténticamente paralelas a la original al pasar de 25 a 100 ítems
el coeficiente de fiabilidad pasa de 0.6 a 0.86.
Imagínese ahora que el test de atención de 25 ítems tiene un rxx = 0,92. Si se añaden 75 ítems
más paralelos, el test alargado tendría de coeficiente de fiabilidad:
nrxx (4)0.92
R xx 0.98
1 (n 1)rxx 1 (3)0.92
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de
atención es de 0.26, mientras que en el segundo caso, el incremento es únicamente de 0.06. Esto
se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el
primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la fórmula
se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el método de
las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sería el coeficiente de
fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el
resultado de esa correlación hay que corregirlo, haciendo n = 2 en la fórmula de Spearman-
Brown, para obtener el coeficiente de fiabilidad del test completo.
Estas relaciones entre fiabilidad y longitud de un test pueden ayudarnos a estimar el coeficiente
de fiabilidad alargando “n” veces o, planteado inversamente, el número de veces que debemos
multiplicar la longitud inicial de un test para alcanzar un Rxx determinado. En la práctica, puede
resultar eficaz diseñar un test inicial corto y estimar cuál debería ser su longitud para alcanzar un
coeficiente de fiabilidad determinado, y así comprobar si merece la pena continuar con ítems
paralelos o reformar los ya generados. Para ello, si despejamos “n” de la fórmula general de
Sperman-Brown, obtenemos la siguiente expresión:
Rxx (1 rxx )
n
rxx (1 R xx )
Ejemplo: Supongamos que un test inicial de 25 ítems obtiene un coeficiente de fiabilidad de 0.6,
considerado bajo para los objetivos que se pretenden conseguir con su aplicación. Una manera
de incrementar su precisión es alargarlo con ítems paralelos a los iniciales. Al constructor de la
prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0.86, y se pregunta
con cuántos ítems lo conseguiría.
Aplicando la fórmula precedente, obtenemos:
0.86(1 0.60)
n 4
0.60(1 0.86)

Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de 100
ítems, conseguiremos la precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial
habría que añadir 75 ítems paralelos (3 formas) para conseguir la fiabilidad de 0.86.
El lector puede comprobar que este planteamiento es el inverso al del ejemplo precedente, que
consideraba los mismos datos, y que por eso es lógico que el resultado de “n” sea 4.

EJERCICIOS
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construcción de un cuestionario.
a) Correlacionar las puntuaciones totales en el cuestionario con las mismas puntuaciones

obtenidas un mes después.
b) Correlacionar las puntuaciones de la mitad par con las obtenidas en la mitad impar.
c) Valorar todas las covariaciones que se producen entre los diferentes elementos.
d) Correlacionar las puntuaciones totales en el test con las obtenidas por los mismos sujetos
en una forma paralela.
2. Señale qué factores pueden afectar al coeficiente de fiabilidad de un test (rxx).
3. Un psicólogo construye una escala de actitudes para evaluar el dogmatismo religioso.

La escala consta de 4 ítems, y en cada uno se puede manifestar la opinión según una escala de
7 puntos (del 1 al 7). A continuación se detallan las respuestas de un grupo normativo de 5
personas:
Sujeto ítem 1 ítem 2 ítem 3 ítem 4

1 1 5 2 7
2 2 3 4 6
3 4 4 3 3
4 5 5 6 7
5 6 7 6 7
Obtenga e interprete el coeficiente α de la prueba.
4. ¿Cuál sería el coeficiente α de un test formado por 20 ítems completamente

independientes entre sí?
5. De un test formado por 40 elementos se sabe que la correlación entre las

puntuaciones en los 20 elementos pares y en los 20 elementos impares es igual a 0,5. Obtenga
el coeficiente de fiabilidad del test de 40 elementos.
6. Un psicólogo social diseña un test de actitudes hacia la no violencia formado por 4

ítems, en cada uno de los cuales los sujetos pueden manifestar su opinión según una escala de

3 puntos (0, 1 ,2). A continuación se detallan las respuestas dadas por un grupo normativo de
8 personas:
Sujetos
nº 1 nº 2 nº 3 nº 4 nº 5 nº 6 nº 7 nº 8
Ítem nº 1 2 2 2 2 2 2 1 0
Ítem nº 2 2 2 2 2 1 1 0 0
Ítem nº 3 2 1 2 0 0 1 0 0
Ítem nº 4 1 1 0 1 0 0 0 0
Obtenga el coeficiente de fiabilidad de test por el método de dos mitades. Aplique para ello
la fórmula de Spearman-Brown .
7. Se aplican dos formas paralelas de un test a un grupo normativo de 10 personas. Sus

puntuaciones empíricas directas en ambas formas fueron las siguientes:
Sujetos 1 2 3 4 5 6 7 8 9 10
Forma A 6 3 5 4 4 6 5 5 6 3
Forma B 6 3 4 4 5 6 3 5 6 5
Obtenga el coeficiente de fiabilidad del test según el método de formas paralelas.
8. A continuación se detallan las puntuaciones que un grupo normativo de 4 personas

obtiene en un test de personalidad, cuyo coeficiente de fiabilidad fue 0.8:
Sujeto: 1 2 3 4
───────────────
Xi : 14 6 16 4
a) Calcule la varianza verdadera del test.

b) Calcule el error típico de medida del test.
9. Un psicólogo que trabaja en un centro dedicado a evaluar la rapidez visomotora de los

conductores confecciona una pequeña prueba para medir esta habilidad. La prueba consta de
6 elementos que se valoran de forma dicotómica. La tabla siguiente muestra las respuestas
que se obtuvieron en un grupo normativo formado por 4 aspirantes a conductores:
a) Obtenga el coeficiente de fiabilidad del test.

b) Obtenga la diferencia mínima que debe producirse entre las puntuaciones de dos
conductores en el test para considerar, con probabilidad 0.99, que sus puntuaciones
verdaderas son distintas.
Ítems
Conductor 1 2 3 4 5 6
1 0 1 1 1 1 1
2 1 1 1 1 0 1
3 0 1 0 1 0 0
4 0 1 1 0 0 0
10. Un test de habilidad verbal de 30 ítems tiene, según el procedimiento de las dos
mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
a) Calcule la correlación entre la mitad par e impar del test.

b) Suponiendo que las dos mitades son auténticamente paralelas, obtenga la varianza de las
puntuaciones en la mitad impar del test.
c) Obtenga la covarianza entre las dos mitades.
d) Obtenga la varianza error del test si se le añaden 45 elementos paralelos a los que ya tiene.
11. Sean dos tests de tres ítems. La matriz de correlaciones entre los tres ítems en cada
test ha sido:
Correlaciones Test A Test B

item1 e item2 0.5 0.3
a) ¿En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) ¿En cual de los tests cabe esperar que sea mayor el índice de homogeneidad del ítem 1?
Razone su respuesta.
12. Un test está formado por 4 ítems dicotómicos que tienen igual media (0.6). La
correlación entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
ítems.

13. Disponemos de un test inicial, A, de 20 ítems, que tiene un coeficiente de fiabilidad

raa. Multiplicamos su longitud por 2, 3 y 4, siempre con elementos paralelos, y formamos los
tests B, C y D, de 40, 60 y 80 ítems, respectivamente. Obtenemos sus coeficientes de
fiabilidad: rbb, rcc y rdd. Dado que el test B resulta de añadir 20 ítems al test A; el C, de añadir
otros 20 al test B; y el D, de añadir otros 20 al C, ¿cabe esperar que rbb – raa = rcc – rbb = rdd –
rcc?
14. Un cuestionario para evaluar el rendimiento en Aritmética está formado por 4 ítems,
que se valoran de forma dicotómica (1 el acierto y 0 el fallo). Se aplicó a una muestra de 100
niños. A continuación se detalla alguna información estadística de la mitad par (P), impar (I)
y del total del test (X). También aparecen las frecuencias de aciertos (F) de cada uno de los 4
ítems, no habiendo omisiones en ninguno.
Correlaciones :
P I X Ítem 1 2 3 4
P 1
F 50 70 60 80
I 0,.45 1
X 0,79 0,74 1
Medias 1,50 1,10 2,60
Sj 0,67 0,83 1,14
a) Imagínese que aplicamos el test a un niño antes y después de un programa de

entrenamiento en aritmética. Diga cuál debe ser la diferencia mínima entre sus dos
puntuaciones para considerar, con probabilidad 0.99, que dicho entrenamiento ha tenido
eficacia; es decir, para considerar que su nivel de rasgo se ha incrementado.
b) Obtenga e interprete un indicador de la consistencia interna global de la prueba.
15. Un test A tiene 100 ítems y un coeficiente de fiabilidad de 0.5. Un test B tiene el
mismo coeficiente de fiabilidad, pero tiene 10 ítems. ¿Significa esto que si a ambos tests
añadimos 50 ítems paralelos, los dos tests alargados tendrían la misma fiabilidad?
SI( ) NO( ) Depende ( ). Razone su respuesta.
16. Tenemos un test de 5 ítems con coeficiente de fiabilidad de 0.10.

Aplicando la fórmula n = R(1-r)/(1-R)r, para que R = 0.95, n ha de ser 171.
a) ¿Cuántos ítems se han de añadir al test para que su fiabilidad sea 0.95? Realice el cálculo
necesario.
b) ¿Puede el valor “n” de la fórmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.

17. Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hipótesis
nula de igualdad de puntuaciones verdaderas.
a) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar

las puntuaciones verdaderas de Carlos y Bernardo ¿llegaríamos a la misma decisión que antes
sobre sus puntuaciones verdaderas?
b) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
las puntuaciones verdaderas de Carlos y Antonio ¿Mantendríamos la hipótesis nula de
igualdad de puntuaciones verdaderas?

SOLUCIONES
1. a) Obtener la fiabilidad test-retest, es decir, la estabilidad temporal de las

puntuaciones que proporciona el cuestionario.
b) Obtener la fiabilidad del test mitad. Aplicando la corrección de Spearman-Brown
se obtiene la fiabilidad del test completo, según el procedimiento de las dos mitades.
c) Estudiar la consistencia interna del test. Se puede hacer mediante el coeficiente α
de Cronbach.
d) Obtener la fiabilidad mediante el método de las formas paralelas.
2. La varianza del grupo normativo y la longitud del test.
3. α = 0.77, que se puede considerar un coeficiente medio-alto. Los 4 ítems covarían

entre sí de forma apreciable.
4. α = 0. Si los ítems son independientes, sus covarianzas serán igual a cero.
5. rxx = 0,66
6. rxx = 0,83
7. rxx = 0, 587
8. a) Sv2 = 20,8
b) Se = 2,28
9. a) rxx = 0,778
b) 2.58 será la diferencia mínima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones
verdaderas son diferentes.
10. a) rP I = 0,67
b) Si2 = 6
c) SP I = 4
d) S2n e = 10
11. a) El test A. Cuando las correlaciones entre los ítems son más altas, lo serán las
covarianzas, y por tanto el coeficiente alfa.
b) El test A. Cuando las correlaciones entre los ítems son altas, también lo serán las
correlaciones de cada ítem con el test total (índice de homogeneidad).
12. S12 = S22 = S32 = S42 = 0,24

cov(i,j) = ri j Si Sj = (1/6)(0.24)1/2(0.24)1/2 = (1/6) (0.24)

§ ·
4 ¨¨ (4)0.24 ¸
D 1 ¸ 0.44
3¨ 1
¨ (4)0.24 2(6) 0.24 ¸¸
© 6 ¹
13. No. A incrementos constantes en longitud, no se producen incrementos constantes en

rxx.
14. a) Z = 2.33 en las tablas en contraste unilateral.

rxx = (2)(0.45)/(1+0.45) = 0.62
Se = 0.70
Diferencia mínima: (2.33)(0.70)2 = 2.3
4§ 0.86 ·
b) S12 = 0.25; S22 = 0.21; S32 = 0.24; S42 = 0.16. D ¨1 ¸ 0.45.
3 © 1.142 ¹
15. NO. En el primer caso, el test inicial se habrá alargado 1.5 veces para llegar a los 150
ítems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
los 60 ítems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.
16. a) Ítems que ha de tener el test = (171)(5) = 855

Ítems a añadir = 855 – 5 = 850.
b) r y R son coeficientes de fiabilidad, por lo que 0 < r, R < 1. Por lo tanto, en la

fórmula, “n” no puede tomar valores negativos. En la fórmula equivalente que se
estudia en un tema posterior (validez), entonces sí que “n” puede tomar un valor
negativo e indica que el valor de Rxy propuesto no es alcanzable alargando el test. En
el caso de la fiabilidad, todo valor menor de 1 es alcanzable y “n” da siempre positivo.
17. a) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la

diferencia entre las puntuaciones observadas es de 4 puntos, necesariamente se ha de
rechazar la igualdad cuando la diferencia es mayor. La diferencia entre Carlos y
Bernardo es de 7 puntos.
b) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la

diferencia entre las puntuaciones observadas es de 4 puntos, no podemos saber qué
sucederá cuando la diferencia sea menor. Se puede aceptar o rechazar la hipótesis
nula. La diferencia entre Carlos y Antonio es de 3 puntos. Habrá que hacer el
contraste para saberlo.

TEMA IV: VALIDEZ DEL TEST
1.- CONCEPTO DE VALIDEZ
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestión de qué es lo que auténticamente está evaluando. En el ámbito
psicosocial, los diferentes constructos resultan difícilmente operativizables de manera
indiscutible, y a veces se producen dudas razonables sobre qué mide un determinado test. Una
prueba de inteligencia general tendrá un elevado grado de validez si asigna puntuaciones altas a
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendrá un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.
La validación es un proceso continuo, que incluye procedimientos diferentes para comprobar si

el cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo
de conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el
test. Las inferencias pueden ser de muy diverso tipo: ¿qué rasgo estamos midiendo realmente?
¿Qué podemos predecir sobre el comportamiento de un sujeto que obtiene una determinada
puntuación en el test? ¿Qué consecuencias de diverso tipo tiene esa puntuación, en contextos de
evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene como
objetivo aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente
se han diferenciado varios procedimientos de validación, alguno de los cuales incluye varios
métodos diferentes de comprobación. Los fundamentales procedimientos son denominados
como validez de contenido, de constructo y referida al criterio.
2.- VALIDEZ DE CONTENIDO
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...)
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar
o en una especialidad temática concreta), tiene sentido justificar que el conjunto de items que
forman el test conforman una muestra representativa del universo de contenidos que interesa
evaluar. Un test de conocimientos de Química en 8º de EGB, por ejemplo, debería incluir
cuestiones representativas de los diferentes núcleos de contenidos que oficialmente deben
impartirse en ese nivel de estudios. Sería una prueba poco válida si incluye demasiadas
cuestiones de unos temas y muy pocas de otros.
Para justificar, aunque sólo sea racionalmente, que un test posee validez de contenido, debe
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cuáles son los contenidos de Química que debe conocer un alumno de 4º de ESO, cuáles son los
componentes que interesa considerar en un cuestionario de cultura general, qué tipo de
conocimientos y destrezas son las pertinentes para medir el nivel básico de inglés, etc. En

definitiva, nos referimos a explicitar claramente los objetivos de la evaluación y la

importancia que se quiere dar a cada uno, lo que determinará la cantidad de cuestiones a incluir
referidas a cada uno de esos objetivos. En definitiva, la validez de contenido es un tema
particular del de muestreo: si deseamos realizar inferencias sobre el rendimiento de las personas
en una población de contenidos determinada, el test debe incluir una muestra representativa de
dichos contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien pueden utilizarse jueces

expertos en el tema para valorar la congruencia entre los diversos items y los diversos objetivos.
Existen procedimientos cuantitativos diversos para que cada experto valore el grado en que un
ítem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo más
sencillo sería el siguiente:
- Especificar los diversos objetivos (v.gr. áreas diferentes de contenidos) que se

pretenden evaluar.
- Elaborar varios ítems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, según su opinión, asignen cada ítem al objetivo que pretende medir.
- Seleccionar los ítems en los que los expertos manifiestan mayor acuerdo en sus
clasificaciones.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente", que se refiere al grado en que un test da la impresión a los evaluandos de que mide lo
que se pretende. En situaciones aplicadas, es importante que las personas perciban que los ítems
del test tienen que ver con la finalidad que se persigue con el procedo de evaluación.
3.- VALIDEZ DE CONSTRUCTO
Un constructo es un concepto elaborado por los teóricos de la Psicología para explicar el

comportamiento humano. Inteligencia fluida, extroversión, autoconcepto, asertividad,
motivación intrínseca... son constructos que forman parte de teorías psicológicas y que precisan
de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los
ítems de un test, y debe comprobarse empíricamente que resultan adecuados para reflejar el
constructo de referencia
3.1.- ESTRATEGIAS PARA LA VALIDEZ DE CONSTRUCTO
La validez de constructo incluye la planificación y ejecución de determinados estudios de

investigación orientados a comprobar empíricamente que un test mide realmente el constructo o
rasgo que pretendemos.
Aunque los métodos a emplear son sin duda variados, así como la técnicas estadísticas para
analizar los datos, podemos encontrar un común denominador a todos ellos, que se sintetiza en
las siguientes fases:

1.- Formular hipótesis relevantes (extraídas de deducciones teóricas o del sentido

común) en las que aparezca el constructo que pretendemos evaluar con el test. En
definitiva, una hipótesis de trabajo consiste en poner en relación dos o más variables.
Pues bien, una de esas variables ha ser el constructo que pretendemos medir con el test.
2.- Efectuar en la práctica mediciones oportunas de las variables o constructos

involucrados en las hipótesis. La medición del constructo de interés se realizará con la
prueba diseñada a tal efecto, que es la que pretendemos validar.
3.- Determinar si se verifican o no las hipótesis planteadas. En el caso de que así sea,
queda confirmado mediante una investigación que el test mide el constructo de interés ya
que, de lo contrario, no habría razones lógicas para que se cumplieran las hipótesis
formuladas. Si las hipótesis no se confirman no significa en principio que el test no es
válido, ya que puede ser debido a que las hipótesis no estaban planteadas de manera
adecuada, lo cual exigiría una revisión de la teoría subyacente.
Imaginemos, por ejemplo, que un investigador está interesado en validar una prueba de
motivación intrínseca-extrínseca que ha construido. Desde la teoría motivacional de partida se
puede deducir que las personas motivadas intrínsecamente (por el mero placer que les supone la
ejecución de determinadas tareas) deberían rendir mejor en actividades escolares que las
personas motivadas por razones extrínsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que demostrar empíricamente que
mide auténticamente el constructo motivacional que se pretende, y podría proceder de la
siguiente manera:
a) Aplicar el test a un grupo amplio de alumnos del nivel escolar apropiado.
b) Recoger información de cada alumno sobre su nivel intelectual, su calificación

académica media en el último curso y las horas que dedica al estudio.
c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo
nivel intelectual medio y que ocupen un número similar de horas en el estudio, pero que
el grupo A tenga niveles altos de motivación intrínseca y el B niveles altos de
motivación extrínseca.
d) Comparar el rendimiento académico de los dos grupos. Si la hipótesis de partida fuera

cierta, el grupo A debería rendir significativamente más que el grupo B, con lo cuál se
aportaría información sobre la validez del test. Desde luego, si el test no midiera
motivación, sería improbable que se verificase la hipótesis de trabajo.
Pueden ser muy variados los métodos a seguir que, cumpliendo el proceso de ejecución
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En cada
caso habrá que seguir el que más convenga para contrastar las hipótesis de partida, pero algunos
métodos suelen ser más frecuentes. Entre ellos destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras variables que deberían
relacionarse con el constructo de interés. Si el modelo teórico está bien fundamentado,

debe establecer relaciones entre el constructo de interés y otros diferentes, y por tanto
debe ser posible establecer diseños de investigación para contrastar las previsiones
teóricas. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala de
susceptibilidad al castigo (que mide el grado de evitación de situaciones reales aversivas)
debe proporcionar puntuaciones relacionadas directamente con neuroticismo e
inversamente con estabilidad emocional.
- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
para comprobar si realmente es así. Resulta un enfoque eminentemente diferencial: si el
test es válido, debería reflejar las diferencias entre grupos que se predicen desde la teoría
psicológica. Por ejemplo, si un test de inteligencia general para edades infantiles es
válido, debería reflejar el mayor rendimiento de los niños de más edad.
- Utilizar una estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulación o selección de los niveles en
una o más variables independientes. El ejemplo expuesto anteriormente sobre
motivación y rendimiento puede servir para entender esta estrategia.
- Aplicar la técnica multivariada del Análisis Factorial (exploratorio o confirmatorio)

sobre la matriz de correlaciones entre items, para descubrir estadísticamente las variables
o dimensiones subyacentes (factores) a la covariación entre los elementos.
3.2.- VALIDEZ DE CONSTRUCTO FACTORIAL
Este último método, denominado validez de constructo factorial, requiere alguna precisión que
puede ser pertinente por fundamentarse en una técnica estadística relativamente sofisticada y,
sobre todo, porque su utilización práctica es muy extensa.
El análisis factorial es una técnica estadística multivariante que sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
información final, proporciona una matriz de tamaño n u p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las “p” dimensiones
extraídas, y que son las correlaciones de Pearson entre cada variable y cada dimensión.
El análisis factorial se realiza con dos objetivos 1) determinar cual es el número de dimensiones
o factores que mide un test y descubrir cual es el significado de cada una; 2) obtener la
puntuación de cada sujeto en cada dimensión. Normalmente, el número de dimensiones que
mide un test es mucho menor que el de ítems. Para descubrir su significado y darles sentido es
necesario fijarse en las variables que saturan de forma elevada en cada dimensión. Cuando el
investigador se enfrenta con la tarea de dar significado a una dimensión, debe realizar un
proceso inferencial para encontrar el nexo de unión entre las variables que manifiestan
correlaciones elevadas en la dimensión. Además, los diferentes factores (dimensiones) extraídos
no tienen la misma importancia. Cada uno explica una determinada cantidad de la varianza total
de los ítems, que se expresa porcentualmente, y que indica la importancia de esa dimensión para
dar cuenta de la covariación entre las variables. Si un factor explica un porcentaje elevado de la

varianza total, eso es síntoma de que las saturaciones de las variables en dicho factor son altas, lo
que significa que es una dimensión importante a la hora de describir las relaciones entre las
variables originales.
3.2.1.- EJEMPLO DE ANÁLISIS FACTORIAL
Un psicólogo ha elaborado una prueba de cinco ítems para evaluar la actitud hacia las nuevas
tecnologías por parte de las personas mayores. Los ítems, que se responden en una escala de
siete categorías ordenadas (desde 1: “muy en desacuerdo" hasta 7: “muy de acuerdo"), son los
siguientes:
ítem 1: El uso de teléfonos móviles puede hacerme la vida más fácil.

ítem 2: Los aparatos modernos son demasiado caros.
ítem 3: Me gustaría tener una agenda electrónica.
ítem 4: El coste de las llamadas desde un móvil es razonable.
ítem 5: Gracias a internet podemos resolver muchos problemas.
Los 5 ítems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se sometió a un análisis factorial, obteniéndose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlación de cada ítem con cada uno de los factores que mide el test:
Ítem Factor I Factor II
1 0.845 -0.126
2 -0.201 0.803
3 0.672 0.012
4 0.052 -0.615
5 0.713 -0.143
% de varianza 34% 21%

total explicada
Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que
se tipifican las puntuaciones en los ítems; la varianza total sería cinco, que es la suma de la
varianza de cada ítem. El factor I explica un 34% de la varianza total, el factor II explica un 21%
de la varianza total. Con los dos factores se explica el 55% de la varianza de los ítems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologías pueden ser útiles para mejorar su calidad de vida. El ítem 2 tiene una
saturación negativa (aunque baja) porque posiblemente manifiesta una actitud contraria hacia las
nuevas tecnologías. Por tanto, el factor I puede denominarse “Actitud positiva hacia las nuevas
tecnologías como medio para mejorar la calidad de vida”.

En el factor II obtienen saturaciones elevadas (en valor absoluto) los ítems 2 y 4, mientras que el
resto de saturaciones son cercanas a cero. El hecho de que el ítem 2 tenga una saturación
positiva y el 4 negativa significa que las personas con puntuación alta en el factor II tienden a
estar de acuerdo con el ítem 2 y en desacuerdo con el 4. Este segundo factor podría etiquetarse
“Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologías”.
Vemos, pues, que las relaciones de covariación entre los ítems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
no son tan evidentes en la realidad; el investigador debe decidir cuántos factores están presentes
en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
tan sencillo como en este ejemplo. Lo cierto es que la aplicación del análisis factorial aporta
información sobre las dimensiones que estamos midiendo con un determinado cuestionario, es
decir, proporciona información sobre la validez de la prueba.
En las siguientes secciones se describe más detalladamente como se obtiene e interpreta la

estructura factorial que subyace a las respuestas a los ítems de un test.
3.2.2.- EL MODELO FACTORIAL
El análisis factorial se basa en un modelo que es una extensión del utilizado en teoría clásica de
tests. A modo de ejemplo, consideremos los siguientes seis ítems de una escala de Cordialidad
dirigida a población infantil:
1. Me comporto de manera honesta y correcta con los demás.

2. Trato a mis compañeros afectuosamente.
3. Si un compañero tiene dificultades, le ayudo.
4. Confío en los demás.
5. Pienso que otras personas son buenas y honradas.
6. Dejo que los demás usen mis cosas.
Estos ítems se aplicaron a una muestra de 564 chicos y chicas de entre 11 y 14 años. La matriz
de correlaciones obtenida en esta muestra fue:
ª1 º ª 1 º
«r 1 » «0,459 1 »
« 21 » « »
« r31 r32 1 » « 0,313 0,384 1 »
« » « »
«r41 r42 r43 1 » «0,246 0,285 0,240 1 »
«r51 r52 r53 r54 1 » « 0,171 0,274 0,227 0,448 1 »
« » « »
¬« r61 r62 r63 r64 r65 1¼» ¬« 0,150 0,281 0,266 0,286 0,239 1¼»
Observe que unos ítems correlacionan más entre sí que otros. En realidad, el patrón de
correlaciones nos informa de cuántas dimensiones subyacen a las respuestas en esos ítems. A
continuación se verá que, utilizando el análisis factorial, seremos capaces de extraer muchísima
información sobre los ítems a partir de esa matriz de correlaciones.

3.2.2.1. El modelo factorial con un único factor
Puede plantearse que los seis ítems miden una misma característica, la “cordialidad”. Aplicando
el modelo de la teoría clásica de tests a las puntuaciones de los ítems, se obtienen las ecuaciones:
X1 V E1
X2 V E2
X3 V E3
X4 V E4
X5 V E5
X6 V E6
Esto significa que todos los ítems miden la misma característica (la cordialidad), representada
por V en el modelo. Además, hay un error de medida que puede ser distinto para cada ítem (Ei).
Es posible plantearse que no todos miden igual de bien la cordialidad. Por esta razón se definen
los parámetros λi, denominados saturaciones, que indican la relación de cada ítem con la
característica o factor que miden todos ellos. Cuanto mayor sea λi, mejor indicador de la
cordialidad será la puntuación en el ítem. Si a la cordialidad se la denomina F en lugar de V, se
obtiene el modelo de un factor:
X1 O1 F E1
X2 O2 F E 2
X3 O3 F E 3
X4 O4 F E 4
X5 O5 F E 5
X6 O6 F E 6
Las saturaciones se calculan a partir de la matriz de correlaciones entre los ítems. Los cálculos
exigen la aplicación de cálculos de álgebra matricial y se realizan mediante ordenador. Sin
embargo, la lógica es fácil de ejemplificar. Asumamos que las variables X1, X2, X3, X4, X5, X6 y F
están en puntuaciones típicas. Si el modelo unidimensional fuera cierto, la correlación esperada
entre X1 y X2 (que denominaremos r12* ) sería:
6X 1 X 2
r12*
N

Lo que se simplifica a:
6(O1 F E1 )(O 2 F E 2 )
r12*
N
Asumiendo que los errores no correlacionan entre sí ni con la puntuación en el factor (como
en la Teoría Clásica), obtenemos que la correlación esperada según el modelo sería igual al
producto de los pesos de los 2 ítems en el factor:
O1O2 6F 2
r *
12 O1O2
N
6F 2
Para entender la última simplificación, debe recordar que F 2 es la varianza de las
N
puntuaciones F; al estar las puntuaciones F en puntuaciones típicas su varianza es 1. Por
tanto, sabiendo que F 0 :
6F 2
1
N
Si calculáramos cuales son los valores esperados de las correlaciones según el modelo
unidimensional, a las que denominamos correlaciones reproducidas ( r * ), obtendríamos la
siguiente matriz:
ª1 º ª 1 º
«r * 1 » «O O 1 »
« 21 » « 2 1 »
« r31* r32* 1 » «O3 O1 O3 O 2 1 »
« * » « »
«r41 r42* r43* 1 » «O 4 O1 O4 O2 O 4 O3 1 »
« r51* r52* r53* r54* 1 » «O5 O1 O5 O 2 O5 O 3 O5 O 4 1 »
« * » « »
¬« r61 r62* r63* r64* r65* 1¼» ¬«O6 O1 O6 O 2 O 6 O3 O 6 O 4 O 6 O5 1¼»
En términos generales, los programas de análisis factorial buscan aquellos valores de O ( O1 ,

O2 , O3 , O 4 , O5 y O6 ) que hacen que las correlaciones esperadas según el modelo ( r21* , r31* ,
r41* , r51* , …) se parezcan lo más posible a las correlaciones observadas (0,459, 0,313, 0,246,
0,171,…). En el ejemplo, a partir de la matriz de correlaciones mencionada anteriormente, se
llega al siguiente modelo de un factor:

X1 0,540F E1
X2 0,671F E 2
X3 0,542F E3
X4 0,529F E 4
X5 0,483F E5
X6 0,437 F E6
Lo cual significa que el factor tiene una relación más fuerte con el ítem 2 que con los demás,
aunque todas las saturaciones son elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada ítem con el factor. Pueden tomar valores positivos o
negativos. Si la saturación es cero, o próxima a cero, no existe relación entre el ítem y el factor.
Saturaciones extremas, en cualquier dirección, significan que la relación es fuerte.
Generalmente, en los programas informáticos, las saturaciones se disponen en una matriz que se
denomina matriz factorial:
Matriz factoriala
Factor
1
x1 .540
x2 .671
x3 .542
x4 .529
x5 .483
x6 .437
Método de extracción: Máxima verosimilitud.
a. 1 factores extraídos. Requeridas 4 iteraciones.
Las correlaciones esperadas según el modelo serían:
ª1 º ª 1 º
«r * 1 » «0,362 1 »
« 21 » « »
« r31* r32* 1 » «0,293 0,363 1 »
« * » « »
«r41 r42* r43* 1 » «0,286 0,355 0,287 1 »
« r51* r52* r53* r54* 1 » « 0,261 0,324 0,262 0,256 1 »
« * » « »
«¬ r61 r62* r63* r64* r65* 1»¼ «¬0,236 0,293 0,237 0,231 0,211 1»¼
Según el modelo de un factor los dos ítems que más deberían correlacionar son los ítems 2 y 3
puesto que son los que más correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero no son iguales. La diferencia
entre una correlación observada y una reproducida se llama residual:

ª 1 º ª 1 º
«r r * 1 » « 0,096 1 »
« 21 21 » « »
« r31 r31* r32 r32* 1 » « 0,020 0,021 1 »
« * » « »
«r41 r41 r42 r42* r43 r43* 1 » « 0,040 0,070 0,046 1 »
« r51 r51* r52 r52* r53 r53* r54 r54* 1 » « 0,090 0,050 0,035 0,192 1 »
« * » « »
«¬ r61 r61 r62 r62* r63 r63* r64 r64* r65 r65* 1»¼ ¬« 0,086 0,012 0,029 0,055 0,028 1¼»
Por ejemplo, el residual para la correlación entre los ítems 1 y 3 ( r31 r31* ) es 0,020.
A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
lineales de variables, la varianza de un ítem puede calcularse como una función de su saturación
en el factor, de la varianza del factor y de la varianza del error. Por ejemplo, sabiendo que:
X1 0,540F E1
la varianza de X1 ( V X2 1 ) puede calcularse como:
V X2 1
0,540 2 V F2 \ 12
donde V F2 y \ 12 representan la varianza de F y la varianza de E1. Al estimar el modelo factorial

a partir de la matriz de correlaciones, se está asumiendo implícitamente que los ítems y el factor
vienen expresados en puntuaciones típicas. Esto significa que las varianzas del factor y del ítem
son 1 ( V F2 = 1, V X2 1 = 1); Por tanto, la varianza del ítem (1) se descompone del modo siguiente:
1 0,540 2 (1) \ 12
Como se puede ver, una parte de la varianza del ítem depende de su saturación en el factor
común. A esa parte se la denomina comunalidad y se la representa por el símbolo hi2 . El resto
de la varianza del ítem depende de la varianza del error (\ 12 ). A esa parte se la denomina
unicidad. Simbólicamente,
1 h12 \ 12
La comunalidad de un ítem indica la cantidad de su varianza explicada por el factor. En el

modelo de un factor, la comunalidad de un ítem se obtienen elevando la saturación de ese ítem
en el factor al cuadrado. En el ejemplo, las comunalidades son h12 0,292 (que es 0.5402),
h22 0,450 (que es 0.6712), h32 0,294 , h42 0,280 , h52 0,234 y h62 0,191 .
La varianza de los errores se denomina unicidad, y se simboliza, como ya hemos mencionado,

mediante \ i2 . La unicidad de un ítem indica cuanta varianza del mismo no depende del factor,
es decir, es varianza específica del ítem que no se relaciona con lo que los ítems miden en

conjunto. Las unicidades se calculan \ i2 1 hi2 . En el ejemplo, las unicidades son

\ 12 0,708 , \ 22 0,550 , \ 32 0,706 , \ 42 0,720 , \ 52 0,766 y \ 62 0,809 .
La suma de las comunalidades es la varianza de los ítems explicada por el factor. En

nuestro ejemplo, esta suma es 1,740. Como la varianza total de los ítems es 6, la proporción de
varianza explicada por el factor es 1,740/6 = 0,290; es decir, el 29%. La suma de las unicidades
es la varianza de los ítems no explicada por el factor, en este caso el 71% del total.
3.2.2.2. El modelo factorial con más de un factor
Es posible formular modelos factoriales en los que cada ítem mida más de una
característica simultáneamente. Supongamos que se hipotetiza que el cuestionario mide dos
factores, denominados F1 y F2. Entonces, las saturaciones se denominan λij (siendo i el ítem y j
el factor), y el modelo de dos factores es:
X1 O11 F1 O12 F2 E1
X2 O21 F1 O22 F2 E 2
X3 O31 F1 O32 F2 E3
X4 O41 F1 O42 F2 E 4
X5 O51 F1 O52 F2 E5
X6 O61 F1 O62 F2 E6
Las correlaciones reproducidas según el modelo de 2 factores independientes serían:
ª1 º
«r * 1 »
« 21 »
« r31* r32* 1 »
« * »
«r41 r42* r43* 1 »
« r51* r52* r53* r54* 1 »
« * »
¬« r61 r62* r63* r64* r65* 1¼»
ª 1 º
«O O O O 1 »
« 21 11 22 12 »
«O31O11 O32 O12 O31O21 O32 O22 1 »
« »
«O 41O11 O 42 O12 O41O21 O 42 O22 O41O31 O42 O32 1 »
«O51O11 O52 O12 O51O21 O52 O22 O51O31 O52 O32 O51O41 O52 O42 1 »
« »
¬«O61O11 O62 O12 O61O21 O62 O22 O61O31 O62 O32 O61O41 O62 O 42 O61O51 O62 O52 1¼»
De forma genérica, para un número p el número de factores independientes:

p
r *
ij ¦O
x 1
ix O jx
De nuevo, el programa busca aquellos valores de O que hacen que las correlaciones
esperadas según el modelo ( r21* , r31* , r41* , r51* , …) se parezcan lo más posible a las
correlaciones observadas (0,459, 0,313, 0,246, 0,171,…). Al estimar las saturaciones a partir
de la matriz de correlaciones se obtiene el resultado:
X1 0,576F1 0,151F2 E1
X2 0,729F1 0,222F2 E 2
X3 0,469F1 0,239F2 E3
X4 0,199F1 0,678F2 E 4
X5 0,174F1 0,606F2 E5
X6 0,270F1 0,340F2 E6
Los programas nos informarán de esas saturaciones, mediante una matriz denominada
matriz de factores rotados:
Matriz de factores rotadosa
Factor
1 2
x1 .576 .151
x2 .729 .222
x3 .469 .239
x4 .199 .678
x5 .174 .606
x6 .270 .340
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Puede verse que los ítems 1, 2 y 3 tienen una correlación más fuerte con el factor I que
con el factor II, mientras que ocurre lo contrario para los ítems 4, 5 y 6. Viendo las saturaciones
y el contenido de los ítems, puede suponerse que el factor I significa “Trato a los demás”,
mientras que el factor II podría indicar “Confianza en los demás”.
Al haber dos factores independientes, las comunalidades se calculan mediante hi2 Oi21 Oi22 .
Las comunalidades de los 6 ítems serían 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. Las

unicidades se calculan del mismo modo que en el modelo de un factor (\ i2 1 hi2 ), y son
0,646, 0,419, 0,723, 0,500, 0,603 y 0,812. Las correlaciones reproducidas según el modelo
serían:
ª1 º ª 1 º
«r * 1 » «0,453 1 »
« 21 » « »
« r31* r32* 1 » « 0,306 0,395 1 »
« * * » « »
«r41 r42 r43* 1 » «0,217 0,295 0,255 1 »
« r51* r *
52 r53* r54* 1 » « 0,192 0,262 0,227 0,445 1 »
« * * » « »
«¬ r61 r62 r63* r64* r65* 1»¼ «¬0,207 0,272 0,208 0,284 0,253 1»¼
La matriz de residuales sería:

ª 1 º ª 1 º
«r r * 1 » « 0,005 1 »
« 21 21 » « »
« r31 r31* r32 r32* 1 » « 0,006 0,011 1 »
« * * » « »
«r41 r41 r42 r 42 r43 r43* 1 » « 0,029 0,010 0,015 1 »
« r51 r51* r52 r *
52 r53 r53* r54 r54* 1 » « 0,021 0,012 0,000 0,003 1 »
« * * » « »
«¬ r61 r61 r62 r 62 r63 r63* r64 r64* r65 r65* 1»¼ «¬ 0,056 0,009 0,058 0,002 0,013 1»¼
Indicando que con el modelo de dos factores las diferencias entre las correlaciones reproducidas
y las correlaciones observadas es muy pequeña.
Además, también es posible calcular la varianza explicada por cada factor. Esta varianza es la
suma de las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor x
es O12x O22 x O32 x O24 x O52 x O26 x . Genéricamente, siendo n el número de variables:
¦O
i 1
2
ix
En el ejemplo, la varianza explicada por cada factor es 1,226 y 1,072, que, al ser la varianza total
6, representa un porcentaje del 20 % y del 18 % respectivamente. Por tanto, el porcentaje de
varianza explicada por el modelo de dos factores es del 38 % aproximadamente.
3.2.3.- SELECCIÓN DEL NÚMERO DE FACTORES
Se ha aplicado el modelo de un factor y el modelo de dos factores a los mismos datos. Las
correlaciones reproducidas según el modelo de un factor se parecían bastante a las correlaciones
observadas en la muestra. Al extraer dos factores, se parecían más aún. Por tanto, parece que las
correlaciones se ajustan un poco mejor al modelo de dos factores. ¿Justifica eso extraer dos
factores? ¿o deberíamos analizar lo que ocurre cuando extraemos tres factores?

En primer lugar, al añadir un nuevo factor al modelo, aumenta la varianza explicada. En el

ejemplo, la varianza explicada ha pasado del 29% al 38% al añadir un segundo factor. Al extraer
un factor más, el porcentaje de varianza se incrementaría. Sin embargo, este incremento de la
varianza no siempre justifica que se añadan nuevos factores. Lo esperable, y deseable, es que el
número de dimensiones sea mucho menor que el de ítems. Esto significaría que una misma
característica está siendo medida por muchos ítems a la vez, lo que redundaría en una mejor
precisión de la medida.
El número de factores no se decide de forma caprichosa y se han propuesto varios métodos para
determinar cuál es el número óptimo de factores que deben retenerse. Esta decisión es muy
importante, pues el primer objetivo del análisis factorial es determinar cuantas dimensiones está
midiendo un test, es decir, cuantos factores deben incluirse en la solución factorial.
El procedimiento más riguroso estadísticamente se basa en la utilización de criterios de bondad

de ajuste, mediante el estadístico X2 de Pearson. En los apartados anteriores, obtuvimos los
residuales en el modelo de dos factores (diferencias entre las correlaciones reproducidas y las
observadas en la muestra). Se recordará que esos residuales eran distintos de cero. Parecería que
el modelo de dos factores no reproducía de forma perfecta las correlaciones observadas en la
muestra. Sin embargo, esto no supone un problema por sí mismo. En realidad, lo correcto es
plantearse si podemos mantener que los residuales son cero en la población. Sabemos que por
mera variación muestral es improbable que los residuales sean cero en la muestra incluso si lo
son en la población. Así pues mediante el estadístico X2 contrastamos si podemos mantener la
Hipótesis nula de que todos los residuales son cero en la población.
Veamos un ejemplo. Primero, estimamos varios modelos con distinto número de factores. El
modelo más simple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para
interpretar los resultados y obtener conclusiones. La siguiente tabla muestra los valores del
estadístico X2 para los modelos de uno y dos factores, los grados de libertad (gl) y el nivel crítico
(p).
Factores X2 gl p RMSEA
( intervalo de confianza del 90%)
1 82,213 9 0,000 0,121
(0,098-0,145)
2 10,776 4 0,029 0,055
(0,016-0,096)
Utilizando un nivel de significación D = 0,01, puede concluirse que el modelo de un factor no

ajusta a los datos. En cambio, con ese nivel de significación, podemos mantener que el modelo
de dos factores se ajusta a los datos. Si utilizamos D = 0,05 diríamos que ninguno de los 2
modelos se ajustaría a los datos.
Un problema asociado al estadístico X2 es que hace que nuestra decisión sobre el número de
factores a retener dependa mucho del tamaño de la muestra. Si la muestra es suficientemente
grande, residuales muy pequeños pueden resultar significativos y se tenderá a extraer un número
de factores mayor que el necesario desde el punto de vista práctico. En ese caso, el criterio

basado en el estadístico X2 es excesivamente exigente y poco realista, pues ningún teórico

espera que un modelo factorial ajuste de forma perfecta a los datos. Por el contrario, si la
muestra es pequeña, residuales de valor elevado pueden no resultar estadísticamente
significativos y extraeremos un número de factores menor que el necesario.
Algunos autores han propuesto utilizar indicadores de ajuste que nos permitan evaluar el grado
de discrepancia entre las correlaciones reproducidas y las correlaciones observadas en la
muestra. El RMSEA (Root Mean Square Error of Approximation) es uno de esos indicadores.
Valores por debajo de 0,05 indican buen ajuste del modelo a los datos, valores entre 0,05 y 0,08
indican ajuste aceptable, valores entre 0,08 y 0,10 indican ajuste marginalmente aceptable y
valores por encima de 0,10 indican mal ajuste. Si bien no hay que tomar esa clasificación como
las “Tablas de la Ley”, estas guías pueden servir de orientación para tomar una decisión sobre el
número de factores a retener. En nuestro ejemplo, el modelo de un factor muestra mal ajuste.
Siguiendo este criterio podríamos mantener el modelo de dos factores (RMSEA = 0,055) que
muestra un ajuste aceptable. Además puede observarse que el modelo de un factor y el
modelo de dos factores difieren claramente en el RMSEA (ver los intervalos de confianza
para el RMSEA).
Para tomar una decisión sobre el número de factores a retener, ayuda observar los residuales.
En nuestro caso, se observa que los mayores residuales para el modelo de un factor se
encuentran para las correlaciones entre los ítems 4 y 5 (0,192). Ese residual positivo nos indica
que esos dos ítems correlacionan entre sí más de lo que se esperaría si el modelo de un factor
fuera cierto. Naturalmente, cuando extraemos el segundo factor esos dos ítems pesan en él. Su
contenido es muy similar (ítem 4: Confío en los demás; ítem 5: Pienso que otras personas son
buenas y honradas).
Existen otros procedimientos de extracción más sencillos pero también muy criticados como la
regla de Kaiser (regla K1) ó el Scree test. Una descripción de los métodos de extracción y reglas
disponibles en el paquete SPSS puede encontrarse en Pardo y Ruiz2 (2002). Otros métodos
como el método de análisis paralelo o la regla MAP de Vellicer también han sido
recomendados.
3.2.4.- ROTACIONES
Cuando se estima un modelo factorial las saturaciones no siempre son fácilmente interpretables,
en el sentido de que pueden no indicar con claridad qué es lo que están midiendo los factores.
Para interpretar la solución, los ítems se agrupan en factores, y el significado de éstos se infiere
analizando qué tienen en común los ítems que se agrupan en un mismo factor. Esto no siempre
es fácil de descubrir, por ejemplo, si los ítems agrupados en un mismo factor son muy
heterogéneos y no tienen un contenido común. Además, hemos visto que los ítems pueden tener
saturaciones relativamente altas en más de un factor, lo que significa que miden más de una
característica y hace más difícil descubrir su significado.
2
Pardo, A. y Ruíz, M.A. (2002). SPSS 11. Guía para el análisis de datos. Madrid: Mc Graw Hill.

En nuestro ejemplo, inicialmente obtendríamos la siguiente matriz factorial (no rotada) de

saturaciones:
Matriz factoriala
Factor
1 2
x1 .537 -.257
x2 .700 -.303
x3 .512 -.121
x4 .591 .388
x5 .525 .349
x6 .425 .084
Según está estructura, el primer factor sería un factor general en el que pesan todos los ítems. En
el segundo factor, los pesos mayores son para los ítems 4 y 5 (positivos) y para el ítem 2
(negativo). En principio, esta estructura es difícil de interpretar.
Para facilitar la interpretación se aplica a las saturaciones un proceso denominado rotación, por
el cual se transforman las saturaciones en otras más sencillas de interpretar. Con la rotación se
intenta que la solución factorial se aproxime a la denominada estructura simple. Una estructura
simple implica que: a.) en cada factor pesan alto un conjunto de variables (y pesan bajo o cero
las restantes variables). b.) los conjuntos de ítems definiendo cada factor no deben solaparse
demasiado. c.) cada variable pesa solo en un conjunto pequeño de factores (y pesa bajo o cero en
el resto de los factores). Por ejemplo, si la solución factorial hubiera sido:
F1 F2
X1 0,9 0,0
X2 0,0 0,7
X3 0,8 0,0
X4 0,0 0,6
X5 0,7 0,0
X6 0,0 0,8
Esta solución sería más fácilmente interpretable que la que hemos obtenido porque no hay ítems
que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra una
estructura simple sino una solución lo más parecida posible a la estructura simple. Veremos a
continuación, cuál es la estructura más simple que podemos obtener en nuestro ejemplo.

3.2.4.1. ROTACIÓN ORTOGONAL
Las saturaciones encontradas en la solución factorial pueden representarse en un espacio con

tantas dimensiones como factores. En el ejemplo, el resultado sería el siguiente, donde los ejes
son los factores y cada punto representa las saturaciones de una de las variables (por ejemplo, el
ítem 5 tenía saturaciones 0,525 y 0,349 en los factores 1 y 2, respectivamente).
Gráfico de factor
1,0
0,8
0,6
0,4 x5
x4
0,2
Factor 2
x6
0,0
x3
-0,2
x1 x2
-0,4
-0,6
-0,8
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
La rotación ortogonal consiste en cambiar (girar) los ejes de referencia (los factores) un cierto
número de grados. Observa lo que ocurre cuando cambiamos los ejes de la siguiente forma:
ANTES DE LA ROTACIÓN DESPUÉS DE LA ROTACIÓN
Gráfico de factor Gráfico de factor
1,0 1,0
0,8 0,8 x4
0,6 0,6 x5
0,4 x5 0,4
x4 x6 x3
0,2 0,2 x2
x1
Factor 2
Factor 2
x6
0,0 0,0
x3
-0,2 -0,2
x1 x2
-0,4 -0,4
-0,6 -0,6
-0,8 -0,8
-1,0 -1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1 Factor 1

Las posiciones relativas de las variables en el espacio factorial no cambian. Al cambiar los
ejes, por ejemplo, las nuevas saturaciones del ítem 5 serían 0,174 y 0,606. La matriz factorial
rotada sería:
Factor
1 2
x1 .576 .151
x2 .729 .222
x3 .469 .239
x4 .199 .678
x5 .174 .606
x6 .270 .340
Método de rotación: Normalización Varimax con Kaiser.
Observe que la matriz factorial rotada es más fácil de interpretar que la matriz factorial no
rotada. Sin embargo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas según el modelo. Por ejemplo:
Matriz factorial (no rotada) Matriz de factores rotados

h 1
2 0,5372 + (-0,257)2 = 0,354 0,5762 + 0,1512 = 0,354
r *
12
0.537*0,700+(-0,257*-0,303)=0,453 0,576*0,729+0,151*0,222=0,453
Sí cambia el porcentaje de varianza explicada por cada factor (pero no el total de varianza
explicada por los dos factores en su conjunto):
% de Varianza explicado por Matriz factorial (no rotada) Matriz de factores rotados
Factor 1 30,755 20,428
Factor 2 7,539 17,866
% Total 38,294 38,294
Este es un resultado general de la rotación ortogonal: la varianza explicada por cada factor
cambia después de la rotación, pero no la varianza explicada en total.
El tipo de rotación que se ha utilizado en este apartado es la denominada VARIMAX. Consiste

en mover los ejes de referencia, manteniéndolos ortogonales entre sí, para que las saturaciones
sean lo más diferentes posible entre si, con lo que se intenta que tomen valores extremos o
valores próximos a cero y se eviten los valores intermedios. Con la rotación VARIMAX los
factores son independientes (correlacionan 0 entre sí).

3.2.4.2. ROTACIÓN OBLÍCUA
La rotación oblicua es más compleja que la ortogonal porque permite que cada factor se rote un
número de grados diferente. En el ejemplo, aplicando la denominada rotación oblicua (el
método OBLIMIN) se llega a la solución:
Matriz de configuración.a
Factor
1 2
x1 .620 -.044
x2 .774 -.020
x3 .462 .100
x4 -.021 .719
x5 -.022 .643
x6 .190 .294
Metodo de rotación: Normalización Oblimin con Kaiser.
La siguiente figura muestra las saturaciones obtenidas tras la rotación oblicua. A diferencia de lo
que sucedía en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares. Estadísticamente, esto significa que las puntuaciones en los dos factores están
correlacionadas. En el ejemplo, la correlación es de 0,586.
ANTES DE LA ROTACIÓN DESPUÉS DE LA ROTACIÓN

(Factor 1 y 2 correlacionados)
Gráfico de factor Gráfico de factor
1,0 1,0
0,8 0,8 x4
0,6 0,6 x5
0,4 x5 0,4
x4
x6
0,2 0,2
Factor 2
Factor 2
x6 x3
0,0 0,0 x1 x2
x3
-0,2 -0,2
x1 x2
-0,4 -0,4
-0,6 -0,6
-0,8 -0,8
-1,0 -1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1 Factor 1
_

Al cambiar los ejes, por ejemplo, las nuevas saturaciones del ítem 5 serían -0,022 y 0,643. Puede
verse que la solución rotada es más sencilla porque los ítems tienen saturaciones altas en un
factor y bajas en el otro. Viendo las saturaciones y el contenido de los ítems, puede suponerse
que el factor I significa “Trato a los demás”, mientras que el factor II podría indicar “Confianza
en los demás”. Como hay una correlación positiva entre los dos factores, los sujetos que tienden
a ser cordiales y afectuosos en el trato también suelen confiar en los demás.
De nuevo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas según el modelo (aunque con esta rotación, el cálculo de las
comunalidades y de las correlaciones reproducidas es más complejo).
La solución obtenida tras la rotación oblicua tiene tres características específicas que deben
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los ítems con los factores, 2)
no es posible determinar la varianza explicada por cada factor, y 3) los factores pueden estar
correlacionados. Estas características no se dan en la solución inicial del análisis factorial ni en
la obtenida tras la rotación ortogonal.
En resumen, en la práctica el análisis factorial se aplica en dos pasos. En primer lugar se obtiene
la solución inicial, lo que permite evaluar la bondad de ajuste del modelo y determinar el
número de factores. En segundo lugar se realiza una rotación, ortogonal u oblicua, según los
propósitos del investigador. La solución rotada sirve para interpretar el sentido de los factores. Si
se realiza la rotación ortogonal, es posible calcular las comunalidades, unicidades y la varianza
explicada por cada factor. Si se realiza la rotación oblicua, se obtiene la correlación entre
factores y unas saturaciones más sencillas de interpretar.
3.2.5.- PUNTUACIONES FACTORIALES
Obtenida una solución factorial definitiva, es posible calcular la puntuación de los sujetos en
cada uno de los factores. De este modo, en lugar de obtener una puntuación única para cada
sujeto en el test, se obtiene la puntuación en cada uno de los factores que se están midiendo.
La siguiente tabla muestra las respuestas de los cinco primeros sujetos, sus puntuaciones
factoriales correspondientes a la rotación factorial y la oblicua. Al haber concluido que el test
mide dos factores sería incorrecto utilizar la puntuación en el test como el resultado de cada
sujeto. En su lugar, habría que utilizar las dos puntuaciones factoriales correspondientes a la
rotación que finalmente se decida aplicar.
Oblicua Ortogonal
Sujeto X1 X2 X3 X4 X5 X6 F1 F2 F1 F2
1 3 2 3 5 2 1 -1,77 -0,34 -1,95 0,27
2 4 3 3 3 3 3 -0,88 -0,47 -0,85 -0,22
3 3 2 1 1 2 4 -2,28 -1,94 -1,93 -1,42
4 5 3 2 2 2 2 -1,01 -1,40 -0,65 -1,26
5 2 4 1 4 3 1 -1,37 -0,43 -1,44 0,01

En la siguiente figura aparecen los diagramas de dispersión de las puntuaciones factoriales de los
564 sujetos del ejemplo. El diagrama izquierdo corresponde a la rotación ortogonal y el derecho
a la oblicua. El diagrama derecho muestra que existe una relación entre las puntuaciones en
ambos factores debida a la correlación existente entre los factores. Esto no sucede así en el
izquierdo.
2 2
1 1
0 0
F2
F2
-1 -1
-2 -2
-3 -3
-4 -3 -2 -1 0 1 2 -4 -3 -2 -1 0 1 2
F1 F1
3.2.6. EL ANÁLISIS FACTORIAL CONFIRMATORIO
Cómo ya hemos mencionado anteriormente, el análisis factorial sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. En realidad hay dos estrategias
distintos de análisis factorial: exploratorio y confirmatorio. Hasta ahora hemos visto como se
realiza el primer tipo. En un análisis factorial exploratorio, el investigador no tiene una idea
exacta de cuantos factores subyacen a las relaciones entre variables ni tampoco de qué variables
tienen un peso alto en cada factor. En el análisis factorial confirmatorio, por el contrario, el
investigador plantea hipótesis definidas a priori sobre cuál es el número de factores y cómo
pesan las variables en ellos. A medida que se acumulan estudios dentro de un campo de
conocimiento, los investigadores prefieren utilizar técnicas confirmatorias frente a
exploratorias. Aún así, la teoría que subyace a ambos tipos de análisis factorial es la misma.
Imagínese que en la prueba de Cordialidad, basándose en estudios previos, establece que los
ítems 1, 2 y 3 deben conformar un factor de “trato a los demás” mientras que los ítems 4, 5 y
6 deben conformar un factor de “confianza en los demás”. Esto se podría representar de la
siguiente manera:

E1 E2 E3 E4 E5 E6
1 1 1 1 1 1
X1 X2 X3 X4 X5 X6
λ11 λ21 λ31 λ42 λ52 λ62
F1 F2
Las variables se representan mediante cuadrados si son observables (como x1 ó x5) o

mediante círculos si son variables no observables (como los factores F1 y F2, o los errores).
Las relaciones entre variables se representan mediante líneas. Una línea curva bidireccional
conectando dos variables indica que ambas están correlacionadas (en la figura, los Factores
F1 y F2 están correlacionados). Las flechas rectas direccionales indican que hay una relación
direccional entre las 2 variables conectadas (por ejemplo, x1 recibe líneas de F1 y del error
para representar que está influenciada por ambas variables). La figura anterior se traduciría al
siguiente conjunto de ecuaciones:
X1 O11 F1 E1
X2 O21 F1 E 2
X3 O31 F1 E3
X4 O42 F2 E 4
X5 O52 F2 E5
X6 O62 F2 E6
Observa que no se contemplan efectos de F2 a X1 o X2, ni tampoco de F1 a X4 o X5. Esto es

importante. La principal diferencia entre el modelo de análisis factorial exploratorio y el
modelo de análisis factorial confirmatorio es que en el último se han fijado algunos pesos al
valor cero (por ello no se representan en la figura). De esta manera, la solución factorial
obtenida en el análisis factorial confirmatorio es única y la solución que obtenemos es la que
debemos interpretar (no es necesaria la rotación).

Para nuestro ejemplo, obtendríamos la siguiente matriz factorial:
Factor 1 Factor 2
X1 0,595 0
X2 0,745 0
X3 0,536 0
X4 0 0,690
X5 0 0,616
X6 0 0,440
En principio, la hipótesis que se planteaba el investigador no parece desencaminada, ya que

los ítems pesan en su factor. La correlación que el programa estima entre los dos factores es
0,617. La siguiente tabla muestra los valores del estadístico X2 para ese modelo, los grados de
libertad (gl), el nivel crítico (p), el RMSEA y su intervalo de confianza.
X2 gl p RMSEA
( intervalo de confianza del 90%)
22,874 8 0,004 0,057
(0,031-0,086)
Utilizando un nivel de significación D = 0,05, puede concluirse que el modelo no se ajusta

perfectamente a los datos. Sin embargo el RMSEA (0,057) muestra que el modelo tiene un
ajuste aceptable (está entre 0.05 y 0.08).
3.2.7.- VALIDEZ CONVERGENTE-DISCRIMINANTE. MATRICES MULTIRASGO-

MULTIMÉTODO
Muy en relación con la validez factorial se encuentra también la validez convergente-

discriminante, la cual se evalúa mediante las matrices multirrasgo-multimétodo. El sentido
de estas definiciones es el siguiente:
Validez convergente. Si dos tests miden un mismo rasgo, la correlación entre ellos debe
ser alta.
Validez discriminante. Si dos tests miden rasgos diferentes, las correlación entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo.
Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo.
Cada uno de los rasgos se evalúa mediante dos baterías de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-multimétodo,
denominada así porque se evalúan varios rasgos utilizando varios métodos.

A B
A Factor g Espacial Neuroticismo Factor g Espacial Neuroticismo
Factor g 0,87
Espacial 0,61 0,81
Neurocicismo 0,25 0,31 0,73
B
Factor g 0,65 0,41 0,09 0,81
Espacial 0,35 0,50 0,11 0,33 0,78
Neurocicismo -0,05 0,08 0,62 0,19 0,25 0,74
La matriz multirasgo-multimétodo se compone de varias submatrices. La matriz superior

izquierda contiene las correlaciones entre los tests de la batería A. En la diagonal aparecen los
coeficientes de fiabilidad de cada test. Fuera de la diagonal aparecen las correlaciones entre los
tests de la batería A. La matriz inferior derecha muestra la misma información referida a la
batería B.
La matriz inferior izquierda (sombreada) contiene las correlaciones entre los tests de las dos
baterías. En la diagonal están los coeficientes de validez convergente (0,65, 0,50 y 0,62), que
son las correlaciones entre los dos tests que miden el mismo rasgo. Fuera de la diagonal
aparecen los coeficientes de correlación entre distintos rasgos medidos por distintos tests.
Para evaluar los dos tipos de validez mencionados se procede del siguiente modo:
1) Los coeficientes de validez convergente deben ser mayores que las correlaciones entre
tests que miden diferentes rasgos. En estos datos, existe el problema de que, en la batería
A, la correlación entre razonamiento espacial y factor g es excesivamente alta, por lo que
esta batería no parece discriminar bien entre ambas. Este problema no sucede en la
batería B.
2) El método empleado para medir los rasgos no debe afectar a las relaciones entre ellos.
Esto significa que las tres matrices de correlación deben ser similares, exceptuando los
elementos de la diagonal. El resultado no es completamente satisfactorio porque la
batería B discrimina mejor entre los tres rasgos que la batería A.
4.- VALIDEZ REFERIDA AL CRITERIO
4.1.- CONCEPTO
En el apartado correspondiente al análisis de ítems estudiamos el concepto de índice de validez

de un elemento, y ya entonces avanzamos el concepto de criterio externo al test, con el que
correlacionar el rendimiento en cada ítem.
Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de
rendimiento (por ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van
a conseguir, el aprovechamiento de un cursillo o la mejora en un proceso terapéutico) conviene

que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe
ser una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones
escolares, total de ventas producidas en un determinado período, estimaciones de un terapeuta de
las mejoras conseguidas por cada persona, etc. A la correlación entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicará
el grado en el que el test sirve para pronosticar con precisión el rendimiento en el criterio.
Supongamos, por ejemplo, que la correlación entre un test de conocimientos adquiridos en 1º de

BUP y la calificaciones obtenidas en COU es 0,95 en una muestra apropiada. Como la
correlación es elevada, cometeríamos errores de pronóstico pequeños, haciendo uso de la
oportuna ecuación de regresión, al predecir el rendimiento en COU de un alumno si conocemos
su rendimiento en el test. Podríamos estimar con bastante exactitud el rendimiento que
manifestará en COU un determinado alumno que se encuentra todavía en 1º de BUP.
El lector puede imaginar que no siempre es útil medir un criterio directamente, debido a razones
de coste temporal y económico. Por eso es preciso que los profesionales dispongan de tests con
elevada validez relativa al criterio en ámbitos en los que de una u otra forma deben tomar
decisiones sobre el nivel de los sujetos en un criterio o sobre su admisión o no a un puesto de
trabajo o de estudio determinado.
En muchas ocasiones no resulta sencillo establecer criterios apropiados, fiables y fácilmente

mensurables. Los problemas en cualquiera de estas direcciones repercuten disminuyendo el
coeficiente de validez y, por tanto, la precisión con que se puede pronosticar un nivel dado en el
criterio conociendo la puntuación en el test.
4.2.- INTERPRETACIÓN Y ESTIMACIONES EN EL CRITERIO
El coeficiente de validez es una correlación de Pearson y, por tanto, su interpretación más

inmediata se fundamenta en el denominado coeficiente de determinación, que es simplemente
el cuadrado de la correlación y que indica la proporción de varianza del criterio que podemos
pronosticar con el test. Así, un test con un coeficiente de validez de 0.5 indicará que explica un
25 % de la variabilidad o diferencias individuales en el criterio, mientras que el 75 % restante se
debe a variables diferentes al test.
Recordando algunos conceptos fundamentales de la regresión lineal simple, el coeficiente de

determinación se puede expresar de la siguiente manera:
2
S y2' S y2 y '
r xy 1
S y2 S y2
donde S y2 es la varianza del criterio
S y2' es la varianza de los pronósticos

S y2 y ' es la varianza de los errores de pronóstico
La ecuación de regresión de Y sobre X en la escala directa se establece como:
Sy Sy
Yi ' (Y rxy X ) rxy Xi
Sx Sx
Mediante esta expresión podemos estimar la puntuación directa en el criterio de una determinada
persona pero, como es conocido, esa estimación será tanto más precisa cuanto mayor sea la
correlación entre test y criterio. Estadísticamente, resulta más apropiada una estimación por
intervalos realizada con cierta probabilidad, para lo cual aplicaremos la siguiente expresión:
Yi ' r Z1D / 2 S y y '
donde Z1-D/2 es el valor Z, de la normal (0, 1), asociado a la probabilidad establecida y

Sy-y' es el error típico de estimación.
Ejemplo: A una muestra de 5 alumnos de bachillerato se le aplica un test de habilidades

comunicativas (X). A sus respectivos profesores se les pide que hagan una valoración (de 0 a 20
puntos) de la capacidad de relación interpersonal de sus alumnos. Estas valoraciones hacen la
función de criterio (Y). Los resultados en el test y en el criterio fueron los siguientes:
Alumno X Y
1 7 6
2 13 10
3 10 9
4 9 8
5 11 12
Media 10 9
Varianza 4 4
El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
capacidad de relación interpersonal de sus alumnos.
Si queremos pronosticar puntualmente la puntuación en el criterio del alumno nº 5, aplicando la

oportuna ecuación de regresión obtenemos:
Y5' = 9.8

Para realizar la estimación por intervalo para este mismo alumno, con probabilidad 0.95, fijamos
el valor Z1-D/2 = 1.96 y calculamos el error típico de estimación:
S y y ' S y 1 rxy2 1.2
y el intervalo será:
12.152
9.8 ± (1.96) (1.2)
7.448
Diremos entonces, con probabilidad 0.95, que la puntuación del alumno 5 en el criterio se
encontrará entre 12.152 y 7.448.
Cuando, tanto en contextos aplicados como investigadores, se desea predecir de la forma más
precisa posible las puntuaciones en un determinado criterio, es común utilizar más de un
predictor. En este caso debe aplicarse la técnica estadística de Regresión Múltiple, que
proporciona los pesos (coeficientes de regresión parcial) de cada predictor según la importancia
que tengan para la predicción.
4.3.- FACTORES QUE AFECTAN AL COEFICIENTE DE VALIDEZ
Centrándonos en la validez relativa al criterio, el coeficiente de validez es una correlación entre

una variable X (test) y otra Y (criterio). La cuantía de la correlación viene condicionada por
varios factores, como son:
- La fiabilidad del test.
- La fiabilidad del criterio.
- La auténtica relación entre test y criterio.
- La variabilidad de la muestra en el test y en el criterio.
Respecto a los dos primeros factores, aunque no tratamos en toda su extensión el desarrollo
formal de las relaciones, podemos decir que el coeficiente de validez tiende a incrementarse a
medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno u
otro se reflejan mediante una disminución del coeficiente de validez. De hecho, se puede
comprobar que el límite máximo al que puede llegar rxy es r xx r yy . Es decir,
rxy d rxx ryy

siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.
Demostración:
Una de las expresiones de la correlación de Pearson es:
rxy
¦ ( x x )( y y )
NS x S y
Realizando las sustituciones oportunas que permiten los supuestos de la Teoría Clásica:
rxy
¦ (V x E x V x )(V y E y V y )
NS x S y
Si realizamos los productos término a término en el numerador, divididos entre N resultan

covarianzas, y finalmente, el coeficiente de validez quedaría como:
Cov(Vx ,V y )
rxy
SxSy
Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo clásico,
son cero.
Otra manera de expresar la ecuación anterior es:
rVxVy SVx SVy

rxy rVxVy rxx ryy
SxS y
Dado que la correlación entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.
Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85, mientras
que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73. Según

estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar el
valor de 0.79, que es la raíz cuadrada del producto entre los dos coeficientes de fiabilidad.
De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raíz
cuadrada del coeficiente de fiabilidad del test; también es menor o igual que la raíz cuadrada de
la fiabilidad del criterio:
rxy d rxx ryy d rxx
rxy d rxx ryy d ryy
dado que el valor máximo de un coeficiente de fiabilidad es uno.
Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lógico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y
en su caso, del criterio) influya también en rxy aunque de modo indirecto. La fórmula que
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas
paralelas) es:
rxy
Rxy
1 rxx
rxx
n
donde Rxy es el coeficiente de validez del test alargado.

rxy es el coeficiente de validez del test original.
rxx es el coeficiente de fiabilidad del test original.
n es el nº de veces que se alarga el test original.
Demostración:
Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con
lo cual aumentarán su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.
Según las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para el
coeficiente de validez del test inicial y del test alargado:

rxy rVxVy rxxryy y Rxy rVxVy Rxx ryy
Dividiendo miembro a miembro y despejando el coeficiente de validez del test alargado,

tendríamos que:
rxy rxy rxy

Rxy
rxx rxx 1 rxx
rxx
Rxx nrxx n
1 (n 1)rxx
Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le añadiera una forma
paralela de 30 items, el coeficiente de validez pasaría a valer:
0,51
R xy = = 0,60
1- 0,42
+ 0,42
2
Si de la fórmula anterior despejamos n, podemos estimar el número de veces que deberemos

multiplicar la longitud del test para alcanzar un coeficiente de validez Rxy deseado:
1 rxx
n
rxy2
rxx
Rxy2
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.
En el caso hipotético de un test infinitamente largo o, lo que es lo mismo, de un test con máxima
precisión, en la siguiente fórmula, Rxx valdría 1, y Rxy se podría interpretar como el máximo
coeficiente de validez obtenible como resultado de mejorar la fiabilidad del test todo lo posible.
rxy rxy rxy

Rxy
rxx rxx rxx
Rxx 1

Ejemplo: Un determinado test de 10 items manifiesta en un grupo normativo un coeficiente de

fiabilidad de 0.4 y un coeficiente de validez de 0.35. Nos cuestionamos cuántos items paralelos
necesitaría el test para conseguir:
a) Un coeficiente de validez de 0.5
b) Un coeficiente de validez de 0.9
a)
1 0.4
n 6.7
0.352
0.4
0.52
b)
1 0.4
n 2.4
0.352
0.4
0.9 2
Podemos comprobar a partir de estos cálculos que el coeficiente de validez de 0.5 lo

conseguiremos con un test de, aproximadamente, 70 items; con lo cuál habría que diseñar 6
formas adicionales paralelas al test original.
El coeficiente de validez de 0.9 es imposible de conseguir, por mucho que incrementemos la

longitud del test inicial con formas paralelas, de ahí que en “b”, hallamos obtenido un valor de n
negativo. El máximo coeficiente de validez obtenible mejorando la fiabilidad (o alargando el
test) es Rxy rxy / rxx 0.35 / 0.4 0.55 , que es menor de 0.9.
Hemos indicado también que rxy depende de la variabilidad del grupo normativo. De forma
parecida a lo que acontecía con la varianza del grupo en el test y su coeficiente de fiabilidad,
el coeficiente de validez de un test respecto a un criterio es tanto más elevado cuanto mayor
es la varianza de grupo normativo en ambos. Significa esto que, por ejemplo, un test de
aptitud para la venta tendrá un coeficiente de validez mayor en una muestra de la población
general (donde habrá heterogeneidad respecto a la aptitud por ser vendedor) que en una
muestra de vendedores experimentados (seguramente obtendrían todos puntuaciones
elevadas, y por tanto sería un grupo más homogéneo). En la medida que el poder predictivo
de un test respecto a un criterio depende de su rxy, habrá que considerar la variabilidad del
grupo donde se ha obtenido.

5.- ALGUNOS EJEMPLOS EMPÍRICOS DEL PROCESO SEGUIDO PARA LA

VALIDACIÓN DE TESTS
En las siguientes páginas mostramos algunos trabajos desarrollados para la validación de

varios tests psicológicos, de contenido y objetivos bien diversos. Hemos intentado incluir
ejemplos que sigan estrategias de investigación diferentes para obtener información sobre el
constructo que se mide o sobre el tipo de inferencias que se pueden hacer a partir de las
puntuaciones obtenidas en los tests.
5.1.- Barraca, J., López-Yarto, L. & Olea, J. (2000). Psychometric properties of a

new Family Life Satisfaction Scale. European Journal of Psychological Assessment,
16, 2, 98-106.
Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfacción familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
teórico concreto, lo que ha dado lugar a instrumentos de evaluación de la satisfacción familiar
fundamentados en una pobre definición del constructo. Los trabajos sobre instrumentos
previos de evaluación han estudiado su relación con otras variables (por ejemplo, con la
satisfacción hacia la calidad de vida, con el constructo “locus of control” o con el nivel de
religiosidad) que al menos puede decirse que son cuestionables. Critican también que los
instrumentos hasta entonces disponibles no incluyen suficientemente los componentes
afectivos del constructo. Además, algunos de los cuestionarios previos para evaluar la
satisfacción familiar resultan poco amigables de responder: uno de ellos, por ejemplo,
consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situación real de su
familia y otra sobre lo que sería su familia ideal.
Todo ello les lleva a la opción de construir una nueva escala de satisfacción familiar, para lo
cual siguieron el siguiente procedimiento:
Definición del constructo: Se entiende la satisfacción familiar como el conjunto de

sentimientos que cada persona experimenta en su propia familia, y que son el resultado de sus
continuas interacciones con los demás, así como de las consecuencias positivas o negativas
derivadas.
Instrumento inicial de evaluación: Decidieron evaluar estas connotaciones afectivas mediante

una escala de adjetivos bipolares, también denominado diferencial semántico, que tenía el
siguiente formato:
Cuando estoy en casa con mi familia, normalmente me siento:
Feliz _____ _____ _____ _____ _____ _____ _____ Infeliz

Solo _____ _____ _____ _____ _____ _____ _____ Acompañado
Cada ítem se puntuó desde uno hasta 7, dado que había ese número de categorías ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unánime fueron considerados relevantes para evaluar el constructo.

Análisis y selección de ítems: Se aplicó la escala inicial a una muestra de 274 personas.
Mediante el programa SPSS se obtuvieron varios indicadores psicométricos para cada uno de
los 52 ítems: a) correlación ítem-total, b) varianza, c) saturaciones factoriales (rotación
varimax), y d) coeficiente α de la escala cuando se elimina el ítem. Se retuvieron finalmente
los 27 ítems que cumplieron simultáneamente los siguientes requerimientos: a) correlación
ítem-total mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor
rotado por encima de 0.30, y d) coeficiente α de la escala (al eliminar el ítem) igual o superior
al de la escala completa (α=0.9808).
Estudio de la fiabilidad: Se obtuvo un coeficiente α igual a 0.976. El coeficiente de fiabilidad

test-retest, obtenido tras un período de 4 semanas, resultó ser 0.758; aún no siendo óptimo
este coeficiente, es bastante usual que la estabilidad temporal no sea mucho más alta cuando
se emplea un diferencial semántico como instrumento de evaluación.
Validez de constructo factorial: Se realizó un nuevo análisis factorial sobre la matriz de

correlaciones entre los 27 ítems. El primer factor explicó el 62.3 % de la varianza total, lo que
se consideró suficiente prueba de unidimensionalidad. Todos los ítems obtuvieron
saturaciones por encima de 0.68 en el primer factor sin rotar.
Validez convergente: Se aplicaron a la misma muestra dos de los instrumentos previos de

evaluación: el cuestionario Family Satisfaction (Olson y Wilson, 1982) y la Family
Satisfaction Scale (Carver y Jones, 1992). El nuevo cuestionario correlacionó 0.646 con las
puntuaciones en el primero y 0.787 con las correspondientes en el segundo.
Datos adicionales sobre la validez de constructo: Se aplicó el nuevo cuestionario a una

muestra de 16 personas (con la misma edad media de la muestra general) que asistían a una
terapia de familia. La media de esta muestra clínica en el cuestionario fue de 97.56, mientras
que la media de la muestra general fue 121.56. El contraste estadístico entre ambas medias
(prueba U de Mann Whitney) resultó significativo con un nivel de confianza del 95 %, con lo
que se concluyó que la nueva escala era capaz de diferenciar el grado de satisfacción familiar
de ambas muestras.
5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141.
En el presente artículo se describe un estudio realizado para comprobar las propiedades

psicométricas de un nuevo instrumento, el Autism Spectrum Screening Questionnaire
(ASSQ), diseñado para detectar (no tanto evaluar con precisión) a chicos y chicas que tienen
severos desordenes autistas pero con alto funcionamiento cognitivo, en concreto el
denominado como “síndrome de Asperger”. Este alto funcionamiento cognitivo complica
mucho la detección de esta patología.
Descripción del síndrome: No existiendo un acuerdo universal sobre los síntomas del
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni

94
en su desarrollo cognitivo, pero que tienen síntomas claramente autistas en lo que se refiere
a problemas de interacción social y de conductas estereotipadas.
Elaboración del cuestionario: Varios especialistas clínicos ingleses y suecos elaboraron un

listado de síntomas característicos del síndrome en chicos de entre 7 y 16 años. Ellos mismos
elaboraron 27 ítems que recogieran esos síntomas y que fueran inteligibles para personas no
expertas (padres y profesores), ya que no intentaban tanto diagnosticar con precisión el
síndrome como que informantes no expertos (padres o profesores) identificaran a los chicos
que necesitaban un diagnóstico diferencial en profundidad. La sintomatología que pretendían
incluir era: interacción social, problemas de comunicación, conducta repetitiva y esterotipias
motoras. El formato de ítems y respuesta que establecieron fue:
Este chico destaca como diferente de otros chicos de su edad en los siguientes
aspectos:
- Carece de sentido común No Algo Sí
- Carece de empatía No Algo Sí
- Tiene movimientos involuntarios en la cara o el cuerpo No Algo Sí
Cada respuesta era cuantificada como 0, 1 ó 2 puntos, con lo que el rango teórico de
puntuaciones podía oscilar entre 0 y 54.
Muestras seleccionadas: En el estudio se describe la selección de dos muestras de chicos

diagnosticados previamente con determinados desórdenes conductuales por diversos
psicólogos y psiquiatras. La muestra principal estaba formada por 3 tipos de patologías: 21
casos de desórdenes de espectro autista (en el que se incluye el síndrome de Asperger), 58
casos con déficit atencional, hiperactividad y conducta disruptiva, y 31 con problemas de
aprendizaje (retraso en lectura y escritura). La muestra de validación estaba formada por 34
chicos y chicas diagnosticados previamente en contextos clínicos como síndromes de
Asperger.
Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos aplicaciones,
fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los profesores.
La correlación entre las evaluaciones de los padres y de los profesores (fiabilidad interjueces)
se obtuvo en los tres grupos de la muestra principal. Considerando la evaluación de la
muestra completa, esta correlación fue 0.66, mientras que resultó 0.77 para los chicos con
espectro autista, 0.27 para los chicos con déficit atencional y 0.19 para los chicos con
trastornos de aprendizaje.
Validez convergente. Los padres y profesores respondieron también a dos escalas generales
de evaluación de psicopatologías en niños, las escalas de Rutter y las de Conners, obteniendo
correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, así como valores de
0.77 y 0.70 en la muestra de profesores.
Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
consistía en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ servía
para diferenciar a los diversos grupos diagnósticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo

95
diagnóstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos
con diagnóstico de espectro autista obtuvieron siempre las medias más elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas por
ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadísticamente similares en
la muestra de validación (síndrome Asperger) que en la submuestra de espectro autista de la
muestra principal.
Establecimiento de puntos de corte. Antes de comprender lo que realmente se hizo en este

trabajo, conviene describir el procedimiento general y su sentido. En contextos de diagnóstico
clínico interesa muchas veces estudiar el grado en que las puntuaciones en un cuestionario
sirven para clasificar de forma fiable, es decir, si sirve el cuestionario para clasificar
correctamente a una persona dentro o fuera del grupo clínico objeto de estudio. Así,
podríamos establecer una determinada puntuación como punto de corte, de tal manera que si
la puntuación de una persona supera dicho punto de corte la clasificaríamos en el grupo con
trastornos, mientras que si se encuentra por debajo de dicho punto de corte concluiríamos que
no tiene dicho trastorno. Para establecer un determinado punto de corte, debemos entender en
primer lugar dos conceptos esenciales:
- La sensibilidad, también denominada probabilidad de acierto o de verdaderos

positivos, que es la proporción de personas realmente diagnosticadas con desórdenes
que las clasificamos como tales mediante el cuestionario.
- La especificidad o proporción de personas sin trastorno que los clasificamos como
tales a partir de sus puntuaciones en el cuestionario. La proporción complementaria a
la especificidad es la probabilidad de falsos positivos (también denominadas como
falsas alarmas), que es la proporción de personas que realmente no tienen el trastorno
y que decimos a partir del cuestionario que sí lo tienen.
Las dos proporciones anteriores variarán según la puntuación total en el cuestionario que
establezcamos como punto de corte (en el caso del ASSQ podríamos establecer en teoría
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiéramos como punto de
corte la puntuación 54, que es la máxima posible, obviamente la sensibilidad sería 0 (todos
los chicos con síndrome Asperger quedarían clasificados como no Asperger) y la
especificidad 1 (todos los chicos sin síndrome Asperger quedarían clasificados como tales); si
el punto de corte lo pusiéramos en la puntuación 0, la sensibilidad sería 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte más apropiado tendríamos que
intentar maximizar ambas proporciones simultáneamente, lo cual depende del grado de
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnósticos
posibles. En la práctica, para cada puntuación posible como punto de corte, suele
representarse en un cuadrado unitario la proporción complementaria a la especificidad o
proporción de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de ordenadas).
Esta representación se conoce como curva ROC, y muchas veces interesa establecer como
punto de corte aquella puntuación del cuestionario que queda representada más cerca de la
esquina superior izquierda del cuadrado unitario. Esa puntuación será la que maximiza
simultáneamente la especificidad y la sensibilidad.

En el presente estudio, se obtuvieron, por ejemplo, las siguientes proporciones de sensibilidad

y de falsos positivos, cuando los informantes eran los padres y el trastorno era el referido a
desordenes de espectro autista (subgrupo de la muestra principal):
Punto de corte Sensibilidad Falsos positivos Cociente entre ellos

7 .95 .44 2.2
13 .91 .23 3.8
15 .76 .19 3.9
16 .71 .16 4.5
17 .67 .13 5.3
19 .62 .10 5.5
20 .48 .08 6.1
22 .43 .03 12.6
Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
errores con los chicos realmente diagnosticados como autistas, sería aconsejable establecer
como punto de corte la puntuación X=13, a partir de la cual se detecta al 91 % de los chicos
con autismo de la muestra principal. El coste de esta clasificación es que clasificaríamos
como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
problemas de aprendizaje. Tal coste no sería muy elevado si el cuestionario representa sólo
una primera detección, y es posible posteriormente profundizar en el diagnóstico diferencial
mediante procedimientos alternativos.
Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que tienen
otros trastornos, los autores optan por establecer un punto de corte en la puntuación X=19, lo
cual minimiza la proporción de verdaderos positivos (0.62) pero también la de falsos
positivos (0.10). Teniendo en cuenta el tamaño muestral, esta decisión equivale a emitir un 84
% de decisiones correctas.
5.3.- Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboración de un banco de ítems,
predicción de la dificultad y diseño de anclaje. Metodología de las Ciencias del
Comportamiento, Vol. Especial, 427-430.
Olea, J., Abad, F.J., Ponsoda, V. y Ximénez, M.C. (2004). Un test adaptativo
informatizado para evaluar el conocimiento del inglés escrito: Diseño y
comprobaciones psicométricas. Psicothema 16, 519-525.
En ambos trabajos se recogen los estudios realizados para poner en funcionamiento un Test
Adaptativo Informatizado (TAI) de conocimientos del idioma inglés en su versión escrita.
Este tipo de tests requieren un amplio banco de ítems, su estudio psicométrico desde la Teoría
de la Respuesta al Ítem, así como un conjunto de programas informáticos para la presentación
de los mejores ítems a cada persona y para la estimación de su nivel (normalmente entre un
rango de valores que oscila entre –4 y +4). Nos centraremos fundamentalmente en el proceso
de construcción del banco de ítems, que conforma el contenido fundamental del TAI, y en el
análisis de sus propiedades psicométricas.

Criterios generales para la elaboración del banco de ítems. Varias especialistas en Filología
Inglesa, junto a varios profesionales de la Psicometría, elaboraron el banco de ítems. Los
psicómetras indicaron a las filólogas algunos criterios a considerar en la elaboración del
banco de ítems: a) debía tener aproximadamente 600 ítems, b) su dificultad previsible debía
ser heterogénea, ya que el TAI pretende evaluar cualquier nivel de dominio del inglés escrito,
d) los ítems debían ser de opción múltiple, siendo el enunciado una frase donde faltarían
ciertas palabras, y 4 opciones de respuesta de las que sólo una es correcta, e) las 3 opciones
incorrectas de un ítem debían cumplir los requisitos de redacción que son aconsejables (ver
tema 1 de estos materiales), f) las filólogas deberían partir de un modelo teórico (ellas dirían
cual) explicativo de lo que representa el conocimiento del inglés escrito.
Validez de contenido del banco de ítems. Las especialistas en Filología establecieron un

modelo de dominio del inglés escrito funcional-cognitivo, en el que además de la
competencia gramatical (aspectos fundamentalmente sintácticos) se incluyeran contenidos
para evaluar la competencia en el discurso (componentes pragmáticos y léxicos), de tipo más
instrumental para contextos comunicativos concretos. Finalmente establecieron 7 categorías
gramaticales generales, denominadas como: aspectos formales, componentes morfológicos,
sintácticos, morfosintácticos, pragmáticos, léxicos y una categoría mixta. Estas categorías se
dividían a su vez en otras subcategorías: por ejemplo, en los componentes morfológicos (222
ítems en total) se especificaron 17 subcategorías diferentes. De esta forma se redactaron un
total de 635 ítems, cada uno perteneciente a una categoría y subcategoría específicas. Un
ejemplo de un ítem de morfología (subcategoría de tiempos verbales) es:
We * when he gets here.

a) wouldn´t b) have left c) couldn´t leave d) will have left
Cinco personas nativas, profesores de inglés en diversos centros educativos, revisaron el

banco, detectando errores de diverso tipo en la redacción y marcando lo que consideraban
como respuestas correctas. Varias reuniones entre una de las filólogas y uno de los nativos
sirvieron para corregir los errores y no tener duda sobre la opción correcta de algunos ítems.
Elaboración de subtests equivalentes. Para estudiar las propiedades psicométricas del banco
de ítems es necesario aplicarlo a muestras de personas con nivel heterogéneo de inglés. Sin
embargo, es prácticamente imposible aplicar 635 ítems a cada persona, con lo cual es
necesario establecer lo que se denomina un “diseño de anclaje”, que consiste en construir
subtests, de tal forma que sean lo más equivalentes posible en dificultad y en contenidos
incorporados. Así, se elaboraron 15 subtests diferentes, cada uno de los cuales tenía las
siguientes características:
a) Estaba formado por 61 ítems, 41 propios de ese subtest y 20 comunes a todos los
subtests.
b) Tenía una dificultad heterogénea. Los 5 nativos habían valorado subjetivamente la
dificultad de los ítems, y en cada subtest se incluían ítems de amplia gama de
dificultad previsible.
c) La cantidad de ítems de una categoría se decidía según el peso de esa categoría en el
banco completo; por ejemplo, para la categoría “morfología”, que tenía el 35 % de los
ítems del banco (222 de los 635 ítems totales), se eligieron 20 ítems para cada subtest
(aproximadamente el 35 % de 61).

Estudio piloto de uno de los subtests. El primero de los subtests se aplicó a una muestra de
435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicología, y
estudiantes de Filología Inglesa. Se les pidió alguna información adicional, como su
autoevaluación del dominio del inglés y el procedimiento seguido para el aprendizaje del
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
estudio psicométrico fueron:
a) Se eliminaron 9 ítems por ser demasiado fáciles o correlacionar de forma escasa con
el total del subtest.
b) De los 52 ítems retenidos, la media de las correlaciones ítem-total fue 0.556. El
coeficiente α de Cronbach resultó ser de 0.91
c) El análisis factorial sobre la matriz de correlaciones tetracóricas entre los 52 ítems dio
lugar a un factor con varianza explicada de 15.78 (30.35 % de la varianza total), lo
que se consideró como prueba suficiente de unidimensionalidad. Esto es un requisito
para la aplicación del modelo de TRI seleccionado por los investigadores.
d) Se realizó un análisis de regresión múltiple, donde las variables independientes fueron
la información adicional recogida y la variable dependiente el nivel de conocimientos
estimado desde la TRI. El coeficiente de correlación múltiple entre las variables
adicionales (autoevaluación y formación en el idioma) y las puntuaciones estimadas
en el subtest resultó ser 0.747.
Estudio psicométrico simultáneo de 5 subtests. Se aplicaron 5 de los subtests restantes a una

muestra de 3224 estudiantes de primer curso de la Pontificia Universidad Católica de Chile.
Cada grupo de algo más de 600 estudiantes respondió a uno de los subtests y a una serie de
preguntas adicionales de un cuestionario, donde se recabó información sobre el tipo de
colegio donde estudiaron la enseñanza media (bilingüe-inglés u otros), su nivel autopercibido
en el idioma (en escritura, lectura y conversación) y sobre su formación complementaria en el
idioma (en casa, en estancias prolongadas en países anglófonos, en escuelas oficiales de
idiomas, etc). Además de obtener de nuevo información sobre la consistencia interna y
unidimensionalidad de los subtests (resultados satisfactorios para ambos objetivos) se estudió
la validez predictiva de las puntuaciones. Más concretamente, se realizaron dos estudios:
a) Las primeras pruebas de validez se realizaron a partir de los datos obtenidos en el
cuestionario. Se realizaron 5 ANOVAs, uno por cada variable independiente incluida en el
cuestionario, siendo en todos ellos la variable dependiente el nivel de rasgo estimado (en una
escala de -4 a 4) para cada estudiante a partir de sus respuestas al subtest correspondiente (los
cinco valores F resultaron significativos, p < 0.001): a) con la variable independiente tipo de
colegio, los niveles de rasgo medios (θ) fueron 0.50 (colegio bilingüe-inglés) y -0.24 (otros
colegios). El tamaño del efecto (η2) fue 0.10. b) con la variable independiente formación, los
niveles de rasgo medio fueron -0.16 (sólo colegio), 0.24 (colegio+academia), 0.57
(colegio+familia) y 1.18 (colegio+extranjero). El tamaño del efecto fue 0.09. c) con la
variable independiente autoevaluación de la lectura, los niveles de rasgo medio fueron -1.16
(nada), -0.86 (sencillo), -0.13 (con esfuerzo), 0.94 (bien) y 1.64 (bilingüe). El tamaño del
efecto fue 0.46. d) con la variable independiente autoevaluación de la escritura, los niveles
de rasgo medio fueron -1.30 (nada), -0.64 (sencillo), 0.03 (con esfuerzo), 0.90 (bien) y 1.77
(bilingüe). El tamaño del efecto fue 0.49. e) con la variable independiente autoevaluación de
la conversación, los niveles de rasgo medio fueron -1.23 (nada), -0.66 (sencillo), 0.25 (con
esfuerzo), 1.01 (bien) y 1.76 (bilingüe). El tamaño del efecto fue 0.53. En los cinco análisis se

observa que los niveles de rasgo medios se incrementan a medida que lo hacen los niveles de
cada una de las variables independientes. Todas las comparaciones múltiples post hoc
(estadístico DHS de Tukey) resultaron significativas (p<0.05). En los valores de los tamaños
del efecto (K2) puede observarse un mayor poder predictivo de las autoevaluaciones del nivel
de inglés que de las variables relacionadas con la formación en el idioma.
b) Adicionalmente se puso a prueba mediante el programa AMOS (versión 4.01) un

modelo estructural para obtener la capacidad predictiva de las estimaciones de los niveles de
conocimiento con relación a una variable latente de nivel informado de inglés, donde tuvieran
saturaciones positivas las 5 variables evaluadas en el cuestionario. Este tipo de análisis
estadístico, denominado como “ecuaciones estructurales” o también como “modelos
confirmatorios” (véase Ruiz3, 2000), sirve para estudiar el grado de ajuste entre un modelo
teórico (donde se plantean ciertas relaciones entre variables empíricas y teóricas) y los datos
reales. En nuestro caso, el modelo teórico consiste en plantear una variable latente o factor
(nivel informado de inglés) en la que obtuvieran saturaciones positivas las 5 variables
incluidas en el cuestionario; además, planteamos una relación positiva entre esta variable
latente y las puntuaciones estimadas a partir del rendimiento manifestado en los subtests de
inglés escrito.
Algunas medidas de ajuste del modelo fueron: F 2 gl = 4.599, AGFI = 0.992, RMSEA =
0.037, que son indicadores de un buen ajuste del modelo teórico a los datos empíricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlación entre las estimaciones de nivel de inglés y el factor latente de nivel informado de
inglés es 0.81.
Enseñanza
e
media
0.39
Formación e
0.35
T 0.82
Nivel informado Lectura
estimada de inglés e
0.81
0.86
Escritura e
e 0.89
Conversación
e
3
Ruiz, M.A. (2000). Introducción a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.

EJERCICIOS
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construcción de un cuestionario.
a) Correlacionar las puntuaciones totales en el cuestionario con un criterio externo al test.

b) Preguntar a varios jueces expertos sobre la representatividad de los contenidos de un test.
c) Aplicar un análisis factorial a las puntuaciones obtenidas en el test y en varios tests
relacionados con el constructo de interés.
2. Señale qué variables pueden afectar al coeficiente de validez de un test (rxy).
3. Sabemos que aumentando la longitud de un test, podemos aumentar también su

fiabilidad, y que la fiabilidad del test es un factor que permite incrementar la validez del test.
Queremos obtener un coeficiente de validez de 0,8 (Rxy) y sabemos que la fiabilidad del test
es 0,8 (rxx) y la del criterio es 0,6 (ryy). ¿Lograremos nuestro objetivo aumentando la
fiabilidad del test?
4. Un psicólogo social diseña un test con 5 ítems y obtiene los coeficientes de fiabilidad,
rxx= 0,4, y validez, rxy= 0,36. En vista de estos valores tan bajos, decide rechazar el test.
Valore esta actuación del psicólogo.
5. A continuación se detallan las puntuaciones que 10 personas obtuvieron en un test de

rendimiento escolar (X) y las calificaciones medias del curso (Y), que se consideran como un
criterio de aprovechamiento académico.
Sujetos 1 2 3 4 5 6 7 8 9 10
Test 18 15 12 11 8 4 5 6 9 3
Calificación 9 8 7 6 4 2 4 4 5 2
a) Suponiendo que las 10 personas constituyen un grupo normativo apropiado, obtenga el

coeficiente de validez del test.
b) Obtenga el error típico de estimación del test.
6. En un test de 10 ítems el coeficiente de fiabilidad es 0.25 y el de validez es 0.10.

a) Correlacionando las puntuaciones del test con otro criterio, ¿podríamos obtener un
coeficiente de validez menor de 0.10? Razone su respuesta.

b) Correlacionando las puntuaciones del test con otro criterio distinto, ¿podríamos
obtener un coeficiente de validez mayor de 0.60? Razone su respuesta.
7. Un pequeño test de aptitudes intelectuales consta de dos ítems de aptitud verbal (el 1 y
el 4) y de dos ítems de aptitud numérica (el 2 y el 3). Después de aplicarse a un grupo
normativo, la matriz de correlaciones se sometió a un análisis factorial, cuya matriz F rotada
se presenta en la tabla que aparece a continuación.
a) ¿Considera que el estudio factorial aporta datos a la validez del test?

b) Calcule el porcentaje de la varianza total explicado por el Factor I.
Ítem Factor I Factor II

1 0,247 0,883
2 0,906 0,083
3 0,937 0,024
4 -0,108 0,925
8. Estamos intentando elaborar una escala que mida la calidad de ciertos productos.
Cada ítem consiste en un adjetivo y la persona ha de evaluar de “1” (totalmente en
desacuerdo) a “5” (totalmente de acuerdo) en qué medida el adjetivo se aplica al producto.
Tras un análisis factorial, la matriz rotada resultante ha sido:
Factor I Factor II Factor III

Barato -0,1 0,8 0,2
Agradable 0,2 0,2 0,7
Útil 0,9 -0,1 -0,2
Cómodo 0,6 -0,2 -0,1
Precio justo 0,1 0,9 0,2
Bonito -0,2 -0,1 0,6
Necesario 0,7 0,2 0,0
Atractivo -0,2 -0,1 0,5
Práctico 0,8 0,1 0,2
Manejable 0,8 0,2 -0,1
¿Qué aspectos de la calidad mide la escala?

9. En la selección de aspirantes a un curso de formación, los sujetos han sido

examinados con un cuestionario que obtuvo una media de 5 y una desviación típica de 2. Una
vez terminado el curso, los mismos sujetos fueron valorados por sus formadores según una
escala de 0 a 20, con media 10 y desviación típica 3. La correlación entre los resultados en el
cuestionario y las valoraciones de los formadores fue de 0.35.
a) Realice una estimación puntual de la valoración que recibiría una persona que obtuvo 4
puntos en el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrará la
valoración para esta misma persona.
10. Un test de 5 ítems tiene un coeficiente de fiabilidad de 0.4 y un coeficiente de validez

de 0.5.
a) Queremos que su coeficiente de validez alcance el valor de 0.6. ¿Qué longitud debería
tener el test?
b) Queremos que su coeficiente de validez alcance el valor de 0.8. ¿Qué longitud debería
tener el test?
c) ¿Cuál es máximo valor del coeficiente de validez que se puede alcanzar alargando el test?
11. Un psicólogo dispone de tres pruebas de desorden del pensamiento (T1, T2, y T3), de
igual variabilidad, para pronosticar un determinado criterio (esquizofrenia). Los coeficientes
de fiabilidad, de validez y número de ítems de cada test son:
rxx rxy ítems

T1 0,3 0,27 20
T2 0,7 0,59 40
T3 0,9 0,60 40
Si los tres tests tuviesen la misma longitud, ¿cuál sería más fiable? ¿cuál, más válido?
12. El coeficiente de determinación de un test es 0.25 y la varianza del criterio es 2.
a) Obtenga el coeficiente de validez y la varianza de los errores de pronóstico.

b) Obtenga, con probabilidad 0.95, la amplitud que tendrá la estimación por intervalo en el
criterio para cualquier persona.
13. Asocie cada uno de estos términos a cada una de las frases: coeficiente de fiabilidad,
índice de validez, varianza explicada por un factor, coeficiente de determinación, índice de
homogeneidad, saturación.

a) La correlación de las puntaciones en un ítem con las puntuaciones en el test:

b) La correlación de las puntaciones en un ítem con las puntuaciones en un criterio:
c) La suma de las correlaciones al cuadrado de los ítems con un factor:
d) La correlación de un ítem con un factor:
e) La correlación entre la forma par e impar de un test:
f) La proporción de varianza de un criterio que explica un test:
14. Un test tiene un coeficiente de fiabilidad de 0.6 y de validez de 0.42. Duplicamos el

test y conseguimos un coeficiente de validez superior a 0.42. Volvemos a duplicarlo y
conseguimos un coeficiente de validez aún mayor.
a) ¿Podrá conseguirse por la vía de sucesivos alargamientos un coeficiente de validez de 0.8?

Justifique su respuesta.
b) ¿Podrá conseguirse por la vía de sucesivos alargamientos un coeficiente de fiabilidad de
0.98? Justifique su respuesta.
15. Aplicamos a Juana un test para predecir su rendimiento en un criterio, concluyendo

que, con probabilidad 0.99, su puntuación en dicho criterio estará entre 24 y 30. Responda
razonadamente a las siguientes cuestiones:
a) ¿Cuál es la estimación puntual que hemos realizado a Juana?

b) ¿Si hubiéramos establecido el intervalo con probabilidad 0.95, su amplitud sería
(mayor/menor/igual) a 6?
16. Un Centro de Investigaciones Sociológicas está interesado en evaluar el impacto que

los escándalos acaecidos en la vida pública han tenido en la imagen que la sociedad española
tiene de la clase política. Para ello, elaboran un cuestionario con seis elementos y la aplican a
una muestra de cinco sujetos. Además se les pide a los sujetos que den una valoración
personal de la clase política, en una escala de 1 a 20. La tabla recoge las respuestas dadas por
los cinco sujetos a las preguntas del cuestionario junto con su valoración de la clase política.
SUJETOS ITEM valoración de la clase política

1 2 3 4 5 6
1 4 2 3 3 5 4 15
2 4 2 2 5 2 4 10
3 4 3 2 2 4 6 18
4 1 2 1 4 3 4 9
5 2 1 2 1 2 2 13
a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 ítems.
b) ¿Cuál será la validez de este cuestionario si tomamos las valoraciones realizadas por los
sujetos como un criterio adecuado? Interprételo.

c) ¿Cuántos elementos tendríamos que añadirle al cuestionario para que su nuevo

coeficiente de validez alcanzase un valor de 0,60?
17. Del estudio psicométrico de un test de 4 items, hemos obtenido:

Estadísticos de fiabilidad
Estadísticos de los elementos
Alfa de
Desviación
Cronbach
Media típica N
basada en
IT1 2.64 1.295 156
los
Alfa de elementos N de IT2 2.28 1.242 156
Cronbach tipificados elementos IT3 3.45 1.225 156
.433 .414 4 IT4 3.29 1.158 156
Matriz de correlaciones inter-elementos
IT1 IT2 IT3 IT4

IT1 1.000 .347 .517 -.133
IT2 .347 1.000 .393 -.060
IT3 .517 .393 1.000 -.165
IT4 -.133 -.060 -.165 1.000
Se ha calculado la matriz de covarianzas y se utiliza en el
análisis.
Estadísticos total-elemento
Media de la Varianza de Alfa de

escala si se la escala si Correlación Correlación Cronbach si
elimina el se elimina el elemento-tot múltiple al se eleimina
elemento elemento al corregida cuadrado el elemento
IT1 9.01 4.942 .410 .294 .169
IT2 9.38 5.295 .374 .183 .220
IT3 8.21 5.106 .428 .328 .160
IT4 8.37 8.672 -.152 .030 .684
Estadísticos de la escala
Desviación N de
Media Varianza típica elementos
11.65 8.976 2.996 4
Varianza total explicada
Sumas de las saturaciones al cuadrado

Autovalores iniciales de la extracción
% de la % de la
Factor Total varianza % acumulado Total varianza % acumulado
1 1.892 47.302 47.302 1.345 33.631 33.631
2 .963 24.064 71.366
3 .668 16.707 88.072
4 .477 11.928 100.000

Matriz factoriala
Factor
1
IT1 .671
IT2 .508
IT3 .774
IT4 -.196
Prueba de la bondad de ajuste
Chi-cuadrado gl Sig. RMSEA Intervalo de confianza 90%

.415 2 .813 .000 .000-.098
RESPONDA RAZONADAMENTE LAS SIGUIENTES PREGUNTAS
a) ¿El test es de rendimiento óptimo?

b) Supongamos que queremos que el test definitivo tenga 3 ítems. ¿Cuál eliminaría si
queremos que el test tenga la máxima variabilidad? ¿Cuál sería la variabilidad y consistencia
interna del test de 3 ítems resultante?
c) Supongamos que queremos que el test definitivo tenga máxima consistencia y solo dos
ítems. ¿Qué dos ítems eliminaría? Calcule e interprete el coeficiente de fiabilidad del test de
dos ítems resultante, sabiendo las correlaciones entre ellos.
d) Diga cuanto vale la correlación del ítem 2 con el factor 1.
e) ¿Qué porcentaje de varianza total explica el factor?
f) Según los resultados del análisis factorial, ¿diría que el investigador puede mantener la
unidimensionalidad del test?
18. En una muestra de universitarios, que habían superado la selectividad, el coeficiente

de validez de un test de conocimientos fue 0.54. ¿Cuál hubiese sido si se hubiese calculado
con los datos de todos los aspirantes y no sólo de los que han superado el examen? a) mayor
que 0,54; b) menor que 0,54; c) igual (0,54). Razone su respuesta.
19. Si el coeficiente de validez del test es 0.7, la correlación entre las puntuaciones
verdaderas entre dicho test y el criterio será: a) 0,7; b) mayor que 0,7; c) menor que 0,7.
Razone su respuesta.
20. ¿Son correctos los siguientes enunciados sobre la validez de un test?
a) La validez de constructo de un test asegura su validez referida a un criterio. V ( ) F ( ).

b) Para estudiar la validez de contenido de un test no es necesario aplicarlo a una muestra.
V ( ) F ( ).

c) Si el coeficiente de validez de un test vale 0,7 esto significa que el 70% de la

variabilidad de las puntuaciones en el criterio se puede pronosticar a partir del test.
V ( ) F ( ).
21. Hemos analizado mediante SPSS un test de 9 Ítems y 5 opciones de respuesta cuyos
ítems son los siguientes:
Ítem 1. Me gusta leer libros.

Ítem 2. Entiendo bien las explicaciones de los profesores.
Ítem 3. Me gustan los documentales de “la 2”
Ítem 4. Me gusta ver los telediarios y saber lo que ocurre en el mundo.
Ítem 5. Soy creativo a la hora de inventar juegos.
Ítem 6. Se me dan bien las matemáticas.
Ítem 7. Me gustan las novedades.
Ítem 8. Me atrae la idea de viajar y conocer otras culturas.
Ítem 9. Entiendo todo rápidamente.

ITEM01 28.32 21.711 .281 .139 .645
ITEM02 27.62 22.300 .482 .477 .597
ITEM03 28.12 22.761 .240 .097 .652
ITEM04 27.65 22.537 .385 .331 .615
ITEM05 28.56 21.576 .408 .208 .607
ITEM06 27.94 22.629 .267 .306 .644
ITEM07 26.80 24.387 .336 .268 .630
ITEM08 26.81 25.381 .165 .232 .657
ITEM09 27.81 21.871 .536 .528 .586
Alfa de
Cronbach
basada en
los
Alfa de elementos N de
Cronbach tipificados elementos
.654 .674 9
Estadísticos de resumen de los elementos
Máximo/ N de
Media Mínimo Máximo Rango mínimo Varianza elementos
Medias de los Parte 1 3.149 2.646 3.586 .939 1.355 .172 5a
elementos Parte 2 3.864 3.263 4.404 1.141 1.350 .385 4b
Ambas partes 3.467 2.646 4.404 1.758 1.664 .372 9
Varianzas de los Parte 1 1.504 .939 2.128 1.189 2.266 .229 5a
elementos Parte 2 1.016 .631 1.706 1.075 2.703 .227 4b
Ambas partes 1.287 .631 2.128 1.497 3.372 .266 9
Correlaciones Parte 1 .193 .087 .394 .308 4.542 .008 5a
inter-elementos Parte 2 .154 -.143 .467 .609 -3.273 .052 4b
Ambas partes .187 -.143 .633 .776 -4.442 .027 9
Se ha calculado la matriz de covarianzas y se utiliza en el análisis.
a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.

Alfa de Cronbach Parte 1 Valor .531
N de elementos 5a
Parte 2 Valor .403
N de elementos 4b
N total de elementos 9
Correlación entre formas .502
Coeficiente de Longitud igual .669
Spearman-Brown Longitud desigual .671
Dos mitades de Guttman .634
a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.
Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado

Autovalores iniciales de la extracción de la rotación
% de la % de la % de la
Factor Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 2.641 29.349 29.349 2.108 23.425 23.425 1.915 21.276 21.276
2 1.755 19.498 48.847 1.205 13.388 36.812 1.398 15.536 36.812
3 1.059 11.772 60.619
4 .840 9.339 69.958
5 .738 8.203 78.160
6 .605 6.724 84.884
7 .569 6.320 91.204
8 .484 5.379 96.583
9 .307 3.417 100.000
Matriz factoriala Matriz de factores rotadosa
Factor Factor
1 2 1 2
ITEM01 .255 .290 ITEM01 .128 .364
ITEM02 .744 -.217 ITEM02 .771 .079
ITEM03 .222 .054 ITEM03 .185 .133
ITEM04 .379 .684 ITEM04 .094 .776
ITEM05 .469 .058 ITEM05 .413 .230
ITEM06 .512 -.356 ITEM06 .608 -.138
ITEM07 .396 .348 ITEM07 .237 .471
ITEM08 .080 .575 ITEM08 -.142 .563
ITEM09 .807 -.146 ITEM09 .803 .168
Método de extracción: Máxima verosimilitud. Método de extracción: Máxima verosimilitud.
a. 2 factores extraídos. Requeridas 5 iteraciones. Método de rotación: Normalización Varimax con Kaiser.
Prueba de Bondad de ajuste modelo de dos factores:

Chi-cuadrado gl Sig.
14.327 19 .764
RMSEA Intervalo de confianza 90%

.000 .000-.068

Prueba de Bondad de ajuste modelo de un factor:

64.403 27 .000

.124 .087-.161
Responda a las siguientes preguntas RAZONADAMENTE:
a) Diga si el test es de rendimiento típico o de rendimiento óptimo.

b) Diga cuál es la varianza explicada por el segundo factor.
c) ¿Puede decirse que el test es unidimensional?
d) Interprete el significado de los factores.
e) La primera mitad del test está formada por los ítems_____________________________ ,
y su consistencia interna es_____.
f) Asumiendo que ambas mitades son paralelas obtenga e interprete el coeficiente de
fiabilidad de cualquiera de ellas
g) Si tuviera que eliminar un ítem diga qué ítem eliminaría y por qué _________ .
h) Atendiendo a la columna “Alpha if item deleted” diga cuales son los dos ítems que más
correlacionan con el total del test.
22. A un grupo normativo de 100 sujetos se le ha aplicado un test (X) formado por 4
ítems y se le ha medido en un criterio (Y), obteniéndose la siguiente matriz de correlaciones.
Se indica también la varianza de cada variable.
Item 1 Item 2 Item 3 Item 4 X Y

Item 1 1,00
Item 2 0,70 1,00
Item 3 0,00 0,25 1,00
Item 4 -0,44 -0,31 -,31 1,00
X 0,71 0,87 0,5 -0,15 1,00
Y 0,75 0,68 -0,08 0,14 0,76 1,00
Varianza 0,30 0,27 0,27 0,17 1,06 25,9
a) Diga cuáles son: 1) el ítem que más contribuye a la consistencia interna del test, 2) el ítem
que más contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad,
realice los cálculos oportunos.
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendría el intervalo para estimar la puntuación en el criterio de
cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de
significación de 0.05.
d) Sabiendo que el coeficiente de fiabilidad del test de 4 ítems es 0.80, obtenga e interprete el
coeficiente de validez que tendría el test si le añadimos 12 ítems paralelos a los que ya tiene.

23. Un test de responsabilidad consta de 25 ítems. Su coeficiente de fiabilidad test-retest

fue 0.82, su media 30 y su varianza empírica 16. La correlación entre el test y un criterio
externo fue 0.40, siendo la varianza del criterio igual a 20 y su media 50.
a) Una persona obtiene en el test de responsabilidad una puntuación que se encuentra dos
desviaciones típicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qué
valores estimamos que se encontrará su puntuación directa en el criterio.
b) Obtenga e interprete la proporción de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le añadimos dos formas paralelas.
24. A continuación aparecen distintas partes de una salida de SPSS para el análisis de la
fiabilidad de 6 de los 36 ítems del test de matrices progresivas de Raven en una muestra de
1800 sujetos. En concreto, se analizaron los ítems que ocupaban las posiciones 10ª, 15ª, 20ª,
25ª, 30ª y 35ª del test.
Matriz factoriala
Factor
1
raven10 .484
raven15 .245
raven20 .260
raven25 .358
raven30 .308
raven35 .245 Prueba de la bondad de ajuste
Método de extracción: Máxima verosimilitud. Chi-cuadrado gl Sig.
a. 1 factores extraídos. Requeridas 3 iteraciones. 15.869 9 .070

.021 .000-.037
ANÁLISIS DE LAS OPCIONES (ÍTEM 35)
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
37 37
20.0
10.0 15
2 3 4 5
1
0.0 5 6 7 8 9

N de elementos 3a
Parte 2 Valor .255
N de elementos 3b
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35.
Desviación
Media típica N
raven10 .82 .381 1800
raven15 .78 .417 1800
raven20 .70 .456 1800
raven25 .61 .488 1800
raven30 .58 .494 1800
raven35 .37 .484 1800
Estadísticos de resumen de los elementos
Máximo/ N de
Media Mínimo Máximo Rango mínimo Varianza elementos
Medias de los Parte 1 .769 .704 .824 .120 1.170 .004 3a
elementos Parte 2 .519 .373 .608 .235 1.629 .016 3b
Ambas partes .644 .373 .824 .451 2.208 .027 6
Varianzas de los Parte 1 .176 .145 .208 .064 1.439 .001 3a
elementos Parte 2 .239 .234 .244 .010 1.043 .000 3b
Ambas partes .207 .145 .244 .099 1.687 .002 6
Correlaciones Parte 1 .108 .056 .156 .100 2.777 .002 3a
inter-elementos Parte 2 .102 .080 .115 .035 1.429 .000 3b
Ambas partes .098 .036 .174 .138 4.830 .002 6
Se ha calculado la matriz de covarianzas y se utiliza en el análisis.

raven10 3.04 1.449 .269 .076 .302
raven15 3.09 1.529 .133 .029 .376
raven20 3.16 1.456 .159 .030 .361
raven25 3.26 1.365 .207 .052 .330
raven30 3.29 1.369 .196 .040 .338
raven35 3.49 1.434 .148 .028 .370

Estadísticos de la escala
Desviación N de
Media Varianza típica elementos
Parte 1 2.31 .636 .797 3a
Parte 2 1.56 .864 .929 3b
Ambas partes 3.86 1.840 1.356 6
En la figura se representan los porcentajes de elección de las opciones de respuesta para el

ítem 35, cuya opción correcta es la 3 (recuerde que el test se ha aplicado a 1800 sujetos y que
cada ítem tiene 8 opciones de respuesta).
RESPONDA RAZONADAMENTE A LAS SIGUIENTES PREGUNTAS:
a) Atendiendo a los datos del análisis de fiabilidad y a la figura ¿Cuál es el índice de

dificultad del ítem 35 considerando las omisiones como datos perdidos? ¿Qué número de
personas omiten este ítem?
b) Observando la frecuencia de elección de las opciones del ítem 35 ¿se incumple alguno de
los supuestos de la fórmula de corrección del azar? ¿Cuál?
c) Considerando que el patrón de omisiones es parecido para todos los ítems, ¿cree usted que
en general habrá muchas diferencias entre las puntuaciones directas y las correspondientes
corregidas?
d) Obtenga e interprete el coeficiente de fiabilidad del test completo de 36 ítems.
e) De las 2 partes del test que se consideran en el análisis, diga cuáles son los ítems que
forman la mitad más consistente.
f) Algunos autores obtienen datos que indican que sobre el rendimiento de los 36 ítems del
Raven subyacen dos dimensiones cognitivas. ¿Los datos que se muestran para los 6 ítems
analizados van en esta línea?
g) El ítem que más contribuye al primer factor es el…….. ya que su correlación con dicho
factor es ……….
h) ¿Cuál es el porcentaje de varianza total explicado por el primer factor antes de rotar?
i) ¿Crees que las dos mitades que hemos formado son formas paralelas?
25. A continuación aparecen distintas partes de una salida de SPSS correspondientes a 8

ítems, en una muestra de 102 sujetos.
Desviación
Media típica N
item1 1.66 1.278 102
item2 1.98 1.134 102
Alfa de item3 1.54 1.224 102
Cronbach item4 1.68 1.055 102
basada en
item5 1.72 1.093 102
los
Alfa de elementos N de item6 2.60 1.065 102
Cronbach tipificados elementos item7 2.22 1.059 102
.592 .598 8 item8 2.65 1.157 102


item1 14.37 17.444 .219 .368 .586
item2 14.05 16.918 .344 .167 .544
item3 14.49 17.401 .246 .188 .575
item4 14.35 18.627 .184 .095 .590
item5 14.31 16.811 .380 .303 .533
item6 13.43 17.456 .318 .132 .553
item7 13.81 16.470 .445 .338 .515
item8 13.38 17.684 .246 .336 .574
N de elementos 4a
Parte 2 Valor .448
N de elementos 4b
a. Los elementos son: item1, item2, item3, item4.
b. Los elementos son: item5, item6, item7, item8.
Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado

Autovalores iniciales de la extracción de la rotación
% de la % de la % de la
Factor Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 2.199 27.490 27.490 1.373 17.163 17.163 1.534 19.178 19.178
2 1.670 20.873 48.363 1.542 19.275 36.438 1.381 17.260 36.438
3 1.000 12.500 60.862
4 .867 10.834 71.696
5 .784 9.805 81.501
6 .586 7.322 88.823
7 .498 6.220 95.043
8 .397 4.957 100.000

Matriz factoriala
Factor
Factor 1 2
1 2 item1 -.045 .972
item1 .973 -.004 item2 .376 .210
item2 .194 .385 item3 .449 -.034
item3 -.052 .447 item4 .327 .010
item4 -.003 .328 item5 .660 -.021
item5 -.048 .658 item6 .298 .201
item6 .188 .306 item7 .746 .003
item7 -.029 .745 item8 .041 .591
item8 .589 .066 Método de extracción: Máxima verosimilitud.
Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser.
a. 2 factores extraídos. Requeridas 36 iteraciones. a. La rotación ha convergido en 3 iteraciones.

Prueba de Bondad de ajuste modelo de dos factores:
7.648 13 .866

.000 .000-.057
Prueba de Bondad de ajuste modelo de un factor:
55.004 20 .000

.136 .096-.178
Responda razonadamente a las siguientes preguntas:a) Asumiendo que las dos mitades son
formas paralelas, obtenga e interprete el coeficiente de fiabilidad del
a.1) test completo de 8 ítems
a.2) subtest formado por los ítems 5, 6,7 y 8
b) Para maximizar la varianza del test habría que eliminar el ítem _____, ya que …
c) El índice de homogeneidad corregido del ítem 2 es ______. Con un nivel de confianza del
95%, ¿considera que la relación entre ese ítem y la puntuación en el resto del test es
significativamente distinta de cero?
d) Para maximizar la consistencia interna del test habría que eliminar el ítem _____, ya que
…
e) Atendiendo a toda la información de las tablas, ¿convendría eliminaría algún ítem? En
caso de respuesta afirmativa, diga qué ítem o ítems convendría eliminar.
f) Obtenga e interprete la comunalidad del ítem 1.
g) Deberían extraerse ____ factores, ya que …
h) Para interpretar el significado del factor 2 utilizaría los ítems
__________________________, ya que …
i) La proporción de varianza total explicada por el factor I no rotado es ______, y por el
factor II rotado es ______.

SOLUCIONES
1. a) Obtener su coeficiente de validez.

b) Aportar información sobre su validez de contenido.
c) Aportar datos sobre su validez factorial. Cabe pensar que si el test es válido, sature en el
mismo factor que los otros tests que miden constructos relacionados.
2. El coeficiente de validez viene determinado por varios factores:

- La fiabilidad del test y del criterio.
- La longitud de ambos.
- La variabilidad del grupo normativo en ambos.
- La auténtica relación entre el test y el criterio.
3. No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En
este caso, la validez máxima que puede alcanzar este test completamente fiable sería la raíz
cuadrada del coeficiente de fiabilidad del criterio, que sería igual a 0.77.
4. No estaría totalmente justificada la desestimación del cuestionario, dado que, por

tener tan pocos ítems, obtendríamos un incremento apreciable en sus cualidades
psicométricas al incrementar su longitud.
5. a) rxy = 0.98
b) Sy-y' = 0.45
6. a) Sí. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida.
b) No, ya que rxy d 0.25 0.5 .
7. a) Parece que sí, dado que los dos ítems de aptitud verbal obtienen saturaciones altas
en el Factor II, mientras que los dos ítems de aptitud numérica obtienen saturaciones altas en
el Factor I.
b) El porcentaje de varianza explicado por el factor I será (1.77)(100)/4 = 44.
8. El Factor I podría definirse como un “producto bueno”.El Factor II como un

“producto barato” y el Factor III como un “producto bonito”.
9. a) Y' = 9.475
b) Li = 3.97 Ls = 14.98
10. a) n = 2.04 # 2, debería estar formado por 2 formas paralelas del test inicial; es decir,
por 10 ítems.
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la longitud del
test.
c) El máximo valor del coeficiente de validez obtenible por alargamiento del test es
Rxy d rxy / rxx 0.5 / 0.4 0.79.

11. Si los tres tests tuviesen la misma longitud el más fiable sería el tercero, ya que si
alargásemos el Test 1 hasta que tuviese 40 ítems su coeficiente de fiabilidad valdría
0,46. El más válido sería también el Test 3, ya que al alargar el Test 1 su coeficiente de
validez toma el valor de 0,33.
12. rx y2 = 0.25; Sy2 = 2

Coeficiente de validez: 0.5
Varianza de los errores de pronóstico: 1.5
Amplitud del intervalo: 4.80
13. a) Indice de homogeneidad

b) Índice de validez
c) varianza explicada por un factor
d) Saturación
e) Coeficiente de fiabilidad
f) Coeficiente de determinación
14. a) 0.8 es mayor que el tope máximo alcanzable (0.54 = 0.42/0.6) alargando el test,
luego NO se puede alcanzar el valor 0.8.
b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.
15. a) Y’ = (30 + 24)/ 2 = 27.

b) Menor. Con probabilidad 0.99, A= (2)2.57S. Con probabilidad 0.95, A = (2)1.96S.
16. a) Las varianzas de los ítems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 – (7.36/17.67)) = 0.70. Alta consistencia, pues el test es corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
c) La correlación par e impar es 0.33. El coeficiente de fiabilidad del test (dos mitades) es
0.50. El número de formas paralelas necesarias para alcanzar la validez 0.6 es 36.73. El test
deberá tener 36.73x6= 220.38 ítems, por lo que deberemos añadir 220.38 – 6 = 214.38 ó 215
ítems.
17. a) No, pues las medias son mayores que 1.

b) Eliminaríamos el ítem 4. La varianza del test resultante sería 8.672. Su coeficiente alfa
sería 0.684.
c) Hay que quitar los ítems 2 y 4. El test formado por los ítems 1 y 3 tendría un coeficiente de
fiabilidad de 0.682 (dos mitades), pues la correlación entre la mitad par e impar es 0.517 y
aplicando Spearman-Brown, el coeficiente de fiabilidad es 0.682.
d) 0.508
e) 33.63%
f) El contraste y el RMSEA indican buen ajuste del modelo de un factor, pero el peso del
ítem 4 es negativo (como ocurre con el HC de ese ítem) ¿Qué significa esto último?
18. Sería mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado la
selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar un mayor
coeficiente de validez.

19. La correlación entre las puntaciones verdaderas del test y criterio es mayor o igual que
el coeficiente de validez (véase apartado 4.3).
20.
a) F
b) V
c) F
21.
a) Típico (las medias de los ítems son mayores de 1).
b) 1.398 (el % de varianza explicada sería 15.536).
c) No. Hemos retenido dos factores. El modelo de un factor no ajusta bien a los datos. El
estadístico de contraste muestra que con un nivel de confianza del 95%, podemos decir que
algún residual es distinto de cero. Además el RMSEA es mayor que 0.08. Por el contrario,
para el modelo de dos factores, los indicadores de ajuste muestran valores aceptables (el
RMSEA nos indica que el modelo muestra buen ajuste a los datos ya que su valor es menor
que 0.05).
d) Para el factor 1, se utilizarían los ítems 2, 5, 6 y 9. Podríamos ponerle la etiqueta de
“Percepción de la propia capacidad”. Para el factor 2, se utilizarían los ítems 1, 4, 7 y 8. La
etiqueta, atendiendo al contenido común de esos ítems, podría ser “Curiosidad intelectual”.
e) Primera mitad: ítems 1 a 5. Su alfa es 0.531.
f) El coeficiente de fiabilidad del test de 10 ítems es 0.671 = 2r/(1+r), siendo r la correlación
entre las dos partes y el coeficiente de fiabilidad de cada una. Despejando, r = 0.505.
g) El ítem 8 que tiene el menor índice de homogeneidad corregida (HC = 0.165). Además, al
eliminarlo aumenta alfa desde 0.654 a 0.657
h) Los dos que tengan menores valores en esa columna: ítems 2 y 9.
22. El ítem 2, pues tiene la mayor correlación con el test (0.87). El ítem 4, pues tiene la
mayor diferencia V-H (0.29).
b) El coeficiente alfa vale 0.06. El test no tiene consistencia.
c) 12.97
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de validez
es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del criterio puede
explicarse por las puntuaciones en el test
23. a) (38.27, 54.43).

b) El coeficiente de validez del test alargado es 0.43. La proporción pedida es 0.18. Es
un coeficiente de validez medio.
24.
a) 0.59, pues 0.37/(1-0.37) = 0.587. Lo omiten 666 = (0.37)1800.
b) Las alternativas no son igualmente elegidas.
c) Las diferencias entre puntuaciones y puntuaciones corregidas serán pequeñas, pues el
número de errores en los ítems es bajo y el número de opciones en cada ítem es alto.
d) El coeficiente de fiabilidad por el método de las dos mitades es 0.373. Alargando el test 6
veces, resulta un test con coeficiente de fiabilidad dos mitades de 0.781. El 78% de la

varianza observada se debe a la varianza de los niveles de rasgo. Es una fiabilidad aceptable
para un test de esa longitud.
e) La mitad más consistente es la parte 1 (ítems 10, 15 y 20). Su alfa es 0.258.
f) No, pues el ajuste del modelo de un factor es bueno según ambos indicadores de ajuste.
Podemos mantener que el modelo se ajusta a los datos con un nivel de confianza del 95% y
además el RMSEA indica un buen ajuste (RMSEA < 0.05).
g) Ítem 10, pues la correlación es 0.484.
h) 10.756 (suma de saturaciones al cuadrado dividido por 6 y multiplicado por 100).
i) Claramente no, las dos mitades difieren en media puesto que los ítems están ordenados por
dificultad.
25.
a1) El coeficiente de fiabilidad del test es 0.71. El 71% de la varianza de las puntuaciones
observadas corresponde a variabilidad de las puntuaciones verdaderas (y el 29% al error de
medida).
a2) 0.550, pues es la correlación entre las dos partes.
b) Para maximizar la varianza del test habría que eliminar el ítem 4, ya que al eliminarlo la
varianza del test de 7 ítems alcanza el valor más alto (18.627).
c) El índice de homogeneidad corregido del ítem 2 es 0.344. Si sería significativo, pues
.344 102 3.474 > 1.96.
d) Para maximizar la consistencia interna del test habría que eliminar el ítem 4, ya que, al
eliminarlo, se conseguiría que el test de 7 ítems tenga el mayor alfa (0.590).
e) El ítem 4, por que prácticamente no cambia el coeficiente alfa del test al eliminar ese ítem.
Además, la puntuación en ese ítem no correlacióna significativamente con la puntuación en el
resto del test ( .184 102 1.858 < 1.96)
f) La comunalidad del ítem 1 es (-0.045)2+(0.972)2 = 0.947. El 95% de la varianza del ítem 1
está explicado por los dos factores.
g) Deberían extraerse 2 factores, ya que los indicadores de ajuste muestran que el modelo de
un factor no se ajusta a los datos, mientras que el modelo de dos factores sí.
h) Para interpretar el significado del factor 2 utilizaría los ítems 1 y 8, ya que son los que
tienen saturaciones más altas en ese factor, en la matriz rotada.
i) La proporción de varianza total explicada por el factor I no rotado es 1.534/8 = 0.19, y por
el factor II rotado es 1.381/8 = 0.17.

TEMA V: BAREMACIÓN DE UN TEST
1.- INTRODUCCIÓN
La puntuación directa de una persona en un test no es directamente interpretable si no la

referimos a los contenidos incluidos en el test o al rendimiento de las restantes personas que
comparten el grupo normativo. Nosotros centramos en este segundo sentido el tema de la
interpretación de una puntuación directa en un cuestionario, para lo cual es necesario tratar el
tema de la obtención de baremos para comparar esta puntuación con las que obtienen las
personas que han formado el grupo normativo. De una u otra forma, los baremos consisten en
asignar a cada posible puntuación directa un valor numérico (en una determinada escala) que
informa sobre la posición que ocupa la puntuación directa (y por tanto la persona que la obtiene)
en relación con los que obtienen las personas que integran el grupo normativo donde se
bareman las pruebas.
Entre las múltiples formas de baremar un test, destacamos las siguientes:
- Baremos cronológicos: Edad Mental y Cociente Intelectual.
- Centiles o percentiles.
- Puntuaciones típicas: estándares, normalizadas, escalas T y D, estaninos o eneatipos.
Lo más usual en las pruebas comercializadas es encontrarse baremos realizados en escala de

centiles o estaninos.
2.- BAREMOS CRONOLÓGICOS
Para rasgos psicológicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene
sentido comparar la puntuación de un sujeto con las que obtienen los de su misma edad y los de
edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a diferentes

grupos de edad (niños entre 5 y 14 años), y que obtenemos las puntuaciones medias de cada
grupo de edad en la prueba, siendo las que siguen:
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27

Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
permitir obtener la EM de cualquier niño al que apliquemos el test. Por ejemplo, si un niño
obtiene el test una puntuación directa de 14 puntos, le asignamos una EM de 9 años,
independientemente de su edad cronológica real, ya que esa puntuación es la media que obtienen
los niños de 9 años.
El Cociente Intelectual (CI) se denomina así (y no coeficiente, como es usual escuchar en

determinados ámbitos) porque es el resultado de dividir la edad mental (EM) entre la edad
cronológica (EC) del sujeto; para evitar decimales el resultado se multiplica por 100, de tal
manera que se puede obtener a partir de la fórmula:
EM
CI 100
EC
Por ejemplo, en el ejemplo anterior, si un niño de 10 años obtiene una puntuación directa de 18
puntos, diremos que su EM es de 11 años, y que su CI es:
11
CI 100 110
10
Podemos observar que si la EM de un sujeto coincide exactamente con su EC, el CI es igual a

100, e indicará que este sujeto obtiene exactamente la puntuación media de su grupo de edad. Si
el CI supera el valor de 100 significará que el sujeto tiene una Inteligencia superior al promedio
de su edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene una inteligencia
inferior a la media de su grupo de edad. Usualmente, Cocientes Intelectuales inferiores a 70
indican problemas importantes (deficiencias) de tipo cognitivo, mientras que Cocientes
Intelectuales superiores a 140 indican excepcionalidad intelectual.
3.- CENTILES O PERCENTILES
Los centiles, como recordaremos, representan medidas de posición en un distribución de

frecuencias. Los baremos centiles consisten en asignar a cada posible puntuación directa un
valor (en una escala de 1 a 100) que se denomina centil (o percentil) y que indican el porcentaje
de sujetos del grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. Así, si un sujeto obtiene en un cuestionario de autoritarismo una
puntuación de 20 puntos, poco sabemos sobre su nivel de autoritarismo, pero si sabemos que a
esa puntuación le corresponde el centil 95 , ya conocemos que este sujeto supera en ese rasgo al
95% de los sujetos utilizados para baremar el test; si el grupo normativo fuese una muestra

representativa de la población general, podríamos inferir que esta persona supera en

autoritarismo al 95% de las personas, y que sólo un 5% de personas son más autoritarias que él.
El modo de cálculo del centil asociado a una puntuación se resume en los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a mayor, las

posibles puntuaciones directas (Xi) que se puedan obtener en el test.
2) Asignar a cada puntuación su frecuencia (fi), es decir, el nº de sujetos del grupo

normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas (Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a la
puntuación directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el número
total de sujetos que forman el grupo normativo.
Ejemplo:
Supongamos que aplicamos un cuestionario de conocimientos en el manejo de ordenadores a un

grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos que
obtuvieron cada una de ellas (f) son las siguientes:
X: 28 27 26 25 24 23 22 21 20 19 18
f: 2 4 21 32 45 37 22 18 12 6 1
A partir de estos datos, los centiles correspondientes a cada puntuación directa, se obtienen de la
siguiente forma:
Centiles
X f F C = (100)F/200
28 2 200 100
27 4 198 99
26 21 194 97
25 32 173 86’5
24 45 141 70’5
23 37 96 48
22 22 59 29’5
21 18 37 18’5
20 12 19 9’5
19 6 7 3’5
18 1 1 0’5

Así, si un sujeto obtiene una puntuación directa de 20 puntos en el cuestionario, diremos que
supera en conocimientos informáticos al 9,5% de los sujetos universitarios, mientras que más del
90% de los alumnos universitarios tienen mayor conocimiento en el manejo de ordenadores que
la persona evaluada.
4.- PUNTUACIONES TÍPICAS
En Análisis de Datos se vio el significado y proceso de cálculo de las puntuaciones típicas (Zx)
asociadas a unas puntuaciones directas determinadas. En este apartado vamos a encontrar una
clara aplicación de estas puntuaciones, y de otras que se derivan de éstas, para baremar un
cuestionario; vamos a diferenciar además entre baremos típicos estándares y baremos
normalizados.
4.1.- PUNTUACIONES TÍPICAS ESTÁNDARES
Como sabemos, una puntuación típica Zi se obtiene haciendo:
Xi X
Zi
SX
Puede ser positiva o negativa e indica el nº de desviaciones típicas que se aleja de la media una
determinada puntuación directa.
Así, conociendo la puntuación típica de un sujeto en un test y la variabilidad del grupo

normativo, podemos interpretar el nivel de rasgo del sujeto (atendiendo a la cuantía y signo de
su puntuación Zi) en comparación con los niveles de los restantes sujetos. Por ejemplo, una
puntuación típica de -2,33 indica que es un sujeto cuya puntuación se encuentra 2,33
desviaciones típicas por debajo de la media.
4.2.- PUNTUACIONES TÍPICAS NORMALIZADAS
Cuando se puede asumir (o se comprueba) que las puntuaciones de un grupo normativo en un

test siguen una distribución normal, un centil concreto Ci dividido entre 100 indica el área de la
curva normal que queda por debajo de la puntuación correspondiente.
Por ejemplo, observando la curva normal de la figura, podemos constatar que el C1 es

aproximadamente el centil 10, y deja por debajo un área de 0,10 de la curva normal; el C2 es el
centil 42, y deja por debajo una proporción de 0,42 del área de la curva normal; el C3 es
aproximadamente el centil 95, y deja por debajo de sí un área de 0,95 de la curva normal.

,5
C2
,4
,3
,2
C1
,1 C3
0,0
-5,0 -3,8 -2,6 -1,4 -,2 1,0 2,2 3,4 4,6
-4,4 -3,2 -2,0 -,8 ,4 1,6 2,8 4,0
Pues bien, conociendo la proporción que queda por debajo de un punto dado de la distribución,
podemos utilizar la tabla de la curva normal para obtener sin cálculos la puntuación típica
asociada (Zn), que se denominará puntuación típica normalizada. Indicará el número de
desviaciones típicas que una puntuación se encuentra por encima (si es positiva) o por debajo (si
es negativa) de la media en una distribución normal.
Por ejemplo, las puntuaciones típicas normalizadas asociadas a los centiles 1, 26, 57 y 97 son:
Centil Centil/100 Zn
1 0,01 -2,33
26 0,26 -0,64
57 0,57 0,18
97 0,97 1,88
Si no se puede asumir racionalmente o no se puede comprobar que las puntuaciones siguen una
distribución normal, no se puede hacer uso de las tablas de la curva normal para obtener las Zn.
Sí podrían calcularse las puntuaciones típicas estándares Zx, ya que no asumimos ningún
supuesto sobre la distribución de los datos. Si los datos de una muestra se ajustan a la normal,
entonces cada Zx de una persona es similar a su Zn.

4.3.- PUNTUACIONES TÍPICAS DERIVADAS
Las puntuaciones típicas (estándares y normalizadas) tienen dos dificultades formales para su
interpretación: la posibilidad de asumir valores no enteros y negativos. Con objeto de superar
estas pequeñas dificultades, se han propuesto otros baremos, que no son más que una
transformación lineal de las puntuaciones típicas, con lo que no se alteran las propiedades de la
escala típica. Estas puntuaciones se denominan escalas típicas derivadas (si el objeto de la
transformación lineal es una puntuación típica estándar) o escalas típicas derivadas
normalizadas (si suponen la transformación lineal de una puntuación típica normalizada),
siendo las principales las denominadas como escala T, escala D y estaninos (o eneatipos):
Escala Derivada Derivada y normalizada
Escala T Ti= 50+(10)Zi Tni= 50+(10)Zni

Escala D Di= 50+(20)Zi Dni= 50+(20)Zni
Estaninos Eni= 5 + 2 Zni
En definitiva, las puntuaciones T representan una escala con media 50 y desviación típica 10.
Así, una puntuación T = 78 significa que la persona obtiene una puntuación Zi = 2.8, es decir,
2.8 desviaciones típicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviación típica 20. Por ejemplo, una
puntuación D = 35 indica que la persona obtuvo una puntuación Zi = -.75, o lo que es lo mismo,
una puntuación que se encuentra .75 desviaciones típicas por debajo de la media del grupo
normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviación típica 2. Una persona que
obtenga el estanino 8 en un test de aptitud espacial indicará que se encuentra 1.5 desviaciones
típicas por encima de la media del grupo normativo.
Consideremos un caso de baremación de una misma puntuación en diferentes escalas. Por

ejemplo, a un sujeto que obtiene una puntuación directa de 30 puntos en un test de aptitud
mecánica con media de 38 puntos y desviación típica 4, le podemos asignar puntuaciones en los
siguientes baremos:
Puntuación típica: -2
Escala T: 30
Escala D: 10
Estanino: 1
Todas estas puntuaciones en escalas o baremos diferentes indican lo mismo: que es un sujeto
que se encuentra dos desviaciones típicas por debajo de la media de grupo normativo en aptitud
mecánica.
La interpretación de cada una de las escalas típicas derivadas normalizadas sigue la misma
lógica que su correspondiente escala típica derivada sin normalizar, haciendo siempre la
salvedad de que la interpretación hay que referirla a una distribución normal.

EJERCICIOS
1. ¿Cuál es el objetivo de la construcción de baremos?
2. Un grupo de 200 personas obtuvo en un test de inteligencia una media de 14.78

puntos y una desviación típica de 3.34. La siguiente tabla recoge la distribución de
frecuencias de las puntuaciones obtenidas por los sujetos en el test:
X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
a) Calcule los centiles correspondientes a cada una de las puntuaciones directas.

b) Calcule las puntuaciones típicas, puntuaciones T y D que corresponden a sujetos con
puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribución se adapta a la distribución de la curva normal, que
puntuaciones típicas normalizadas y en las escalas derivadas (T, D y E) corresponderían a
esos mismos sujetos.
3. La media de un test es 45 y la desviación típica 10. Sabemos que a la puntuación

directa de 40 le corresponde el centil 21, y que en las tablas de la curva normal la puntuación
típica -0,8 deja por debajo de sí la probabilidad de 0,21. Calcule el valor asociado a la
puntuación directa de 40 en las siguientes escalas:
a) Centil.
b) Típica normalizada (Zn).
c) Escala D no normalizada.
d) Estanino.
4. En un test distribuído normalmente, el sujeto A ocupa el centil 20, el B el centil 40 y

el C el centil 60. Por lo tanto, la diferencia entre las puntuaciones directas de A y B será la
misma que para los sujetos B y C. V ( ) F ( ) Depende ( ). Razone su respuesta:
5. Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70 y 80. Diga
razonadamente qué puntuación corresponde a cada escala:
a) La puntuación en la escala centil es ______

b) La puntuación en la escala T es ______
c) La puntuación en la escala D es ______
6. En un grupo normativo se han obtenido los estaninos (normalizados) y las

puntuaciones típicas normalizadas de cada persona. Entre ambos se obtiene una correlación
de 1. Diga cuál de las siguientes alternativas es correcta y porqué.
a) No es posible esa correlación.

b) Se ha obtenido por casualidad.
c) Es necesariamente 1.
d) Sólo es 1 si la distribución es simétrica.

7. La puntuación de una persona en un test de inteligencia se encuentra 0,5

desviaciones típicas por encima de la media del grupo normativo. Obtenga sus puntuaciones
en los baremos Z, T y D.
8. Algunas de las puntuaciones de Juan y Antonio en un examen han sido las siguientes:
Centil Zn En Dn Tn
Juan 93 1,5
Antonio 65
Complete las puntuaciones omitidas.
9. En un test cuyas puntuaciones se distribuyen normalmente, 5 personas (numeradas

del 1 al 5) obtienen las siguientes puntuaciones en los correspondientes baremos:
1) Dn = 50 2) Tn = 20 3) En = 5 4) Zn = -3 5) Centil = 90
Sitúe el número correspondiente a cada persona en la curva normal.
10. Aplicamos un test a un grupo normativo de 350 personas. La distribución de

frecuencias resultante fue:
X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10
a) ¿Qué centil, puntuación típica y típica normalizada corresponden a la persona que obtenga
una puntuación directa de 42?
b) Sabemos que la persona A en la escala T tiene una puntuación que coincide con la de la
persona B en la escala D. ¿Han podido tener las dos personas la misma puntuación en el test?
11. Dos personas tienen exactamente los mismos conocimientos en un examen de

“Introducción a la Psicometría”, que consta de 50 preguntas con 4 alternativas de respuesta y
sólo una correcta. La primera, una persona poco amante del riesgo, sólo responde a lo que
sabe, y obtiene 30 aciertos. La segunda, mucho más arriesgada, responde a todas las
preguntas.
a) ¿Cúantos fallos es previsible que tenga la segunda persona si responde completamente al

azar las preguntas que no sabe? ¿Cuál será su puntuación después de descontarle los aciertos
aleatorios?.
b) Obtenga e interprete el estanino en el que se encontrará la primera persona si su
puntuación típica normalizada en el examen fue de –1.5.

SOLUCIONES
1. La construcción de baremos tiene por objeto poder interpretar puntuaciones directas

de los tests en función de la posición relativa que esas puntuaciones directas tienen en el
conjunto de las puntuaciones obtenidas.
2. a) Los centiles se muestran en la cuarta fila

X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
F 2 5 9 20 37 52 75 95 114 137 159 174 182 190 194 199 200
C 1 3 5 10 19 26 38 48 57 69 80 87 91 95 97 100 100
b)
X Zx T D
10 -1,43 35,7 21,4
21 1,86 68,6 87,2

c)
X Zn Tn Dn E
10 -1,28 37,2 24,4 2,44
21 1,88 68,8 87,6 8,76
3. a) C21= 40
b) Zn = -0,8
c) D = 40
d) E = 3
4. Falso. La escala de centiles tiene propiedades ordinales. Si, como se dice, la

distribución es normal, la diferencia de 20 en la escala de centiles extremos indicará una
mayor diferencia de puntuaciones que la diferencia de 20 en centiles centrales. La diferencia
entre A y B será mayor que la diferencia entre B y C.
5. T = 60 D = 70 C80
6. La alternativa correcta es la c), ya que ambos baremos resultan de una transformación

lineal de las puntuaciones típicas normalizadas.
7. Z = 0.5, T = 50 + (10) 0.5 = 55 y D = 50 + (20) 0.5 = 60.
8. Puntuaciones de Juan: En = 8, Dn = 80, Tn = 65.

Puntuaciones de Antonio: En = 8, Dn = 80, Zn = 1.5 y centil 93.

9.
10.
X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10
F 350 345 330 285 200 110 54 10
C 100 98,57 94,28 81,43 57,14 31,43 15,42 2,85
a) C81 = 42, Z= 0,54, Zn = 0,89

b) Sólo si ZA = ZB = 0. En ese caso, TA = DB = 50
11. a) La segunda persona tendrá 15 errores y 5 aciertos (15 = (20)3/4 y 5 = (20)/4). Su

puntuación corregida será 30.
b) El estanino será 2.

TEMAVI: INTRODUCCIÓN A LA TEORÍA DE LA RESPUESTA AL

ÍTEM
1.- INTRODUCCION
La Teoría de la Respuesta al Item (TRI) constituye un nuevo enfoque en Psicometría que

permite superar algunas de las limitaciones de la Teoría Clásica de los tests (TC).
Su propósito es similar al de la Teoría clásica. Pretende obtener la puntuación que

corresponde a una persona en una dimensión o rasgo, como su inteligencia, su nivel en un
cierto rasgo de personalidad, su dominio en una cierta materia, etc..
La TRI debe su nombre a que se centra más en las propiedades de los ítems individuales que
en las propiedades globales del test, como hacía la TC.
Este capítulo es sólo una breve introducción a la TRI. Lo que vamos a estudiar sólo es
aplicable a ítems que puedan cuantificarse como cero o uno. La TRI permite también el
análisis de ítems con otros formatos de respuesta (por ejemplo, las categorías ordenadas),
pero tales desarrollos no son tratados en estas líneas.
Buena parte de la Psicometría actual está relacionada con la TRI y es muy abundante la
bibliografía existente. Las personas interesadas en ampliar conocimientos, pueden consultar
los libros de Muñiz (1997), Hambleton, Swaminathan y Rogers (1991) y Hambleton y
Swaminathan (1985). Nos hemos basado principalmente en los dos primeros para redactar
este tema.
Entre las principales limitaciones de la TC se pueden exponer las siguientes:
a) La principal limitación consiste en que las características del test y las puntuaciones
de las personas no pueden ser separados: Se define la puntuación de una persona
como el número de preguntas que acierta, y la dificultad de un ítem como la
proporción de personas que lo responden correctamente en un determinado grupo.
Esto tiene una serie de consecuencias negativas:
- Las características de los ítems dependen del grupo de personas en el que se han
aplicado. Por ejemplo, supongamos que queremos conocer el índice de dificultad de
un determinado ítem que mida conocimientos de tauromaquia. Dicho índice será muy
diferente si utilizamos en la baremación un grupo de personas abonadas a la feria de
San Isidro o un grupo de turistas japoneses.
- La puntuación de una persona depende del conjunto particular de ítems

administrados. La puntuación que una persona obtenga será diferente si le aplicamos
dos tests que midan la misma característica pero cuyo nivel de dificultad sea diferente.
Esto hace muy difícil comparar dichas puntuaciones, que sólo podrán interpretarse en
relación al test en el que fueron obtenidas.

Frente a la TC, una de las propiedades de la TRI es su invarianza, en un doble

sentido: invarianza de los ítems respecto a posibles diferentes distribuciones de la
habilidad o del rasgo (en lo sucesivo nivel de habilidad y de rasgo serán sinónimos), e
invarianza de la habilidad medida a partir de diferentes conjuntos de ítems. Haremos
un breve comentario sobre cada tipo de invarianza. Si las condiciones de aplicación de
la TRI se cumplen, ha de ocurrir lo siguiente:
- Sea cual sea la distribución de los niveles de rasgo obtendremos las mismas
estimaciones de los parámetros de los ítems. Esta propiedad se cumple también en
otros ámbitos. Por ejemplo, en Estadística, si se cumplen los supuestos de la regresión
lineal, se llega a los mismos parámetros cuando se ajusta la recta de regresión a toda
la población o sólo a parte de ella. Análogamente, los parámetros de los ítems deberán
ser los mismos si éstos se han aplicado a un grupo de personas con alto nivel de rasgo,
o a un grupo con niveles bajos. Es decir, los parámetros de los ítems serán los mismos
sea cual sea la distribución de los niveles de habilidad de la muestra en los que se han
aplicado.
- El nivel de habilidad de una persona puede ser obtenido a partir de conjuntos de

ítems distintos. Algunas de las aplicaciones de la TRI descansan precisamente en esta
propiedad (véase más adelante el apartado "Aplicaciones").
b) Una segunda limitación tiene con ver el error de medida. La TC supone que el error
de medida es una propiedad del test y, por lo tanto, igual para todos los sujetos,
independientemente de cual sea su puntuación. Por el contrario, la TRI permite
obtener la precisión con la que cada persona es medida.
La TRI permite superar estas y otras limitaciones de la TC mediante unos supuestos fuertes y
restrictivos, y una metodología más compleja, que requiere establecer modelos matemáticos,
la estimación de sus parámetros, enjuiciar el ajuste entre datos y modelos, etc..
Antes de ver cuales son los supuestos, vamos a estudiar los principales modelos de la TRI.
2.- CURVA CARACTERÍSTICA DEL ÍTEM
La curva característica de un ítem (CCI) indica la probabilidad que tienen de acertarlo las
personas que se enfrentan a él. Esta probabilidad depende, naturalmente, de cual sea el nivel
de la persona en la variable medida.
Podemos ver esto con más claridad mediante un ejemplo. Supongamos que tenemos un test
que mide inteligencia y que ha sido aplicado a muchísimas personas (100.000, por ejemplo).
Supongamos que la menor y mayor puntuación obtenidas en el test son 50 y 150. Vamos a
representar el rendimiento en un ítem concreto de la siguiente forma: Nos fijamos en todas
las personas que han obtenido la puntuación 50 (supongamos que son 132). Vemos cuantas
personas de las anteriores han acertado el ítem (supongamos que han sido sólo 5) y

calculamos la proporción (5/132 = 0.04). Hacemos lo mismo con los que obtuvieron en el test
51 puntos (y obtenemos la proporción, supongamos que 0.15),... con las que obtuvieron en
el test 100 (la proporción fue 0.45),... con las que obtuvieron 150 (la proporción fue 0.99). La
siguiente gráfica muestra la proporción de aciertos en el grupo de personas que obtuvo en el
test 50 puntos, 51, .. 150.
Gráfica 1
1,0
,8
Probabilidad de acertar el ítem
,6
,4
,2
0,0
40 60 80 100 120 140 160
Inteligencia
En este ejemplo podemos ver que cuanto mayor es el cociente intelectual de las personas,
mayor es la proporción de aciertos en el ítem. A una puntuación de 100 le corresponde una
proporción de 0.45; mientras que a una de 150 le corresponde una proporción de 0.99.
En la gráfica 1 tenemos una CCI empírica, pero la TRI necesita resumir la información que
contiene cada CCI empírica en una fórmula o modelo en el que uno, dos o tres valores
resuman la información contenida en la CCI empírica. En la aplicación de de la TRI, un paso
inexcusable es optar por un modelo (o fórmula) que sea una buena descripción del
rendimiento en los ítems. Vamos a ver a continuación que son varios los modelos que podrían
dar cuenta de una distribución como la mostrada en la gráfica 1. Los modelos de CCI más
utilizados en la práctica son los logísticos de uno, dos y tres parámetros.

2.1. – MODELO LOGÍSTICO DE UN PARAMETRO (MODELO DE RASCH)
Este es el modelo más simple de todos. Se le llama también modelo de Rasch. La

probabilidad de acertar un ítem depende solamente del nivel de dificultad de dicho ítem y del
nivel del sujeto en la variable medida (nivel de rasgo o habilidad).
La expresión matemática es:
D( T - b)
e 1
P( T ) =
1 + e D( T - b)
1 + e D( T - b)
Donde
P(θ): Probabilidad de acertar el ítem si el nivel de rasgo es θ.

θ : Nivel de habilidad del sujeto.
b : Indice de dificultad del ítem.
e : Base de los logaritmos neperianos (2.718)
D : Constante (D = 1.7 ó 1)
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala (en la gráfica 1 se ha
utilizado la escala de cociente intelectual). No obstante, en la práctica, suele utilizarse una
escala típica, con media cero, varianza uno y un rango de valores entre -3.0 y 3.0.
El índice de dificultad (b) es aquel valor de θ para el cual P(θ)= 0.5. Por tanto, cuanto mayor
sea "b" más difícil es el ítem. En la gráfica 2, se han representado dos CCIs. En la primera, la
que está más a la izquierda, el valor de θ al que corresponde P(θ)= 0.5 es aproximadamente -
0.95. Por lo tanto, la dificultad del primer item es b1= -0.95. En el segundo ítem, el valor de θ
al que corresponde P(θ)= 0.5 es aproximadamente 0.6. Por lo tanto, la dificultad del segundo
ítem es b2= 0.6. La gráfica muestra que la probabilidad de acertar el ítem es sistemáticamente
menor en el ítem 2 que en el ítem 1. El ítem 2 es más difícil que el uno, y sus índices de
dificultad así lo muestran (b2 > b1).

Gráfica 2
1,0
,8
,6
,4
Probabilidad
,2
P1
0,0 P2
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
2.1.- MODELO LOGÍSTICO DE DOS PARAMETROS
Este modelo añade al anterior un segundo parámetro que indica la capacidad discriminativa
del ítem:
Da( T - b)
e 1
P( T ) =
1 + e Da( T - b)
1 + e Da( T - b)
Donde a" es el índice de discriminación del ítem.
El parámetro "a" indica la mayor o menor inclinación o pendiente de la CCI cuando θ=b.
Normalmente los valores de "a" oscilan entre 0,3 y 2.5, y se suelen considerar items
"discriminativos" los que tienen valores "a" mayores de uno.
En la gráfica 3 vemos la CCI de dos ítems de igual dificultad (b1= b2= 0.75), la principal
diferencia entre ellos es que el ítem 2 (el de la derecha), cuando θ = 0.75, tiene una pendiente
mucho mayor (a2 = 2.4) que la del ítem 1 (a1 = 0.4). Como la pendiente es tan alta, las
personas con θ > 0.75 tienen casi todas ellas una muy alta probabilidad de acertar el ítem 2 (y
casi todas ellas lo acertarán), y las personas con θ < 0.75 tienen casi todas ellas una

probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por lo tanto, el ítem 2
discrimina entre los que tienen θ > 0.75 y los que tienen θ < 0.75.
Por su parte, el ítem 1 tiene muy poca pendiente cuando θ= 0.75. En consecuencia, aunque
la mayoría de las personas con θ > 0.75 lo acertarán, muchas lo fallarán (pues la probabilidad
de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las personas con θ
< 0.75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es claramente
superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida que aumenta θ
por lo que no es buen discriminador entre las personas con θ > 0.75 y las que tienen θ < 0.75.
Gráfica 3
1,0 1,0
,8 ,8
Probabilidad de acertar ítem 1
,6 Probabilidad de acertar ítem 2 ,6
,4 ,4
,2 ,2
0,0 0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo Nivel de rasgo
2.3.- MODELO LOGÍSTICO DE TRES PARÁMETROS
Este modelo añade a los dos parámetros "a" y "b" un tercero, "c", que representa la
probabilidad de acertar el ítem al azar. Exactamente "c" es el valor de P(θ) para valores
extremadamente bajos de θ. La expresión matemática es la siguiente:
Da( T - b)
(1 c ) e
P( T ) = c
1 + e Da( T - b)
1 c
c
1 + e Da( T - b)

En la gráfica 4 podemos ver la CCI de varios ítems con los mismos valores de a (1) y b
(0), pero distintos valores de parámetro “c” (c1= 0, c2= 0.15 y c3= 0.30).
Gráfica 4
1,0
,8
Probabilidad de acertar el ítem
,6
,4
ítem 1
,2
ítem 2
0,0 ítem 3
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
3.- SUPUESTOS DE LA TRI
3.1.- UNIDIMENSIONALIDAD
Tal y como hemos visto en el apartado anterior, en todos los modelos de CCIs, la
probabilidad de acertar un ítem depende únicamente de sus parámetros y de θ. En un ítem
que mida el nivel de vocabulario de inglés, la probabilidad de acertarlo depende de los
valores "a", "b" y "c" del ítem y del nivel de vocabulario inglés de la persona (su θ). La CCI
excluye que el rendimiento en el ítem dependa de los niveles de la persona en otros rasgos
más o menos relacionados con el de vocabulario de inglés (como el nivel de inglés hablado,
el nivel de gramática inglesa, ....). De tener en consideración otros rasgos, en la fórmula
aparecerían los elementos θ2, θ3, etc.. , es decir, los niveles de la persona en esos otros rasgos.
En otras palabras, el rendimiento en un ítem depende del nivel de la persona en un sólo rasgo
o dimensión.
Un test consta de un conjunto de ítems. La TRI supone además que todos los ítems que
forman el test han de medir un mismo y único rasgo. El supuesto de unidimensionalidad
exige que todos y cada uno de los ítems del test midan una única dimensión.

Este supuesto nunca se cumple totalmente porque el rendimiento en un test está influido por
variables cognitivas y de personalidad, como la motivación, ansiedad, etc. Por lo que, en la
práctica, es una cuestión de grado, y no puede afirmarse categóricamente si un conjunto de
ítems son o no unidimensionales. Hay, no obstante, varios métodos para comprobar la
unidimensionalidad. El propuesto por Reckase (1979) se basa en el análisis factorial y
consiste en estudiar la varianza explicada por el primer factor extraído de la matriz de
correlaciones entre ítems. En la práctica, cuando el primer factor explica más de un 25% de la
varianza total, tras haber eliminado los ítems con saturaciones inferiores a 0.10, se considera
que se cumple el supuesto de unidimensionalidad.
3.2.- INDEPENDENCIA LOCAL
Existe independencia local entre los ítems de un test si la respuesta que una persona da a uno
de ellos no depende de las respuestas que da a los otros.
La independencia local se deriva de la unidimensionalidad porque, simplemente, significa

que la respuesta a un ítem sólo depende de sus parámetros y de θ, y no está influida por el
orden de presentación de los ítems, las respuestas que ya se hayan dado, etc..
Matemáticamente puede expresarse diciendo que la probabilidad de que un sujeto acierte "n"
ítems es igual al producto de las probabilidades de que acierte cada uno de ellos por separado.
Por ejemplo, un test consta de dos ítems y la probabilidad de que Juan acierte el primero es P1
= 0.4 y la de que acierte el segundo P2 = 0.8. El principio de independencia local establece
que la probabilidad de que acierte los dos viene dada por: (P1)(P2) = (0.4)(0.8) = 0.32.
La probabilidad de acertar el primero y fallar el segundo sería (como Q2 = 1 - P2 = 1 - 0.8 =

0.2):
(P1)(Q2) = (0.4)(0.2) = 0.08.
La de que falle el primero y acierte el segundo será (Q1)(P2) = (0.6)(0.8) = 0.48.
La de que falle ambos ítems será (Q1)(Q2) = (0.6)(0.2) = 0.12.
Supongamos que 100 personas con idéntico nivel de rasgo que Juan contestan al test.
Espereramos aproximadamente los siguientes resultados (1, acierto; 0, error):
Ítem 1 Ítem 2 Número de personas

1 1 32
1 0 8
0 1 48
0 0 12
------
100

Si correlacionamos las cien respuestas al primer item con las cien respuestas al segundo, la
correlación de Pearson es cero. Lo visto sugiere un procedimiento para contrastar si el
supuesto de independencia local se cumple. Consiste en obtener la matriz de correlaciones
entre los ítems, pero no en la muestra completa, sino en submuestras que sean lo más
homogéneas posible en cuanto al nivel de habilidad de sus miembros. En tales submuestras
tiene que ocurrir que ningún ítem correlacione con ningún otro, si se cumple el supuesto.
(Hambleton y otros, 1991, pag. 56).
4.- ESTIMACIÓN DE PARÁMETROS
Seleccionado un modelo de TRI, hay que aplicar el test a una muestra amplia y estimar los
parámetros de cada ítem y la θ de cada sujeto, a partir de la matriz de respuestas obtenidas. Si
tenemos, por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una
muestra de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de
unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el modelo
logístico de tres parámetros, tendremos que estimar los 30 parámetros de los ítems (es decir,
"a", "b" y "c" de cada ítem) y 300 parámetros de las personas (los 300 valores de "θ", uno por
persona). La estimación de parámetros es el paso que nos permite llegar de las respuestas
conocidas de las personas a los ítems a los valores desconocidos de los parámetros de los
ítems y de los niveles de rasgo.
Para obtener las estimaciones se aplica fundamentalmente el método de máxima

verosimilitud. La lógica general de la estimación consiste en encontrar los valores de los
parámetros que hagan más probable la matriz de respuestas obtenida.
Si lanzamos una moneda diez veces y obtenemos siete caras, el estimador máximo-verosímil
del parámetro "p" (probabilidad de cara de la moneda) es 7/10= 0.7, como se demuestra en
los libros de Estadística (véase Amón (1984), pag. 249 y ss). El resultado "siete caras en diez
lanzamientos" es poco compatible con que la probabilidad de cara sea 0.1, ó 0.2, ... . De
hecho, la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p= 0.1 o si
p= 0.2. Dicha probabilidad pasa a ser 0.117 si p= 0.5, y alcanza el máximo valor (0.267)
cuando p= 0.7. El estimador máximo-verosímil proporciona el valor de "p" bajo el que tiene
máxima probabilidad el suceso que hemos encontrado.
En TRI, el procedimiento de estimación sigue una lógica similar. Se obtienen las

estimaciones de los parámetros y de los niveles de θ con los que la matriz de datos
encontrada tiene la máxima compatibilidad.
Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems, y se lo
aplicamos a un sujeto. Supongamos también que acierta el primero y falla el segundo. A
partir de estas respuestas, la estimación máximo-verosímil de su θ se puede explicar de forma
gráfica, como lo hacemos a continuación (en este ejemplo, para simplificar la explicación,
suponemos que los parámetros de los ítems son conocidos).

Como el sujeto ha acertado el primer ítem, podemos calcular, mediante su CCI

(recuérdese que los parámetros del ítem son conocidos), la probabilidad de que esto ocurra
para cada nivel de θ. Gráficamente, para un ítem cuyo único parámetro es b1 = -0.7:
Gráfica 5
1,0
Probabilidad de acertar ítem 1 ,8
,6
,4
,2
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Si sólo hubiera respondido a ese ítem, a partir de la gráfica anterior podemos ver que no
existe un único valor de θ para el que la probabilidad del suceso encontrado (acierto en el
primer ítem) sea máxima. Por el contrario, son infinitos los valores de θ que para los que la
CCI alcanza el valor máximo 1.
Como el sujeto ha fallado el segundo ítem, a partir de su CCI podemos calcular la

probabilidad de que esto ocurra para cada uno de los valores de θ. En concreto, como la
probabilidad de fallar (Q) se puede obtener a partir de la probabilidad de acertar (Q = 1-P),
podremos representar la probabilidad de error en el segundo ítem como se muestra en la
siguiente gráfica. Nótese que la siguiente gráfica no es la CCI del ítem 2, pues para cada
valor de θ se ha representado la probabilidad de error y no la de acierto, como exige la CCI.
Supongamos que el único parámetro del ítem 2 es b2 = 1.

Gráfica 6
1,0
,8
Probabilidad de fallar el ítem 2

,6
,4
,2
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Esta gráfica nos indica que es más probable que fallen el ítem los sujetos con niveles bajos de
habilidad que los sujetos con niveles altos (cosa bastante lógica). Por lo tanto, si el sujeto sólo
hubiese respondido a este ítem, de nuevo son infinitos los valores de θ que maximizan la
probabilidad del suceso encontrado (error en el segundo ítem).
Como hecho ha respondido a dos ítems, el valor estimado de θ para este sujeto sería aquel
que haga más probable el resultado obtenido (acertar el primer ítem y fallar el segundo).
Según el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto,
la probabilidad de que ocurran ambos conjuntamente es igual al producto de las
probabilidades de acertar el primero (P1) por la de fallar el segundo (Q2). Si representamos
gráficamente la función L = (P1)(Q2) para cada valor de θ, correspondiente al ejemplo que
venimos comentando, obtendríamos una curva parecida a la siguiente:
Gráfica 7
,6
,5
,4
,3
,2
Verosimilitud (L)
,1
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo

En este caso vemos que la θ que hace más probable el resultado obtenido (acierto en el primer
ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0.15 será la θ estimada para
este sujeto.
En general, una persona responderá a un número de ítems mayor de dos y producirá una
particular secuencia de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y
errores se puede escribir como:
L = P R Q1- R
Donde:
R: Resultado en cada ítem (1, acierto; 0, fallo)

P: Probabilidad de acierto en cada ítem
Q: Probabilidad de error en cada ítem (Q= 1-P).
La θ estimada por el método de máxima verosimilitud será el valor de θ para el que la

anterior expresión alcanza su máximo valor.
Apliquemos lo anterior al siguiente ejemplo. Un test consta de 4 ítems, cuyos parámetros,

según el modelo de Rasch, son -1, 0, 1 y 2. Una persona completa el test y acierta los tres
primeros ítems y falla el cuarto. Obtenga el valor de la función de verosimilitud, L, para los
siguientes valores de θ: -3, -2, -1, 0, 1 y 2. ¿Cuál de los anteriores valores maximiza L?
Aplicando la fórmula del modelo de Rasch (o de un parámetro), se obtiene la probabilidad de

acierto para cada ítem y cada uno de los valores de θ:
P(θ)
--------------------------------------------------
Ítems b -3 -2 -1 0 1 2 3
1 -1 0.03 0.15 0.50 0.85 0.97 0.99 0.99
2 0 0.01 0.03 0.15 0.50 0.85 0.97 0.99
3 1 0.01 0.01 0.03 0.15 0.50 0.85 0.97
4 2 0.01 0.01 0.01 0.03 0.15 0.50 0.85
La función de verosimilitud, L, al haber acierto en los 3 primeros ítems y fallo en el último,

será la siguiente:
L =(P11Q10)(P21Q20)(P31Q30)(P40Q41)= (P1)(P2)(P3)(Q4)
Aplicando la fórmula anterior a cada uno de los valores de θ se obtienen los siguientes
resultados:

L(3) = (0.99)(0.99)(0.97)(1-0.85) = 0.14

L(2) = (0.99)(0.97)(0.85)(1-0.50) = 0.41
.
.
.
Los restantes valores de L son L(1)= 0.35, L(0)= 0.06, L(-1) = L(-2) = L(-3) = 0.0. Por lo
tanto, de los siete valores de θ considerados, el valor que maximiza L es θ = 2.
Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsqueda
restringida a unos cuantos valores, se necesita hallar el valor de θ que maximiza L de entre
todos los posibles valores, no sólo de entre unos pocos.
En el caso de la TRI no existen fórmulas que permitan obtener las estimaciones de manera
directa. En el ejemplo de las monedas se sabe que el estimador máximo-verosímil de la
proporción poblacional es la proporción muestral. En la TRI, al no existir tales fórmulas, las
estimaciones se obtienen por métodos numéricos, mediante programas de ordenador. En el
caso más general se establece una función L que depende de los parámetros de los ítems y de
los niveles de rasgo. Los programas de ordenador contienen algoritmos que encuentran el
conjunto de estimaciones para el que la función L alcanza el valor máximo. Los parámetros
de los ítems y los niveles de rasgo de las personas serán los valores dados por el programa de
ordenador para una matriz de respuestas particular.
En la Teoría Clásica, una vez aplicados unos ítems a un conjunto de personas, se puede
obtener la puntuación de cada persona en el test combinando las puntuaciones en los ítems
del test. En la TRI, una vez que se han aplicado los ítems, se genera la matriz de respuestas
que contiene los aciertos y fallos de cada persona en cada ítem del test. A continuación, se ha
de aplicar un programa de ordenador (ASCAL, BILOG,..) que nos dará los niveles de rasgo y
los parámetros de los ítems. Según hemos visto, por tratarse de estimaciones por el método de
máxima verosimilitud, los valores que nos da el programa son los que hacen más plausible la
matriz de datos original, son los más compatibles con la matriz de datos original.
5.- FUNCIÓN DE INFORMACIÓN
Una vez aplicado un conjunto de ítems y estimado el nivel de habilidad de un sujeto, la TRI
nos permite calcular el error típico de estimación (Se) de esa persona en el test aplicado.
Esto es una diferencia fundamental con la TC, que asume que el error es el mismo para todos
los sujetos.
El error típico de estimación nos dice la precisión con que hemos estimado θ. A mayor error,
menos precisión. Su tamaño depende de varios factores:
1- Número de ítems aplicado: En general, al aumentar la longitud del test disminuye Se.

2- La capacidad discriminativa de los ítems: Al aumentar el parámetro "a"

disminuye Se.
3- La diferencia entre "b" y θ: Cuanto más próximo a θ esté el índice de dificultad de

los ítems (b), menor será Se.
La varianza de las puntuaciones θ estimadas, Var(θ), se obtiene mediante la expresión

siguiente:
1
Var( T ) = S e2 =
(Pc )2
¦
PQ
Donde P' es la derivada de P. La varianza anterior nos dice cómo es de importante la

variación entre los valores de θ estimados y el valor verdadero de θ. Cuanto menor sea esta
varianza, indicará que más nos podemos fiar del test; pues sabemos que son pocas las
diferencias entre los valores estimados y el verdadero.
Por su parte, el error típico de estimación de θ es la desviación típica de las puntuaciones θ

estimadas, es decir,
Se = Se
2
El error típico de estimación permite obtener el intervalo confidencial en el que, con

probabilidad predeterminada, se ha de encontrar el nivel de habilidad de la persona. En
concreto, si a la "θ" estimada de una persona le sumamos y restamos (1.96)Se, obtenemos los
extremos del intervalo en el que, con probabilidad 0.95, se encontrará su verdadero nivel de
rasgo.
Por ejemplo, si la θ estimada es 0.8 y su error típico de estimación es 0.22, entonces, el nivel
de rasgo de dicha persona se encuentra entre 0.37 (pues 0.8-(1.96)(0.22)= 0.37) y 1.23 (pues
0.8+(1.96)(0.22) = 1.23), con probabilidad 0.95.
La función de información del test aplicado se define como la inversa de Var(θ), es decir:
1
I( T ) = 2
Se
Por lo tanto,
(Pc )2
I( T ) = ¦
PQ

Cuanto mayor sea I(θ) menor será Se y, por tanto, mayor la precisión de la estimación de θ.
Si se calcula I(θ) para todos los niveles de θ y se representa gráficamente se obtiene una
curva como la que muestra la siguiente gráfica:
Gráfica 8
,4
,3
Información del test de dos ítems
,2
,1
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Vemos que este test (compuesto por dos ítems, cuyos parámetros son a1= 1.5 , b1 = -0.7 a2= 1
y b2 = 2 ) aporta más información para valores de θ en torno a -0.5.
La FI tiene una gran importancia en la utilización de los tests, ya que nos permite elegir aquel
que aporte más información en el intervalo de θ que estemos interesados en medir.
También es muy útil en la construcción del test. A partir de un banco de ítems calibrados (es
decir, de los que hemos estimado sus parámetros) podemos seleccionar aquellos que permitan
que la FI se ajuste a unos objetivos determinados.
Todos los conceptos anteriores referidos a la función de información del test son aplicables
también a cada uno de los ítems por separado. De hecho la FI del test no es más que la suma
de las FFII de cada uno de los ítems que lo componen. En concreto la FI de un ítem sería:
2
(Pc )
I( T ) =
PQ

Vemos que la única diferencia con la FI del test es que ha desaparecido el signo de sumatorio.
Al igual que con el test completo, podemos representar gráficamente la FI de los ítems y ver a
que nivel de θ proporcionan más información. La siguiente gráfica muestra la función de
información de los dos ítems que forman el test y la función de información del test.
Gráfica 9
,4
,3
,2
,1
test
Información
ítem 1
0,0 ítem 2
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de rasgo
Esto nos permite elegir los ítems más adecuados en cada momento en función de nuestras
necesidades. Por ejemplo, si queremos llevar a cabo una selección de personal en la que sólo
vamos a elegir unos pocos sujetos muy competentes, a partir de un banco de ítems
previamente calibrado, podríamos elegir aquellos ítems que proporcionan más información
para niveles altos de θ. Esto nos permite reducir enormemente el número de ítems de un test
sin perder precisión al estimar θ.
6.- APLICACIONES
La TRI ha permitido la elaboración y el desarrollo de tests adaptativos informatizados (TAIs)

(véase Renom, 1993; Olea, Ponsoda y Prieto, 1997; Olea y Ponsoda, 2003). Tales tests

difieren sustancialmente de los tests al uso. Un TAI consta de un banco de ítems bien
calibrado y de un programa de ordenador encargado de decidir qué ítem del banco presentar a
la persona, de presentárselo, de analizar la respuesta emitida por la persona, de elegir un
nuevo ítem del banco, etc..
Un TAI difiere muchísimo de un test de lápiz y papel. Una primera diferencia es que es
administrado por un ordenador y una segunda es que cada persona es evaluada con items
distintos. Sin embargo, lo fundamental de los TAIs es que los ítems son elegidos con el
criterio de estimar el nivel de habilidad de la persona con la máxima precisión y menor
número de ítems. Más en concreto, un TAI procede como se expone a continuación:
a) Presentación del primer ítem.

b) Estimación del nivel de rasgo de la persona.
c) Búsqueda del ítem del banco más informativo para el nivel de θ estimado en el paso
precedente.
d) Aplicación del ítem elegido.
e) Estimación del nivel de rasgo correspondiente a la secuencia de respuestas dada a
los ítems presentados.
f) De nuevo paso "c", y así sucesivamente hasta que se haya conseguido un error
típico de estimación menor que un tope preestablecido o se haya administrado un
predeterminado número de ítems.
El principal logro de los TAIs es que con muy pocos ítems (veinte, más o menos) se pueden
conseguir precisiones en la medición comparables o mejores que las obtenidas en tests no
adaptativos mucho más largos. Esto es así porque en los TAIs sólo se administran ítems
auténticamente informativos para determinar el nivel de rasgo de la persona y se evitan los
ítems demasiados fáciles o difíciles, que apenas informan sobre el nivel de rasgo. Hemos
construido un TAI de vocabulario inglés (Ponsoda, Olea y Revuelta, 1994) y hemos obtenido
que, en ocasiones, con sólo diez ítems se obtiene una excelente precisión (un error típico de
estimación equivalente a un coeficiente de fiabilidad de 0.9).
7.- REFERENCIAS (de este tema)
Amón J. (1984). Estadística para psicólogos. Probabilidad. Estadística Inferencial. Volumen

2. 3ª edición. Madrid: Pirámide.
Hambleton R.K. y Swaminathan H. (1985). Item Response Theory: Principles and
applications. Boston: Kluwer.
Hambleton R.K, Swaminathan H. y H.J. Rogers (1991). Fundamentals of Item Response
Theory. MMSS volumen 2. Londres: Sage.
López Pina, José Antonio (1995). Teoría de la respuesta al ítem: fundamentos. Barcelona:
PPU. Barcelona.
Muñiz Fernández J. (1997). Introducción a la Teoría de Respuesta a los Items. Madrid:
Pirámide.
Olea, J., Ponsoda, V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirámide.
Olea, J. y Ponsoda, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.
Renom J. (1993). Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona:
PPU.

EJERCICIOS
1. Dos ítems han sido calibrados con el modelo logístico de dos parámetros. Sus
parámetros son a1=1 y b1= 0.5, y a2= 0.5 y b2= 2.5.
a) ¿Qué item de los dos es más fácil?

b) ¿Qué item es más discriminativo?
c) Una persona cuya θ= 2 responde a los dos ítems (y se cumple el supuesto de independencia
local) ¿Cual es la probabilidad de que falle los dos? ¿Cual la de que acierte los dos? ¿Cual la
de que acierte uno y falle el otro?
2. Aplicamos tres ítems a 5 personas y sus respuestas han sido las siguientes (1, acierto;
0, error):
Persona Ítem 1 Ítem 2 Ítem 3

1 1 0 1
2 1 1 0
3 1 1 0
4 1 0 0
5 0 1 1
Procedemos a la estimación conjunta, mediante el modelo L3P, de los parámetros de

los ítems y de los niveles de rasgo de las cinco personas.
a) Todas las personas menos la número cuatro tienen dos aciertos, por lo tanto todas ellas
menos la cuatro deberán obtener el mismo nivel de rasgo. V( ) F( )
b) La dificultad del ítem 1, b1, deberá de ser menor que la del ítem 2, b2. V( ) F( ).
c) El parámetro "c" deberá ser 1/3, pues sólo hay tres ítems. V( ) F( ).
3. Obtenga cuanto vale la probabilidad de acertar un ítem en el modelo logístico de tres

parámetros cuando el nivel del habilidad de la persona coincide con la dificultad del item.
4. Los tres parámetros de un ítem son a= 2, b= 1 y c= 0.2.
a) ¿Qué probabilidad de acertar el ítem tiene una persona con nivel de habilidad θ = 0?
b) ¿Puede corresponder a una persona una probabilidad de acertar de 0.10 en ese ítem?
5. Elegimos cien personas que tienen exactamente el mismo nivel de rasgo. Se les pasa
un ítem fácil (b= -1) y lo aciertan 80 de los cien. Se les pasa a continuación un ítem más
difícil (b= 0.5) y lo aciertan 40 de los cien. Supongamos que se cumplen los supuestos de la
TRI ¿cabe esperar que los 40 que han resuelto el segundo ítem, el más difícil, hayan también
resuelto el ítem más fácil?
6. La θ estimada de Andrés es 1.2 y su error típico de estimación 0.15.
a) Obtenga el intervalo en el que se encuentra la puntuación θ de Andrés con probabilidad

0.99.

b) Obtenga la ș estimada y el error típico de estimación de Antonio, sabiendo que su ș

está entre 1.12 y 2.10, con probabilidad 0.95.
7. Pasados varios ítems, un TAI estima a una persona una ș de 0.5. Los parámetros de
dos ítems que todavía no han sido aplicados son los siguientes: a1= 1, b1= 0.5, a2= 2 y b2= 1.
Si el TAI ha de suministrar un ítem de estos dos ¿Cual suministraría? (La derivada P'
correspondiente al modelo logístico de dos parámetros es P'= DaPQ).
8. El nivel de rasgo de una persona es 1 (es decir, ș= 1). Aplicando el modelo logístico
de dos parámetros obtenemos las CCIs de dos items. La probabilidad de acierto en el item 1
(a1= 1 y b1= 0.5) coincide con su probabilidad de acierto en el item 2 (a2= 2, b2 no conocido).
Obtenga cuanto vale b2.
9. Tenemos tres ítems. La probabilidad de acierto, en cada uno de ellos, que

corresponde a cada uno de los siguientes valores de ș se ofrece a continuación:
P(ș)
---------------------------------------------
-3 -2 -1 0 1 2 3
Ítem 1 0.1 0.15 0.2 0.35 0.5 0.65 0.8
Ítem 2 0.0 0.0 0.0 0.10 0.5 0.90 1.0
Ítem 3 0.0 0.10 0.5 0.90 1.0 1.0 1.0
a) Dibuje las tres CCIs.

b) Compare la dificultad y poder discriminativo de los ítems 1 y 2. ¿Cual es más difícil?
¿Cual es más discriminativo?
c) Compare la dificultad y poder discriminativo de los ítems 2 y 3. ¿Cual es más difícil?
¿Cual es más discriminativo?
10. Un test consta de sólo dos ítems (a1=1, b1=0, y a2=2, b2=-1).
a) Obtenga la función de información del test para los valores de ș= -3, -2, -1, 0, 1, 2 y 3. (Se
recuerda que en el modelo logístico de dos parámetros P'= DaPQ).
b) ¿Para qué valor de ș (de los expuestos anteriormente) el test proporciona la máxima
información?
c) Obtenga el error típico de estimación con el que el test estimaría la ș de una persona cuya ș
real fuese -1.

SOLUCIONES
1. a) El ítem 1, pues b1 < b2.

b) El ítem 1, pues a1 > a2.
c) 0.367 (dos aciertos), 0.043 (dos fallos) y 0.590 (un acierto y un fallo).
2. F, V, F.
3. (1+c)/2.
4. a) P(0) = 0.226.
b) Es imposible, pues P(ș) c = 0.20.
5. No. La independencia local supone que la probabilidad de acertar ambos items será
(80/100)(40/100) = 0.32.
6. a) límite inferior: 1.2-(2.56)(0.15) = 0.816.

límite superior: 1.2+(2.56)(0.15) = 1.584.
b) zeta estimada = (1.12+2.10)/2 = 1.61.
error típico = (2.10-1.61)/1.96 = 0.25.
7. En el primer ítem, P=0.5, Q=0.5, P'=0.425 e I(0.5)=0.72.

En el segundo, P=0.15, Q=0.85, P'=0.446 e I(0.5)=1.47.
El TAI aplicaría el segundo ítem, a pesar de que la dificultad del primero coincide con
la ș estimada.
8. Ha de cumplirse que a1/a2 = (ș-b2)/(ș-b1).

De donde, b2= 0.75.
9. b) Misma dificultad (b1=b2= 1). Más discriminativo, el dos; pues su CCI tiene más
pendiente.
c) Más fácil el ítem tres (b3= -1) y misma discriminación.
10. a) En ítem 1, I(-3)= 0.017, I(-2)= 0.091, I(-1)= 0.376, I(0)= 0.72, I(1)= 0.376,
I(2)=0.091 e I(3)=0.017.
En ítem 2, I(-3)= 0.014, I(-2)= 0.364, I(-1)=2.89, I(0)= 0.364, I(1)= 0.014, I(2)=0.000
e I(3)=0.000.
En el test, I(-3)= 0.031, I(-2)= 0.455, I(-1)=3.266, I(0)= 1.084, I(1)= 0.390, I(2)=0.091
e I(3)=0.017.
b) De los niveles de rasgo considerados, el que se estimaría con mayor precisión es ș
= -1. Es decir, el test resulta máximamente informativo para ș= -1.
c) S2e = 1/3.266 = 0.306. Se = 0.55.

 International Journal of Clinical and Health Psychology ISSN 1697-2600

2007, Vol. 7, No. 3, pp. 863-882
Normas para el desarrollo y revisión de estudios instrumentales: consideraciones

sobre la selección de tests en la investigación psicológica
Hugo Carretero-Dios1 y Cristino Pérez (Universidad de Granada, España)
(Recibido 7 de mayo 2007 / Received May 7, 2007)

(Aceptado 11 de junio 2007 / Accepted June 7, 2007)
RESUMEN. En este trabajo se discuten los criterios a tener en cuenta a la hora de

seleccionar tests de evaluación psicológica en un contexto de investigación.
Tradicionalmente la atención se ha centrado y se centra sobre las fases que deben regir todo
proceso de construcción/adaptación de tests. Estándares internacionalmente aceptados
sirven para dirigir este trabajo, y la comunidad científica coincide en la importancia de
éstos. No obstante, y más allá de cualquier proceso de construcción/adaptación, el hecho es
que el uso de tests es una constante en la investigación psicológica, y una adecuada
selección de las pruebas resulta un asunto de vital importancia. Por ello, y esquematizando
en primer lugar los criterios que deben guiar la construcción/adaptación de test, en este
estudio teórico se desarrollan unas directrices generales a tener en cuenta a la hora de
seleccionar tests para efectuar una investigación psicológica. La información va a
presentarse organizada en un total de seis apartados, cada uno de los cuales corresponde a
una fase distinta dentro del proceso de creación de tests: a) delimitación conceptual del
constructo objeto de evaluación; b) información sobre la construcción y evaluación
cualitativa de ítems; c) resultados del análisis estadístico de los ítems; d) evidencias
empíricas de la estructura interna de la prueba; e) resultados de la estimación de la
fiabilidad; y f) evidencias externas de la validez de la puntuaciones. Se finaliza el trabajo
reflexionando sobre el alcance de las directrices propuestas y sobre la importancia de
seleccionar bajo criterios claros los tests que vayan a usarse en una investigación.
PALABRAS CLAVE: Normas para la revisión de estudios instrumentales. Construcción

de tests. Adaptación de tests. Selección de tests. Estudio Teórico.
ABSTRACT. This paper discusses the criteria that should be considered when selecting
psychological assessment tests in a research context. Traditionally attention has focused –
and still does – on the stages that must govern any process of test construction/adaptation.
This work is guided by internationally accepted standards, whose scientific importance is
agreed by the scientific community. However, beyond any construction/adaptation process,
the use of tests is a constant feature of psychological research, so it is of vital importance to
select the tests adequately. For this reason, in this theoretical study we provide a summary
of the criteria that should guide test construction/adaptation as well as some general
1
Correspondencia: Facultad de Psicología. Universidad de Granada. Campus Cartuja. 18071 Granada
(España). E-mail: hugocd@ugr.es

CARRETERO-DIOS y PEREZ. Desarrollo y revisión de estudios instrumentales
guidelines to consider when selecting tests for psychological research. The information
presented is organized into six sections, each of which corresponds to a different stage in the
process of test creation: a) conceptual definition of the construct to assess; b) information
about item construction and qualitative assessment; c) results of the statistical analysis of the
items; d) empirical evidence of the internal structure of the test; e) results of the reliability
estimation; and f) external evidence of score validity. The study ends with a reflection on
the scope of the proposed guidelines and the importance of using clear criteria to select the
tests used in research.
KEY WORDS. Standards for the review of instrumental studies. Test construction. Test
adaptation. Test selection. Theoretical study.
RESUMO. Neste trabalho discutem-se os critérios a considerar na hora de seleccionar os

testes de avaliação psicológica num contexto de investigação. Tradicionalmente a atenção
tem-se centrado e centra-se sobre as fases que devem orientar todo o processo de construção
/ adaptação de testes. Critérios standards internacionalmente aceites servem para dirigir este
trabalho, e a comunidade científica coincide na importância que lhes atribui. No entanto, e
para além de qualquer processo de construção/adaptação, o facto é que o uso de testes é uma
constante na investigação psicológica, e uma selecção adequada das provas torna-se num
assunto de grande importância. Por isso, e esquematizando em primeiro lugar os critérios
que devem guiar a construção / adaptação de testes, neste estudo teórico desenvolvem-se
algumas directrizes gerais a ter em consideração na altura de seleccionar testes para efectuar
una investigação psicológica. A informação apresentada está organizada num total de seis
pontos, cada um dos quais corresponde a uma fase distinta dentro do processo de criação de
testes: a) delimitação conceptual do construto objecto de avaliação; b) informação sobre a
construção e avaliação qualitativa dos itens; c) resultados da análise estatística dos itens; d)
evidências empíricas da estrutura interna da prova; e) resultados da estimação da fiabilidade;
f) evidências externas da validade das pontuações. O trabalho termina com reflexões sobre o
alcance das directrizes propostas e sobre a importância de seleccionar sob critérios claros os
testes que venham a usar-se numa investigação.
PALAVRAS CHAVE. Normas para a revisão de estudos instrumentais. Construção de

testes. Adaptação de testes. Selecção de testes. Estudo teórico.
Introducción
En la investigación psicológica actual, el uso de instrumentos o herramientas, tales
como las computadoras, sistemas de registro, instrumentos de medida, etc. supone una
característica definitoria de la propia investigación. De hecho, sin dichos instrumentos, la
investigación científica, tal y como actualmente se conoce, sería imposible, requiriéndose
un análisis cuidadoso y cíclico de éstos y de su influencia sobre los resultados de
investigación (Sturm y Ash, 2005). Dentro de los múltiples y variados instrumentos que
pueden ser empleados en un contexto de investigación psicológica, la utilización de tests de
evaluación es algo más que frecuente, sin olvidar igualmente lo generalizado que está el uso
de éstos dentro de la práctica profesional que genera la Psicología como disciplina (Muñiz
et al., 2001).
El hecho es que los psicólogos trabajan con fenómenos no directamente
observables, los cuales pretenden medirse, y para lo que se usan aproximaciones indirectas.

De esta forma, su medición está condicionada a la obtención de indicadores observables, y

es aquí donde cabría resaltar la importancia de las respuestas generadas ante un test como
material esencial para los psicólogos. Estas respuestas sirven para generar puntuaciones que
finalmente sirven para múltiples objetivos, tales como la puesta a prueba de teorías, la toma
de decisiones acerca de la efectividad de un tratamiento psicológico, la verificación
experimental del impacto de una o varias variables independientes, etc. Así pues, las
puntuaciones que se obtienen a partir de los tests tienen implicaciones de suma importancia
sobre el resultado final de cualquier investigación que haga uso de ellos, al igual que sobre
las consecuencias aplicadas que se derivan de la actividad de los profesionales, y que en su
día a día toman decisiones en función del resultado generado por dichos tests (Padilla,
Gómez, Hidalgo y Muñiz, 2006, 2007).
Los Standars for Educational and Psychological Testing (AERA, APA y NCME,
1999) intentan dar respuestas a las problemáticas que se generan en el proceso de
creación/adaptación y uso de tests. Los investigadores que dirigen sus esfuerzos a la
creación/adaptación de tests tienen en estos estándares una referencia que guía su trabajo y
unifica criterios de valoración. De hecho, el debate sobre los estándares está continuamente
abierto (Linn, 2006) y las sugerencias para su perfeccionamiento y mejora son objeto de
publicaciones (Koretz, 2006; Wise, 2006), lo que lleva a contar con unas directrices que
responden a las exigencias de cada momento y que son una fuente de indudable valor para
el perfeccionamiento del trabajo llevado a cabo por los investigadores. Sin embargo, y a
pesar de la importancia de estos estándares, su uso está más relacionado a los investigadores
que centran sus esfuerzos en los denominados estudios instrumentales, consistentes en el
“desarrollo de pruebas y aparatos, incluyendo tanto el diseño (o adaptación) como el estudio
de las propiedades psicométricas de los mismos” (Montero y León, 2005, p. 124). Esto no
significa, no obstante, que de los estándares no puedan derivarse importantes implicaciones
para aquellos investigadores que hacen uso de tests para objetivos no vinculados a los que
son propios de los estudios instrumentales.
En la actualidad, todo investigador que se disponga a hacer un estudio para el que
requiera hacer uso de tests, cuenta, en la mayoría de las ocasiones, con varias alternativas
posibles con objetivos similares. En estos casos, y dada la influencia directa que el uso de
un instrumento u otro va a tener sobre los resultados finales, la selección razonada de los
tests debe ser un criterio necesario a no obviar, salvando pues justificaciones centradas, por
ejemplo, en el acceso más fácil a un test que a otro, o cualquier otra razón que se aleje de lo
que se supone un esquema de acción científica. Ocurre, no obstante, que la importancia
supuesta de trabajar con un instrumento u otro parece no tener su reflejo en las
publicaciones. Así, más que poder concluir que la selección de tests está gobernada por
criterios no científicos, habría que decir que en muchos de los casos existe una ausencia de
información sobre las razones que han llevado a emplearlos. Por ejemplo, Hogan y Agnello
(2004) pusieron de manifiesto que sólo el 55% de 696 publicaciones científicas donde se
hacía uso de tests proporcionaba alguna evidencia sobre la validez de las puntuaciones
generadas por los instrumentos usados. Además, y tal y como puede comprobarse
fácilmente, una gran mayoría de autores justifican su uso refugiándose en la mera
notificación de los valores numéricos relativos a los coeficientes de fiabilidad y validez de
los mismos. Con esta forma de proceder se salva toda responsabilidad en relación con la
selección y utilización de las pruebas, aún a sabiendas de que al final de todo proceso de
investigación, la responsabilidad de los resultados obtenidos no es de los creadores de las
pruebas, sino de los autores de estas investigaciones.

Lo indicado anteriormente se agrava aún más por el hecho incontestable de que la

mayoría de las pruebas publicadas -tanto en revistas de toda índole como por empresas
especializadas en su construcción y comercialización-, adolecen de los mínimos exigidos
en los Standars for Educational and Psychological Testing (AERA, APA y NCME, 1999).
Se construyen muchas pruebas y muy diversas, a veces por especialistas y, otras muchas,
por investigadores muy alejados de este ámbito. Un alto porcentaje de ellas se desarrollan a
colación de necesidades de investigación muy específicas, siendo mínimo el conocimiento
psicométrico al que puede llegarse a través de su uso. Así, al revisar muchos de los tests
publicados, se puede comprobar que tras intuir, no sin dificultad, la definición de la variable
objeto de evaluación, de inmediato se observan los valores de los coeficientes de fiabilidad
y validez, no encontrándose la información necesaria sobre el procedimiento seguido, sobre
su justificación, o acerca de otros aspectos a tener en cuenta al enjuiciar la calidad de
cualquier test.
Suponer que un test, por el hecho de estar publicado, cumple con los requisitos
científicos mínimos, resulta, cuanto menos, arriesgado. Así, y en relación con las pruebas
publicadas, se quiere llamar la atención acerca de cómo, en general, se ofrece nada o muy
poca información sobre el proceso de edición de los ítems, la justificación del número de
ítems necesario para representar al constructo evaluado, la adecuada representación de las
dimensiones a través de los ítems considerados, etc. Además, y en este caso destacando su
ausencia más si cabe, hay que notar como existe una carencia casi absoluta de datos en
cuanto a los controles aplicados, tanto cualitativos como cuantitativos, para garantizar a la
calidad de los ítems, y que hagan referencia a los criterios de eliminación, sustitución,
modificación, etc. de éstos.
Son también numerosos los problemas que se aprecian en lo referente a la idoneidad
de los procedimientos seguidos para el cálculo de la fiabilidad, o en lo que concierne a las
estrategias empleadas para mostrar las evidencias de validez de las puntuaciones de la
prueba. Valga a modo de ejemplo alguno de los resultados asociados al ya clásico test
PMA: Aptitudes Mentales Primarias de Thurstone y Thurstone, en su adaptación española
(TEA, 1996). Cuando se ofrece el coeficiente de fiabilidad del factor numérico, el dato es
de 0,99. Este resultado, alarmante a todas luces, debería ser una llamada de atención para
los investigadores y psicólogos aplicados que eligen dicha prueba para su uso. Así, si se
indaga sobre las razones de este inesperado e inaceptable valor del coeficiente de fiabilidad,
se puede apreciar como fue el uso de un procedimiento inadecuado el que elevó hasta la
cuantía comentada el valor de dicho coeficiente: se trata de ítems de rapidez y para el
cálculo del mencionado coeficiente se siguió la estrategia de la división del test en dos
mitades (TEA, 1996, p. 13).
En cuanto a las evidencias de validez de las puntuaciones de las pruebas en sí, es
imprescindible que los autores de las mismas destaquen y justifiquen una definición
sintáctica en la que relacionen, con más o menos firmeza, las conexiones del constructo
objeto de medida con otros constructos constitutivos de una red conceptual bien asentada o,
en última instancia, con indicadores empíricos que posibiliten la posterior puesta en marcha
de las pertinentes estrategias de confirmación. Sin estos previos, las evidencias de validez
de las distintas pruebas no dejan de ser resultados estadísticos aislados, sin forma de poder
asignarles u otorgarles un significado o utilidad, y que finalmente sólo sirven para ocultar
las deficiencias de un proceso de construcción deficiente.
Lo hasta ahora apuntado, que duda cabe, debe resultar alarmante, teniendo en cuenta
la importancia que tiene el uso de tests en la investigación psicológica. Además de la
influencia directa sobre los resultados, habría que hablar del alcance o uso generalizado de

los tests en la mayoría de las publicaciones. Por ejemplo, en un medio como el presente, el
International Journal of Clinical and Health Psychology, el 100% de los estudios originales
publicados durante 2007 han hecho uso de tests para el desarrollo de la investigación. Por
ello, se hace necesario tener en cuenta ciertos criterios para la selección de los tests antes de
proceder a su uso, considerando pues que la mera publicación de un test no garantiza su
calidad. No obstante, y dentro de un contexto delimitado por los artículos científicos, el
debate no estaría centrado en la calidad científica de las medidas usadas, ya que en el
ámbito comentado se entiende que dicha calidad estaría presente como necesidad básica de
toda investigación. La discusión sería otra: ¿los tests usados en las investigaciones
publicadas han sido seleccionados bajos unos criterios de decisión objetivos?, ¿se han
considerado los aspectos diferenciales que presentan instrumentos distintos construidos bajo
objetivos de evaluación similares?, ¿los criterios empleados permiten una mayor seguridad
a la hora de concluir que la herramienta empleada es la mejor opción de entre todas las
disponibles?
El objetivo del presente trabajo es proponer unas directrices generales que guíen la
selección de tests en un contexto de investigación, aunque sin olvidar que muchos de los
criterios propuestos deberían ser igualmente tenidos en cuenta por los profesionales
aplicados. Como resulta lógico, dicha selección debe estar regida por el hecho de poder
garantizar que el instrumento utilizado cumple con unas propiedades científicas mínimas, y
esto significaría que se han seguido las normas internacionalmente aceptadas para la
construcción de tests (AERA et al., 1999). Recientemente se discutieron dichas normas, y
se propusieron unas pautas básicas para el desarrollo y revisión de estudios instrumentales
(Carretero-Dios y Pérez, 2005). Sobre dichas pautas (Anexo 1) se asienta el presente
trabajo, haciendo ahora hincapié en el ejercicio responsable de toma de decisiones que debe
hacer todo investigador que pretenda hacer uso de tests ya disponibles, y por lo tanto
sometidos a análisis científico previo. Este estudio se inserta dentro de una marco más
general que se ocupa de la estandarización de los procederes científicos presentes en sus
distintos ámbitos de acción (Blanton y Jaccard, 2006; Botella y Gambara, 2006; Ramos-
Álvarez, Valdés-Conroy y Catena, 2006).
Criterios para la selección de tests

Las directrices que van a presentarse a continuación van a tener un contexto de
aplicación concreto, y que no es otro que aquel donde se haga necesario el uso de
instrumentos objetivos de medida, ya sea en un área aplicada o de investigación, e
independientemente de la categoría donde puedan encuadrarse dichos instrumentos:
autoinformes, cuestionarios, tests psicológicos en general, etc. Lo que vendría a defenderse
es que siempre que para el desarrollo de un trabajo se necesite evaluar un constructo a partir
de una prueba desarrollada para tal fin, resultaría conveniente hacer uso de unas directrices
generales para una óptima selección de entre los instrumentos disponibles, así como para
detectar alguna deficiencia en los mismos. Téngase en cuenta, no obstante, que el contenido
del presente trabajo va a estar influido por el medio donde es publicado, y por la intención
de que su contenido sea significativo desde el inicio para la audiencia que dicho medio
tiene. Esto tendrá consecuencias sobre los ejemplos que se usen y sobre las publicaciones a
las que se acuda para ejemplificar algunas cuestiones.
Para este trabajo, el término constructo se entiende como “el concepto, atributo o
variable objeto de medición. Los constructos pueden diferir en su grado de especificidad
desde un nivel molar, con variables latentes tales la responsabilidad, hasta un nivel

molecular con variables que requieren un menor nivel de inferencia tales como la ingesta de
alcohol o la agresión física” (Haynes, Richard y Kubany, 1995, p. 239). A pesar de esta
definición, debe tenerse en cuenta que las variables objeto de evaluación dentro de la
Psicología son fundamentalmente constructos que hacen referencia a atributos de carácter
general de las personas evaluadas, y para los que se requiere una aproximación a su
definición que permita tratar con un nivel de especificidad del constructo mucho más
concreto. Esto, tal y como se verá a continuación, tiene importantes implicaciones para la
selección de los tests, y en concreto para la fase en la que se tiene que analizar la definición
aportada de los constructos evaluados.
A continuación se presentan las recomendaciones a tener en cuenta para la selección
de tests. Estas recomendaciones van a desarrollarse en seis apartados, cada uno de los
cuales corresponde a una etapa crucial dentro del proceso de construcción/adaptación de
tests (véase su desarrollo en Carretero-Dios y Pérez, 2005 o un resumen en Anexo 1). Por
ello, el investigador debería hacer un análisis de dichas etapas, y delimitar cómo éstas
quedan reflejadas en los instrumentos con los que pretenda trabajar. La estructuración del
trabajo parte del supuesto de que la persona encargada de la selección de un test ha
considerado, y en primer lugar, el objetivo de evaluación y el para qué de ésta. Por ello, la
exposición se centra a partir del momento en el que el involucrado en la selección de un test
se encuentra con distintas alternativas posibles para un mismo objetivo de evaluación y uso
previsto de las puntuaciones. De esta forma, los apartados que van a guiar la presentación
son: a) delimitación conceptual del constructo objeto de evaluación; b) información sobre la
construcción y evaluación cualitativa de ítems; c) resultados del análisis estadístico de los
ítems; d) evidencias empíricas de la estructura interna de la prueba; e) resultados de la
estimación de la fiabilidad; y f) evidencias externas de la validez de la puntuaciones.
Delimitación conceptual del constructo objeto de evaluación

Resulta obvio apuntar que a la hora de seleccionar un test, el interesado debe tener
claro qué se evalúa. La respuesta a la pregunta qué es lo que se evalúa no puede contentarse
con la corroboración de que aparece una etiqueta indicativa de su objetivo insertada en el
nombre que defina al test, como por ejemplo depresión, ansiedad social, búsqueda de
sensaciones, etc. Téngase en cuenta que la parte más importante para la construcción de un
instrumento que acabe presentando las adecuadas garantías psicométricas es partir de una
definición completa y exhaustiva del constructo evaluado (Nunnally y Berstein, 1995). De
hecho, de una definición ambigua e inespecífica se derivan ítems ambiguos e inespecíficos,
y por ende puntuaciones no concretas y cuyo significado final resultaría difícil de concretar.
En la actualidad existe gran cantidad de tests que tienen como objetivo de
evaluación una misma etiqueta, lo que no significa que un mismo concepto. Detrás de una
misma etiqueta se esconden aproximaciones conceptuales distintas, definiciones distintas y,
por lo tanto, objetivos de medición distintos, aunque no siempre explícitos. A la hora de
decidir qué test seleccionar se debe consultar, en el caso de que se encuentre disponible, la
definición ofrecida sobre el constructo evaluado. El investigador que se disponga a realizar
un estudio para el que le resulte esencial trabajar con unos tests concretos tendrá unos
objetivos específicos de investigación y, por ello, para cubrir éstos deberá cerciorarse de
que los instrumentos que escoja se centran en sus conceptos de interés más allá de una
etiqueta común a través de instrumentos.
Al adoptar este procedimiento, es decir, analizar las definiciones ofrecidas por los
creadores de pruebas, el encargado de esta selección podrá constatar que resulta más común
de lo que cabría esperar encontrar estudios donde se presenta una escala que se asienta

sobre una delimitación conceptual inespecífica del constructo evaluado. La definición se

suele basar en una afirmación genérica de lo que el constructo es y que a su vez se basa en
otros constructos igualmente no delimitados. Sin embargo, esta forma de proceder se aleja
de las recomendaciones presentes en los trabajos especializados (véase Murphy y
Davidshofer, 1994; Walsh, 1995).
Al autor o autores de una prueba debe exigírsele que proporcionen una delimitación
concreta de los componentes o facetas que definen su constructo objeto de evaluación y que
a su vez concreten operacionalmente a lo que se refiere cada uno de estos componentes, es
decir, se debe facilitar lo que ha venido a denominarse como definición semántica de la
variable (Lord y Novick, 1968). Debido a la complejidad de los constructos psicológicos, la
presentación pormenorizada y justificada de esta definición sobrepasaría lo que son los
límites al uso de un artículo de investigación. A pesar de esto, al menos en el trabajo debe
aparecer una referencia que permita consultar de manera detallada la definición ofrecida, y
donde el espacio no sea una limitación (por ejemplo, el manual del test, un libro centrado en
el constructo evaluado, etc.). La persona encargada de seleccionar un test debe tener como
principio que la prueba que no presente claramente los elementos diferenciadores del
constructo evaluado, que no recoja la variedad de manifestaciones operativas de éste, o que
no concrete claramente sus componentes, va a provocar un proceso de
construcción/adaptación impreciso y caracterizado por unas deficientes evidencias de
validez de contenido (Downing y Haladyna, 2004; Haynes et al., 1995; Smith, 2005).
A la hora de seleccionar un test, se tendrían mayores garantías acerca de que se ha
efectuado una adecuada definición operativa del constructo si se pusiera de manifiesto que
los autores han seguido las recomendaciones existentes sobre cómo presentar dicha
definición, y en concreto, que hacen uso de una tabla de especificaciones del test donde se
inserte toda la información de interés del constructo evaluado (Osterlind, 1989). Así, junto a
la presentación pormenorizada de la definición del constructo, debe corroborarse si dicha
definición ha sido sometida a una revisión por parte de expertos antes de la creación de
ítems propiamente dicha (véase Carretero-Dios, Pérez y Buela-Casal, 2006). Aunque es
común no hacer uso de esta valoración a través de expertos, ésta ha sido planteada como un
elemento esencial para proporcionar evidencias teóricas de validez de contenido (Rubio,
Berg-Weger, Tebb, Lee y Rauch, 2003) y posibilita que desde el inicio o primeras fases de
construcción de una prueba se facilite la representatividad de los ítems que se construyan
para el constructo de interés. De esta forma, es una vez que se concluye con el juicio de
expertos de la definición cuando se concreta definitivamente la tabla de especificaciones del
test (Spaan, 2006), tabla donde se debería encontrar qué constructo se va a evaluar, cuáles
son sus componentes y cómo deberían verse representados éstos en el instrumento final
según su importancia diferencial.
Nótese como el hecho de disponer de la tabla de especificaciones del test sería un
aspecto crucial para facilitar los procesos de adaptación de las escalas a distintas culturas
(Balluerka, Gorostiaga, Alonso-Arbiol y Aramburu, 2007), proporcionándose una
herramienta esencial para conseguir que las adaptaciones guarden equivalencia conceptual
con las escalas origen. De hecho, en las adaptaciones lo relevante no es exclusivamente
mostrar evidencias de una posible equivalencia lingüística entre el instrumento origen y el
adaptado, aspecto éste que parece ser el único que preocupa en la mayoría de las ocasiones
a los autores de las adaptaciones. Por contra, la clave es poner de manifiesto que las
adaptaciones son equivalentes conceptualmente hablando, y en este sentido, contar con la
tabla de especificaciones del test sería un elemento a considerar a la hora de poder
establecer la conexión conceptual obligada. Así pues, ya sea a la hora de valorar escalas

originales, o bien sus posibles adaptaciones, al seleccionar un test debería tenerse en cuenta
si se parte de la denominada tabla de especificaciones del test (Spaan, 2006).
Lord y Novick (1968) también subrayaron la relevancia de especificar una vez
operativizado el construco, la definición sintáctica de la variable o relaciones esperadas
entre el constructo evaluado y otros constructos o indicadores. Al seleccionar un
instrumento se debe tener en cuenta que lo que finalmente le va a dar significado o utilidad
a unas puntuaciones es el entramado de relaciones contrastadas. Por ello, dichas relaciones
deben plantearse a modo de hipótesis a verificar, lo que finalmente posibilitará obtener las
evidencias externas de validez del instrumento, elemento esencial de su validez de
constructo (Smith, 2005).
Para resumir este apartado se insiste en que el autor o autores de una investigación
que han hecho uso de un determinado test deben dejar constancia de que a la hora de
seleccionar éste han atendido a la definición operativa del constructo de interés y a cómo se
ha llegado a ésta, considerando además que dicha definición está insertada en un entramado
teórico de relaciones, el cual permite asignarle significado al trabajo que se haga con la
escala.
Información sobre la construcción y evaluación cualitativa de ítems

Es inusual encontrar en los trabajos donde se presentan los datos referidos a la
creación/adaptación de un test, información acerca de los criterios usados para la creación
de ítems, justificación sobre las opciones de respuesta, etc. Existen trabajos que sirven para
guiar este proceso (Martínez, Moreno y Muñiz, 2005; Moreno, Martínez y Muñiz, 2006;
Osterlind, 1989) y a la hora de seleccionar un instrumento la elección debe inclinarse a
favor de aquellos donde se deje constancia de al menos los criterios de referencia
empleados. Este aspecto resulta esencial ya que los ítems no son ni más ni menos que la
concreción operativa de los componentes a evaluar. Así, de ítems inadecuados surge
siempre una delimitación operativa errónea, y por lo tanto unos resultados finales alejados
de los propósitos iniciales.
Al seleccionar un instrumento, el encargado debe tener claro qué respuestas
referentes a un constructo le interesan, y comprobar cuál es la prueba que se ajusta mejor a
eso. Por ejemplo, en algunos casos, y para algunos trastornos psicológicos, se puede tener
interés por su frecuencia de ocurrencia, pero en otros quizá se quiera evaluar su intensidad
en el momento actual. Según este ejemplo, en función de cuál sea el objetivo se debería
atender a que los ítems y su formato de respuesta se centrasen en intensidad o en frecuencia.
A los creadores/adaptadores de tests se les debe exigir el uso de la denominada tabla
de especificaciones de los ítems (Osterlind, 1989; Spaan, 2006), y al menos insertarla en el
manual del test o en una publicación similar. En esta tabla, y de manera resumida, aparecen
todos los elementos referentes a los ítems generados (formato, escala de respuesta,
proporción dentro de la escala, ejemplos redactados, etc.). A través de esta tabla se
garantiza una creación dirigida y estandarizada de los ítems por parte de los encargados,
mejorándose así la calidad de los mismos. Constatar la presencia de una tabla de
especificaciones de los ítems como elemento que ha guiado la creación de ítems debería ser
un elemento a considerar para la selección de un instrumento u otro.
Téngase en cuenta lo ya comentado en el apartado anterior en cuanto a la
importancia de la tabla de especificaciones del test para los procesos de adaptación, y que
sería aplicable a la tabla de especificaciones de los ítems. No obstante, hay que subrayar que
para los casos en los que los instrumentos a elegir son adaptaciones y, por lo tanto, los ítems
en muchos casos suelen ser traducciones de los originales, debe corroborarse que se han

seguido las recomendaciones existentes sobre este proceso de traducción (Balluerka et al.,
2007; Hambleton, 1994, 1996; Hambleton y Jong, 2003; Gordon, 2004), sin olvidar la
necesaria equivalencia conceptual entre los ítems originales y traducidos.
Deberá observarse si creados los ítems, las instrucciones de la escala y demás
aspectos formales del futuro instrumento, los autores sometieron a evaluación dichos
aspectos con la intención de detectar fallos en las instrucciones, ítems mal redactados, etc.
Además, téngase en cuenta que al usar un test debemos tener datos que permitan concluir
que sus ítems resultan relevantes desde un punto de vista teórico para los componentes del
constructo (Clark y Watson, 2003). Por ello, debería estudiarse si el test sobre el que se está
interesado proporciona información que asegure que los ítems creados son teóricamente
pertinentes para cada componente, y si éstos están representados por una proporción de
ítems adecuada, es decir, si los autores del instrumentos proporcionan resultados sobre la
validez de contenido del test (Armstrong, Cohen, Eriksen y Cleeland, 2005; Haynes et al.,
1995). En este proceso de valoración de los aspectos formales del tests, y de la relevancia
teórica de los ítems, normalmente se produce una eliminación determinada de elementos. A
la hora de seleccionar un test es importante corroborar que los autores informan sobre qué
se ha eliminado y porqué, ya que da información valiosa sobre lo que se queda y sobre la
estrategia seguida.
Resultados del análisis estadístico de los ítems

Un aspecto esencial a considerar dentro del proceso que finalmente lleve a
seleccionar un test frente a otro, está relacionado con las propiedades métricas de los ítems
del instrumento. Una vez constatado que se partió de una batería de ítems claramente
superior a los necesitados, y que éstos han pasado los filtros formales y teóricos pertinentes,
se debe atender a los resultados encontrados al analizar estadísticamente los ítems. Se debe
prestar atención a que en la construcción de la escala se haya procedido efectuando un
primer análisis estadístico de éstos a modo de estudio piloto, y donde los criterios de
eliminación de los ítems hayan sido claramente especificados. Es conveniente que los
resultados de este estudio piloto se hayan visto corroborados con una muestra mayor, y que
para ambos casos la muestra de participantes sea de unas características semejantes a las
posteriormente usadas para la aplicación de la escala.
En cuanto a la inspección de los estadísticos de los ítems, el investigador debe tener
claro para qué va a usar la escala, y así estimar si los estadísticos encontrados le permiten
concluir que el test es adecuado para sus intereses. De esta forma, hay que subrayar que no
hay criterios estadísticos universales y que deban aplicarse para todos los ítems sea cual sea
la escala de la que formen parte. Por ello, y quizá lo más importante al revisar los análisis
de ítems asociados a un instrumento, es observar si la decisión de eliminar o conservar un
ítem estuvo basada exclusivamente en la aplicación irreflexiva de ciertos índices numéricos,
o si se consideraron dichos criterios a la luz de la definición del constructo inicial y de los
objetivos de aplicación (para una revisión de los estadísticos más comúnmente usados y
cómo valorarlos véase Muñiz, Hidalgo, García-Cueto, Martínez y Moreno, 2005).
Evidencias empíricas de la estructura interna de la prueba

Al analizar la dimensionalidad de una prueba se busca estimar “el grado en el que
los ítems y los componentes del test conforman el constructo que se quiere medir y sobre el
que se basarán las interpretaciones” (Elosua, 2003, p. 317). Así, las conclusiones sobre si la
estructura interna de un instrumento representa fielmente a los componentes o dimensiones
del constructo no pueden basarse en las suposiciones teóricas de los autores de la prueba o

en la coherencia aparente que presentan los ítems. Para poder concluir esto, se hace
necesario constatar que se ha usado algún procedimiento que permita evaluar
empíricamente la estructura interna de la escala. Si los autores del instrumento parten de
una definición clara del constructo y de sus componentes, al inspeccionar el test se debe
corroborar que se ha usado una estrategia dirigida a contrastar la hipótesis del investigador
basada en cómo deben de agruparse los ítems.
Tradicionalmente, y desde un punto de vista empírico, la tarea dirigida a explorar la
estructura interna de un test ha sido llevada a cabo a través de la aplicación del análisis
factorial (Floyd y Widaman, 1995). A la hora de seleccionar una prueba, se debería al
menos estar familiarizado con los pormenores de esta técnica. Hay varios trabajos que han
tratado el uso inadecuado e irreflexivo de análisis factorial o temáticas relacionadas (e.g.
Batista-Foguet, Coenders y Alonso, 2004; Elosua, 2005; Ferrando, 1996) siendo un clásico
el apartado “cómo engañarse a uno mismo con el análisis factorial” (Nunnally y Bernstein,
1995 pp. 599-601). Así, a la hora de seleccionar una prueba debería tenerse en cuenta esta
información, y hacer una valoración crítica tanto de los resultados encontrados como del
proceso de aplicación seguido.
En otro lugar (Carretero-Dios y Pérez, 2005) ya insistimos en subrayar que el
análisis factorial exploratorio no entiende de Psicología. El análisis sólo “agrupa”
correlaciones similares, pero conviene resaltar que la agrupación puede ser debida a más
elementos que los propiamente conceptuales, como por ejemplo el formato y tipo de ítems.
“Se recuerda que la técnica debe estar sometida a los intereses conceptuales, y que un
agrupamiento de ítems es sólo eso, un agrupamiento, y que aunque empíricamente
relevante, puede carecer de significado psicológico. Los factores “no psicológicos” que
pueden hacer que unos ítems aparezcan juntos son tantos, que la aplicación de esta técnica
de análisis en el vacío teórico es totalmente improductiva e ineficaz” (Carretero-Dios y
Pérez, 2005, p. 536). Por lo anterior, al seleccionar un test debe apreciarse que la aplicación
de los análisis factoriales ha estado sujeta a premisas teóricas sobre la dimensionalidad
subyacente a los ítems usados. Además, debería apreciarse una contrastación de la
dimensionalidad de la prueba a través de muestras distintas (Elosua, 2005).
Resultados de la estimación de la fiabilidad

La fiabilidad de las puntuaciones de una prueba supone otro criterio esencial a tener
en cuenta a la hora de seleccionar un test u otro. De hecho, normalmente es uno de los
tópicos que se tratan en primer lugar en las monografías especializadas sobre la
construcción de tests, y es el valor al que únicamente se suele recurrir para justificar la
selección de una prueba. A pesar de esto, en la presentación que se ha seguido se ha optado
por tratar la fiabilidad una vez que se han discutido los aspectos que se consideran previos,
cronológicamente hablando, en el proceso que constituye la construcción de un instrumento
de evaluación. De hecho, no es hasta que se cuenta con un agrupamiento “definitivo” de
ítems por componente, cuando se cuenta con el test “definitivo”, cuando la estimación de la
fiabilidad adquiere su mayor alcance. No obstante, en muchos trabajos se recurre a
presentar estimaciones de la fiabilidad dentro de la fase de análisis de ítems, y se incluye
normalmente el alfa de Cronbach como un indicador más del análisis de ítems. Sin
embargo, se quiere resaltar que a la hora de seleccionar un instrumento, y al revisar la
información disponible, se debe apreciar que se ofrecen estimaciones de la fiabilidad de las
puntuaciones obtenidas a partir de la forma definitiva o publicada del test, y no de versiones
previas o experimentales.

De nuevo, y para evaluar la adecuación de un test en cuanto a la fiabilidad de sus

puntuaciones, el investigador interesado debe preguntarse por ciertos aspectos que se
relacionan estrechamente con el juicio final que se emita. Por ejemplo, para qué van a ser
usadas las puntuaciones, si los participantes con los que se va a trabajar tienen
características semejantes a los usados para estudiar la prueba, si las condiciones de
evaluación van a ser similares, etc. Junto a estas preguntas, no debe perderse de vista el
concepto propio de fiabilidad, además de las características que presentan los distintos
estimadores. Así, la valoración de nuevo debe ser razonada y no sólo guiada por la
aplicación de reglas estándar.
Sabiendo que son tres los métodos habituales para obtener estimaciones del
coeficiente de fiabilidad (Traub, 1994), tales como el método de formas paralelas, el basado
en el test-retest y el método centrado en una única aplicación de la prueba, al seleccionar un
instrumento u otro debe hacerse un análisis del método aplicado, las razones de su
aplicación y su idoneidad para el test en concreto. Desde un punto de vista teórico, y si la
prueba y otros aspectos relevantes lo permiten (Muñiz, 1998), la aplicación repetida del test
en dos momentos temporales distintos sería el método de preferencia. Si el investigador
interesado en seleccionar un test observara que han sido usadas formas paralelas, debería
atender a los problemas relacionados con este procedimiento, entre los que destaca la
verificación de que realmente se cuenta con formas paralelas del test en cuestión. Sea como
fuere, tanto el test-retest como el método de formas paralelas se enfrentan a problemas más
generales y que deben considerarse para juzgar las estimaciones de fiabilidad ofrecidas.
Entre éstos podrían destacarse el efecto de la experiencia o práctica de la primera
evaluación sobre la segunda, los cambios “reales” que se producen en el constructo
evaluado y el intervalo de tiempo usado para llevar a cabo la nueva administración del test o
de una forma paralela de éste (Muñiz, 1998).
En general, al revisar los tests publicados, puede constatarse que los
constructores/adaptadores de un test tienden a estimar la fiabilidad a partir de una única
administración del instrumento, recurriendo a los procedimientos basados en el cálculo de la
consistencia interna (Osburn, 2000). En el caso de ítems con una escala tipo Likert, el
índice de consistencia interna más usado es el alfa de Cronbach, el cual en muchas
ocasiones se aplica incumpliendo las recomendaciones sobre su uso (Cortina, 1993). Ya se
propusieron varios ejemplos (Carretero-Dios y Pérez, 2005) para evidenciar ciertos
problemas asociados a la aplicación indiscriminada del alfa de Cronbach o a la
interpretación superficial de los resultados que facilita. No obstante, la frecuencia con la que
puede observarse un uso deficiente de este índice, hace que se le dedique más extensión a
este contenido.
El encargado de la selección de un tests deberá cerciorarse de que las estimaciones
sobre la fiabilidad a través de un índice de consistencia interna son calculadas para las
puntuaciones de cada uno de los componentes supuestos del constructo evaluado.
Normalmente, los constructos se ven delimitados por varias facetas o componentes que se
postulan como elementos a considerar aisladamente. Por ello, la consistencia interna debería
ser estimada para cada faceta del constructo.
El juicio sobre la fiabilidad obtenida a través del alfa de Cronbach debe estar muy
conectado con el formato de los ítems o con algunas propiedades métricas de éstos que se
encuentran muy relacionadas con el resultado final del alfa de Cronbach, tal y como por
ejemplo la dificultad de los ítems. Así, en algunos autoinformes, al usar ítems que consisten
en preguntas o afirmaciones muy inespecíficas, con un formato muy semejante entre ellos, y
con opciones de respuesta comunes, se puede provocar que la respuesta de los participantes

sea “consistente” a través de los ítems, pero que lo que refleje este resultado sea una
consistencia a través de ítems que se conectan más con un factor denominado “formato del
instrumento”, que con el concepto subyacente teóricamente supuesto. Además, esta
problemática podría vincularse a los valores “artificialmente” altos que pueden encontrarse
a través del alfa de Cronbach, que los investigadores suelen juzgar como algo muy positivo,
y que sin embargo servirían para poner de manifiesto un grave problema de representación
del constructo por parte de los ítems (consultar la ya clásica problemática de la denominada
paradoja de la atenuación, Loevinger, 1957). “En psicología, valores de consistencia interna
entorno a 0,95 pondrían de manifiesto más un problema de infra-representación del
constructo y validez deficiente, que de adecuada fiabilidad” (Carretero-Dios y Pérez, 2005
p. 541).
Usando valores que puedan servir de guía, que no de constatación irreflexiva, se
podría afirmar que índices de fiabilidad situados alrededor de 0,70 resultarían adecuados si
el objetivo de la escala es la investigación. Cuando el objetivo del test es el diagnóstico o
clasificación, el valor mínimo aconsejado debe situarse entorno a 0,80 (Nunnally y
Bernstein, 1995).
Evidencias externas de la validez de las puntuaciones

Las evidencias externas de validez se basan en el análisis de las relaciones entre la
puntuación o puntuaciones ofrecidas por el test y: a) un criterio que se esperaba fuera
predicho; b) otros tests con el mismo objetivo de medición o con otros constructos con los
que se esperaría relación; c) otras variables o constructos con los que se esperaría ausencia
de relación, o una relación menor que la esperada con otras variables (AERA et al., 1999).
Al iniciar la presentación de las directrices a seguir a la hora de seleccionar un test
de evaluación, se insistió en que el constructo objetivo debía definirse operativamente
(semánticamente) pero también ofrecer una definición conceptual delimitada por las
relaciones esperadas con otros constructos (sintáctica), o lo que es lo mismo, ubicar al
constructo en un entramado de relaciones teóricas. Por parte de la persona que busca
seleccionar un test, de lo que se trataría es de establecer hasta qué punto, usando las
puntuaciones del test, se han obtenido evidencias que confirman las relaciones esperadas.
Es la inspección de los resultados encontrados en este sentido lo que le facilitaría al
investigador la información referente a la utilidad o significado de las puntuaciones del test.
El interesado en llevar a cabo la selección de un test en particular, debe tener
presente que no existe una estrategia metodológica o técnica de análisis estadístico al uso
que sea exclusiva de los estudios que se hayan encargado de obtener evidencias externas de
validez. Los resultados podrían derivarse de usar estrategias experimentales, cuasi-
experimentales o no experimentales, y por lo tanto las técnicas de análisis podrían
apreciarse como diversas. Por ello, en este contexto, lo realmente relevante es apreciar si los
autores de un test concreto han justificado las relaciones aportadas a partir de las teorías de
interés o resultados de investigación previos, y que en su momento se deberían haber
reflejado en la definición sintáctica de la variable. Por supuesto, se deberá verificar si en
función de los objetivo de análisis específicos, se ha usado la metodología de estudio más
afín a éstos, y los procedimientos de análisis más convenientes, hecho no obstante que es
generalizable a la revisión científica de cualquier estudio publicado. Además, habría que
recordar que las puntuaciones de un test no “consiguen” evidencias que denoten que ya está
fijada su validez de una vez y para siempre. La obtención de evidencias de validez conlleva
un proceso inacabado por definición, en continua revisión, y sensible a la evolución del

conocimiento sobre el constructo medido, aspectos a los que debe ser igualmente sensible el
responsable de la selección de un test.
Conclusiones
El uso de un test u otro para ser usado en una investigación resulta una problemática
de suma importancia. Con la intención de discutir sobre las posibles dificultades que pueden
aparecer en este proceso de selección de tests, y con la idea de clarificar algunas directrices
que ayuden a realizar dicha selección, se ha escrito este trabajo. Sin embargo, las directrices
propuestas más que convertirse en una guía esquemática y concreta de aplicación, buscan
ser una herramienta que conduzca a la reflexión sobre ciertos elementos y que hagan
sopesar de manera más mesurada algunas de las decisiones. Un investigador jamás podrá
llegar a unas conclusiones rigurosas si la materia prima que usa para plantear éstas son
puntuaciones ofrecidas por instrumentos deficientes. De igual forma, y por la propia ética
que define la actividad científica, el responsable de un estudio no puede contentarse con el
hecho de haber usado un test con cierto respaldo psicométrico y con unas garantías
científicas suficientes. Por el contrario, debe haber una información de base que asegure que
ha usado la mejor opción posible de entre todas las que estaban en su conocimiento.
Un informe de investigación de una revista científica al uso tiene un espacio
restringido. La justificación de por qué un instrumento y no otro rebasaría este espacio, y
por ende resultaría inviable el tratamiento exhaustivo de las razones que han llevado a
trabajar con un test y no con otro. Sin embargo, esto no es óbice para que el autor o autores
de un trabajo de investigación hagan uso del esquema presentado o de cualquier otro que
garantice una selección científica de los tests. Así, y al igual que en otros apartados de un
informe se obvia información para simplemente señalar un procedimiento seguido o
estrategia empleada, en este campo de la selección de tests los editores de las publicaciones
científicas y los revisores deberían insistir en que los autores de un trabajo indiquen al
menos los criterios seguidos para seleccionar los instrumentos y dónde estos criterios
pueden ser tratados con más detenimiento. Resulta sorprendente encontrar en muchas
revistas científicas, y dentro del apartado instrumentos, un mero listado de escalas, y para
las que se informa como mucho de su fiabilidad y de algunas referencias donde éstas se han
aplicado para ser estudiadas. Junto a la indicación de las escalas empleadas se reclama que
deba haber una pregunta que sirva de hilo conductor del apartado citado: ¿por qué estos
tests y no otros? Pregunta que debería poder ser contestada por los autores de cualquier
trabajo científico donde se haga uso de tests de evaluación psicológica.
Referencias
AERA, APA y NCME, (1999). Standards for educational and psychological tests. Washington
DC: American Psychological Association, American Educational Research Association,
National Council on Measurement in Education.
Armstrong, T.S., Cohen, M.Z., Eriksen, L. y Cleeland, C. (2005). Content validity of self-report
measurement instruments: An illustration from the development of the Brain Tumor
Module of the M.D. Anderson Symptom Inventory. Oncology Nursing Forum, 32, 669-
676.
Batista-Foguet, J.M., Coenders, G. y Alonso, J. (2004). Análisis factorial confirmatorio. Su
utilidad en la validación de cuestionarios relacionados con la salud. Medicina Clínica,
122, 21-27.

Balluerka, N., Gorostiaga, A., Alonso-Arbiol, I. y Aranburu, M. (2007). La adaptación de

instrumentos de medida de unas culturas a otras: una perspectiva práctica. Psicothema,
19, 124-133.
Blanton, H. y Jaccard, J. (2006). Arbitrary metrics in Psychology. American Psychologist, 61,
27-41.
Botella, J. y Gambara, H. (2006). Doing and reporting a meta-analysis. Internacional Journal of
Clinical and Health Psychology, 6, 425-440.
Carretero-Dios, H. y Pérez, C. (2005). Normas para el desarrollo y revisión de estudios
instrumentales. International Journal of Clinical and Health Psychology, 5, 521-551.
Carretero-Dios, H., Pérez, C. y Buela-Casal, G. (2006). Dimensiones de la apreciación del
humor. Psicothema, 18, 465-470.
Clark, L.A. y Watson, D. (2003). Constructing validity: Basic issues in objective scale
development. En A.E. Kazdin (Ed.), Methodological issues & strategies in clinical
research (3ª ed.) (pp. 207-231). Washington, D.C.: APA.
Cortina, J.M. (1993). What is coefficient alpha? An examination of theory and applications.
Journal of Applied Psychology, 78, 98-104.
Downing, S.M. y Haladyna, T.M. (2004). Validity tretas: overcoming interferente with
proponed interpretations of assessment data. Medical Education, 38, 327-333.
Elosua, P. (2003). Sobre la validez de los tests. Psicothema, 15, 315-321.
Elosua, P. (2005). Evaluación progresiva de la invarianza factorial entre las versiones original y
adaptada de una escala de autoconcepto. Psicothema, 17, 356-362.
Ferrando, P.J. (1996). Evaluación de la unidimensionalidad de los ítems mediante análisis
factorial. Psicothema, 8, 397-410.
Floyd, F.J. y Widaman, K.F. (1995). Factor análisis in the development and refinement of
clinical assessment instruments. Psychological Assessment, 7, 286-299.
Gordon, J. (2004). Developing and improving assessment instruments. Assessment in
Education: Principles, Policy and Practice, 11, 243-245.
Hambleton, R.K. (1994). Guidelines for adapting educational and psychological tests: A
progress report. European Journal of Psychological Assessment, 10, 229-240.
Hambleton, R.K. (1996). Adaptación de tests para su uso en diferentes idiomas y culturas:
fuentes de error, posibles soluciones y directrices prácticas. En J. Muñiz (Ed.),
Psicometría (pp. 203-238). Madrid: Universitas.
Hambleton, R.K. y Jong, J.H. (2003). Advances in translating and adapting educational and
psychological tests. Language Testing, 20, 127-134.
Haynes, S.N., Richard, D.C.S. y Kubany, E.S. (1995). Content validity in psychological
assessment: a functional approach to concepts and methods. Psychological Assessment, 7,
238-247.
Hogan, T.P. y Agnello, J. (2004). An empirical study of reporting practices concerning
measurement. Educational and Psychological Measurement, 64, 802-812.
Koretz, D. (2006). Steps toward more effective implementation of the Standards for Educational
and Psychological Testing. Educational Measurement: Issues & Practice, 25, 46-50.
Linn, R.L. (2006). Following the Standards: Is it time for another revisions? Educational
Measurement: Issues & Practice, 25, 54-56.
Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological
Reports, 3, 635-694.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison Wesley.
Martínez, R.L., Moreno, R. y Muñiz, J. (2005). Construcción de ítems. En J. Muñiz, A.M.
Hidalgo, E. García-Cueto, R. Martínez, y R. Moreno, Análisis de ítems (pp. 9-52).
Madrid: La Muralla.

Montero, I. y León, O. (2005). Sistema de clasificación del método en los informes de

investigación en Psicología. International Journal of Clinical and Health Psychology, 5,
115-127.
Moreno, R., Martínez, R.J. y Muñiz, J. (2006). New guidelines for developing multiple-choice
items. Methodology, 2, 65-72.
Muñiz, J. (1998). Teoría clásica de los tests. Madrid: Pirámide.
Muñiz, J., Bartram, D., Evers, A., Boben, D., Matesic, K., Glabeke, K., Fernández-Hermida,
J.R. y Zaal, J.N. (2001). Testing practices in european countries. European Journal of
Psychological Assessment, 17, 201-211.
Muñiz, J., Hidalgo, A.M., García-Cueto, E., Martínez, R. y Moreno, R. (2005) Análisis de ítems.
Madrid: La Muralla.
Murphy, K.R. y Davidshofer, C.O. (1994). Psychological testing: Principles and applications
(3ª ed.). Englewood Cliffs, NJ: Prentice-Hall.
Nunnally, J.C. y Bernstein, I.J. (1995). Teoría psicométrica. Madrid: McGraw-Hill.
Osburn, H.G. (2000). Coefficient alpha and related internal consistency reliability coefficients.
Psychological Methods, 5, 343-355.
Osterlind, S.J. (1989). Constructing Test Items. Londres: Kluwer Academic Publishers.
Padilla, J.L., Gómez, J., Hidalgo, M.D. y Muñiz, J. (2006). La evaluación de las consecuencias
del uso de los tests en la teoría de la validez. Psicothema, 18, 307-312.
Padilla, J.L., Gómez, J., Hidalgo, M.D. y Muñiz, J. (2007). Esquema conceptual y
procedimientos para analizar la validez de las consecuencias del uso de los tests.
Psicothema, 19, 173-178.
Ramos-Álvarez, M.M., Valdés-Conroy, B. y Catena, A. (2006). Criterios para el proceso de
revisión de cara a la publicación de investigaciones experimentales y cuasi-
experimentales en Psicología. International Journal of Clinical and Health Psychology, 6,
773-787.
Rubio, D.M., Berg-Weger, M., Tebb, S.S., Lee, E.S. y Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study in social work research. Social Work
Research, 27, 94-104.
Smith, G.T. (2005). On Construct Validity: Issues of Method and Measurement. Psychological
Assessment, 17, 396-408.
Spaan, M. (2006). Test and item specifications development. Language Assessment Quarterly,
3, 71-79.
Sturm, T. y Ash, M.G. (2005). Roles of instruments in psychological research. History of
Psychology, 8, 3-34.
TEA (1996). PMA: Aptitudes Mentales Primarias (9ª edición). Madrid: TEA.
Traub, R.E. (1994). Reliability for the social sciences: Theory and applications. Londres: Sage.
Walsh, W.B. (1995). Tests and assessment. Nueva York: Prentice-Hall.
Wise, L.L. (2006). Encouraging and supporting compliance with Standards for Educational
Tests. Educational Measurement: Issues & Practice, 25, 51-53.

ANEXO 1. Normas para el desarrollo y revisión de estudios instrumentales (tomado de

Carretero-Dios y Pérez, 2005).
(A) Justificación del estudio.

Sí Dudoso No
A.1. Los antecedentes sobre los que se asienta la justificación son
relevantes.
A.2. La creación/adaptación del instrumento va a suponer una
aportación significativa para al área de estudio.
A.3. El objetivo general de evaluación del test está claramente
especificado.
A.4. Se concreta la población a la que irá destinado el test.
A.5. Se especifica el propósito o finalidad para el que van a usarse
las puntuaciones del test.
A.6. El proceso de creación/adaptación resulta viable.
(B) Delimitación conceptual del constructo a evaluar.

Sí Dudoso No
B.1. Aparecen claramente especificados los intentos de
conceptuación más relevantes del constructo de interés.
B.2. Las distintas propuestas conceptuales se presentan integradas
en uno o varios marcos teóricos de referencia.
B.3. Se hace una revisión de los principales instrumentos de
evaluación encargados de evaluar a éste o a constructos
relacionados.
B.4. Tras la revisión se realiza una propuesta operativa de las
facetas o componentes operativos del constructo a evaluar, la
cual es sometida a evaluación a través de expertos.
B.5. Se presenta detalladamente la información relacionada con el
juicio de expertos (selección de expertos, material utilizado,
forma de evaluar, etc.)
B.6. Considerando los resultados de la evaluación de los expertos,
los datos de investigación, y los marcos teóricos de referencia,
se concreta definitivamente la definición operativa del
constructo.
B.7. Teniendo en cuenta la definición adoptada del constructo, se
concretan las relaciones esperadas entre éste y otras variables.
B.8. Las relaciones predichas para la puntuación total en el
constructo están adecuadamente justificadas.
B.9. En el caso de que el constructo esté compuesto por distintas
facetas o componentes, también son establecidas las relaciones
esperadas para cada uno de estos componentes.
B.10. Las relaciones predichas se presentan claras, especificándose
cuando el constructo va ser variable predictora, cuando
predicha y cuando covariado.
(C) Construcción y evaluación cualitativa de ítems.

Sí Dudoso No
C.1. La información que justifica el tipo de ítems a construir
(incluyendo formato, tipo de redacción, escala de respuesta,
etc.) es presentada con claridad.

C.2. El autor hace uso de una tabla de especificaciones de los ítems

para guiar la elaboración de éstos.
C.3. La tabla de especificaciones de los ítems recoge toda la
información necesaria para la construcción de éstos.
C.4. Se justifica adecuadamente el número de ítems final de la
escala a crear/adaptar.
C.5. La batería de ítems inicial está compuesta por al menos el
doble de ítems por componente de los que finalmente
pretenden usarse.
C.6. En caso de traducir los ítems, se ha usado una estrategia que
asegura la equivalencia conceptual entre los originales y los
traducidos.
C.7. En caso de haber traducido los ítems, el autor proporciona
nuevos ítems vinculados a los componentes del constructo a
evaluar.
C.8. Se presentan las evidencias de validez de contenido
proporcionadas por la valoración de un grupo de jueces acerca
de la batería inicial de ítems.
C.9. Aparece toda la información relacionada con el procedimiento
seguido para la valoración de los ítems por parte de un grupo
de jueces.
C.10. La valoración de los ítems por parte de un grupo de jueces ha
sido llevada a cabo adecuadamente.
C.11. Los ítems eliminados una vez terminado el proceso de
valoración llevado a cabo por un grupo de jueces están
claramente especificados.
C.12. Los ítems conservados una vez terminado el proceso de
valoración llevado a cabo por un grupo de jueces están
claramente especificados.
(D) Análisis estadístico de los ítems.

Sí Dudoso No
D.1. La delimitación del trabajo es clara (primer estudio de los
ítems, estudio piloto o validación cruzada)
D.2. Los objetivos del análisis aparecen claramente especificados
(homogeneidad y consistencia de la escala frente a validez de
criterio).
D.3. Es facilitada toda la información referente a los ítems,
instrucciones a los participantes, contexto de aplicación ,etc.
D.4. La muestra de estudio tiene características similares a la de la
población objetivo del test.
D.5. El tamaño de la muestra es adecuado para los objetivos del
estudio.
D.6. El procedimiento de evaluación es similar al que se tiene
planificado para la escala definitiva (muestreo).
D.7. Se especifican con claridad los criterios a considerar para la
selección-eliminación de los ítems.
D.8. Los cálculos estadísticos efectuados resultan pertinentes.
D.9. Los resultados (cualitativos y cuantitativos) se discuten con
claridad.
D.10. Las decisiones sobre los ítems tienen en cuenta cuestiones

teóricas.
D.11. Se especifica claramente que ítems son eliminados y por qué.
D.12. Los ítems seleccionados quedan claramente delimitados.
(E) Estudio de la dimensionalidad del instrumento (estructura interna).

Sí Dudoso No
E.1. La delimitación del trabajo es clara (primer estudio de
dimensionalidad de la escala o validación cruzada de
resultados previos)
E.2. Los objetivos del análisis aparecen claramente especificados
(estudio exploratorio frente a análisis confirmatorio, o ambos).
E.3. La información presentada sirve para justificar con claridad
los objetivos propuestos.
E.4. Es facilitada toda la información necesaria para que el lector
conozca los antecedentes que justifican la escala y la
dimensionalidad esperada de ésta.
E.5. Información sobre la muestra es completa y pertinente.
E.6. La muestra de estudio tiene características similares a la de la
población objetivo del test.
E.7. El tamaño de la muestra es adecuado para los objetivos del
estudio.
E.8. El procedimiento de muestreo seguido es correcto para los
objetivos del estudio.
E.9. En el caso de usarse un procedimiento exploratorio de análisis
factorial, aparece justificada su necesidad.
E.10. Se razona con claridad el por qué ha decidido usarse un tipo
concreto de análisis factorial exploratorio y no otro.
E.11. Con anterioridad a la aplicación del análisis factorial
exploratorio el autor informa sobre la adecuación de la matriz
de correlaciones (esfericidad de Barlett e índice de Kaiser-
Meyer-Olkin)
E.12. La interpretación de la dimensionalidad de la escala es
efectuada sobre la solución factorial rotada.
E.13. El procedimiento de rotación factorial usado es justificado
correctamente.
E.14. El procedimiento de rotación factorial usado es adecuado.
E.15. La información facilitada sobre la solución factorial resultante
es la adecuada (número de factores, saturaciones factoriales
relevantes de los ítems que los integran, porcentaje de
varianza explicada y comunalidad).
E.16. Los procedimientos estadísticos usados para discutir cuáles
son los factores relevantes a tener en cuenta son adecuados.
E.17. La discusión sobre los factores a tener en cuenta es enmarcada
en la investigación teórica y empírica previa.
E.18. En el caso de aplicarse un procedimiento basado en el análisis
factorial confirmatorio, el modelo de medida (forma de
distribuirse los ítems) a analizar es claramente delimitado.
E.19. En el estudio, junto al modelo de referencia, se someten a
diagnóstico comparativo propuestas alternativas.
E.20. Se justifica el procedimiento de estimación usado.
E.21. El procedimiento de estimación elegido en el estudio resulta

adecuado.
E.22. Para el diagnóstico del modelo el autor usa simultáneamente
varios índices.
E.23. En el trabajo se informa sobre el por qué de los índices
seleccionados y cuáles van a ser los valores de corte a
considerar para estimar la bondad de ajuste del modelo.
E.24. En el trabajo se presentan con claridad los resultados para los
distintos índices de bondad de ajuste.
E.25. Si el autor hace modificaciones para mejorar el ajuste, las
decisiones están claramente fundamentadas (teóricas y
empíricamente), y aparecen con claridad en el estudio.
E.26. El autor presenta el diagrama (path diagram) donde aparece
la distribución de los ítems por factor, el “grado” en el que
cada uno de éstos es predicho por el factor de pertenencia, y en
general todos los parámetros considerados relevantes en la
especificación inicial del modelo.
(F) Estimación de la fiabilidad.

Sí Dudoso No
F.1. En el trabajo se justifica el procedimiento de estimación de la
fiabilidad a usar (adecuación teórica).
F.2. El método de estimación de la fiabilidad empleado se considera
adecuado.
F.3. Si en el informe se usa el método test-retest, son
proporcionados y discutidos los aspectos más significativos que
afectan a este cálculo aparte de las cuestiones teóricas
(intervalo temporal, condiciones de evaluación,
correspondencia muestral, etc.).
F.4. Teniendo en cuenta los aspectos más significativos que afectan
a la aplicación del método test-retest (intervalo temporal,
condiciones de evaluación, correspondencia muestral, etc.),
ésta se considera adecuada.
F.5. Si en el informe se usa el método de formas paralelas, son
proporcionados y discutidos los aspectos más significativos que
afectan a este cálculo aparte de las cuestiones teóricas (datos
sobre la equivalencia de las pruebas, además de la información
común al test-retest, como intervalo temporal, condiciones de
evaluación, correspondencia muestral, etc.)
a la aplicación de las formas paralelas (equivalencia de las
pruebas, intervalo temporal, condiciones de evaluación,
correspondencia muestral, etc.), ésta se considera adecuada.
F.7. Si en el informe se usa el índice alpha de Cronbach basado en
la consistencia interna, son proporcionados y discutidos los
aspectos más significativos que afectan a este cálculo aparte de
las cuestiones teóricas (número de ítems por componente del
constructo, y formato de éstos).
a la aplicación del alpha de Cronbach (número de ítems por
componente del constructo y formato de éstos), ésta se
considera adecuada.

F.9. Si en el informe se usa un procedimiento basado en la

obtención de dos mitades de un test para el cálculo de la
consistencia interna, son proporcionados y discutidos los
aspectos más significativos que afectan a este cálculo aparte de
las cuestiones teóricas (procedimiento para obtener las dos
partes y número de ítems que las integran).
a la aplicación del procedimiento basado en la obtención de
dos mitades de un test (número de ítems y formato de éstos),
ésta se considera adecuada.
F.11. El tamaño de la muestra de estudio es adecuado para los
objetivos de la investigación.
F.12. Las características de los participantes son adecuadas en
función de los objetivos del test y finalidad de las puntuaciones
F.13. El procedimiento de evaluación utilizado es adecuado en
función de las características de la prueba.
F.14. Los resultados derivados de la estimación de la fiabilidad se
muestran con claridad.
F.15. La discusión de los resultados se hace teniendo en cuenta tanto
aspectos metodológicos como teóricos.
F.16. En el caso de obtenerse unos datos deficientes de fiabilidad, en
el trabajo son discutidas las estrategias a adoptar.

Tablas

Tabla 1. Tabla de 2.200 números (pseudo)aleatorios
55 88 62 61 72 98 52 32 54 67 03 38 90 18 99 56 44 15 48 69 96 96 87 99 53 78 65 38 87 99 41 49 41 56 77 32 58 30 44 57 48 52 03 58 67 18 25 78 60 56 05 23 24 50 35
46 22 75 53 37 01 92 48 29 28 64 66 41 33 75 98 75 40 45 63 77 05 57 56 77 64 94 59 02 26 41 67 94 07 15 90 63 05 18 93 02 23 03 82 41 42 52 55 31 45 13 24 60 13 36
36 18 14 20 33 31 17 39 90 83 26 60 19 92 70 63 50 87 68 45 65 89 12 48 87 26 65 72 29 61 26 55 95 72 81 76 19 64 63 02 88 38 88 65 26 85 63 36 49 45 02 05 62 18 41
63 92 99 64 08 60 16 50 54 24 63 37 26 24 69 56 21 21 11 27 77 09 52 37 43 69 60 05 21 49 71 60 86 91 05 79 29 22 48 73 77 19 79 48 04 46 34 18 03 37 77 47 05 01 26
19 41 27 68 27 18 11 33 94 04 57 07 97 19 61 63 32 35 74 49 20 46 79 89 90 43 30 33 06 39 09 68 36 34 71 48 93 82 92 69 58 38 08 76 54 79 70 09 44 80 34 99 99 77 88
Psicometría Aplicada II
31 07 67 27 68 13 66 73 01 24 99 18 43 42 43 74 30 45 58 02 20 80 43 54 61 71 74 12 01 72 21 16 23 24 78 65 82 71 36 09 54 79 65 68 23 34 56 45 90 32 71 94 27 24 79
27 15 20 11 04 64 42 72 35 39 07 81 55 08 88 54 29 56 18 61 89 28 09 69 26 38 91 31 39 69 32 99 46 41 92 34 34 82 81 52 19 57 37 03 87 28 52 74 63 47 07 75 20 53 08
04 28 66 88 54 79 55 93 91 14 59 50 04 53 32 13 01 45 25 36 81 52 95 52 43 87 78 68 05 56 47 22 38 07 89 95 38 96 89 25 64 78 83 21 30 26 24 90 48 93 88 19 77 21 28
40 10 30 46 32 96 92 87 14 22 76 06 43 58 42 09 08 90 03 19 01 11 72 17 07 26 11 06 55 70 63 27 03 71 71 72 94 38 48 84 56 96 70 38 02 50 87 91 27 17 96 36 71 04 58
40 17 68 33 69 78 18 82 17 38 29 76 41 91 58 12 35 38 24 96 02 29 85 11 64 17 59 06 42 31 74 44 16 15 01 11 06 36 92 92 37 80 21 11 56 19 16 04 05 90 15 62 46 97 25
45 02 93 49 36 57 14 63 23 33 36 58 17 34 97 08 06 92 07 98 13 54 67 27 47 71 43 91 66 84 78 68 37 01 56 98 89 29 11 25 21 93 63 54 36 98 36 21 61 48 29 78 94 52 06
86 87 62 32 58 99 74 03 50 09 09 53 39 99 70 29 78 69 85 22 06 18 40 83 37 11 60 29 43 14 45 29 85 73 48 38 72 63 97 47 79 91 05 57 80 96 48 71 52 54 24 03 63 53 63
24 61 50 55 58 20 80 81 99 12 35 17 96 21 86 16 96 60 49 65 56 70 26 07 31 29 92 88 28 72 37 21 93 67 09 27 91 09 22 02 34 53 78 80 11 46 81 50 12 72 79 30 62 06 91
31 78 74 38 79 77 41 13 54 51 54 94 13 38 60 86 40 90 32 90 33 11 58 70 22 30 97 19 10 56 45 86 64 63 27 35 21 83 54 30 17 14 12 73 98 67 29 67 73 43 93 29 66 61 59
51 72 89 94 52 20 15 04 83 19 66 49 94 65 64 33 32 89 65 20 73 70 75 01 62 83 81 20 36 92 39 20 26 55 03 60 21 60 63 97 16 33 86 46 67 20 50 75 93 32 45 36 60 65 88
11 19 23 16 14 85 46 56 10 65 92 28 79 51 91 52 54 20 89 05 88 74 90 47 74 50 56 91 39 19 86 46 63 91 81 79 72 29 22 19 35 05 85 18 17 61 46 14 56 60 69 58 06 01 15
54 03 78 12 78 76 05 73 53 26 51 13 63 39 29 05 21 74 48 36 33 45 91 86 16 02 63 39 98 11 63 75 44 33 65 93 45 71 96 34 55 72 40 99 52 35 09 43 12 92 77 51 35 79 37
53 06 16 91 04 93 27 09 56 86 36 70 83 03 97 32 61 38 22 70 15 89 38 80 62 35 58 64 92 47 39 51 93 52 22 12 80 12 72 83 05 55 10 19 49 27 11 25 26 30 66 63 04 26 51
60 84 63 82 17 05 98 52 01 04 32 32 71 36 63 63 36 67 47 33 75 20 70 98 71 13 74 85 89 15 16 81 29 60 74 52 06 20 73 54 67 77 92 78 53 27 27 11 04 54 22 80 53 52 45
23 52 16 24 51 69 75 04 15 10 24 85 85 26 08 53 66 72 34 97 85 30 77 83 59 95 16 34 92 92 05 16 81 41 51 28 85 94 90 92 64 71 38 41 39 43 22 61 70 06 16 77 80 90 33
Abril - 2018
37 25 45 47 27 18 10 67 80 50 22 48 37 23 38 25 65 37 63 04 42 40 72 20 25 71 58 06 43 18 40 31 08 30 06 13 03 51 85 97 73 82 70 89 71 91 25 25 42 65 93 51 43 56 62
05 39 08 67 48 80 67 77 13 05 91 66 48 50 76 31 02 79 85 07 65 07 87 31 59 76 03 79 84 74 90 49 53 70 07 60 99 86 38 46 61 66 03 62 92 39 37 69 40 22 92 36 51 42 04
05 25 22 85 69 81 71 39 45 65 07 35 06 20 40 04 85 07 14 33 93 38 21 74 62 06 42 21 85 95 49 46 56 94 97 30 91 30 69 42 33 19 33 57 63 84 05 82 17 82 33 75 84 85 86
12 53 46 57 22 81 85 85 42 37 36 30 70 34 07 17 56 01 85 72 69 99 37 09 14 97 76 20 91 81 15 90 47 87 24 41 96 41 84 22 50 76 46 44 34 11 92 49 48 09 09 77 43 45 09
79 25 28 60 30 75 62 61 41 42 73 50 56 05 80 45 90 59 82 69 85 96 81 33 39 55 74 50 76 82 29 88 91 50 84 33 57 98 99 06 75 77 17 56 97 66 21 79 57 99 01 19 15 37 69
77 48 70 48 75 32 04 98 84 94 51 38 05 47 28 24 87 78 99 76 63 10 51 37 30 19 95 84 91 02 60 50 52 35 64 65 22 56 78 56 35 92 49 96 80 12 94 50 95 07 22 93 80 20 43
58 99 24 23 06 23 32 72 74 39 94 79 43 75 71 72 71 42 66 40 72 08 71 62 03 01 93 45 41 91 61 88 87 55 26 43 93 58 30 65 58 01 46 75 07 37 77 42 69 85 07 72 34 32 02
20 64 71 70 34 27 46 85 08 01 01 43 26 91 68 19 86 92 98 14 31 13 30 85 64 91 41 88 52 09 36 21 07 32 95 47 42 38 71 59 25 01 86 89 75 93 98 68 44 99 98 49 52 75 46
32 83 93 14 46 58 47 82 11 30 57 47 38 07 33 29 94 93 91 08 93 80 49 72 63 74 21 84 09 60 99 10 05 68 46 05 96 25 37 31 69 54 15 30 44 19 03 87 16 62 89 73 16 68 48
39 95 16 72 34 94 70 26 22 89 31 56 08 06 65 06 04 03 22 06 96 70 58 79 15 42 15 67 23 86 40 21 82 17 96 22 18 21 99 22 08 97 72 23 40 80 66 77 88 33 09 31 16 25 14
95 55 74 67 20 13 71 16 76 81 94 25 31 12 99 49 04 64 31 86 10 33 58 26 34 71 95 51 62 89 52 93 92 44 76 99 33 76 69 03 83 89 10 26 54 78 03 59 69 94 57 50 43 73 28
98 04 36 79 83 52 67 33 46 73 93 85 65 62 59 79 15 89 24 21 39 55 02 18 67 15 61 87 52 45 41 49 59 37 16 29 18 85 97 26 70 24 33 53 27 01 82 70 76 45 21 39 22 50 36
77 30 21 22 43 95 63 57 19 75 11 39 65 22 58 42 29 23 81 60 43 05 38 60 12 66 92 32 03 51 77 95 02 52 22 23 95 06 30 36 23 66 81 23 18 67 99 96 37 20 67 97 12 36 30
09 14 64 23 92 07 60 39 91 80 11 32 44 35 95 90 67 10 47 02 44 36 20 08 18 79 86 28 91 96 61 03 88 57 66 11 24 85 59 16 68 20 07 15 52 14 25 29 26 74 32 11 63 56 20
70 78 15 49 74 23 22 30 01 91 19 86 10 18 58 74 50 31 28 57 98 23 25 20 71 66 25 13 90 55 61 07 09 38 67 71 49 08 19 19 52 96 16 69 06 17 48 94 43 01 71 54 92 90 09
50 63 51 60 61 06 13 47 76 71 12 97 03 03 75 35 48 57 36 19 52 25 16 87 03 07 38 85 94 42 84 09 61 38 22 06 05 64 55 58 47 23 39 34 60 90 57 13 18 54 28 27 58 94 21
58 83 51 53 25 54 96 73 29 70 30 83 58 51 80 14 46 73 82 25 22 18 02 71 75 23 61 11 95 50 75 98 08 32 84 62 73 61 36 97 51 69 09 18 34 37 79 05 61 76 07 35 94 79 38
08 83 45 17 67 51 74 75 81 43 88 36 46 92 68 76 04 77 24 65 75 26 62 76 83 39 27 91 99 09 44 48 47 02 91 86 32 80 47 91 47 36 91 88 79 54 83 68 24 91 19 58 15 99 90
43 15 63 24 72 94 62 59 91 31 10 19 94 63 49 77 97 63 25 04 52 27 90 98 70 95 04 34 33 36 79 91 57 68 10 63 30 92 38 04 76 92 31 55 84 05 08 49 33 67 30 52 86 82 33
227
46 98 84 72 84 95 41 69 05 93 64 83 62 71 35 13 30 13 06 40 63 29 40 20 02 06 94 35 37 73 90 05 42 20 95 36 64 82 29 54 37 13 08 32 50 90 59 47 63 46 33 55 41 06 96
Números generados con soporte informático (LibreOffice) siguiendo el formato de RAND Corporation
FUNCIÓN DE DISTRIBUCIÓN NORMAL Z "Norm(media = 0, desv. típica = 1)"
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-4,0 0,00003 0,00003 0,00003 0,00003 0,00003 0,00003 0,00002 0,00002 0,00002 0,00002
-3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003
-3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005
-3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008
-3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011
-3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017
-3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024
-3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035
-3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050

-3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071
-3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100
-2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
-2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
-2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
-2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
-2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
-2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
-2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
-2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
-2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
-2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
-1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
-1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
-1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
-1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
-1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
-1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
-1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08691 0,08534 0,08379 0,08226
-1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
-1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
-1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
-0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
-0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
-0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
-0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
-0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
-0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
-0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
-0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
-0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
-0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414
Nota: En el interior de la tabla se presenta la probabilidad de que la variable aletoria Z, con distribución N(0;1), esté por debajo del valor z.
FUNCIÓN DE DISTRIBUCIÓN NORMAL Z "Norm(media = 0, desv. típica = 1)"
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327

0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
4,0 0,99997 0,99997 0,99997 0,99997 0,99997 0,99997 0,99998 0,99998 0,99998 0,99998
Nota: En el interior de la tabla se presenta la probabilidad de que la variable aletoria Z, con distribución N(0;1), esté por debajo del valor z.
Valores críticos para la prueba t de diferencia de medias

Nivel de significancia para una cola
(grados de
10,0% 5,0% 2,5% 1,0% 0,5% 0,1%
libertad)
Nivel de significancia para dos colas
gl 20,0% 10,0% 5,0% 2,0% 1,0% 0,1%
1 3,077684 6,313752 12,706205 31,820516 63,656741 636,619249
2 1,885618 2,919986 4,302653 6,964557 9,924843 31,599055
3 1,637744 2,353363 3,182446 4,540703 5,840909 12,923979
4 1,533206 2,131847 2,776445 3,746947 4,604095 8,610302
5 1,475884 2,015048 2,570582 3,364930 4,032143 6,868827
6 1,439756 1,943180 2,446912 3,142668 3,707428 5,958816
7 1,414924 1,894579 2,364624 2,997952 3,499483 5,407883
8 1,396815 1,859548 2,306004 2,896459 3,355387 5,041305

9 1,383029 1,833113 2,262157 2,821438 3,249836 4,780913
10 1,372184 1,812461 2,228139 2,763769 3,169273 4,586894
11 1,363430 1,795885 2,200985 2,718079 3,105807 4,436979
12 1,356217 1,782288 2,178813 2,680998 3,054540 4,317791
13 1,350171 1,770933 2,160369 2,650309 3,012276 4,220832
14 1,345030 1,761310 2,144787 2,624494 2,976843 4,140454
15 1,340606 1,753050 2,131450 2,602480 2,946713 4,072765
16 1,336757 1,745884 2,119905 2,583487 2,920782 4,014996
17 1,333379 1,739607 2,109816 2,566934 2,898231 3,965126
18 1,330391 1,734064 2,100922 2,552380 2,878440 3,921646
19 1,327728 1,729133 2,093024 2,539483 2,860935 3,883406
20 1,325341 1,724718 2,085963 2,527977 2,845340 3,849516
21 1,323188 1,720743 2,079614 2,517648 2,831360 3,819277
22 1,321237 1,717144 2,073873 2,508325 2,818756 3,792131
23 1,319460 1,713872 2,068658 2,499867 2,807336 3,767627
24 1,317836 1,710882 2,063899 2,492159 2,796940 3,745399
25 1,316345 1,708141 2,059539 2,485107 2,787436 3,725144
26 1,314972 1,705618 2,055529 2,478630 2,778715 3,706612
27 1,313703 1,703288 2,051831 2,472660 2,770683 3,689592
28 1,312527 1,701131 2,048407 2,467140 2,763262 3,673906
29 1,311434 1,699127 2,045230 2,462021 2,756386 3,659405
30 1,310415 1,697261 2,042272 2,457262 2,749996 3,645959
35 1,306212 1,689572 2,030108 2,437723 2,723806 3,591147
40 1,303077 1,683851 2,021075 2,423257 2,704459 3,550966
45 1,300649 1,679427 2,014103 2,412116 2,689585 3,520251
50 1,298714 1,675905 2,008559 2,403272 2,677793 3,496013
100 1,290075 1,660234 1,983972 2,364217 2,625891 3,390491
1000 1,282399 1,646379 1,962339 2,330083 2,580755 3,300283
2000 1,281975 1,645616 1,961151 2,328214 2,578290 3,295398
5000 1,281721 1,645158 1,960439 2,327094 2,576813 3,292474

Valores críticos para la distribución F correspondiente al área con P = 0,05, a la derecha de la curva
Valor p
0,05 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Grados de libertad en el numerador (comparaciones "entre" tratamientos: gl = k ‐ 1)
1
2
161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 244,7 245,4 245,9 246,5 246,9 247,3 247,7 248,0
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,43 19,44 19,44 19,44 19,45
4
10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786 8,763 8,745 8,729 8,715 8,703 8,692 8,683 8,675 8,667 8,660
5
7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,936 5,912 5,891 5,873 5,858 5,844 5,832 5,821 5,811 5,803
6
6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,704 4,678 4,655 4,636 4,619 4,604 4,590 4,579 4,568 4,558
7
5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,027 4,000 3,976 3,956 3,938 3,922 3,908 3,896 3,884 3,874
8
5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,603 3,575 3,550 3,529 3,511 3,494 3,480 3,467 3,455 3,445
9
5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,313 3,284 3,259 3,237 3,218 3,202 3,187 3,173 3,161 3,150
10
5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,102 3,073 3,048 3,025 3,006 2,989 2,974 2,960 2,948 2,936
11
4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,943 2,913 2,887 2,865 2,845 2,828 2,812 2,798 2,785 2,774
12
4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,818 2,788 2,761 2,739 2,719 2,701 2,685 2,671 2,658 2,646
13
4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,717 2,687 2,660 2,637 2,617 2,599 2,583 2,568 2,555 2,544
14
4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,635 2,604 2,577 2,554 2,533 2,515 2,499 2,484 2,471 2,459
15
Abril - 2018
4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,565 2,534 2,507 2,484 2,463 2,445 2,428 2,413 2,400 2,388
16
4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,507 2,475 2,448 2,424 2,403 2,385 2,368 2,353 2,340 2,328
17
4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,456 2,425 2,397 2,373 2,352 2,333 2,317 2,302 2,288 2,276
18
4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450 2,413 2,381 2,353 2,329 2,308 2,289 2,272 2,257 2,243 2,230
19
4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,374 2,342 2,314 2,290 2,269 2,250 2,233 2,217 2,203 2,191
20
4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378 2,340 2,308 2,280 2,256 2,234 2,215 2,198 2,182 2,168 2,155
21
4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,310 2,278 2,250 2,225 2,203 2,184 2,167 2,151 2,137 2,124
22
4,325 3,467 3,072 2,840 2,685 2,573 2,488 2,420 2,366 2,321 2,283 2,250 2,222 2,197 2,176 2,156 2,139 2,123 2,109 2,096
23
4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297 2,259 2,226 2,198 2,173 2,151 2,131 2,114 2,098 2,084 2,071
24
4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 2,275 2,236 2,204 2,175 2,150 2,128 2,109 2,091 2,075 2,061 2,048
25
4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255 2,216 2,183 2,155 2,130 2,108 2,088 2,070 2,054 2,040 2,027
26
4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 2,236 2,198 2,165 2,136 2,111 2,089 2,069 2,051 2,035 2,021 2,007
27
4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220 2,181 2,148 2,119 2,094 2,072 2,052 2,034 2,018 2,003 1,990
28
4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 2,204 2,166 2,132 2,103 2,078 2,056 2,036 2,018 2,002 1,987 1,974
Grados de libertad en el denominador (comparaciones "dentro" de los tratamientos: gl = ntot ‐ k)

29
4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 2,190 2,151 2,118 2,089 2,064 2,041 2,021 2,003 1,987 1,972 1,959
30
231
4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 2,177 2,138 2,104 2,075 2,050 2,027 2,007 1,989 1,973 1,958 1,945
4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165 2,126 2,092 2,063 2,037 2,015 1,995 1,976 1,960 1,945 1,932
Material preparado para la Cátedra de Introducción a la Investigación Científica ‐ Psicología ‐ 2do. Curso, 3ra. Sección ‐ Año 2016 ‐ Prof. Enrique Morosini ‐ [prbaF**]
Valores críticos para la distribución F correspondiente al área con P = 0,05, a la derecha de la curva
Valor p
0,05 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Grados de libertad en el numerador (comparaciones "entre" tratamientos: gl = k ‐ 1)
31
32
4,160 3,305 2,911 2,679 2,523 2,409 2,323 2,255 2,199 2,153 2,114 2,080 2,051 2,026 2,003 1,983 1,965 1,948 1,933 1,920
33
4,149 3,295 2,901 2,668 2,512 2,399 2,313 2,244 2,189 2,142 2,103 2,070 2,040 2,015 1,992 1,972 1,953 1,937 1,922 1,908
34
4,139 3,285 2,892 2,659 2,503 2,389 2,303 2,235 2,179 2,133 2,093 2,060 2,030 2,004 1,982 1,961 1,943 1,926 1,911 1,898
35
4,130 3,276 2,883 2,650 2,494 2,380 2,294 2,225 2,170 2,123 2,084 2,050 2,021 1,995 1,972 1,952 1,933 1,917 1,902 1,888
40
4,121 3,267 2,874 2,641 2,485 2,372 2,285 2,217 2,161 2,114 2,075 2,041 2,012 1,986 1,963 1,942 1,924 1,907 1,892 1,878
45
4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077 2,038 2,003 1,974 1,948 1,924 1,904 1,885 1,868 1,853 1,839
50
4,057 3,204 2,812 2,579 2,422 2,308 2,221 2,152 2,096 2,049 2,009 1,974 1,945 1,918 1,895 1,874 1,855 1,838 1,823 1,808
55
4,034 3,183 2,790 2,557 2,400 2,286 2,199 2,130 2,073 2,026 1,986 1,952 1,921 1,895 1,871 1,850 1,831 1,814 1,798 1,784
60
4,016 3,165 2,773 2,540 2,383 2,269 2,181 2,112 2,055 2,008 1,968 1,933 1,903 1,876 1,852 1,831 1,812 1,795 1,779 1,764
65
4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993 1,952 1,917 1,887 1,860 1,836 1,815 1,796 1,778 1,763 1,748
70
3,989 3,138 2,746 2,513 2,356 2,242 2,154 2,084 2,027 1,980 1,939 1,904 1,874 1,847 1,823 1,802 1,782 1,765 1,749 1,734
75
3,978 3,128 2,736 2,503 2,346 2,231 2,143 2,074 2,017 1,969 1,928 1,893 1,863 1,836 1,812 1,790 1,771 1,753 1,737 1,722
80
3,968 3,119 2,727 2,494 2,337 2,222 2,134 2,064 2,007 1,959 1,919 1,884 1,853 1,826 1,802 1,780 1,761 1,743 1,727 1,712
85
3,960 3,111 2,719 2,486 2,329 2,214 2,126 2,056 1,999 1,951 1,910 1,875 1,845 1,817 1,793 1,772 1,752 1,734 1,718 1,703
90
Abril - 2018
3,953 3,104 2,712 2,479 2,322 2,207 2,119 2,049 1,992 1,944 1,903 1,868 1,837 1,810 1,786 1,764 1,744 1,726 1,710 1,695
95
3,947 3,098 2,706 2,473 2,316 2,201 2,113 2,043 1,986 1,938 1,897 1,861 1,830 1,803 1,779 1,757 1,737 1,720 1,703 1,688
100
3,941 3,092 2,700 2,467 2,310 2,196 2,108 2,037 1,980 1,932 1,891 1,856 1,825 1,797 1,773 1,751 1,731 1,713 1,697 1,682
110
3,936 3,087 2,696 2,463 2,305 2,191 2,103 2,032 1,975 1,927 1,886 1,850 1,819 1,792 1,768 1,746 1,726 1,708 1,691 1,676
120
3,927 3,079 2,687 2,454 2,297 2,182 2,094 2,024 1,966 1,918 1,877 1,841 1,810 1,783 1,758 1,736 1,716 1,698 1,682 1,667
130
3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,869 1,834 1,803 1,775 1,750 1,728 1,709 1,690 1,674 1,659
140
3,914 3,066 2,674 2,441 2,284 2,169 2,081 2,010 1,953 1,904 1,863 1,827 1,796 1,769 1,744 1,722 1,702 1,684 1,667 1,652
150
3,909 3,061 2,669 2,436 2,279 2,164 2,076 2,005 1,947 1,899 1,858 1,822 1,791 1,763 1,738 1,716 1,696 1,678 1,661 1,646
200
3,904 3,056 2,665 2,432 2,274 2,160 2,071 2,001 1,943 1,894 1,853 1,817 1,786 1,758 1,734 1,711 1,691 1,673 1,656 1,641
300
3,888 3,041 2,650 2,417 2,259 2,144 2,056 1,985 1,927 1,878 1,837 1,801 1,769 1,742 1,717 1,694 1,674 1,656 1,639 1,623
400
3,873 3,026 2,635 2,402 2,244 2,129 2,040 1,969 1,911 1,862 1,821 1,785 1,753 1,725 1,700 1,677 1,657 1,638 1,621 1,606
500
3,865 3,018 2,627 2,394 2,237 2,121 2,032 1,962 1,903 1,854 1,813 1,776 1,745 1,717 1,691 1,669 1,648 1,630 1,613 1,597
600
3,860 3,014 2,623 2,390 2,232 2,117 2,028 1,957 1,899 1,850 1,808 1,772 1,740 1,712 1,686 1,664 1,643 1,625 1,607 1,592
700
3,857 3,011 2,620 2,387 2,229 2,114 2,025 1,954 1,895 1,846 1,805 1,768 1,736 1,708 1,683 1,660 1,640 1,621 1,604 1,588
800
Grados de libertad en el denominador (comparaciones "dentro" de los tratamientos: gl = ntot ‐ k)

3,855 3,009 2,618 2,385 2,227 2,112 2,023 1,952 1,893 1,844 1,802 1,766 1,734 1,706 1,681 1,658 1,637 1,619 1,601 1,586
900
3,853 3,007 2,616 2,383 2,225 2,110 2,021 1,950 1,892 1,843 1,801 1,764 1,732 1,704 1,679 1,656 1,636 1,617 1,600 1,584
1000
232
3,852 3,006 2,615 2,382 2,224 2,109 2,020 1,949 1,890 1,841 1,799 1,763 1,731 1,703 1,678 1,655 1,634 1,615 1,598 1,582
3,851 3,005 2,614 2,381 2,223 2,108 2,019 1,948 1,889 1,840 1,798 1,762 1,730 1,702 1,676 1,654 1,633 1,614 1,597 1,581
Material preparado para la Cátedra de Introducción a la Investigación Científica ‐ Psicología ‐ 2do. Curso, 3ra. Sección ‐ Año 2016 ‐ Prof. Enrique Morosini ‐ [prbaF**]

Material Psicometria Aplicada II - 2018 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Psicometria Aplicada II - 2018 PDF

Cargado por

Copyright:

Formatos disponibles

Compendio bibliográ fico

Prof. Enrique Morosini

5to. Curso, 1ra. Sección

Facultad de Filosofía – UNA

Psicometría (Teoría de la medición y escalamiento psicológico) ......................................... 24

- Tema 2: Introducción a la Teoría de la Medición............................................................. 25

Introducción a la Psicometría: ........................................................................................................... 62

- Tema I: Redacción y análisis de ítems .................................................................................. 65

Normas para el desarrollo y revisión de estudios instrumentales: consideraciones

- Tabla 1. Tabla de 2.200 números (pseudo)aleatorios ................................................ 227

Psicometría Aplicada II Abril - 2018 2

Psicothema, 1998. Vol. 10, nº 1, pp. 1-21

Se analiza la problemática implicada en la medición de las variables psicológicas,

Psychological measurement. This paper analyzes the principle issues involved in

Correspondencia: José Muñiz

Psicometría Aplicada II Abril - 2018 3

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 4

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 5

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 6

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 7

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 8

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

La propuesta de Spearman para estimar

Psicometría Aplicada II Abril - 2018 9

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 10

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 11

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 12

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

selectividad es manifiestamente mejorable, jetos con las probabilidades de que acier-

Psicometría Aplicada II Abril - 2018 13

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Modelos Logísticos de 1, 2 y 3 parámetros donde:

En suma, bajo el enfoque de la teoría de

Psicometría Aplicada II Abril - 2018 14

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 15

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 16

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 17

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

ca vendrá de la mano de Stevens (1946, sigue avanzando en el campo empírico, sino

Psicometría Aplicada II Abril - 2018 18

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Allen, M. J. y Yen, W. M. (1979). Introduction to Blanco, M. (1996). Psicofísica. Madrid: Univer-

Psicometría Aplicada II Abril - 2018 19

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Campbell, N. R. (1938). Symposium: Measu- Ferrando, P. J. (1996). Evaluación de la unidi-

Psicometría Aplicada II Abril - 2018 20

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 21

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Psicometría Aplicada II Abril - 2018 22

LA MEDICIÓN DE LO PSICOLÓGICO- JOSÉ MUÑIZ

Stanley, B. H., Sieber, J. E. y Melton, G. B. Thorndike, R. L. (1982). Applied Psychometrics.

Arce, C. (1994). &RQVWUXFFLyQGHHVFDODVSVLFROyJLFDV Madrid: Síntesis.

García Cueto, E. (1993). ,QWURGXFFLyQDODSVLFRPHWUtDMadrid: Siglo XXI.

Meliá, J. L. (1991). 0pWRGRVGHHVFDODPLHQWRXQLGLPHQVLRQDO Valencia: Cristóbal Serrano Villalba.

Muñiz, J. (1991). ,QWURGXFFLyQDORVPpWRGRVSVLFRItVLFRV Barcelona: PPU.

Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). 3VLFRPHWUtD3UREOHPDV\3UiFWLFDV