Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Principios de Psicometría - Carmen Santisteban Requena PDF
Principios de Psicometría - Carmen Santisteban Requena PDF
EDITORIAL
SINTESIS
Vallehermoso, 34
28015 MADRID
Telf: (91) 593 20 98
Fax: (91) 445 86 96
Diseño y óleo de cubierta: Verónica Rubio
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:
ISBN:978-84-975663-0-8
978-84-975683-4-0
Depósito Legal: M. 11.211-2009
Prólogo 13
Puntos clave 50
Actividades 51
Puntos clave 73
Actividades 73
3. Fiabilidad 75
Precisión de las medidas
3.1. El concepto de fiabilidad 76
3.2. Ecuaciones para definir y calcular la fiabilidad 78
Definiciones 78
Ecuación para un test compuesto por subtests 80
Valores e interpretación 81
Puntos clave 95
Actividades 96
4. Fiabilidad 99
Variabilidad y longitud de las pruebas
4.1. Fiabilidad y variabilidad de las puntuaciones 99
4.2. Fiabilidad y longitud de las pruebas 103
Ecuación de Spearman-Brown 104
Los valores de k 108
Variaciones de la fiabilidad con la longitud 108
Cambios en la longitud para valores prefijados de la fiabilidad 111
5. Fiabilidad 121
Consistencia interna: El coeficiente α
5.1. El coeficiente α y las ecuaciones de Kuder-Richardson 122
Coeficiente α 123
Ecuaciones de Kuder-Richardson 123
6. Inferencias 153
Estimación y contrastes de significación
6.1. Predicciones de la puntuación verdadera 153
6.2. Errores de medida, de estimación y de predicción 156
Tipos de errores 157
Relación entre los errores 159
8. La validez 209
¿Qué es la validez?
8.1. El concepto de validez 209
8.2. Tipos de validez 211
8.3. Validez en relación con el contenido 216
Validez de contenido versus validez aparente 218
9. La validez 229
Evaluación de las evidencias de validez
9.1. Validación del contenido 230
9.2. El coeficiente de validez 231
Validez y fiabilidad 232
Validez y longitud 236
Acotación del valor del coeficiente de validez 239
Coeficientes derivados del coeficiente de validez 240
Validez y representación muestral 243
Índice 9
Bibliografía 431
Hay que añadir que, además de los ejercicios y de las aclaraciones y deduccio-
nes que se dan en los cuadros que se insertan en los capítulos, se ha considerado
que el conocimiento de los orígenes y de la evolución de aspectos cruciales en psi-
cometría pueden ayudar a comprender mejor los conceptos y ser un incentivo
sobre todo para aquellos lectores para los que ésta es su primera aproximación a
la psicometría, además de que les permite situar en el marco adecuado los cono-
cimientos actuales y contemplar con perspectiva una prospectiva hacia donde con-
ducen los nuevos desarrollos. Para no interrumpir la lectura del tema, esta infor-
mación se da en cuadros a los que el lector puede prestar atención en ese u otro
momento.
Con la convicción de que la información no es formación y que el conoci-
miento se adquiere con el trabajo personal, se proponen al final de cada capítu-
lo, además del examen de los puntos más importantes tratados en el mismo, un
conjunto de actividades que es recomendable que el lector realice, unas porque
son una aplicación directa de lo expuesto en el capítulo, y otras porque suponen
que el lector dé un paso más con su elaboración personal.
Este libro está dedicado a Ángel Santisteban y Angustias Requena, mis padres,
y a mi esposo Manuel Cortijo.
Psicometría y teoría de tests:
Introducción
La medición de los atributos psicológicos y
los instrumentos que la hacen posible 1
El término psicometría indica medición en psicología. La psicometría actual
trata de las teorías, modelos, métodos, procedimientos y herramientas que
se utilizan en la medición psicológica, en sentido amplio. En este texto se
exponen las teorías y los modelos para el estudio de las diferencias indivi-
duales. Es conveniente conocer los orígenes de los tests e interpretar el sig-
nificado de las puntuaciones que con ellos se obtienen para entender los
principios básicos de la psicometría. Todo ello sin perder la perspectiva de
que otras materias, entre las que se incluyen la medición psicofísica, son
temas psicométricos que también estudian las diferencias individuales.
En este capítulo se va a tratar:
Algunos antecedentes
Desde que Galton (1822-1911) tuvo la idea de medir las diferencias individua-
les de las aptitudes mentales por métodos puramente objetivos, son muchos
los trabajos y procedimientos que se han desarrollado con el fin de construir
instrumentos que sean adecuados para realizar tales mediciones. Entre los pio-
neros más destacados se encuentran Catell, quien acuñó en 1890 la expresión
de test mental, y Binet (1857-1911), quien generó el primer test de inteligencia
que resultó ser útil en la práctica y en el que, en su tiempo y posteriormente, se
han inspirado un amplio grupo de tests muy conocidos y utilizados. En 1895
Binet y Henri publican un artículo en el que se alejan de la medición simple de
aspectos sensoriales y motores, defendiendo el uso de tareas de carácter más
complejo y, en consecuencia, la construcción de pruebas para medir memoria,
atención, comprensión, etc. Mientras tanto, Ebbinghaus también trabaja con
escolares aplicando tests de este tipo, proponiendo tareas como completar fra-
ses, hacer cálculos aritméticos, recordar palabras, etc. En 1904 el Ministerio de
Instrucción Pública de Francia crea una comisión para tratar el problema de la
instrucción a niños con bajos niveles de inteligencia, e implica a Binet en la bús-
queda de una solución a este problema, quien, dada su experiencia, propone
un test de inteligencia que se comienza a utilizar para la selección de estudian-
tes en las escuelas de París (Binet y Simon, 1905). También se debe a Binet la
introducción del concepto de edad mental. Este concepto fue utilizado por Stern
(1912) para establecer el denominado cociente de inteligencia (CI), definido como
el cociente entre la edad mental y la edad cronológica y que ha tenido una gran
trascendencia a lo largo de la primera mitad del siglo XX, al menos por su influen-
cia en los numerosos estudios dirigidos a la determinación de las diferencias
individuales en el campo de los procesos intelectivos. Con la definición del CI
se estableció en el marco de la teoría psicométrica la primera escala de puntua-
ciones referida a las aptitudes mentales, o bien, se puede decir que se realizó la
primera normalización de las puntuaciones, si la consideramos bajo ciertas condi-
ciones de estandarización.
Capítulo 1. Psicometría y teoría de tests: Introducción 25
Cuadro 1.1
Cuadro 1.2
Sir Francis Galton (Birmingham, 1822-1911), para apoyar sus teorías sobre
la herencia próximas a las de su pariente Darwin, hace experimentos y toma
multitud de medidas sobre millares de sujetos. Aunque no es un matemáti-
co, es el primero en aplicar razonamientos estadísticos al estudio de las apti-
tudes mentales. La idea de la correlación (co-relation originalmente), como
índice cuantitativo de la mayor o menor aproximación en ciertas caracterís-
ticas físicas entre personas relacionadas por un parentesco específico y la
de la regresión, como la tendencia que en el proceso hereditario tienen los
valores extremos en las estaturas de los sujetos a regresar hacia la media,
son conceptos propuestos por Galton. Es Karl Pearson (1857-1936), esta-
dístico de la Universidad de Londres, contemporáneo y colaborador de Gal-
ton, al que comúnmente se cita como fundador de la ciencia estadística,
quien formaliza ambos conceptos y los hace manejables.
Volviendo a las primeras décadas del siglo XX, hay que reseñar que la partici-
pación de EEUU en la primera Guerra Mundial (1914-1918) impulsa el desarro-
llo de los tests, pues los ejércitos se encuentran con la necesidad de evaluar y cla-
sificar a los reclutas. Se da el paso definitivo de la aplicación individual a la colectiva
Capítulo 1. Psicometría y teoría de tests: Introducción 27
y a los tests no verbales (los llamados tests beta), pues esos tests son imprescin-
dibles para hacer posible su aplicación a analfabetos, o a extranjeros desconoce-
dores de la lengua inglesa.
Son muchos los autores cuyas aportaciones e influencia han sido relevan-
tes, tanto en aspectos teóricos como metodológicos y de divulgación, así como
en la generación de tests, aunque los objetivos y las limitaciones propias de esta
obra no permiten que se haga mención a muchos de ellos. En un tratado sobre
el tema ocuparían un lugar muy destacado, por ejemplo, obras como Theory of
mental tests de Gulliksen (1950a), las aportaciones en la construcción de escalas
de Guttman (1941) y de Stevens (1946) o uno de los tests de inteligencia más
difundidos, el de Wechsler (1939) que se sigue utilizando en sus versiones WAIS
para adultos (Wechsler, 1997), y WISC para niños (Wechsler, 2003), pues per-
miten diferenciar distintos tipos de inteligencia a través de las puntuaciones en
sus subtests. También habría que hacer mención a las acciones individuales o
institucionales que ayudaron a investigar, a difundir y a propiciar la utilización
masiva de los tests. La creación de empresas para la difusión de los tests, como
la de Catell, en los años veinte del siglo XX, y muy especialmente la creación del
Educational Testing Service en 1947, han propulsado el gran desarrollo de la psi-
cometría.
criterio se fija una puntuación de corte, en relación con un criterio, para esta-
blecer una división de los sujetos en dos categorías, los que sus calificaciones
superan esa puntuación y los que no. Luego las interpretaciones de las pun-
tuaciones de un sujeto en el rasgo y las decisiones que se derivan de ello están
referenciadas al criterio establecido. En los tests referidos a la norma, lo que
se comparan son las puntuaciones del sujeto en el test con las de una mues-
tra representativa o con las de una población, es decir, con las del denomina-
do grupo normativo.
En las clasificaciones en relación con el tipo de respuesta, se suele distin-
guir entre los tests de respuesta abierta, en la que los sujetos pueden responder
diciendo lo que les parezca oportuno, y los de respuesta cerrada, en los que los
sujetos deben elegir entre diferentes alternativas que se les proponen. Los de
respuesta cerrada a su vez pueden recibir la denominación en relación con el
número de alternativas que presenta la respuesta, tests de respuesta multicategóri-
ca, o del tipo de variable con el que se valora la respuesta, tests de respuesta dico-
tómica, etc. Otra clasificación que se suele hacer es distinguir entre los que se
denominan tests de velocidad y los tests de potencia o de fondo. La diferencia entre
ambos es que, en un test de velocidad, los ítems suelen ser muy homogéneos,
de similar dificultad y las diferencias individuales se manifiestan principalmen-
te por el número de ítems resueltos correctamente en un tiempo limitado, que
se considera que es insuficiente para que se cumplimente la totalidad del test.
Por el contrario, un test de potencia suele comenzar con ítems fáciles que aumen-
tan en dificultad a medida que se avanza en el test, y no hay teóricamente tiem-
po límite. En ambos casos, la puntuación en el test se suele obtener contabili-
zando el número de respuestas correctas, pero la interpretación de esa
puntuación en uno y otro caso puede ser diferente. La identificación de un test
como de velocidad o de potencia a veces no es obvia, y se han presentado algu-
nos procedimientos para su clasificación que suelen basarse en el análisis de los
errores por comisión y por omisión (algunos de estos procedimientos pueden
consultarse en Santisteban, 1990a).
Las puntuaciones de los tests se utilizan para establecer e interpretar las dife-
rencias interindividuales e intraindividuales en las mediciones de los rasgos. Por
Capítulo 1. Psicometría y teoría de tests: Introducción 29
lo tanto, una de las cuestiones más inmediatas es saber cómo se distribuyen esas
puntuaciones. Esto implica conocer alrededor de qué valor se concentran esas pun-
tuaciones, así como cuál es su dispersión y sus relaciones. Las medidas de tenden-
cia central se obtienen con los valores de los estadísticos tales como la media arit-
mética, o la mediana. Las medidas de dispersión usuales son la varianza y su raíz
cuadrada, la desviación típica. Entre las medidas que evalúan la asociación entre
variables están la covarianza y la correlación.
Todas estas medidas se van a utilizar muy a menudo en el texto, así que indi-
camos brevemente sus expresiones y notación. Usualmente se utilizarán letras
latinas para los estadísticos calculados con valores muestrales, y las griegas para
los parámetros poblacionales o cuando se da la forma genérica de una ex-
presión.
X = ∑Xi / N
Medidas de dispersión
s 2
=
∑ ( X i − X )2
N
Medidas de asociación
Cov ( X , Y ) =
∑( X i − X ) ( Yi − Y )
N
y de esta expresión se puede deducir que Cov (X, Y) = Cov (Y, X). Por ello, en
esta obra, cuando se haga referencia a la covarianza de forma general, diremos
covarianza entre las variables, pero cuando en una expresión hay que incluir la
cuantificación de esa covarianza, se expresará como 2 Cov (X, Y). Si se usa el ope-
rador E, la covarianza responde a la expresión E {[X – E(X)] [Y – E (Y)]}.
La correlación entre las variables X e Y viene dada por la expresión:
rXY =
Cov ( X , Y )
sX sY
Ejemplo 1.1
Xi 0 1 2 3 4 5 6
Ni 0 10 20 40 80 30 20
fi 0 0.05 0.10 0.20 0.40 0.15 0.10
con frecuencia relativa f6 = 0.15 (f6 = 30 / 200), indica que de los 200 sujetos
sólo un pequeño número obtiene esa puntuación. Esta simple descripción
permite conocer, por ejemplo, que el 25% de la muestra presentan puntuacio-
nes muy altas (5 o 6), en tanto que puntuaciones muy bajas (0, 1 o 2) las ob-
tienen el 15%.
Distribución normal
Distribución uniforme
Una curva de distribución de frecuencias que sea una línea recta paralela al
eje X de las puntuaciones respondería a una distribución uniforme o rectan-
gular, donde se puede considerar que todos los valores son modales, o bien,
que no hay moda, pues todos tienen la misma frecuencia. Un test que genere
este tipo de distribución en que todas las puntuaciones, sean altas, bajas o inter-
medias, las obtienen el mismo porcentaje de sujetos, sería muy poco útil para
extraer conclusiones.
Capítulo 1. Psicometría y teoría de tests: Introducción 33
Figura 1.2. Representación gráfica de dos distribuciones normales con media cero
y desviaciones típicas 0.5 y 1.
Distribuciones asimétricas
µ − Me
δ=
σ
34 Principios de Psicometría
Una puntuación aislada y sin referencia a alguna unidad de medida no tiene una
clara interpretación. Al menos habría que conocer cómo es de alta o de baja esa
puntuación en relación con otros sujetos y hacia qué valores tienden las puntua-
ciones de la población. Las puntuaciones tipificadas permiten algunas de esas
comparaciones.
Capítulo 1. Psicometría y teoría de tests: Introducción 37
X−X X −µ
z= o bien z =
s σ
32 − 30 42 − 36 33 − 36
z1 = =1 z2 = =2 z3 = = −1
2 3 3
T−T
T = z σT + T o sea, z =
σT
Por lo tanto, una vez ordenadas las puntuaciones, la escala primaria estaría
constituida por las puntuaciones directas, que hay que transformar en otras para
hacerlas comparables.
Desde que Galton en el siglo XIX tuvo la idea de medir las diferencias individua-
les de las aptitudes mentales por métodos puramente objetivos, son muchos los
trabajos y procedimientos que se han desarrollado con el fin de construir instru-
mentos que sean adecuados para realizar tales mediciones. En esos desarrollos
han intervenido figuras destacadas como algunas de las anteriormente citadas, o
como Thomson, Thurstone, Hurt, Vernon, Jöreskog, etc., pero son las aporta-
ciones de Galton, Pearson, Binet y Spearman las que constituyeron los pilares
básicos en los que durante más de medio siglo se han sustentado las teorías de los
tests psicométricos:
de el que se ha generado la denominada teoría clásica de los tests (TCT). Una de las
principales características de los tests construidos en el contexto de esta teoría
es que las puntuaciones que obtiene un sujeto en el test se supone que están
linealmente relacionadas con las que se consideran que son sus puntuaciones
verdaderas, y hay que interpretarlas en relación a aquellas que se obtuvieron en
el grupo normativo, que es el grupo que constituyó la muestra con la que se deter-
minaron las características psicométricas del test y con la que se construyó la
escala. Esta necesidad de referenciar la puntuación individual a la del grupo nor-
mativo no deja de ser una limitación, además de que puede producir importantes
distorsiones en la interpretación de las puntuaciones, si los sujetos a los que se
les administra el test no pertenecen a la población de la que la muestra era repre-
sentativa.
Cuadro 1.3
nes ambientales, etc. Por ello, se han propuesto muchos modelos identificando
diferentes componentes del error, como el denominado modelo platónico, pero
un modelo que persiste y que permite un buen tratamiento de los datos es el que
se conoce bajo la denominación de la teoría de la generalizabilidad (Cronbach et al.,
1963; Gleser et al., 1965; Cronbach et al., 1972). En este modelo se reconoce que
cada puntuación observada es una entre las muchas posibles, que todas están
afectadas por múltiples fuentes de error y que, por lo tanto, el interés y la utili-
dad de esas puntuaciones está en el grado en que sean generalizables, con las
debidas garantías, a una multiplicidad de situaciones, lo que los propios autores
denominan universo de generalización. En estos modelos la cuestión clave no es pre-
guntarse sólo por la fiabilidad del test, sino por la precisión con la que se pue-
de realizar la generalización. El modelo estadístico que conecta la teoría de la
generalizabilidad con el análisis de los datos es el análisis de la varianza, que sir-
ve para identificar y evaluar las principales fuentes de error que afectan a las
medidas.
Otro modelo que se puede considerar como una extensión de la TCT es
el modelo factorial simple. Spearman, al mismo tiempo que propone el modelo
lineal anteriormente citado (Spearman, 1904a), publica otro artículo (Spear-
man, 1904b) mostrando cómo se puede reconocer si ese test mide un atribu-
to común, a partir de los datos que aporta el test. Al igual que décadas después
y tras múltiples desarrollos el primer artículo da origen a la TCT, este otro con-
duce al establecimiento del denominado modelo factorial simple, que en un
principio se utilizó para comprobar la teoría sobre la estructura factorial de la
inteligencia y que, posteriormente, se ha utilizado y se viene utilizando para
detectar factores fundamentales en los procesos de cognición, factores de la
personalidad, etc.
El alejamiento del modelo de Spearman da lugar al inicio de una nueva con-
cepción de la teoría de los tests donde el foco de atención se centra en la res-
puesta individualizada al ítem, más que en cómo los sujetos de un determina-
do grupo responden al test. Los modelos se expresan en función de las
características del ítem, en lugar de en las del test. Por lo tanto, estos modelos
están basados en la independencia entre los ítems y en las distribuciones pro-
babilísticas de cada uno de ellos, a las que se les llama curva característica del ítem,
que son las que describen el comportamiento de las puntuaciones en los ítems
y sus relaciones con las medidas del rasgo. Un tema crucial en estos modelos
es la búsqueda de estadísticos suficientes para las estimaciones de sus pará-
42 Principios de Psicometría
metros, y esta cuestión es el eje fundamental sobre el que giran muchas de estas
aproximaciones. Esta búsqueda de alternativas tratando de evitar las limita-
ciones del modelo de Spearman genera modelos que se desarrollan bajo la
denominación de la teoría del rasgo latente, denominación que posteriormen-
te fue sustituida en parte por la de teoría de la respuesta al ítem (TRI). Casi
todos los aspectos, modelos y teorías del rasgo latente se contemplan y son
objeto de posteriores desarrollos bajo la TRI. Esta última denominación se
ajusta más fielmente a los conceptos ya citados que subyacen en dicha teoría
y a los métodos de construcción de tests basados en ella, en cuanto a que en
estos modelos el elemento central es el ítem, caracterizado por su forma pro-
babilística y por las características diferenciales de las que lo dotan sus pará-
metros, con independencia de las características de las muestras particulares
sobre las que que se aplican. No obstante, la consideración de la latencia del ras-
go podría considerarse común a todos los métodos y teorías de los tests, pues-
to que son los tests psicométricos y otros instrumentos de medición estanda-
rizados los que vienen a resolver el problema de la medición de esos rasgos
inobservables (latentes), infiriéndose esas medidas desde las de sus manifesta-
ciones observables.
Las propuestas de modelos no lineales (TRI y de clase latente) se desarrollan
a comienzos de los años sesenta del siglo XX, aunque se gestan con anteriori-
dad, y generan nuevas formas de concebir los tests, de abordar el análisis de sus
elementos y de inferir las medidas de los inobservables en los que se está inte-
resado. Estas teorías y procedimientos no sustituyen ni destierran a los ante-
riores, sino que ambos conviven. Por ejemplo, cuando hay que indicar las pro-
piedades psicométricas de un test o cuestionario, se suele dar su coeficiente alfa
de consistencia interna, casi siempre calculado con métodos derivados de las
teorías y modelos que hemos dado en denominar clásicos. En cuanto a la varia-
ble de interés, en la teoría clásica, al inobservable que se quiere evaluar se le lla-
ma puntuación verdadera (V) y en los desarrollos posteriores, a estas capacida-
des inobservables se las suele denominar genéricamente aptitud o rasgos (θ).
En los modelos no lineales se pueden incluir modelos basados en las distribu-
ciones probabilísticas como la distribución binomial de donde se deriva el mode-
lo de error binomial, o en distribuciones de Poisson, que dieron lugar a los modelos
poissonianos que usa Rasch, o en la distribución normal acumulada, con la que se
generan los modelos de ojiva normal. Sin embargo, han sido las distribuciones logís-
ticas, y en algunos casos la normal, las que se consideran de mayor interés y han
Capítulo 1. Psicometría y teoría de tests: Introducción 43
Cuadro 1.4
Métricas Categóricas
te que en estos tests se puedan construir tests “a la medida” de los sujetos y para
propósitos específicos.
Una vez establecido que antes de construir el instrumento de evaluación hay que
tener perfectamente especificada la naturaleza del concepto de aquello que se
desea medir, las cuestiones (los ítems) deben expresarse de la forma más clara
posible, utilizando palabras que sean usuales y expresiones que no sean ambiguas.
Además, el lenguaje debe ser el apropiado para el tipo de personas a quienes está
dirigido. Es evidente que no se pueden utilizar los mismos términos sobre un
tema de participación política si la prueba está dirigida a juristas o si es para toda
la población. En general, es preferible usar palabras cortas y evitar caer en frases
gramaticalmente complejas o difíciles de comprender en una primera lectura,
como puede suceder, por ejemplo, cuando se incluyen en la misma frase dos nega-
ciones. Tampoco se deben enunciar frases que induzcan a dar una determinada
respuesta, o aquellas difíciles de responder porque la persona considere que se le
pregunta por algo estrictamente reservado, confidencial o de su intimidad.
En la redacción de los ítems, en principio, es deseable la participación o el
asesoramiento de expertos que sean buenos conocedores del tema de aquello
que se desea medir, ya sea un determinado rasgo, una aptitud, actitud, conoci-
mientos, etc.
Alfred Binet (Binet y Simon, 1905) ya entró en detalles sobre las condiciones de
aplicación de los tests. Al presentar una de las escalas que construyó para la medi-
ción de la inteligencia, sugería que a los niños se les debería administrar el test
en una habitación aislada y tranquila en la que el niño estuviese solo con la per-
sona que administra el test y, a ser posible, con la presencia de un adulto res-
ponsable del niño, aunque en ningún momento y de ninguna manera podría inter-
venir. Después de más de un siglo, se sigue insistiendo en la importancia que
tiene la correcta administración de los tests, que los administren personas entre-
nadas y que se sigan rigurosamente todas las condiciones establecidas para su
Capítulo 1. Psicometría y teoría de tests: Introducción 49
Puntos clave
Actividades
r Repita la actividad anterior con los datos de la tabla siguiente. Verifique si todos
los valores se presentan con la misma frecuencia relativa (f = 0.20). ¿Es la pun-
tuación media igual a la varianza? ¿El 50% de los sujetos tienen valores igua-
les o inferiores a la media? ¿Se habría obtenido mayor varianza si la distribu-
ción de las puntuaciones de esos 100 sujetos hubiese sido normal? ¿Qué
significado psicométrico se puede dar a esta distribución?
Xi 0 1 2 3 4
Ni 20 20 20 20 20
Puntuaciones
0 10 20 30 40 50
Test X1 600 1200 100 50 30 20
Test X2 20 30 50 100 1200 600
52 Principios de Psicometría
r Calcule los valores de los índices de asimetría de las dos distribuciones de la acti-
vidad anterior y discuta si es aconsejable la normalización de sus puntuaciones.
r Obtenga los datos estandarizados de las cuatro distribuciones dadas en las
actividades anteriores. Discuta qué significado tienen esos valores y si sería
conveniente pasarlos a una escala estandarizada derivada.
r Busque en la literatura las referencias y haga un resumen de las contribucio-
nes de Guttman, Stevens y Thurstone en la construcción de escalas.
Teoría clásica de los tests
El modelo lineal de Spearman 2
El objetivo de los modelos psicométricos es inferir con la precisión ade-
cuada las puntuaciones de los sujetos en un rasgo, mediante las puntua-
ciones que se obtienen al aplicar una prueba diseñada para tal fin. El pri-
mer modelo de puntuación observada, a través del cual se intentó tratar
el problema de la incertidumbre o error inherente a cualquiera de las
medidas realizadas mediante la aplicación de un test, fue el presentado
por Spearman en 1904, estableciendo las bases del modelo lineal de puntua-
ciones. La introducción de este modelo ha dado lugar a que se desarrolle
una de las teorías más prolíficas en el campo de la psicometría, que por
su utilidad y sencillez se ha adoptado para la construcción de numerosí-
simos tests estándar. Aun cuando posteriormente se han desarrollado
nuevas teorías, la teoría basada en el modelo de Spearman, denominada
teoría clásica de las puntuaciones verdaderas o también teoría clásica de los tests
(TCT), sigue siendo influyente en nuestro tiempo, aun cuando se ha pro-
ducido la expansión de una teoría más potente como es la teoría de la
respuesta al ítem (TRI), en cuyo seno se han generado modelos no linea-
les y formas de análisis que vienen a resolver, no sólo algunos de los pro-
blemas inherentes a la TCT, sino otros muchos de gran importancia,
como la determinación del sesgo que pueden conllevar los ítems que for-
man las pruebas.
En este capítulo se va a tratar:
Las hipótesis básicas son las de un modelo aditivo lineal, donde la variable endó-
gena o dependiente es la que corresponde a la puntuación X observada en las
pruebas. La variable exógena o independiente V es la correspondiente a la
supuesta puntuación verdadera de los sujetos en el rasgo, cuyo valor se pre-
tende estimar.
El modelo que propone Spearman es un modelo lineal muy simple cuyas carac-
terísticas se encuentran en los manuales de estadística, de álgebra o incluso en los
de otras disciplinas, puesto que es un modelo que se ajusta a muchas situaciones.
Sin embargo, aquí se exponen las hipótesis y el significado del modelo que son
específicas del contexto psicométrico.
Hipótesis
X=V+e (2.1)
E (e) = 0
Capítulo 2. TCT: Modelo lineal de Spearman 55
Se supone además que los errores se distribuyen según una ley normal
y que el modelo es homocedástico, es decir, que para cualquier i, j las varian-
zas de los errores son iguales:
( )
var (e i ) = σ e2i = σ e2j = var e j
ρVe = 0
ρei ej = 0
distintas de un mismo test o en tests diferentes. Esto es, para todo i, j, con i ≠ j,
5. No existe correlación entre las puntuaciones verdaderas y los errores en formas
se tiene que:
ρVi ej = 0
E [ V] = E [ X] (2.2)
Es decir, bajo los supuestos del modelo, las medias de las puntuacio-
nes observadas y las de las verdaderas coinciden.
En efecto, puesto que X = V + e y que E (operador esperanza mate-
mática) opera linealmente, la esperanza de la expresión anterior es:
E [ X ] = E [ V + e] = E [ V ] + E [ e]
[ ]
nadas de las puntuaciones observadas sobre las verdaderas son:
E X V = vg = vg
Cuadro 2.1
[ ] [ ] [ ] [
E X V = vg = E V + e V = vg = E V V = vg + E e V = vg ]
Ahora bien, en la expresión anterior se tiene que, al ser E (e) = 0, y pues-
to que las puntuaciones verdaderas son independientes del error, dada una
determinada puntuación verdadera V = vg, la esperanza matemática condi-
cionada E [e V = vg] también es cero. Al ser E [e V = vg]=0, se tiene que:
E [XV = vg] = E [VV= vg].
El valor medio de la variable V condicionado a que V tome exactamente
el valor Vg es exactamente el valor vg , o sea, una constante.
Por lo tanto, para todo valor g = 1, …, N, las medias condicionadas de
[ ]
las puntuaciones observadas sobre las verdaderas son:
E X V = vg = vg
σ 2X = σ 2V + σ 2e (2.3)
cov (V , e)
ρ Ve =
σV σe
σ 2V
ρ2XV =
σ 2X
(2.4)
Cuadro 2.2
(
cov X,V = E ) [ [X − E (X)] [V − E (V)] ] = E (X V) − E (X) E (V)
sustituyendo X por V + e, y teniendo en cuenta las hipótesis del modelo, se
obtiene:
( ) [( ) ]
cov X,V = E V + e V − E V + e E V = [ ] [ ]
= E [ V 2 + Ve] − [ E [ V ]] = E [ V 2 ] − [E [ V ]] = var ( V )
2 2
Capítulo 2. TCT: Modelo lineal de Spearman 59
( )
cov X,V = var V = σ 2V( )
que sustituida en la expresión general del cuadrado del coeficiente de corre-
( )
lación:
cov ( X, V ) 2 σ 2V
2
σ2
ρ2XV = = 2 2 = 2V
σX σV σX σV σX
σ 2X − σ 2e σ 2e
ρ2XV = = 1−
σ 2X σ 2X
(2.5)
σ 2e
ρ2Xe =
σ 2X
(2.6)
Medidas paralelas
Definición:
Dos conjuntos de puntuaciones, sean estas X y X', se dice que son medidas
paralelas si se cumplen las dos condiciones siguientes:
X = V +e X′ = V + e′ (2.8)
σ 2e = σ 2e′ (2.9)
E [ X ] = E [ X′] (2.10)
E [ X ] = E [ V + e] = E [ V ] + E [ e] = E [ V ]
E [ X′] = E [ V′ + e′] = E [ V′] + E [e′] = E [ V′]
σ 2V
ρ XX ′ = ρ2XV =
σ 2X
(2.12)
62 Principios de Psicometría
Cuadro 2.3
ρ XX′ =
(
cov X, X ′ ) = E [(X − E (X)) (X ′ − E (X ′))] =
σ X σ X′ σ X σ X′
=
[ ] [ ] [ ]
E X X′ − E X E X′
σ X σ X′
Como consecuencia del paralelismo E [X] = E [X' ] y Var (X) = Var (X' ). Sus-
tituyendo X y X' por sus componentes, de acuerdo con (2.1), se obtiene que
[ ] [ [ ]]
E X X' − E X [ ] [ [ ]]
E V2 − E V
2
σ 2V
2
ρ XX' = = = = ρ2XV
σ 2X σ 2X σ 2X
σ V2 = σ X2 ρXX' (2.14)
cov (X , X′)
σ 2V = σ 2X ρ XX ′ = σ 2X = cov (X , X′)
σ X σ X′
ρ X 1X 2 = ρ X 1X 3 = . . . = ρ X i X j = . . .
y que
ρ X1Z = ρ X 2Z = . . . = ρ X i Z = . . .
σ 2e = σ 2X (1 − ρ XX ′ ) (2.15)
σ 2e = σ 2X − σ 2V = σ 2X − ( σ 2X ρ XX ′ ) = σ 2X (1 − ρ XX ′ )
64 Principios de Psicometría
ya que
σ 2e σ 2X − σ 2V σ 2V
ρ2Xe = = = 1− = 1 − ρ XX ′
σ 2X σ 2X σ 2X
Medidas tau-equivalentes
Medidas tau-equivalentes, que exigen que sean iguales las puntuaciones verdade-
ras, pero no las varianzas error. Por lo tanto, en estas medidas se está suponien-
do la igualdad entre las medias y las varianzas de las puntuaciones verdaderas,
pero no entre las empíricas u observadas. Entre las puntuaciones observadas sólo
se dará la igualdad de las medias, pero no la de varianzas.
Capítulo 2. TCT: Modelo lineal de Spearman 65
Medidas esencialmente tau-equivalentes son las que no exigen la igualdad entre las
varianzas error, pero tampoco entre las puntuaciones verdaderas, pues admiten
que difieran en una constante aditiva. Por lo tanto, no se dará la igualdad de varian-
zas entre las puntuaciones observadas y tampoco entre sus medias, que diferirán
en una constante aditiva.
Cuadro 2.4
Consecuencias prácticas
σ 2X − σ 2V = σ 2e
σ 2V σ 2e
1− =
σ 2X σ 2X
Capítulo 2. TCT: Modelo lineal de Spearman 67
Ejemplo 2.1
X = 32 ; σ 2X = 6
68 Principios de Psicometría
Ejemplo 2.2
X 1 = 38 ; σ 2X = 12
1
X 2 = 42; σ 2X = 12
2
y los valores de los coeficientes de correlación lineal, calculados entre las pun-
tuaciones iniciales y las obtenidas en las réplicas respectivas, son:
( )( )
σ 2V = 12 0.72 = 8.64
1
( )( )
σ 2V = 12 0.66 = 7.92
2
σ 2e = 12 − 8.64 = 3.36
1
σ 2e = 12 − 7.92 = 4.08
2
Capítulo 2. TCT: Modelo lineal de Spearman 69
por lo tanto, debe elegirse la prueba X1 frente a la X2, pues tiene menor varian-
za error. Esta conclusión se deriva de la menor fiabilidad del test X2, teniendo
la misma varianza que el test X1.
Ejemplo 2.3
X = 16.4 ; s2X = 12
X ′ = 14.2 ; s2X′ = 12
Este resultado indicó que las pruebas X y X' no se podían considerar para-
lelas, e incluso que esos dos conjuntos de ítems pudieran estar midiendo aspec-
tos diferentes.
Ejemplo 2.4
H0 : µ = µ'
H1 : µ ≠ µ'
t= = 1.46
0.19
0.13
Capítulo 2. TCT: Modelo lineal de Spearman 71
t=
(s 2
X − s2X′ ) N− 2
= 1.94
2 s X s X′ 1− rXX
2
′
Ejemplo 2.5
Sujetos
Pruebas
1 2 3 4
X 30 18 40 40
X' 22 14 32 28
4 + 196 + 64 + 64
X = 32; s2X = = 82; s X = 9.06
4
4 + 100 + 64 + 16
X ′ = 24 ; s2X′ = = 46 ; s X′ = 6.78
4
rXX′ =
[ ] [ ] [ ]=
E X X′ − E X E X′ 60
=
60
= 0.98
s X s X′ (9.06) (6.78) 61.43
lo que indica que existe una alta correlación lineal positiva entre las variables
asociadas con ambos conjuntos de puntuaciones. Esto no implica, sin embar-
go, que exista paralelismo entre ellas.
Capítulo 2. TCT: Modelo lineal de Spearman 73
Puntos clave
Actividades
Una vez que se ha generado un cuestionario o un test hay que conocer la fiabili-
dad y la validez de las medidas que se obtengan cuando se les administren esas
pruebas a los sujetos a los que se desee evaluar. Al hablar de la fiabilidad de un test
nos estamos refiriendo a la precisión de ese test, considerado como instrumento
de medida, en correspondencia con el concepto de precisión que se tiene acerca
de los instrumentos utilizados para las medidas físicas. El término fiabilidad se
acuña en el contexto de la teoría clásica de los tests.
Teniendo en cuenta que el objetivo de un test es el de poder inferir magnitu-
des que reflejen los inobservables psíquicos a través de sus manifestaciones obser-
vables, hay que ser cuidadosos con la interpretación dada a la fiabilidad pues, a
veces, se confunde con otros conceptos como el de adecuación o de validez. La
fiabilidad de una prueba o test se refiere, exclusivamente, a la precisión de esa
prueba, utilizada como instrumento de medida, y nunca a si ese instrumento es
idóneo para la medida de la aptitud, actitud, destreza o cualquier otro tipo de ras-
go que se quiere evaluar a través de esa prueba. La cuestión de la idoneidad del
instrumento de medida con respecto al rasgo que se desea evaluar es un proble-
ma de validez, que es otra de las características necesariamente exigibles a las prue-
bas psicométricas, cuya problemática se trata en los Capítulos 8, 9 y 10. Tanto la
fiabilidad como la validez presentan distintas facetas, que reciben diferentes deno-
minaciones y que tienen sus propios métodos de cálculo e interpretaciones.
Cuadro 3.1
Definiciones
σ 2V
ρ2XV = (3.1)
σ 2X
σ 2V cov( XX′)
ρ2XV = = ρ XX ′ = = coeficiente de fiabilidad
σ 2X σ X σ X′
σV
ρ XV = = ρ XX ′ = índice de fiabilidad
σX
(3.2)
Cuadro 3.2
∑ VV ; ∑ XX ; ∑ XV
las respectivas matrices de varianzas y covarianzas entre las puntuaciones verda-
deras, entre las observadas y entre las observadas y las verdaderas, la correlación
(que es el cociente entre la covarianza y las desviaciones típicas), se calculará
mediante la expresión:
I′ ∑ XV I
ρ XV =
[I′ ∑ XX I] 1 2 [I′ ∑ VV I] 1 2
(3.3)
Capítulo 3. Fiabilidad: Definiciones 81
donde por I' e I se indican los correspondientes vectores unidad. Cuando se con-
sidera que los diferentes subtests no tienen la misma importancia, sino que se
supone que unos tienen más influencia (más peso) que otros en la medición del
constructo, a los subtests se les asigna una determinada ponderación, ai. En ese
caso el test X es una combinación lineal de sus componentes, que se puede expre-
sar como: X = a1X1 +... + akXk, y la ecuación (3.3) adopta la forma
A′ ∑ XV A
ρ XV =
[A′ ∑ XX A] [A′ ∑ VV A]
12 12
(3.4)
Valores e interpretación
Tanto el coeficiente como el índice de fiabilidad son valores positivos y están aco-
tados. Pueden ser valores cualesquiera del intervalo [0, 1].
Que estos valores no pueden ser negativos se deduce del concepto y de la pro-
pia definición del coeficiente de fiabilidad, como cociente entre dos varianzas,
que necesariamente son magnitudes positivas. El método de cálculo, como coe-
ficiente de correlación lineal entre dos conjuntos de medidas X y X', pudiera lle-
var a pensar que pueden tomar valores en el intervalo [–1, 1], pero también por
esta vía es fácil concluir que no es posible obtener valores menores que cero, si
se tiene en cuenta que esas medidas son paralelas y se consideran las condiciones
establecidas para el paralelismo.
de correlación ρXX' resulte ser nulo, lo que indica que la covarianza entre las
variables X y X' es cero.
Por lo tanto:
σ 2V
0 ≤ = ρ XX ′ ≤ 1
σ 2X
(3.5)
Cuadro 3.3
Test-retest
Bajo esta denominación se indica que las puntuaciones repetidas X y X' se han
obtenido aplicando el mismo test a los mismos sujetos y en las mismas condi-
ciones en dos ocasiones diferentes, generalmente separadas en el tiempo. Si las
correlaciones entre ambas aplicaciones son elevadas y las condiciones de aplica-
ción de la prueba en las dos ocasiones son esencialmente iguales, entonces se con-
siderará que la prueba es fiable en el sentido de que se observa una significativa
estabilidad en las puntuaciones.
Es evidente que, si se determina que el test se debe aplicar a los mismos suje-
tos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la
verificación de que esas premisas se cumplen. Uno de los problemas a los que
con mayor frecuencia se hace alusión en la literatura es al posible efecto de apren-
dizaje del sujeto durante la realización de la prueba, que influirá en sus resulta-
dos cuando esa misma prueba la realiza por segunda vez. Este efecto se elimi-
na, o al menos puede quedar paliado, si se deja transcurrir un tiempo suficiente
entre ambas aplicaciones de la prueba. Esta solución, sin embargo, no siempre
es posible, bien porque no se puedan tener disponibles los mismos sujetos, o
porque no se puedan reproducir las mismas condiciones en un tiempo poste-
rior, o bien, porque el rasgo que se está evaluando pueda también sufrir varia-
ciones en ese intervalo de tiempo, porque se produzca algún hecho o alguna
intervención que lo modifique. Este último sería el caso, por ejemplo, cuando
se aplicara un test para valorar un tipo de disfunción o patología, y entre una
aplicación y otra de la prueba algunos de los sujetos estuvieran recibiendo tra-
tamiento terapéutico.
Formas paralelas
Formalmente se entiende por formas paralelas de un mismo test a las que cum-
plen las condiciones dadas en el Apartado 2.3. En la práctica, se suelen construir
dos pruebas de forma paralela que resulten ser prácticamente equivalentes, de
manera que las pruebas pudieran ser intercambiables.
Esta forma de obtener medidas repetidas, destinadas a la posterior obten-
ción del coeficiente de fiabilidad de la prueba, elimina una de las dificultades
que presenta el método del test-retest, puesto que ambas pruebas se aplicarían
Capítulo 3. Fiabilidad: Definiciones 85
a los sujetos en el mismo momento y, por lo tanto, se tiene un control más direc-
to de que el sujeto las realiza en las mismas condiciones, aunque se alargaría el
tiempo de aplicación. En este caso, habría que tener en cuenta si la respuesta
de una forma influye en la otra y la longitud de las pruebas. A veces es conve-
niente hacer un pequeño descanso entre aplicaciones, para que las respuestas
no estén contaminadas por un efecto de fatiga en los sujetos que las cumpli-
mentan.
El gran inconveniente que tiene esta modalidad es el de que multiplica el
esfuerzo en el proceso de construcción y selección de ítems. En la actualidad, en
bastantes tipos de pruebas ya se han construido los ítems con anterioridad y
se tiene disponible un gran banco de ítems de los que se conocen sus caracte-
rísticas, gracias a las técnicas de la teoría de la respuesta al ítem (TRI) que trata-
remos en capítulos posteriores.
Se trata en este caso de poner en relación las puntuaciones entre dos partes del
mismo test, actuando ambas como si fuesen dos formas paralelas. La división del
test en dos partes se puede llevar a cabo de muy distintas formas, sin embargo,
para realizarla correctamente con el propósito de calcular la fiabilidad, hay que
tener en cuenta cómo se ha diseñado el test. En un test con ítems muy homogé-
neos, cualquier división en dos partes iguales se puede aceptar como adecuada.
Por el contrario, en aquellos casos, muy usuales en la práctica del diseño y la cons-
trucción, en los que el test va creciendo en dificultad a medida que se avanza en
su ejecución; o bien, en aquellos otros en que sin ser de dificultad creciente, se les
ha introducido al principio un cierto número de ítems de pequeña dificultad con
el fin de motivar al sujeto, no sería conveniente realizar una división en dos par-
tes sin tener en cuenta dichas características. Los primeros ítems de una de las
partes serían más fáciles que los de la otra si se hiciese, por ejemplo, la división
eligiendo los n/2 primeros para una de las partes.
Una de las divisiones en dos partes, que tiende a paliar las dificultades ante-
riormente mencionadas, es aquella en que se eligen por un lado los elementos que
ocupan los lugares pares del test y por otro los impares, para utilizarlos como dos
formas paralelas. De esta forma los ítems que componen las dos partes en las que
queda dividido el test tienen dificultades similares.
86 Principios de Psicometría
Cuadro 3.4
Ejemplo 3.1
Las puntuaciones X y X' que se dan en la Tabla 3.1 se han obtenido como
resultado al administrar dos pruebas supuestamente paralelas a siete sujetos
que se asume que son una muestra representativa de la población para la que
se construye esa prueba. Las puntuaciones de X y X' varían entre cero y 15 pun-
tos. Se trata de calcular la fiabilidad de la prueba y de discutir los procedimientos,
así como los resultados.
Sujetos
Puntuaciones
1 2 3 4 5 6 7
X 7 10 14 13 6 9 4
X' 9 11 13 13 7 7 3
1 i=7 1 i=7
X = E( X ) = ∑ Xi = = 9 ; X ′ = E( X ′) = ∑ X i′ = = 9
63 63
N i=1 7 N i=1 7
∑ ( X i − X )2 ∑ ( X i′ − X ′)2
7 7
s2X = i=1
= = 11.43 ; s2X′ = i=1
= = 11.43
80 80
N 7 N 7
∑ ( X i − X )( X ′i − X ′)
rXX′ = = = 0.92
1 1 74
N s X s X′ 7 11.43
Ejemplo 3.2
Ejemplo 3.3
En la Tabla 3.2 se presentan los datos de tres sujetos que han respondido
a los ocho ítems de los que consta una prueba. Se quiere calcular la fiabilidad
de la prueba de la que sólo es posible disponer de los datos relativos a una sola
aplicación.
En este caso hipotético, el único método posible es el de la división en dos
partes. Una opción es la de correlacionar las puntuaciones de los ítems 1, 3, 5
y 7 con las de los ítems 2, 4, 6 y 8. Es decir, establecer la correlación entre los
Capítulo 3. Fiabilidad: Definiciones 89
ítems que ocupan los lugares pares con los de los impares. Se trata de calcu-
lar la correlación entre los valores que se dan en la Tabla 3.3:
Ítems
Sujetos
1 2 3 4 5 6 7 8
a 10 10 8 4 6 9 8 8
b 9 12 6 4 7 8 9 6
c 10 8 10 6 8 6 10 8
Total 29 30 24 14 21 23 27 22
Impares: X 29 24 21 27
Pares: X ' 30 14 23 22
Cuadro 3.5
Ejemplo 3.4
Se quiere conocer las medias, las varianzas y las desviaciones típicas de
los datos de la Tabla 3.4, que son los valores obtenidos en los 16 ítems de una
prueba, que se administran a 8 sujetos, dando separadamente los valores en
los ítems que ocupan un lugar impar o par, así como los valores de las diferen-
cias entre ellos.
Sujetos
1 2 3 4 5 6 7 8
Ximpar = Xi 15 14 16 10 9 10 12 10
Xpar = Xp 16 19 12 18 10 7 10 12
Xp-i = Xp – Xi 1 5 –4 8 1 –3 –2 2
X i = 12 σ 2X = 6.25 σ X i = 2.50
i
X p = 13 σ 2X = 15.75 σ X p = 3.97
p
Ecuación de Rulon
σ 2X p−i
ρ XX ′ = 1 −
σ 2X
(3.6)
Cuadro 3.6
∑ ( X p−i − X p−i )2 ∑ [( X p − X i ) − ( X p − X i )]
n/ 2 n/ 2 2
σ 2X = 1
= 1
p−i n/2 n/2
∑ [( V + ep − V ) − ( V + ei − V )] ∑ ( ep − ei )2
2
σ 2X = =
p−i n/2 n/2
σ 2x = = +
p−i
+ −2 ep
+ σ e2
n/2 n/2 i
en las que se han sustituido los términos ep y ei por [ep – E(ep)] y [ei – E(ei)],
respectivamente. Ello es posible ya que, si se tienen en cuenta las hipóte-
sis del modelo E(ep ) = E(ei ) = 0.
Por otra parte, al desarrollar el cuadrado de la diferencia, el término del
doble producto expresa la covarianza entre los errores ep y ei que es nula,
ya que por hipótesis los errores no están correlacionados.
Luego σ 2Xp – i = σ 2e i + σ 2e p = σ 2e .
Capítulo 3. Fiabilidad: Definiciones 93
σ 2V σ e2 σ 2X
ρ XX' = = 1− = 1− p−i
σ 2X σ 2X σ 2X
diata. Puesto que σ X2 ≥ σX2 p-i , el cociente entre ambas varianzas es positivo y menor
La interpretación de esta expresión, como coeficiente de fiabilidad, es inme-
Cuadro 3.7
σ 2X = σ 2X + σ 2X − 2 cov( X p , X i )
p−i p i
94 Principios de Psicometría
de donde
resultando
σ 2X
ρ XX′ = 1− p−i
= 1− = 0.51
14.5
σ 2X 29.5
σ2 + σ2 4 ρ
X pX i σ X p σ X i
ρ XX ′ = 2 1 −
Xi
=
Xp
σ 2X σ 2X
(3.7)
donde todos los términos tienen el mismo significado que el dado anteriormente.
Cuadro 3.8
σ 2X σ 2X − σ 2X
ρ XX′ = 1− p−i
= p−i
=
σ 2X σ 2X
σ 2X + σ 2X + 2 ρ X p X i σ X p σ X i − σ 2X + σ 2X − 2 ρ X p X i σ X p σ X i
p
=
p i i
σ 2X
4 ρ Xp Xi σ Xp σ Xi
ρ XX′ =
σ 2X
15.75 + 6.25
ρ XX′ = 2 1− = 0.51
29.5
ρ XX′ = = 0.51
(4 )( 3.75)
29.5
Puntos clave
que serían las puntuaciones verdaderas de los sujetos en el rasgo que se pre-
tende evaluar.
3 La puntuación verdadera del sujeto no es directamente observable, por lo que
se hacen hipótesis, en el contexto del modelo lineal de Spearman, para poder
calcular esas correlaciones, utilizando solamente puntuaciones empíricas. Esto
es posible cuando las correlaciones se calculan entre medidas paralelas o tau-
equivalentes.
3 En tests compuestos por varios grupos formando una batería, la fiabilidad tam-
bién se evalúa mediante correlación entre puntuaciones observadas y verdade-
ras, teniendo en cuenta que el cálculo de esa correlación se hace con puntua-
ciones empíricas y que intervienen todas las variables componentes.
3 La fiabilidad en el sentido de estabilidad de las puntuaciones se obtiene con
aplicaciones repetidas de una misma prueba, o de pruebas equivalentes.
3 La fiabilidad que da cuenta de la consistencia interna entre los ítems o elemen-
tos de la prueba se puede obtener correlacionándolos. Hay diferentes formas
de hacerlo, una de ellas es dividir el test en dos partes y correlacionar las pun-
tuaciones de cada uno de los ítems de una parte con las de su correspondien-
te ítem en la otra.
3 Las fórmulas de Rulon y de Guttman miden la consistencia interna y calculan la
fiabilidad a partir de una sola aplicación del test, correlacionando (en el orden
en que están dadas) las puntuaciones de los ítems que ocupan los lugares pares
con los correspondientes que ocupan los lugares impares.
3 La consistencia interna se suele calcular mediante coeficientes que no exigen
el paralelismo, como el denominado coeficiente alfa, que se va a introducir en
el quinto capítulo de este texto.
Actividades
{ } { } { }
X A = X A j ; X′A = X′A j ; X B = X B j ; X′B = X′B j{ }
Correlacionando ambos pares de valores muestrales se obtienen los coefi-
cientes de fiabilidad:
rX A X ′A ; rX BX ′B
teniendo así dos coeficientes de fiabilidad para una misma prueba. Se podrían
obtener tantos coeficientes como muestras representativas diferentes se extrai-
gan de esa población.
Los coeficientes de fiabilidad se relacionan con las varianzas de las puntua-
ciones mediante (2.15)
(
s2eA = s2X A 1 − rX A X ′A )
s2eB = s2X B (1 − rX X′ )
B B
Capítulo 4. Fiabilidad: Varianza y longitud 101
1 − rX BX ′B
=
s2X A
1 − rX A X ′A
(4.2)
s2X B
rX BX ′B > rX A X ′A
y puesto que ambos coeficientes de fiabilidad no pueden tomar más valores que
aquellos contenidos en el intervalo [0,1], se tiene que:
1 − rX BX ′B < 1 − rX A X ′A ; <1
s2X A
s2X B
y por lo tanto:
s2X A < s2X B
es decir, que la fiabilidad de un test obtenida con una muestra más homogénea
en cuanto a sus puntuaciones en ese test, será menor que la fiabilidad obtenida
para el mismo test con otra muestra en la que haya más variabilidad entre las pun-
tuaciones de los sujetos.
La fiabilidad en una de las muestras se puede obtener conociendo la calcula-
da en otra y las varianzas de las puntuaciones en ambas muestras:
rX BX ′B = 1 − (1− rX X′ )
s2X A
(4.3)
s2X B
A A
Ejemplo 4.1
s2X 1− 0.80
= =2
1− 0.90
A
s2X
B
Capítulo 4. Fiabilidad: Varianza y longitud 103
Cuadro 4.1
Ecuación de Spearman-Brown
R XX ′ =
k rXX ′
1 + ( k − 1) rXX ′
(4.4)
La ecuación (4.4) lleva el nombre de los dos psicólogos que simultánea e inde-
pendientemente la propusieron, aunque en muchas ocasiones, en la literatura se
refieren a ella como profecía, quizá porque con un simple cálculo, que no lleva
más de unos segundos, se pueden predecir las variaciones de la fiabilidad del test
inicial, al duplicar, triplicar, etc. la longitud de ese test. Esto es, con sólo calcular:
se puede pronosticar la validez de los nuevos tests a partir del test inicial (k = 1).
La ecuación (4.4) se suele interpretar considerando valores enteros y positivos de
k, pero como tendremos ocasión de comprobar más adelante, esta relación es
válida para cualquier valor de k real y positivo.
La deducción de la ecuación de Spearman-Brown se realiza en el Cuadro 4.2.
Por razones didácticas, se hace para k = 2 y luego se generaliza para cualquier
aumento de la longitud un número de veces k ≥ 2.
Cuadro 4.2
R XX′ =
{[ ][
cov( XX ′) E X − E( X ) X ′ − E( X ′)
=
]}
σ X σ X′ σ X σ X′
106 Principios de Psicometría
Numerador
{( ( )
E X1 − E X1 + X 2 − E X 2 ( )) (X1′ − E (X1′ ) + X 2 − E (X ′2 ))} = 4 rX X′ σ 2X 1 1 1
{[
E X1 − E ( X1) ] [X1′ − E ( X1′ )]} = cov (X1, X1′ ) = rX X′ σ X σ X′ = rX X′ σ 2X
1 1 1 1 1 1 1
Denominador:
[
σ 2X = E X − E( X ) ] { [
= E X 1 + X 2 − E( X 1 ) + E( X 2 )]} =
2 2
= σ 2X + σ 2X + 2 rX1X 2 σ X1 σ X 2
1 2
σ 2X = σ 2X ; rX1X 2 = rX1X′1
1 2
4 rX1X1′ σ 2X 2rX1X1′
R XX′ = =
1+ rX1X1′
1
2 σ 2X (1+ rX1X1′ )
1
B) Caso general
X = X1 + L + X k
( )
cov X 1, X 1′ = rX1X1′ σ 2X
1
σ 2X = σ 2X + L + σ 2X + k (k − 1) σ X i σ X j rX iX j
1 K
σ 2X = k σ 2X + k (k − 1) σ 2X rX1X′1
1 1
por lo que:
k 2 rX1X′1 σ 2X
[1+ (k − 1) r ]
k rX1X1′
R XX′ = =
1+ (k − 1) rX1X1′
1
k σ 2X X 1X 1′
1
Los valores de k
c) Las curvas para valores altos de k tienen menores pendientes (crecen más
lentamente con k).
d) Cuando se parte de fiabilidades relativamente bajas (rXX' < 0.50) es nece-
sario un valor excesivamente grande de k para llegar a tener fiabilidades
apreciables.
e) Todas las curvas tienden asintóticamente (aunque con muy diferente velo-
cidad) al valor asintótico de RXX' = 1.
f) Al disminuir la longitud (k < 1) disminuye la fiabilidad y la cuantía de esa
disminución depende de k y de la fiabilidad inicial.
Formalmente se puede comprobar que siempre que rXX' < 1 se verifica la rela-
ción de desigualdad siguiente:
1 + (k – 1) rXX' > k rXX'
y por lo tanto siempre debe cumplirse que RXX' ≤ 1.
Consecuencias:
Las consecuencias que se derivan de las relaciones entre fiabilidad y longitud
son importantes en la práctica de la construcción de tests, pues permiten dar res-
puesta a preguntas tales como las siguientes:
a) ¿Se puede conseguir un test con fiabilidad apreciable o moderadamente
alta a partir de un test con muy escasa fiabilidad?
b) ¿Se puede conseguir un test con fiabilidad unidad añadiendo elementos
paralelos a un test inicial con rXX' elevada?
c) ¿Hasta qué punto se debe alargar un test para aumentar su precisión?
d) ¿Cuál sería la longitud total de un test, añadiendo elementos paralelos a uno
dado, si se quiere obtener un determinado valor para su fiabilidad?
e) ¿Se pueden acortar los tests? ¿Cómo evaluar las consecuencias en cuanto
a la modificación de su fiabilidad?
Las respuestas a estas preguntas u otras similares que se podrían plantear son
inmediatas:
A la cuestión a) hay que responder negativamente por razones prácticas, pues-
to que llegar a esos niveles de fiabilidad implicaría aumentos de longitud tales que
Capítulo 4. Fiabilidad: Varianza y longitud 111
el test inicial quedaría reducido a una parte insignificante con respecto al test resul-
tante. Eso es prácticamente inviable o, al menos, incoherente. Por ejemplo, para
aumentar la fiabilidad de un test de 30 elementos y fiabilidad rXX' = 0.15 hasta
valores del coeficiente de 0.60 o de 0.78 se tendrían que añadir al test inicial 225
elementos en un caso y 573 en el otro. De esta primera cuestión se deduce que
los tests escasamente fiables deben despreciarse en su forma original y no tratar
de mejorarlos aumentando su fiabilidad adicionándoles elementos paralelos.
Para dar respuesta a la cuestión b) hay que considerar cuáles son las implicaciones
que tiene el que se pueda obtener el valor uno para RXX' . Si es RXX' = 1, entonces
1=
k rXX ′
1 + ( k − 1) rXX ′
de donde se deduce que k rXX' = 1 + (k – 1) rXX' y esta igualdad sólo puede darse
si rXX' = 1. Por lo tanto, la obtención de valores RXX' = 1 implica un test inicial en
el que necesariamente tiene que ser rXX' = 1; y si este test era perfecto en cuanto a
precisión, no cabe aumentar su longitud para aumentar su fiabilidad. Lo que sí se
puede deducir de estas cuestiones es que para obtener valores de RXX' próximos a
la unidad, es necesario partir de tests iniciales con valores de rXX' elevados.
La respuesta a la cuestión c) implica a la respuesta dada a las dos cuestiones
anteriores y a la propiedad de “frenado” que tiene la curva de crecimiento de la
fiabilidad. En primer lugar se debe llegar a un test final con un número modera-
do de ítems y, si prescindiéramos de todos los inconvenientes que conlleva un test
muy largo, todavía cabría preguntarse ¿para qué alargar un test si la ganancia en
precisión puede ser realmente despreciable? Las consideraciones sobre el núme-
ro de ítems y la ganancia en precisión deben combinarse conjunta y adecuada-
mente en cada caso particular.
Las respuestas a las preguntas d) y e) están implícitas en lo anterior, sin embar-
go se van a tratar específicamente en el siguiente apartado.
1) Porque el objetivo último para el que se construye la prueba exige que ésta
alcance un determinado nivel de precisión.
2) Porque el autor de un test desee investigar si es posible obtener una mejo-
ra apreciable en la precisión de la prueba con economía de medios. Es decir,
si podría mejorar su precisión sin necesidad de añadir un gran número de
elementos.
3) Porque desea acortar la prueba, o que esté interesado en utilizar solamen-
te una de sus partes.
R XX ′ (1 − rXX ′ )
k=
rXX ′ (1 − R XX ′ )
(4.5)
Ejemplo 4.2
(1− 0.48)
k ≥ 00..73
48 (1− 0.73)
= 2.93
y se observa que se necesitaría casi triplicar su longitud, o sea, habría que pasar
de 20 a 59 ítems. Por lo tanto, para conseguir el objetivo deseado habría que
Capítulo 4. Fiabilidad: Varianza y longitud 113
Ejemplo 4.3
Solución:
k 1 2 3 4 5 6
Con estos seis valores se observa que R crece con k, que ambas mag-
nitudes están directamente relacionadas y que el crecimiento de RXX' se ve
frenado a medida que k crece.
114 Principios de Psicometría
b) Son varias las respuestas que se pueden dar a esta cuestión, dependiendo de
los objetivos y de las condiciones en las que se construye el test, en su sen-
tido más general. Se debe tener en cuenta la extensión, las características y
las disponibilidades del banco de ítems, así como las cualidades psicométri-
cas de cada uno de los ítems que se van a elegir para formar parte de la prue-
ba. Si se desea que el test tenga una fiabilidad muy elevada, no parece que el
test inicial del que aquí se parte sea muy adecuado para conseguirla añadiendo
elementos paralelos. En cualquier caso, para aumentar la fiabilidad aumen-
tando la longitud del test, se debe ser especialmente cuidadoso en el proce-
so, pues se pueden plantear problemas, como por ejemplo, el no paralelismo
entre las puntuaciones que proporcionan los ítems, o que no se deba alargar
lo que parece necesario, porque a partir de una determinada longitud, la fati-
ga influya significativamente en las respuestas, etc.
En el caso hipotético en el que los ítems del test que se esta aquí con-
siderando fuesen de rápida ejecución y que no aparecieran problemas espe-
ciales en su construcción, se optaría por un test conteniendo 80 elementos
(k = 4). Esta decisión sólo se tomaría si, como se está suponiendo, la prue-
ba no resultara excesivamente larga, por ejemplo, en un test de lectura don-
de los ítems fuesen palabras, u otro tipo de prueba en la que se den las con-
diciones indicadas. Con esa longitud, la fiabilidad esperada, que se obtiene
a través de la igualdad (4.4), es un valor aceptable como medida de la pre-
cisión de la prueba. Además, a partir de ese valor, los cambios en longitud
que se podrían realizar para aumentarla no estarían justificados.
c) Para calcular el menor número de elementos que es necesario añadir al test
inicial para que el nuevo test tenga fiabilidad igual o mayor que 0.71, se usa
la ecuación (4.5), resolviendo la desigualdad:
d) Si se determina cuál es la longitud máxima del test, que en este caso par-
ticular se ha fijado en 28 elementos, el cálculo de la fiabilidad máxima
que se puede obtener con este número de elementos se puede encontrar
teniendo en cuenta el valor k en ese aumento de la longitud. Aquí, el paso
de 20 a 28 elementos supone una proporción en el aumento de la longitud de
k = 1.4.
Por lo tanto, según la ecuación (4.4), la fiabilidad que se podría conse-
guir para este nuevo test, añadiendo ocho elementos paralelos al test ini-
cial, es:
R= = 0.60
(1.4 )(0.52)
1+ (1.4 − 1) 0.52
Ejemplo 4.4
a) ¿Cuánto disminuirá la fiabilidad si, una vez determinado que por las condi-
ciones en las que se debe administrar el test, el número idóneo de ítems es
aproximadamente igual a 90?
Planteado así, el test final tendrá una longitud n2 menor que la del inicial
y la relación entre ambas, es n2 = k n1 (pues k = n2 / n1), que proporciona
para k un valor de k = 90/125 = 0.72 < 1, ya que n2 < n1.
La fiabilidad del nuevo test es:
R XX′ = = 0.945
(0.72) (0.96)
1 + (0.72 − 1) 0.96
que sigue siendo una fiabilidad elevada para la prueba, con la ventaja adi-
cional de una reducción muy apreciable del número de ítems. La pérdida en
fiabilidad de sólo quince milésimas se considera pequeña y, por lo tanto, la
supresión de 35 ítems es plausible, e incluso se podría estudiar la conve-
niencia de eliminar algunos ítems más.
b) Se piensa que sería adecuado un coeficiente de fiabilidad igual o mayor que
0.86. ¿Cuál es el número máximo de ítems o elementos que se pueden eli-
minar para mantener el nivel de precisión deseado?
116 Principios de Psicometría
La longitud del nuevo test será n2 = 125k = 32 ítems. Por lo tanto, aun redu-
ciendo el número de ítems aproximadamente a la cuarta parte, se obtendrían
niveles de precisión que se han considerado aceptables para el test.
Cuadro 4.3
Longitud doble: k = 2
Var (V) = 4 σ 2V
1
Var (e) = 2σ 2e
1
σ 2V
R XX′ =
σ 2X
σ 2V 4 σ 2V σ 2V 2rX1X1′
R XX′ = = =2 ⋅ =
1
1+ rX1X1′ 1+ rX1X1′
1 1
σ 2X 2 σ 2X (1+ rX1X1′ ) σ 2X
(4.6)
1 1
A través del procedimiento seguido en este cuadro se hace patente por qué
aumenta la fiabilidad con el aumento de la longitud. En la expresión (4.6) se pue-
de advertir que cuando un test inicial X1 duplica su longitud, la varianza de la pun-
tuación verdadera de ese test, en el numerador, se multiplica siempre por 4,
en tanto que la varianza de la puntuación observada, en el denominador, se mul-
tiplica por un valor menor (entre 2 y 4, siendo 4 solamente cuando la fiabili-
118 Principios de Psicometría
dad inicial fuese uno). Si se duplica la longitud del test y teniendo en cuenta que
σ X2 = σ V2 + σ e2 , la varianza de la puntuación verdadera crece en mayor proporción
(casi el doble) que la de la observada, por lo que necesariamente se ve reducida la
proporción de varianza error y el nuevo test resulta ser más fiable que el test inicial.
Cuadro 4.4
Caso general
σ 2e = k σ 2e + k (k − 1) σ 2e reie j = k σ e2
1 1 1
Por lo tanto:
k 2 σ 2V σ 2V k rX1X1′
R XX′ = =k ⋅ =
1
1+ (k − 1)rX1X1′ 1+ (k − 1) rX1X1′
1 1
k σ 2X [1+ (k − 1)rX1X1′ ] σ 2X
1 1
k (pasa de σ 2e1 a kσ 2e1), como se puede ver en las deducciones que se han hecho
en el Cuadro 4.4. Por lo tanto, al aumentar la longitud con elementos paralelos,
la varianza de la puntuación verdadera crece más rápidamente que la del error,
disminuyéndose así la contribución de este término error a la varianza total obser-
vada, obteniéndose tests más fiables.
Puntos clave
Actividades
r Razone y escriba por qué no son ciertas o son imprecisas las siguientes afir-
maciones:
1. Un test más largo es más fiable.
2. Al aumentar la longitud de un test aumenta su fiabilidad.
120 Principios de Psicometría
dos partes. Para ello se hace uso de toda la información que proporcionan la
varianza y la covarianza de los valores muestrales en los diferentes elementos
que se considera que componen esa prueba. A este tipo de fiabilidad se la deno-
mina consistencia interna y a la ecuación para calcularla, coeficiente alfa, que
es el valor que estima la consistencia entre los elementos que componen la
prueba.
Coeficiente α
σ 2X − ∑ σ 2X i ∑ σ 2X i
n n
n i=1
α= i=1 = 1−
n
n −1 σ 2X n −1 σX
(5.1)
2
Ecuaciones de Kuder-Richardson
La ecuación general del coeficiente α admite otras expresiones como casos par-
ticulares. Entre ellas, hay que considerar el caso en que cada una de las compo-
nentes Xi sea un único ítem, y que ese ítem sea dicotómico. Esto es, las com-
ponentes del test son sus n ítems y cada ítem no admite más que una de dos
alternativas de respuesta, que son exhaustivas y mutuamente excluyentes, por
ejemplo: correcto e incorrecto. Si las probabilidades asociadas a la respuesta
124 Principios de Psicometría
σ 2X i = pi q i = p i (1 − pi )
Al sustituir esta expresión en la ecuación del coeficiente α, se tiene la ecua-
ción (5.2), que es la número veinte de las obtenidas por Kuder y Richardson:
σ 2X − ∑ pi (1 − pi )
n
KR 20 = i=1
n
n −1 σ 2X (5.2)
donde pi es la proporción de sujetos que responden correctamente al ítem i. Esta
proporción pi es una medida de la dificultad del ítem referida al grupo que cons-
tituye la muestra de examinados o grupo normativo.
Si en lugar de tomar para cada ítem sus parámetros pi y qi se utiliza para todos
ellos el mismo índice de dificultad, sustituyendo cada uno por la media aritméti-
ca de todos ellos,
p = ∑ pi / n
i
n σ X − n p (1 − p ) npq
KR 21 = = 1 − 2
2
n
n −1 σX n −1 σX
2
(5.3)
Cuadro 5.1
KR 20 ≥ KR 21
Cuadro 5.2
Es fácil comprobar que KR20 = KR21 cuando todos los ítems tienen la mis-
ma dificultad. Si es p1 = p2 = … = pn , también será q1 = q2 = … = qn . Deno-
tando genéricamente pi = p y qi = q, el término
∑ pi qi
n
i=1
Teorema 1
Sean X1, X2 dos medidas cuyas respectivas puntuaciones verdaderas son V1 y V2;
y sea X = X1 + X2 una medida compuesta con puntuación verdadera V. Entonces:
σ2 + σ2
ρ XX ′ = ρ2XV ≥ 2 1 − 1 2 2
X X
σX
(5.4)
Corolario 1
Cuadro 5.3
[σ V − σ V2 ] ≥0
2
1
σ 2V + σ 2V − 2 σ V1 σ V2 ≥ 0; σ 2V + σ 2V ≥ 2 σ V! σ V2
1 2 1 2
y teniendo en cuenta:
ρ V1V2 = ρ V1V2 ≤ 1
cov( V1, V2 )
σ V1 σ V2
y que
Capítulo 5. Fiabilidad: Consistencia interna 127
entonces:
σ V1 σ V2 ≥ cov( V1, V2 )
( )
σ 2V + σ 2V ≥ 2 cov V1 , V2 ≥ 2 cov V1 , V2
1 2
( )
Por otra parte, sustituyendo esta desigualdad en:
σ 2V = σ 2V + σ 2V + 2 cov( V1, V2 )
1 2
σ 2V ≥ 4 cov( V1, V2 )
σ 2V
ρ2XV = ≥
4 cov( V1, V2 )
σ 2X σ 2X
Por la igualdad de las covarianzas: cov (V1, V2) = cov (X1, X2), y teniendo
en cuenta que σ 2X = σ 2X1 + σ 2X2 + 2 cov (X1, X2)
σ 2X − σ 2X − σ 2X σ2 + σ2
= 21− 1
X2
ρ2XV ≥ 2
1 2 X
σ 2X σX
2
con lo que queda demostrado el teorema cuando sólo hay dos componentes.
Teorema 2
Sean X1, X2, …, Xn un conjunto de n medidas con puntuaciones verdaderas
V1, V2, …, Vn y sea X una medida compuesta por una suma de Xi, cuya puntua-
ción verdadera es V. Entonces se verifica que:
n
∑σ X 2
n i=1 i
ρ XX ′ = ρ2XV ≥α= 1−
n −1 σ 2X
(5.5)
128 Principios de Psicometría
Cuadro 5.4
σ 2V + σ 2V ≥ 2 cov Vi , Vj ≥ 2 cov Vi , Vj
i j
( ) ( )
Sumando para todo i ≠ j se tiene que:
∑ ∑σ 2Vi + σ 2Vj ≥ 2∑ ∑ cov( Vi, Vj ) (a)
i≠ j i≠ j
∑ ∑σ 2Vi + σ 2Vj = n∑ σ 2Vi + n∑ σ 2Vj = 2n∑ σ 2Vi
n n n n n
y la identidad:
∑ ∑σ 2Vi + σ 2Vj = ∑ ∑σ 2Vi + σ 2Vj + ∑ ∑σ 2Vi + σ 2Vj = 2∑ σ 2Vi + ∑ ∑σ 2Vi + σ 2Vj
n n n n n n
i=1 i=1 i≠ j
i i
o bien, a la expresión:
(n − 1) ∑ σ 2V ≥ ∑ ∑ cov( Vi, Vj )
n n
i=1 i≠ j
i
de donde:
∑ ∑ cov( Vi, Vj )
n
∑ σ 2Vi ≥ i≠ j
n
i=1 n−1
Capítulo 5. Fiabilidad: Consistencia interna 129
y al ser:
i=1 i=1 i≠ j
i
∑ σ 2Vi
n
i=1
∑ ∑ cov( Vi, Vj )
n
σ 2X = ∑ σ 2X + ∑ ∑ cov( X i, X j )
n
i≠ j
i
i
i≠ j i≠ j
i
i
σ 2X − ∑ σ 2X ∑ σ 2X
n n
σ 2V n i=1 i
ρ XX′ = ≥ i=1
= 1−
n i
σ 2X n−1 σ 2X n − 1 σ 2X
Corolario 2
∑ σ 2X i = σ 2X impares + σ 2X pares
en la expresión (5.1), se obtiene directamente la ecuación (3.7). En el Cuadro 3.8
se demostró que las ecuaciones de Flanagan y Guttman y de Rulon son equiva-
lentes, por lo que la expresión (3.6) de la ecuación de Rulon puede considerarse
también un caso particular de la expresión general (5.1) del coeficiente α.
Capítulo 5. Fiabilidad: Consistencia interna 131
Ecuación de Hoyt
ecuación (5.6) de Hoyt se puede obtener de la expresión general (5.1) dada para
el coeficiente alfa, en la que se sustituyen las covarianzas entre las componentes
por la covarianza media:
n2 ρX i X j σ X i σ X j
α=
σ 2X
(5.6)
Cuadro 5.5
n
σ 2X − ∑ σ 2X ∑ σ 2X + ∑ ρ X i X j σ X i σ X j − ∑ σ 2X
n n n
α=
n i=1 = n i=1 i≠ j i=1
i i
i
n−1 σX n−1 σX
2 2
∑ ρ X iX j σ X i σ X j = n (n − 1) ρ X iX j σ X i σ X j
n
i≠ j
n n (n − 1) ρ X iX j σ X i σ X j n ρ X iX j σ X i σ X j
2
α= =
n−1 σ 2X σ 2X
que es la ecuación dada por Hoyt para un test compuesto en el que se conoce
la covarianza media de sus componentes, así como la varianza del compuesto.
132 Principios de Psicometría
Ejemplo 5.1
En la Tabla 5.1 se dan las puntuaciones que han obtenido diez personas
en un test compuesto por 6 subtests que miden el mismo rasgo. La cova-
rianza media entre estos subtests es 0.68 y se desea calcular la consistencia
interna de la prueba.
Personas 1 2 3 4 5 6 7 8 9 10
Puntuaciones Xi 11 10 8 17 9 21 7 3 11 23
[
σ 2X = E ( X i2 ) − E ( X ) ] = 180.40 − 122 = 36.40
2
Por lo tanto:
α=
(36) (0.68) = 0.67
36.4
que es el valor estimado para el coeficiente de consistencia interna de la prueba.
Ejemplo 5.2
Antes de asignar sujetos a distintos grupos, se ha considerado necesario
disponer de una prueba breve donde se evidencien datos relativos a sus res-
Capítulo 5. Fiabilidad: Consistencia interna 133
Tabla 5.2. Puntuaciones de 10 sujetos en cada uno de los ítems de tres subtests.
1 4 6 1 0 1 1 0 1 1 0 1 1 0
2 5 4 1 1 1 0 1 0 1 1 1 1 0
3 3 4 1 0 0 1 0 1 0 1 0 0 1
4 6 8 3 1 0 1 1 0 1 1 1 1 1
5 4 4 1 0 1 1 0 1 0 0 1 1 0
6 8 8 5 1 0 1 1 1 0 1 1 1 1
7 4 3 0 1 0 1 0 0 0 0 1 1 1
8 2 1 0 1 0 0 0 1 0 1 0 0 0
9 5 4 2 1 1 0 1 1 1 1 1 0 1
10 9 8 6 1 1 1 1 1 1 1 1 1 1
Total 50 50 20 7 5 7 5 7 5 7 8 7 6
Solución
Subtest A
X A = 12 ; σ 2A = 36.4
Tabla 5.3. Puntuaciones totales de los sujetos en cada uno de los tests del compuesto.
Puntuaciones Sujetos
Tests 1 2 3 4 5 6 7 8 9 10
A 11 10 8 17 9 21 7 3 11 23
B 4 4 2 4 3 4 2 2 5 6
C 2 3 2 4 2 4 3 1 3 4
T 17 17 12 25 14 29 12 6 19 33
Capítulo 5. Fiabilidad: Consistencia interna 135
Subtest B
∑ pi qi = 1.38
6
i=1
6 1.38
α 20 = 1 − = 0.19
5 1.64
Subtest C
∑ pi qi = 0.82
4
i=1
(
σ C2 = 8.80 − 2.80 ) = 0.96
2
136 Principios de Psicometría
luego:
4 0.82
α 20 = 1− = 0.194
3 0.96
lo que indica que, como el anterior, este subtest posee una escasa consisten-
cia interna. Valor que, de poder admitirse, habría que contrastar previamente si
es significativamente diferente de cero.
Test compuesto
(
X T = 18.40 ; σ 2T = 401.40 − 18.40 ) = 62.84
2
3 σ 2A + σB2 + σ C2 3 38.9
α= 1 − = 1 − = 0.571
2 σT 2 62.84
2
m5.4. El coeficiente βm
En el caso en que no se disponga de los datos de todos y cada uno de los ítems de
un test, siendo los elementos de ese test los distintos subtests que lo forman, y si
estos subtests tienen distinto número de elementos, el valor que proporciona el
coeficiente α es una subestimación de la fiabilidad del compuesto. El coeficiente
β (Raju, 1977), que es una generalización del coeficiente α, viene a solucionar este
problema, coincidiendo su valor con el de α en el caso en que todos los subtests
tengan el mismo número de elementos, como se demuestra en el Cuadro 5.6. La
Capítulo 5. Fiabilidad: Consistencia interna 137
expresión de β, por lo tanto, incluye, además de las varianzas de cada uno de los
componentes del test, su número de elementos. Para Xj subtests (j = 1, 2, …, k),
que contienen un número nj de ítems, que en principio es diferente de unos sub-
tests a otros, el coeficiente β es:
σ 2X − ∑ σ 2X
k
j=1
β=
j
nj 2
(5.7)
σ 2X 1− ∑
k
j=1 n
donde:
σ 2X es la varianza del test global, esto es, la de todas las puntuaciones que
componen la batería.
σ 2Xj es la varianza de cada uno de los subtests.
n = ∑ nj
k
es el número total de ítems que forman X.
j =1
Cuadro 5.6
n = ∑ nj = k nj
k
j =1
k n n k 2 k k −1
1− ∑ = 1 − k
2
= 1− 2 =
j
j =1
n n k k
138 Principios de Psicometría
σ 2X − ∑ σ 2X σ 2X − ∑ σ 2X
k k
j=1 j=1
β= =
j j
k
k − 1 k −1 σ 2X
σ 2X
k
Los ítems de una prueba se puede considerar que son medidas repetidas de la
variable que esa prueba pretende evaluar. Bajo esta perspectiva, se puede evaluar
la consistencia interna de la prueba haciendo uso de las técnicas de análisis de la
varianza, como ya lo hiciera Hoyt en 1941. Si es Xpi la puntuación del sujeto p en
el ítem i, se pueden calcular las puntuaciones medias de N sujetos que responden
a n ítems.
En ese caso, para una prueba con n ítems o componentes, el cálculo de α se
realiza mediante la igualdad:
α=
nF
1 + nF
(5.8)
donde F es una función de las medias cuadráticas entre sujetos (MCentre ) y la media
cuadrática residual (MCres ) dada por la expresión:
MCentre − MCres
F=
n MCres
siendo cada MC igual a su suma de cuadrados (SC) dividida por los correspon-
dientes grados de libertad (g.l.):
Capítulo 5. Fiabilidad: Consistencia interna 139
( )
2
SCentre = n NE X p − X = n ∑ X p2 − n N X 2
p
MCentre = SCentre N −1
SCres = ∑ ∑ X pi2 + n N X 2 − n∑ X p2 − N∑ X 2i
N n
p=1 i =1 p i
Ejemplo 5.3
Tabla 5.4. Puntuaciones en los ítems y las totales de los ítems ( Ti ) y de los sujetos ( Tp ).
Sujetos
Ítems
1 2 3 4 5 6 7 8 9 10 Ti
1 0 1 1 1 0 1 0 1 1 1 7
2 1 1 0 1 1 1 1 0 1 1 8
3 1 1 0 1 1 1 1 0 0 1 7
4 0 0 1 1 0 1 1 0 1 1 6
Tp 2 3 2 4 2 4 3 1 3 4 28
140 Principios de Psicometría
∑ ∑ X pi2 = 28
p i
T 2 28 2
X2 = = = 0.49
nN (4 )(10)
T 2 22 + 32 + L + 32 + 4 2
∑ (X p ) = ∑ = = 5.5
10
2 p
p p=1 n 42
∑ (X i )
T 72 + 82 + 72 + 62
= ∑ i =
2
= 1.98
4
2
i 1 N 102
MCentre = = = 0.267
SCentre 2.40
N−1 9
( )( )
MCres = = = 0.215
SCres 5.80
n−1 N−1 27
MCentre − MCres
F= = 0.060 ; α = = 0.194
nF
n MCres 1+ nF
Capítulo 5. Fiabilidad: Consistencia interna 141
Esta forma de proceder marca los antecedentes de los conceptos y los méto-
dos que se han generado en la teoría de la generalizabilidad que se tratará en el
Capítulo 7 de esta obra, donde nuevamente veremos que por distintas vías se pue-
de calcular y obtener el mismo valor para el coeficiente de fiabilidad α.
Cuando se construye una prueba es una práctica común realizar un análisis fac-
torial para detectar los posibles factores o dimensiones que están implícitos en
ese rasgo o constructo que se desea medir. El análisis se realiza a partir de los
valores que se obtienen al aplicar los n ítems que componen la prueba a una mues-
tra representativa, o sea, se analizan las Xi (i = 1, 2, …, n) variables que la com-
ponen. Algunas de las relaciones entre los ítems se ponen de manifiesto a través
de los valores de los pertinentes coeficientes que se estiman mediante esos aná-
lisis. La terminología del análisis factorial es necesaria, al menos para entender los
términos usados en los Cuadros 5.7 y 5.8 como son comunalidad o valores propios.
El lector interesado en estos índices puede consultar las referencias que de sus
autores que se dan en este texto y para las técnicas de análisis factorial lo remiti-
mos a las obras de Lawley y Maxwell (1971), Mulaik (1972), Gorsuch (1983),
Bryant y Yarnold (1995) o Thompson (2004), entre muchas otras existentes en la
literatura.
El coeficiente Ω
Cuadro 5.7
∑ σ 2X i − ∑ σ 2X i hi2
n n
( )
i =1 i =1
Ω = 1−
∑ cov X i, X j
(5.9)
i, j
donde σ X2 i representa la varianza de cada uno de los ítems, h2i son cada una
de sus comunalidades estimadas mediante la técnica de análisis factorial y
el denominador es la suma de las covarianzas entre todos los pares posi-
bles (i, j; i ≠ j) de ítems.
Una forma alternativa de cálculo del coeficiente omega es:
n − ∑ hi2
n
i =1
Ω = 1−
n + 2∑ ρ X iX j
(5.10)
i≠ j
∑ ρ X iX j
i≠ j
El coeficiente θ
Cuadro 5.8
n 1
θ= 1−
n − 1 λ1
(5.11)
El valor del coeficiente θ está en relación directa con el de λ1. Para una lon-
gitud dada n, a mayor valor de λ1 mayor será el valor de θ, lo que indica que los
ítems están más interrelacionados y, para un λ1 suficientemente grande, el rasgo
o el constructo que mide la prueba se podría considerar que es unidimensional.
En cualquier caso, si se ha realizado un análisis factorial de los datos, es porque
se presupone que el rasgo o constructo que mide la prueba tiene más de una
dimensión, esto es, que puede estar compuesto por más de un factor, y que hay
144 Principios de Psicometría
uno o más ítems incluidos en la prueba que dan cuenta de ellos. Por lo tanto, el
coeficiente θ es un buen indicador de la unidimensionalidad. Como con cualquier
otro coeficiente, también con θ se da la desigualdad α ≤ θ, aunque este coeficiente
se haya calculado por un método aparentemente diferente a los correlacionales
anteriormente reseñados. Las relaciones entre α y los coeficientes calculados intro-
duciendo valores estimados mediante análisis factorial es: α ≤ θ ≤ Ω.
Cuantía
No hay normas estrictas para que se acepte o no un test por el valor de su coefi-
ciente de fiabilidad. La aspiración al construir una prueba es que su precisión sea
la mayor posible, pero no hay valores fijos que definan a priori si el coeficiente
obtenido es adecuado. Aun cuando generalmente los coeficientes de fiabilidad de
las pruebas estándar suelen ser valores superiores a 0.80, también hay casos en
los que se aceptan valores mucho menores. Hay quienes interpretan que se pue-
den tomar en consideración valores del coeficiente a partir de 0.50, pero ésta no
es una regla que se deba seguir, puesto que la precisión exigida para el instrumento
Capítulo 5. Fiabilidad: Consistencia interna 145
La fórmula de cálculo
Ejemplo 5.4
ρ XX′ = = 0.75
2 (0.60)
1+ 0.60
Hay dos aplicaciones prácticas importantes que se pueden derivar del com-
portamiento de la fiabilidad a través de las ecuaciones de Spearman-Brown, una
es la de poder hacer comparaciones entre fiabilidades de tests con distintas lon-
gitudes, y la otra es la de calcular los efectos que sobre la fiabilidad tiene la com-
posición de subtests, a partir de tests conocidos con fiabilidad dada.
En el primer caso, cuando se tienen tests con distintas longitudes y con dis-
tintas fiabilidades, el test más largo probablemente aparecerá como más fiable, y
esta mayor fiabilidad se puede deber precisamente a que es más largo. Por lo tan-
to, para comparar la fiabilidad de diferentes tests, se debería estimar la fiabilidad
de esos tests bajo el supuesto de que fuesen de igual longitud. Por otra parte, es
práctica común construir subtests a partir de tests dados. En este caso, también
hay que tener en cuenta los efectos que la varianza de los elementos que van a
constituir el nuevo test tiene sobre los resultados obtenidos de la aplicación direc-
ta de la ecuación de Spearman-Brown. Subtests muy cortos tienden a tener fia-
bilidades sustancialmente más bajas que las de aquellos más largos de los que han
sido extraídos. Por lo tanto en la práctica es necesario analizar el comportamien-
to de los tests acortados y cuidar los procesos de comparación entre tests muy
cortos.
Finalmente, considérese que, debido a las variaciones muestrales, se pueden
también asignar valores equívocos a la fiabilidad. Hay que vigilar especialmente
aquellos casos en los que es elevada la proporción de la varianza error σe2 en rela-
ción con la varianza σ2X .
148 Principios de Psicometría
Ejemplo 5.6
La varianza de las puntuaciones con un test en una muestra A de una pobla-
ción es sA2 y la fiabilidad calculada en esa muestra es r = 0.64, de donde se esti-
maría un valor de la varianza error s e2 = 9. El mismo test se ha aplicado a toda
la población, obteniéndose que la varianza es σ 2 = 225 y fiabilidad ρ = 0.96,
comprobándose que el valor de la varianza error es el mismo que en la mues-
tra σ e2 = 225 (1 – 0.96) = 9. Si se hace uso de la relación (2.3), se tiene que:
25 = s2V + 9 y 225 = σ 2V + 9
A
Ejemplo 5.7
Al aplicar un test X a dos muestras A y B procedentes de una misma
población, se obtienen dos conjuntos de puntuaciones cuyas varianzas son
respectivamente s A2 = 9 y s B2 = 13. Si el coeficiente de fiabilidad calculado con
la muestra A es 0.70, calcule el coeficiente de fiabilidad de la muestra B.
Capítulo 5. Fiabilidad: Consistencia interna 149
13 − 9 (1− 0.70)
rXB X′B = = 0.79
13
Cuadro 5.9
Como conclusión de este apartado diremos que, para que sean correctas las
interpretaciones que se dan a un determinado coeficiente de fiabilidad, hay que
conocer y analizar el método, las características de las muestras y en qué condi-
ciones se ha calculado ese coeficiente. En la obra de Feldt y Brennan (1989) se
pueden consultar diferentes métodos para estimar la fiabilidad y en qué condi-
ciones deben aplicarse. En Osburn (2000) se hace una evaluación de la adecua-
ción de los diversos estimadores de la consistencia interna y en Santisteban y Alva-
rado (2001, págs. 37-51) se pueden consultar algunos aspectos no tratados aquí
sobre paralelismo, tau-equivalencia y el coeficiente alfa.
Puntos clave
3 Una forma de fiabilidad que mide la relación entre las diferentes partes de un
test es su consistencia interna.
3 La forma más general de estimar la consistencia interna la proporciona el coe-
ficiente α.
3 Hay ecuaciones específicas para calcular la consistencia interna en tests con
ítems dicotómicos, o en pruebas en las que la consistencia interna se estable-
150 Principios de Psicometría
ce entre las dos partes en las que se ha dividido esa prueba. Todas ellas se pue-
de considerar que son diferentes versiones del coeficiente α.
3 El coeficiente α es la cota inferior de la fiabilidad. En algunos casos, la fiabilidad
calculada mediante α está subestimada.
3 Para calcular la consistencia interna entre subtests con distinto número de ele-
mentos es más apropiado el coeficiente β que el coeficiente α, pues éste es uno
de los casos en los que utilizando α se subestima la fiabilidad.
3 El coeficiente α se puede obtener también a través del estadístico F, calculado
a partir de las medias cuadráticas entre sujetos y la residual.
3 Hay coeficientes de fiabilidad que se pueden obtener haciendo uso de algunos
de los valores derivados de la aplicación de las técnicas de análisis factorial.
3 Los coeficientes que hacen uso de algunos valores derivados del análisis fac-
torial calculan la interrelación entre los factores intervinientes por lo que, de algu-
na manera, esos coeficientes también son indicadores de la dimensionalidad de
la prueba.
3 La interpretación correcta de los coeficientes de fiabilidad involucra diferentes
aspectos. La simple aplicación de las fórmulas puede conducir a decisiones
erróneas, como que se esté sobrestimando o subestimando la fiabilidad.
3 En todas las interpretaciones de los coeficientes de fiabilidad para establecer
las características psicométricas de una prueba hay que analizar la cuantía de
la varianza de las puntuaciones. Que la varianza de las puntuaciones observa-
das sea mucho mayor que la de los errores es una garantía de precisión de las
pruebas.
3 El coeficiente α es la cota inferior de la fiabilidad.
Actividades
r Haga una breve disertación sobre las similitudes y diferencias del coefi-
ciente α con otros coeficientes de fiabilidad, indicando sus ventajas e incon-
venientes.
r Razone por qué y en qué condiciones se da la relación de desigualdad entre
los coeficientes KR20 > KR21.
r Compruebe que, cuando las n componentes consideradas en la ecuación
de α son paralelas, esta ecuación coincide con la general de Spearman-Brown,
para la fiabilidad de un test compuesto por n elementos.
r Vuelva sobre el test o los tests que ha elaborado como una actividad lleva-
da a cabo en el Capítulo 3. A la luz de la información dada en este capítu-
Capítulo 5. Fiabilidad: Consistencia interna 151
Capítulo 2. Una consecuencia que se deriva de las hipótesis de este modelo es que
la media de las puntuaciones observadas es el estimador de la media de la pun-
tuación verdadera de la población, como se comprobó en el Apartado 2.2. Par-
tiendo de ese supuesto, los valores estimados para V se pueden obtener hacien-
do uso de la ecuación de regresión lineal de la variable V sobre la variable X:
σV
V − V = ρ XV (X − X)
σX
(6.1)
en donde V se puede sustituir por X , pero tanto σV como ρXV son también valo-
res desconocidos. Teniendo en cuenta las relaciones (2.4) y (2.12), se puede sus-
tituir ρXV por σV / σX , obteniéndose la igualdad:
σ V σ 2V
ρ XV = = ρ XX ′
σ X σ 2X
(6.2)
V − V = ρ XX ′ (X − X ) (6.3)
resultando así que una vez conocidos V = X y ρXX' , (que se estiman a partir de los
valores observados) se puede predecir el valor de la variable V para cualquier valor
de la variable X, mediante la ecuación de regresión (6.3). Las predicciones de las
puntuaciones verdaderas se hacen en función de las correspondientes puntuacio-
nes observadas, que pueden venir dadas como puntuaciones directas X, o en pun-
tuaciones diferenciales, cuando están centradas en la media: x = ( X − X ) o bien en
puntuaciones tipificadas: zX = x / σX . En cada uno de estos casos, el valor esti-
mado de V, que se denota por V$, se obtendrá mediante las ecuaciones siguientes:
V$ = ρ XX ′ (X − X ) + X (6.4)
v$ = x ρ XX ′ (6.5)
Capítulo 6. Inferencias: Estimación y contrastes 155
z$ V = z X ρ XX ′ (6.6)
Ejemplo 6.1
( )
Vˆ = 0.75 67 − 52 + 52 = 63.25
( )( )
vˆ = 0.75 67 − 52 = 11.25
zˆ V = 3 0.75 = 2.60
Ejemplo 6.2
σˆ V = = = 4.33
vˆ 11.25
zˆ V 2.60
σ 2e = σ 2X − σ 2V = 25 − 18.75 = 6.25
Tipos de errores
Error de medida
e=X−V (6.7)
σ e = σ X 1 − ρ XX ′ (6.8)
Error de estimación
ε = V − V$ (6.9)
σ ε = σ X ρ XX ′ 1 − ρ XX ′ (6.10)
Cuadro 6.1
ε = V − V̂
158 Principios de Psicometría
[
σ 2ε = E ε − E (ε) ] [
= E (V − Vˆ ) − E ( V − Vˆ ) ] {[ ] [
= E ( V − E ( V ) − Vˆ − E ( Vˆ ) ]} =
2 2 2
[ ]
= E V − E ( V ) + E ρ XX′ X − E ( X ){ [ ]} − 2 ρ XX′ {[V − E ( V )] [X − E ( X )]} =
2 2
Error de predicción
∆ = X − V$ (6.11)
σ ∆ = σ X (1 − ρ XX ′ ) (6.12)
Cuadro 6.2
[
σ 2∆ = E ∆ − E ( ∆ )] [
= E ( X − Vˆ ) − E ( X − Vˆ ) ] =
2 2
{[ ]
= E X − E ( X ) − ρ XX′ [X − E ( X )]} = E {[X − E (X)] [1− ρ ]} (
= σ 2X 1− ρ XX′ )
2 2 2
XX ′
Entre los errores típicos de medida, estimación y predicción se dan las siguientes
relaciones:
σ ε2 = σ e2 ρ XX ′ (6.13)
σ 2∆ = σ e2 (1 − ρ XX ′ ) = σ e2 − σ ε2 (6.14)
X −z α σ e ≤ V ≤ X + z α σ e (6.15)
x − zα σ e ≤ v ≤ x + zα σ e (6.16)
160 Principios de Psicometría
z X − z α 1 − ρ XX ′ ≤ z V ≤ z X + z α 1 − ρ XX ′ (6.17)
Cuadro 6.3
e− e
−z α ≤ ≤ zα
σe
– = E (e) = 0, se tiene que
y al ser e = X – V y además e
X−V
−z α ≤ ≤ zα
σe
(X − X) − zα σ e ≤ V − V ≤ (X − X) + zα σ e
que es la expresión (6.16).
Si las puntuaciones están tipificadas, el intervalo será:
V$ − z α σ x ρ XX ′ 1 − ρ XX ′ ≤ V ≤ V$ + z α σ x ρ XX ′ 1 − ρ XX ′ (6.18)
Ejemplo 6.3
Solución:
σ e = σ X 1− ρ XX′
0.59 ≤ v ≤ 19.41
0.07 ≤ z v ≤ 2.43
46 − 36 46 − 36
− 1.96 1− 0.64 ≤ z V ≤ + 1.96 1− 0.64
8 8
Para la representación gráfica de esa recta, basta con elegir dos pares
de puntos (X, V) cualesquiera, con lo que queda determinada. Tomando, por
ejemplo, los puntos (0, 12.96) y (50, 44.96) se obtiene la Figura 6.2.
Capítulo 6. Inferencias: Estimación y contrastes 163
32.49 ≤ V ≤ 52.31
Figura 6.3. Distribuciones de las puntuaciones poblacionales observadas (⋅⋅⋅⋅) y las ver-
daderas estimadas (). Intervalos de confianza de la puntuación verdadera con proba-
bilidad 0.95, utilizando los errores de medida (flechas cerradas) y de estimación (flechas
abiertas). X = V = 36 ; Xi = 46 ; Vˆ i = 42.4 .
Cuadro 6.4
X −µ X −µ
z= =
σX σX N
(6.19)
166 Principios de Psicometría
que se distribuye como una normal cuando la varianza de la población sea cono-
cida. Si esta varianza fuese desconocida, el estadístico de contraste es:
X −µ X −µ
t= =
sX N − 1
(6.20)
sX
σ$ X =
√ ∑( X i − X )2
N −1
(6.21)
σ$ X
√
=
sX
N N −1
Ejemplo 6.4
110 − 100
z= = 8.94
10 80
110 − 100
t= = 11.11
8 79
Capítulo 6. Inferencias: Estimación y contrastes 167
X1 − X 2
z=
σ 2X1 σ 2X 2
(6.22)
+
N1 N2
σ 2X1− X 2 = σ 2X1 + σ 2X 2 . Las formas que adopta el estadístico t para diferentes casos
tad. Al ser las muestras independientes la covarianza es cero y por lo tanto,
Este método se usa para contrastar la diferencia entre las medias de dos muestras
en las que cada una de las puntuaciones en una muestra está emparejada con una
de la otra muestra. En estadística se suele denominar contraste de la diferencia de
medias entre muestras relacionadas, o de muestras dependientes, o bien de mues-
tras pareadas. En el contexto de las puntuaciones de los tests, el estudio de estas
diferencias se puede plantear de diferentes formas, dependiendo del objetivo que
se persiga, que estará ligado al diseño con el que se han obtenido los datos: medi-
das repetidas en forma de test-retest, o formas equivalentes del mismo test o en
muestras pareadas. En el primer caso, sería un estudio intrasujeto, pudiendo ser
intersujeto en el segundo.
En un diseño intrasujeto, cada sujeto aporta un par de puntuaciones (X, Y)
y la hipótesis nula es que la media de las diferencias entre las medias de esos
dos conjuntos de puntuaciones es cero. Es decir, que en la población es
µ X − µ Y = µ X − µ Y = 0 , siendo las diferencias entre las medias muestrales
– –
d = X – Y. Para una muestra con un número Np de pares de puntuaciones, el
estadístico de contraste es:
( X − Y ) − (µ X − µ Y ) d
z= = o t= = =
d d d
σd σd N Np − 1
(6.23)
sd s d sd
∑ d 2i − ∑ d i
2
sd = N
p
(6.24)
Np
σ d = σ X 2 1 − ρ XX ′ (6.25)
σ d = σ X 2 − ρ X1X1′ − ρ X 2 X ′2 (6.27)
Cuadro 6.5
(
σ 2d = E ( X − X ′) − E ( X − X ′) ) = E ( X − X ′) 2
2
estableciéndose las últimas igualdades por ser nula la correlación entre los
errores, haciendo uso de la expresión (2.15) e igualando las varianzas de X
y X´ por ser medidas paralelas. Por lo tanto, la desviación típica de la distri-
bución corresponde a la expresión (6.25) dada anteriormente.
Para pares provenientes de medidas X1 y X2 en pruebas equivalentes
pero no necesariamente paralelas se tiene que:
σ 2d = σ 2X = σ 2X + σ 2X − 2 ρ XX′ σ X1 σ X 2 =
1− X 2
{ [ ]}
1 2
= E ( V1 + e1 ) − ( V2 + e 2 ) − E ( V1 + e1 ) − ( V2 + e 2 )
2
Ahora bien, al medir los dos tests el mismo rasgo en las mismas perso-
nas, puede considerarse que sus puntuaciones verdaderas son iguales,
V1 = V2. Además, por hipótesis del modelo, E(e1) = E(e2) = 0. Luego:
σ 2d = σ 2X = E (e1 − e 2 )2 = σ e2 + σ e2 =
1− X 2 1 2
Ejemplo 6.5
20 − 16
z= = 2.36
4 2 1− 0.91
Capítulo 6. Inferencias: Estimación y contrastes 171
Ejemplo 6.6
Las puntuaciones de dos tests que evalúan comprensión verbal siguen dis-
tribuciones N(0,1). Las fiabilidades de esos tests son 0.92 y 0.78 respectiva-
mente. Las puntuaciones tipificadas que se obtienen en ambos tests con una
muestra son z1 = 2.6 y z2 = 1.8 respectivamente. ¿Se puede afirmar que exis-
ten diferencias en las puntuaciones de los sujetos cuando resuelven los ele-
mentos de una y otra prueba?
Las puntuaciones son técnicamente comparables, pues en ambos casos
se da la puntuación tipificada (normalizada en este supuesto). Si las puntua-
ciones pareadas fuesen puntuaciones directas procedentes de mediciones en
diferentes escalas, sería necesario que se transformasen las puntuaciones a
escalas comparables, para poder interpretar la cuantía de las diferencias y hacer
comparaciones. Al ser dos tests que miden el mismo rasgo, con varianzas igua-
les y de los que se conocen sus fiabilidades, se puede usar la expresión (6.27)
para la desviación típica de la distribución en la expresión (6.23) y considerar
que σX = σz = 1 en las dos poblaciones. El estadístico de contraste toma el valor:
2.6 − 1.8
z= = = 1.46
0.8
σX 2 − 0.92 − 0.78 0.547
Ejemplo 6.7
Un psicólogo investiga sobre una terapia que, según su opinión, reduce los
niveles de ansiedad. Para evaluar el posible efecto de la terapia en un estudio
piloto, dispone de un test estándar para la medición de la ansiedad, que aplica
a una muestra de seis pacientes antes y después de la terapia. Las puntuacio-
nes X de los pacientes en ese test se dan en la Tabla 6.1. A la vista de tales
resultados ¿qué se podría concluir acerca de dicha terapia?
Paciente 1 2 3 4 5 6 ∑ di
X1 (antes) 35 52 29 40 37 43
X2 (después) 27 41 30 48 34 41
di 8 11 –1 –8 3 2 15
t= = 0.91
2.5
6.13 / 5
Capítulo 6. Inferencias: Estimación y contrastes 173
H : d > 0
H0 : d = 0 1
H1 : µ1 > µ 2
Finalmente hay que reseñar que los diseños intrasujeto son muy eficientes,
porque se puede usar un menor número de sujetos, en comparación con los dise-
ños intersujeto, y porque este diseño incrementa la potencia del test estadístico
con respecto a H0, es decir, que aumenta la probabilidad de rechazar H0 cuando
es falsa.
En capítulos anteriores se han dado diversas opciones de cálculo para los coefi-
cientes de fiabilidad. Resumidamente, se podría decir que en unos casos la fiabi-
lidad se calcula mediante correlación entre medidas paralelas ρXX' y que en otros
se hace poniendo en relación las varianzas de las componentes con respecto a la
varianza total, como se hace en el cálculo del coeficiente α y los que de él se deri-
174 Principios de Psicometría
van como casos particulares. Por ello, para hacer inferencias, se debe distinguir
entre uno u otro tipo de coeficientes. Los problemas más importantes que se plan-
tean en cualquiera de los casos son contrastar si un valor muestral del coeficien-
te es significativamente igual a uno poblacional, o comparar la igualdad entre dos
o más de estos coeficientes obtenidos tanto en muestras independientes como
en muestras relacionadas.
En estos apartados se seguirán utilizando letras latinas, rXX' = r, para el coefi-
ciente de correlación muestral y griegas, ρXX' = ρ, para el correspondiente pobla-
cional. En el caso de coeficientes alfa, se denotará por α el coeficiente poblacio-
nal y por α$ el muestral.
N−2
t=r
1− r
(6.28)
que sigue una distribución t de Student con N – 2 grados de libertad. Por ello, la
región crítica para un nivel α es t : t < t1-α/2; N-2 ; t > tα/2; N-2 .
Si de lo que se trata es de contrastar que ese coeficiente de fiabilidad r pertene-
ce a una población en la que ρXX' tiene un valor ρ = ρ1 distinto de cero, entonces
se hacen las transformaciones:
1 1+ r 1 1+ ρ
z r = ln ; zρ = ln
2 1− r 2 1− ρ
(6.29)
Capítulo 6. Inferencias: Estimación y contrastes 175
que sigue una distribución normal N (0,1). Por lo tanto, para un nivel α, la región
crítica, en un contraste bilateral, es z : z < z1-α/2 ; z > zα/2, siendo la región de
aceptación z : z1-α/2 ≤ z ≤ zα/2.
Las distribuciones que se usan para delimitar las zonas de aceptación y de
rechazo de la hipótesis nula son las que asintóticamente siguen los estadísticos
que se utilizan para hacer esos contrastes, bajo el supuesto de que H0 es cierta.
Por ello, hay que advertir que para realizar el contraste entre dos coeficientes
poblacionales utilizando el estadístico dado en (6.30), se debe exigir a las mues-
tras ciertas condiciones asintóticas que, desde un punto de vista práctico, se pue-
den resumir en que el tamaño muestral no sea pequeño, no debiendo usarse para
este contraste tamaños de muestra menores de 30 elementos.
Ejemplo 6.8
1 1+ 0.95 1 1+ 0.98
zr = = 1.83 ; zρ = ln = 2.30
2 1− 0.95 2 1− 0.98
ln
1.83 − 2.30
z= = − 3.39
1 55 − 3
La forma de los coeficientes α como relación entre varianzas explica que los esta-
dísticos de contraste suelen seguir distribuciones F de Fisher-Snedecor (son simi-
lares a los de los procedimientos ANOVA). Los contrastes de hipótesis más usua-
les acerca de α generalmente se refieren a si el valor de α es significativamente
igual a otro dado, o si diferentes valores de α, calculados en muestras indepen-
dientes o en muestras relacionadas son significativamente iguales. La forma de
los estadísticos y sus distribuciones se pueden seguir en las diferentes obras que
tratan la estimación de la fiabilidad mediante las técnicas del análisis de la varian-
za. A efectos de su utilización práctica en casos concretos, se da aquí la forma de
algunos de esos estadísticos y sus distribuciones.
1− α
F( N − 1),( N − 1)( n − 1) =
1 − α$
(6.31)
Ejemplo 6.9
a) Ho : αˆ = α = 0 b) Ho : αˆ = α = 0.90
H1 : αˆ = α ≠ 0 H1 : αˆ = α ≠ 0.90
1− 0 1 − 0.90
a) F = = 5.56 b) F = = 0.56
1 − 0.82 1 − 0.82
valores que en cada caso hay que comparar con los de la distribución F a un
nivel de significación α. Elegido α = 0.05, se rechaza la hipótesis nula en el caso a)
y se acepta en el caso b) pues el valor de Fα; (N – 1), (N – 1) (n – 1) = F0.05; 50, 2950 = 1.35.
Es decir, el coeficiente es diferente de cero y además su valor no difiere signi-
ficativamente de 0.90.
1 − α$ 1
F( N1 − 1),( N2 − 1) =
1 − α$ 2
(6.32)
ciosas que no ha lugar a que se traten en esta obra. Los estadísticos para estos
casos de comparaciones múltiples se dan en el Cuadro 6.6 y están tomados de las
expresiones que dan Feldt et al. (1987).
Cuadro 6.6
∑ ((1 − αˆ i )−1 3 − u)
k 2
i =1
χk2 −1 ≅
S2
∑ ((1 − αˆ i )−1 3 − u)
k 2
i =1
χk2 −1 ≅
S 2 − Sjk
u =∑ ; S2 = ∑ ; Si2 =
k
1 k
Si2 2
i =1 k (1 − αˆ i )1 3 i =1 k 9 (Ni − 1) (1− αi )2 3
˜
N (n − 1)
N˜ i = i i
ni + 1
N (n˜ − 1) ∑ S jk
N˜ i = N˜ = ; n˜ = ; S jk = ; Sjk =
k 2rij
n˜ + 1 9 (N˜ − 1)(1− αˆ j ) (1 − αˆ k ) k (k − 1) / 2
∑1 ni
k 13 13
i =1
siendo rij las correlaciones entre cada uno de los tests con cada uno de los
otros k – 1 con los que se está comparando.
Para realizar los contrastes se manejan una gran cantidad de datos y los cálcu-
los son tediosos, sobre todo cuando se trata de comparaciones múltiples, pero para
todos y cada uno de los casos hay software disponible para realizar estas compara-
ciones. Por ejemplo, en el paquete estadístico SPSS están implementados todos los
contrastes que aquí se exponen y, en cualquier caso, facilitan la realización de todos
los cálculos que llevan al valor del estadístico que permite tomar las decisiones.
Las ecuaciones que se presentan en el Cuadro (6.6) son una de las muchas for-
mas que se han propuesto para establecer comparaciones entre valores del coefi-
ciente alfa. Por ejemplo, en un artículo Woodruff y Feldt (1986) presentaron once
procedimientos estadísticos para comparar m coeficientes α, presentando algunos
ejemplos y simulación Monte Carlo para estudiar la precisión de los procedimientos
con resultados asintóticos. Además de contrastes de hipótesis, también se han pro-
puesto formas de obtención de intervalos de confianza. Para tratar las inferencias
acerca de α, remitimos al lector interesado a las publicaciones de Feldt (e.g., Woo-
druff y Feldt, 1986; Feldt et al., 1987; Feldt, 1990) y a la de Fan y Thompsom (2001).
Puntos clave
Actividades
Cuadro 7.1
m7.2. Estudios Gm
Cuadro 7.2
( ) ( ) (
X pi − X = X p − X + X i − X + X pi − X p − X i + X ) (7.1)
Una vez obtenidas las medias cuadráticas de las diversas fuentes: sujetos (MCp ),
ítems (MCi ) y residual (MCres ), se procede al cálculo de los coeficientes. En tan-
to que el ANOVA proporciona información de los efectos principales (y sobre
Capítulo 7. Teoría de la generalizabilidad 191
MCp − MCres
Sujetos σ p2 =
np
MCi − MCres
Condiciones σ i2 =
ni
Residual σ res
2
= MCres
Ejemplo 7.1
Niñas 2 2 2 2 2
Niños 4 3 3 2 3
Adoles. Hembras 4 4 5 3 4
Adoles. Varones 6 5 4 5 5
Medias 4 3.5 3.5 3 3.5
Tabla 7.3. Resultados de ANOVA y generalizabilidad para los datos de la Tabla 7.2.
En muchas situaciones los diseños incluyen más de una faceta que pueden
estar influenciando la calidad psicométrica de las medidas. La mayor diferen-
cia con los casos de una sola faceta reside en que, además de las MC de cada
una de las facetas, hay que obtener las de todas las interacciones, aumentan-
do considerablemente los cálculos. Lo usual es usar programas diseñados para
la TG o realizar los cálculos con el software disponible para los ANOVA.
Conocidas las MC, se procede a la estimación de las varianzas. En la Tabla 7.4
se dan las ecuaciones para el cálculo de las componentes de la varianza, en el
caso de dos facetas y un diseño cruzado p × i × j (sujetos × ítems × observadores),
siendo np, ni y nj el número de elementos considerados en el diseño en cada
una de las facetas.
Para hallar las componentes de la varianza se disponen los cálculos de forma
similar a como se ha realizado en el diseño de una faceta, teniendo en cuenta que
ahora, además de los efectos principales de cada faceta, hay que tener en cuenta
las nuevas interacciones.
A continuación se da un ejemplo de un estudio de dos facetas, en el que tam-
bién se ha medido la agresividad de cuatro grupos de escolares, incluyendo aho-
ra la influencia de otra posible fuente de variabilidad, los observadores que eva-
lúan la prueba.
194 Principios de Psicometría
MC j − MCpj − MC ji + MCres
Observadores (j) σ 2j =
np ni
MCpi − MCres
Sujetos × Ítems σ pi
2
=
nj
MCpj − MCres
Sujetos × observadores σ pj
2
=
ni
MCij − MCres
Ítems × observadores σ ij2 =
np
Residual σ res
2
= MCres
Ejemplo 7.2
Observadores
A B C
Sujetos Medias
Ítems Ítems Ítems
F V I H F V I H F V I H
Niñas 2 2 2 2 2 3 3 2 2 2 3 2 2.25
Niños 4 3 3 2 3 3 3 2 3 2 2 3 2.75
Adol. H 4 4 5 3 4 3 3 4 4 3 2 3 3.50
Adol. V 5 5 4 4 5 4 3 3 5 4 3 3 4.00
Nota: F, V, I y H se refieren a los ítems de agresividad (física, verbal, ira y hostilidad). Adol. H y Adol. V
indican adolescentes hembras y varones respectivamente.
Tabla 7.6. Resultados de ANOVA y de generalizabilidad para los datos de la Tabla 7.5.
m7.3. Estudios Dm
Puesto que la información de los estudios G se utiliza para tomar decisiones (admi-
sión en la universidad, selección de personal, etc.), tras los estudios G se realizan
estudios D para optimizar las estrategias que lleven a la toma de decisiones ade-
cuadas. Se puede decir, por lo tanto, que un estudio D es la segunda fase en un
estudio de generalizabilidad.
Comoquiera que las varianzas proporcionan la información de cuanto con-
tribuye cada faceta a la varianza total, el coeficiente de generalizabilidad se pue-
de considerar como un indicador de la intensidad de la señal, pudiéndose consi-
derar que el coeficiente de generalizabilidad responde a la relación:
Coeficiente de generalizabilidad =
señal
señal + ruido
La señal vendrá dada por la componente de la varianza del factor en el que se
está interesado, y el ruido vendrá dado por la varianza residual, a la que se le puede
sumar la de otras componentes, variando ese término ruido en número y tipo de
componentes, dependiendo del diseño y de que la decisión sea relativa o absoluta.
Las decisiones se consideran relativas si se toman relacionando las puntua-
ciones del sujeto con las de los componentes de un grupo o población, consi-
derándolas absolutas cuando se basan en si una puntuación determinada supera
Capítulo 7. Teoría de la generalizabilidad 197
Quienes usan los tests desean maximizar la calidad de sus medidas y, en conse-
cuencia, la de sus predicciones y quieren que todo ello se realice con la mayor efi-
ciencia posible. Por ejemplo, si la faceta de diferenciación son los sujetos y la
varianza atribuible a los ítems σ 2i es muy grande, quiere decir que esta faceta con-
tribuye en gran medida al ruido y el psicómetra debe buscar alguna estrategia para
intentar reducir esa varianza. Por lo tanto, cuando en el estudio G se advierte que
la varianza de alguna o de varias facetas es alta, puede plantearse aumentar el
198 Principios de Psicometría
Decisiones relativas
σ 2p
ρ2p =
σ 2res
(7.7)
σ 2p +
n′i
Ejemplo 7.3
Con el diseño y los datos de la Tabla 7.2 y con los resultados del estudio G
dados en la Tabla 7.3, tómese una decisión acerca de si se pudiera reducir, o si
se debe aumentar el número de ítems de la prueba.
Para tomar esa decisión, en primer lugar, se hace uso de la ecuación (7.7)
para obtener el coeficiente de generalizabilidad relativa, teniendo en cuenta que
en ese diseño se han utilizado 4 ítems (los niveles o condiciones) de esa face-
ta aleatoria. Por lo tanto:
ρp2 = = = 0.934
1.56 1.56
1.56 +
0.44 1.67
4
ρp2 = = = 0.876
1.56 1.56
1.56 +
0.44 1.78
2
ρp2 = = = 0.912
1.56 1.56
1.56 +
0.44 1.71
3
4 20 − 6
α= = 0.933
3 20
R XX′ =
(
2 0.933 ) = 0.966
1+ 0.933
Decisiones absolutas
En el diseño de una faceta descrito anteriormente, el coeficiente de generali-
zabilidad para decisiones absolutas, se obtiene mediante la ecuación:
σ 2p
φ 2p =
σ2 σ2
(7.8)
σ 2p + i + res
n′i n′i
Capítulo 7. Teoría de la generalizabilidad 201
Ejemplo 7.4
φp2 = = 0.926
1.56
1.56 + +
0.06 0.44
4 4
que, como era de esperar, es menor que el coeficiente obtenido para las deci-
siones relativas. Aun así, el coeficiente es bastante elevado, pero si se quiere
aumentar, se puede proceder de manera análoga a lo realizado anteriormente.
Por ejemplo, si la estrategia de mejora de la prueba consiste en aumentar en
dos el número de ítems, el valor esperable es:
φp2 = = 0.949
1.56
1.56 + +
0.06 0.44
6 6
Al igual que en el caso de una faceta, se exponen los coeficientes para las deci-
siones relativas y a continuación los de las absolutas.
Decisiones relativas
σ 2p
ρ2p =
σ 2pi σ pj
(7.9)
σ2
σ 2p + + + res
2
Decisiones absolutas
σ 2p
φ 2p =
σ 2i σ j σ pi σ pj σ ij σ res
(7.10)
σ 2p + + + + + +
2 2 2 2 2
Ejemplo 7.5
Con los datos calculados en el estudio G del Ejemplo 7.2 (Tabla 7.6) se pue-
den plantear al menos dos cuestiones:
ρp2 = = = 0.89
0.551 0.551
0.551 + + +
0.086 0.044 0.343 0.616
4 3 12
φp2 = = 0.86
0.551
0.551+ + + + + +
0.086 0.044 0.069 0.019 0.00 0.343
4 3 4 3 12 12
Para dar respuesta a las cuestiones que se han planteado, se pueden hacer
estimaciones teóricas manipulando el número de ítems y el de observadores.
Algunos de los valores de los coeficientes de generalizabilidad calculados para
la toma de decisiones absolutas y relativas, considerando diferentes números
de ítems y de observadores, se dan en la Tabla 7.7
El aumento del número de niveles en una o en ambas facetas aumenta el
valor de los coeficientes, tanto si son decisiones absolutas como relativas. Como
también se puede observar en el ejemplo de la Tabla 7.7, los coeficientes para
las decisiones relativas son mayores que para las absolutas. Se deberá adop-
tar la combinación que optimice las decisiones, teniendo siempre en cuenta que
usualmente el error que afecta a las decisiones absolutas es mayor que el que
afecta al de las relativas y que, por ello, son las decisiones relativas las que son
más generalizables.
204 Principios de Psicometría
1 1 0.54 0.50
2 1 0.68 0.64
3 1 0.75 0.71
4 1 0.78 0.75
4 2 0.86 0.83
4 3 0.89 0.86
4 4 0.91 0.88
5 3 0.91 0.88
6 2 0.89 0.87
6 3 0.92 0.89
En todos los desarrollos anteriores se han supuesto diseños cruzados, esto es, que
todos los sujetos se cruzan con todas las condiciones. En el caso en el que se tuvie-
se una muestra de 100 sujetos, 12 ítems y 2 observadores (evaluadores), el diseño
cruzado (p × i × j) proporcionaría un total de 100 × 12 × 2 = 2400 observaciones.
Sin embargo, si por razones de economía se decide dividir la muestra de sujetos
entre los observadores, asignándolos de forma aleatoria y de manera que cada uno
de los observadores se ocupe de evaluar sólo a la mitad de los sujetos, entonces se
tiene un diseño anidado [(p : j) × i], que daría como resultado 2 (50 × 12) = 1200
observaciones. Del mismo modo, se podría haber decidido adoptar otra estrate-
gia, por ejemplo, dividir los ítems entre los evaluadores de manera que uno de ellos
aplicará 6 ítems a todos los sujetos y el otro los otros seis. En este caso, se tiene un
diseño anidado [p × (i : j)], que produce también 1200 observaciones.
Para los análisis hay que tener en cuenta, por lo tanto, que los sujetos reciben
sólo algunos de los niveles de las facetas de generalización. En este caso, no todas
las combinaciones de ítems y observadores están representadas en el diseño. En
general, se tiene un diseño anidado cuando no está incluida en el estudio toda
posible combinación de dos facetas.
Capítulo 7. Teoría de la generalizabilidad 205
Puntos clave
3 La TG considera que las mediciones pueden estar afectadas por múltiples fuen-
tes de error, en lugar de un término único como se considera en el modelo de
Spearman.
206 Principios de Psicometría
Actividades
r Enuncie tres ítems que midan la agresividad física en niños (puede tomar-
los de Santisteban y Alvarado, 2009). Obtenga las respuestas a estos ítems
de 10 niños en dos ocasiones distintas y realice estudios G, considerando
que los ítems y las ocasiones son las facetas de generalización.
r A la vista de los datos que se dan en el Ejemplo 7.3 y ya que la prueba pro-
puesta es muy corta, ¿cree que la mejor opción sería aumentar su longitud
Capítulo 7. Teoría de la generalizabilidad 207
que se pretende medir, no son mediciones directas sino que casi siempre se infieren
desde otras medidas, por lo que también habrá que plantearse cuál es la validez de
esas inferencias. Por lo tanto, parece que la validez es uno de los requisitos que se
deben exigir que cumplan tanto las medidas como los instrumentos de medida.
La evaluación de la validez de los instrumentos de medida psicométricos ha
sido siempre un aspecto considerado primordial y requerido para su uso. No
obstante, la concepción actual de la validez ya no responde solamente a esa orien-
tación puramente pragmática y empirista que caracterizó a la psicometría en la
primera mitad del siglo XX. El concepto de validez ha evolucionado como con-
secuencia de los cambios conceptuales que se han ido produciendo en el ámbi-
to de la psicometría, ampliándose este concepto a otros campos de la psicología
en los que es necesaria la medición, e incorporando nuevas técnicas. En la actua-
lidad los principios de la validez no sólo se aplican a las inferencias que se hacen
usando las puntuaciones derivadas del test, sino que también incluyen a todas
aquellas que se han ido generando en pasos intermedios, pues también esas pun-
tuaciones deben ser consistentes con las aptitudes, las conductas o cualquier tipo
de atributos que sean objeto de evaluación. En consecuencia, no solamente el
término validez, sino también el término puntuación hay que considerarlo aquí
en un sentido amplio, pues incluye el resultado de cualquier asignación y/o codi-
ficación que se haga de las observaciones, que tienen que ser consistentes con la
realización del test, el cuestionario u otra forma de evaluación, así como con sus
posteriores interpretaciones. Por todo ello, la validación ya no se considera que
es la etapa final del proceso de construcción del instrumento de medida, sino
que es un aspecto fundamental que tiene una fuerte influencia en todo el pro-
ceso. Ha sido Messick (1989/1993, 1995) quien probablemente más ha contri-
buido a que se abran paso estas propuestas, defendiendo un concepto unifica-
do de validez que integrara a todas las posibles fuentes de información que ayuden
a la validación, incluyendo desde las puntuaciones hasta las consecuencias socia-
les del uso de los tests, consiguiendo así que se abandone la idea más primitiva
de que primero se construye el test, procurando que sea muy fiable, para poste-
riormente, en la etapa final, someterlo a estudios de validación.
Al exponer las cualidades psicométricas de un test, las medidas más significati-
vas, además de la precisión, son las que se refieren a su validez, que pueden ser varias,
pues en la validez se pueden considerar diferentes aspectos. Además, los estudios de
validez no tienen restricciones en cuanto al modelo en el que se ha basado la cons-
trucción de la prueba, lo que no sucede con los estudios de fiabilidad, en su acep-
Capítulo 8. Validez: Concepto y tipos 211
ción de correlación entre puntuación verdadera y observada, que son exlusivos del
modelo lineal clásico. Una prueba es válida si cumple los objetivos para los que se
construyó, con independencia del tipo de modelo formal que se adopte, ya sean linea-
les (TCT), modelos basados en distribuciones probabilísticas como la binomial (Lord,
1965), o la de Poisson (Rasch, 1960) cuyo uso actualmente es poco frecuente, u otros
modelos no lineales ampliamente utilizados, como los de la TRI (Capítulos 11 y 12),
así como otros cualesquiera que se propongan. No se debe caer en la presunción de
construir un modelo cuya cualidad fundamental sea la estética formal a través de sus
formulaciones matemáticas o computacionales, incluso de sus resultados. Hay que
validar el modelo dándole legitimidad. Los tests de inteligencia o de personalidad
serán válidos si generan puntuaciones que permitan discriminar entre sujetos que
varían en inteligencia, o que reflejan los rasgos más significativos de su personalidad.
Un test dirigido a la selección de personal para la realización de una tarea determi-
nada será válido si sus puntuaciones están en estrecha relación con aquellas aptitu-
des o habilidades fundamentales que posibilitan la buena ejecución de esa tarea, inclui-
da la adaptación del sujeto al medio, pero esto no es más que un ejemplo de uno de
los aspectos de la validez. Trataremos algunos de esos aspectos y los métodos más
usuales para valorarlos en el contexto de la teoría de tests, aunque las limitaciones
que impone un texto de estas características no nos permiten abordar el tema en
toda su extensión, dimensiones y profundidad.
Cuadro 8.1
En los albores del siglo XX, en sus intentos por generar los mejores tests posi-
bles para evaluar la aptitudes intelectivas, Binet y Simon (1908) generaron
un procedimiento para elegir los mejores ítems utilizando el criterio de dife-
renciación por edad, basándose en las teorías de la psicología evolutiva. Esto
212 Principios de Psicometría
constituyó uno de los primeros intentos de dar validez a esas pruebas. Pos-
teriormente, la validez se evaluó mediante el coeficiente de correlación entre
las medidas que proporciona el test (predictoras) y las de otra variable que
sirve como criterio de si ese test mide lo que se pretende (Hull, 1928; Gullik-
sen, 1950a). Los errores de medida, que afectan tanto a las variables pre-
dictoras como a las que miden el criterio, hacen que el coeficiente de corre-
lación entre ellas sea menor del que resultaría si esas variables estuvieran
exentas de errores. Este problema lo abordó Cureton (1950), incluyendo el
concepto de atenuación en sus definiciones y fórmulas de la validez. Cure-
ton además distinguía entre lo que es la validez del test, su poder predicti-
vo y lo que denominó relevancia, que es la correlación entre las puntuacio-
nes verdaderas, tanto del predictor como del criterio. Las propuestas de
Cureton no tuvieron eco en la comunidad científica, que aceptó casi unáni-
memente la definición de coeficiente de validez y las consideraciones de
Gulliksen (1950a), quien ligaba la validez de un test con la predicción de un
criterio específico. Esto implica que un test tendrá tantos coeficientes de vali-
dez como usos se hagan de él. El que un test sólo se puede validar como
medida de un determinado criterio fue el pensamiento dominante de la épo-
ca y autores como Anastasi (1950) afirmaban también que decir que median-
te un test se puede medir algo distinto a su criterio es pura especulación.
Todo ello es fiel reflejo del positivismo lógico, que es el marco filosófico en
el que se desarrolló la psicología de la época. Uno de los pocos que disin-
tieron fue Rulon (1946), quien defendía que los tests de rendimiento acadé-
mico en diferentes materias no requieren de un criterio externo para su vali-
dación, pues ellos mismos constituyen su propio criterio, ya que la revisión
del test se hace por expertos en la materia, mostrándose así la validez de su
contenido. Por su parte, Cronbach (1949/1990) distinguía entre validez lógi-
ca (qué es lo que mide el test) y la validez empírica (cuál es su relación con
un criterio), discutiendo los problemas de la validez de contenido en los tests
educativos.
A lo largo de varias décadas, el pensamiento predominante fue, por lo
tanto, que la validación consiste en comprobar la capacidad del test para
predecir un determinado criterio de conducta, ya sea ésta observable en el
futuro, o en el momento, acuñándose los términos de validez predictiva y de
validez concurrente para indicar si las medidas del test predictor y del test
criterio se han tomado o no en el mismo momento. No obstante, durante esa
época de mediados del siglo XX, aparecieron múltiples denominaciones para
designar a la validez, tomadas de las diferentes metodologías estadísticas
y/o de la aplicación de técnicas de análisis de los ítems que se iban incor-
porando a la psicometría. Guilford (1946) introdujo el concepto de validez
factorial, que proporciona la información de qué es lo que realmente mide el
test en términos de factores y pesos, anticipando una de las técnicas actua-
Capítulo 8. Validez: Concepto y tipos 213
les más relevantes para la validación del constructo. Gulliksen (1950b) intro-
dujo el concepto de validez intrínseca, que es muy similar al de validez fac-
torial, en la que los factores relevantes se detectan estudiando los patrones
de covarianza. Por su parte, Anastasi (1954) dividía la validez en aparente,
de contenido, factorial y empírica.
hasta la edición de las Normas de 1985 cuando se hace explícita una concepción
unitaria de la validez, como consecuencia de las interrelaciones que se establecen
entre diferentes mediciones del rasgo o del comportamiento de interés y las pun-
tuaciones en el test que se pretende validar, considerándose entonces los tipos de
validez mencionados en las ediciones anteriores como diferentes evidencias o fuen-
tes de validez. No obstante, existe en la redacción de esas normas una cierta ambi-
güedad, ya que se elaboran conjuntamente entre psicólogos y educadores, entre
quienes se concibe y se desarrolla de forma desigual esta concepción unitaria de
la validez. Estas deficiencias las pone de manifiesto Messick (1989/1993, 1995),
quien, como se ha mencionado en el apartado anterior, defiende la validez como
un concepto único, integrando en el proceso todas las posibles fuentes que sirvan
al objetivo de la validación, incluyendo todos sus aspectos. En las Normas de 1999
(AERA, APA y NCME, 1999), se define la validez como una evaluación global del
grado en el que la teoría y la evidencia apoyan las interpretaciones de las puntua-
ciones que se hacen en cada uso específico de los tests, poniéndose así de mani-
fiesto la relevancia de la validez en el desarrollo y en la evaluación de los tests. Este
cambio se debe a diversos psicómetras y al propio Cronbach (1975, 1989), quien
revisa sus planteamientos anteriores. Sin embargo, es a Embretson (1983) a quien
se debe sin duda la mayor y más relevante aportación a lo que actualmente signi-
fica la validación de constructo en la construcción de tests y en la investigación
psicológica, poniendo de manifiesto la relevancia del test como instrumento de
medición de las diferencias individuales. No bastará con establecer las redes de
relaciones entre conceptos, sino que será necesario, como requisito previo, que el
constructo esté adecuadamente representado. Es decir, en la validación del cons-
tructo se debe establecer tanto la representación del constructo como la perspec-
tiva nomotética, basada en las características de la red de relaciones entre el test y
otras medidas del constructo (Alvarado y Santisteban, 2006).
Puede decirse que actualmente en psicología y educación hay consenso en cuan-
to a defender un concepto unificado de la validez. Se considera que el concepto
central es la validez de constructo con el que se conectan todas las demás eviden-
cias de la validez: las de contenido, las empíricas y teóricas de lo apropiado de las
interpretaciones, las de las puntuaciones en relación con el dominio y la estructura
del constructo, las del contexto de evaluación, las del significado de las puntuacio-
nes, así como las de las consecuencias que se deriven de la aplicación del test. En la
Figura 8.1 se presenta un diagrama que resume los cinco tipos de validez que se
explicitan en las Normas vigentes (AERA, APA y NCME, 1999). Así, el problema
Capítulo 8. Validez: Concepto y tipos 215
de la validez de los tests y su estudio se extiende desde la teoría que apoya el cons-
tructo objeto de medición, hasta las consecuencias derivadas de la aplicación del
test, incluidas las consecuencias adversas que se pueden derivar de la debilidad o de
la falta de validez de la prueba, ya sea porque la prueba está contaminada con ítems
irrelevantes, o porque no se han incluido en ella todos los aspectos relevantes del
constructo, o por otras causas. Aun cuando la enumeración de los diferentes aspec-
tos de la validez parece ilimitada y no todos están presentes en el proceso de vali-
dación, se ha abierto paso un concepto unificado de la validez y que en ese proce-
so comparten responsabilidad tanto los que construyen las pruebas, que tienen que
dar indicios suficientes de la buena o fuerte validez de la prueba, como los usuarios,
que tienen que justificar la pertinencia de su uso en esa aplicación concreta.
Según estas normas, la actual perspectiva, no exenta de críticas, considera que
el proceso de evaluación consiste en obtener evidencias suficientes que apoyen
las interpretaciones que se hacen de las puntuaciones del test, prestando especial
atención al contenido de los tests, a su estructura interna, a los procesos psicoló-
gicos que intervienen en los procesos para dar respuesta a los tests, a las asocia-
ciones entre las puntuaciones en el test con las de otras variables y, como se ha
mencionado, a las consecuencias del uso de los tests, que representan uno de los
aspectos más controvertidos.
Figura 8.1. Los cinco tipos de validez que se explicitan en las Normas de 1999.
216 Principios de Psicometría
a) Los que están focalizados en las asociaciones entre las puntuaciones del
test y un número muy pequeño de variables específicas, que son críticas
para su evaluación. Es decir, el estudio de la validez se centra en una o en
muy pocas variables que se consideran el criterio más relevante. Por ejem-
plo, para publicitar las cualidades psicométricas del test SAT (Scholastic
Assesment Test) se hacen referencias a su validez relacionándola solamente
con las predicciones en el éxito académico. En el estudio mencionado sobre
el SAT, la validez está basada en las correlaciones entre las puntuaciones
en ese test y un conjunto específico de variables criterio relacionadas con
el rendimiento académico, y se argumenta que es un estudio realizado en
diversos centros, con la participación de ciento diez mil estudiantes (Colle-
ge Board, 2006). En realidad, para establecer este tipo de validación no es
necesario tener grandes tamaños de muestra, pues estos estudios de vali-
dez son adecuados siempre y cuando se puedan generalizar.
b) A veces el número de variables de la red nomológica no se puede restrin-
gir a un número muy pequeño de ellas. Por ejemplo, cuando la red nomo-
lógica incluya una amplia variedad de variables de otros constructos con
diferentes niveles de asociación con el que se estudia. En esos casos, se sue-
len establecer las correlaciones entre todas las variables, obteniéndose una
matriz de correlaciones entre los indicadores del constructo que se estudia
y las medidas con las que se considera que pueden estar relacionadas. Las
decisiones acerca de la validez se toman examinando la cuantía e interpre-
tando las correlaciones desde el punto de vista conceptual que los autores
220 Principios de Psicometría
del test tienen acerca del constructo objeto de la medición. Aunque los psi-
cómetras se enfrentan con un gran número de datos y no hay un criterio
claro de selección y discernimiento en cuanto a los límites de lo que se pue-
de o no considerar para establecer la validez, esta aproximación a la eva-
luación de la validez es bastante común.
c) Otra aproximación es la que utiliza las matrices multimétodo-multirrasgo, en
las que se establecen las correlaciones entre dos o más rasgos medidos por
dos o más métodos. Las medidas e interpretaciones de esta aproximación
propuesta por Campbell y Fiske (1959) se exponen en el siguiente capítulo.
d) La cuantificación de la validez de constructo (QCV), que es un método
más reciente que los anteriores (Westen y Rosenthal, 2003), se basa en que
el psicómetra debe cuantificar el grado en que se ajustan sus predicciones
teóricas a un conjunto de correlaciones convergentes y discriminantes y
cómo se comportan al respecto los datos. El procedimiento QCV se pue-
de resumir en tres pasos. En el primero, el psicómetra hace predicciones
claras y concretas sobre los patrones de correlaciones convergentes y dis-
criminantes que espera encontrar para establecer la validez. Por ejemplo,
se puede establecer a priori que los factores que miden la sensibilidad indi-
vidual al ruido en preadolescentes están correlacionados con los de la agre-
sividad y con los de la impulsividad. En segundo lugar, se administran los
cuestionarios que miden la sensibilidad al ruido (e.g., SENSIT, Santisteban,
1990b), la agresividad (e.g., AQ, Buss y Perry, 1992; Santisteban et al., 2007)
y la impulsividad (e.g., BIS-11, Patton et al., 1995; versión española de Recio
et al., 2004). Se recogen los datos y se calculan las correspondientes corre-
laciones. Finalmente, los psicómetras deben evaluar el grado en que los
patrones de correlaciones obtenidos se ajustan a los predichos. Esta eva-
luación se realiza atendiendo al tamaño del efecto y a los resultados del test
de significación. La propia concepción del procedimiento requiere que se
sea muy cuidadoso en la elección de las variables con las que establecer las
asociaciones y en la interpretación de los resultados pues, por ejemplo, valo-
res bajos del tamaño del efecto puede que no indiquen una escasa validez,
ya que se pueden obtener tamaños del efecto bajos si el conjunto de las
correlaciones predichas no es el apropiado. Cuestiones similares se pueden
plantear en relación con las altas correlaciones. Por lo tanto, el uso de este
método requiere el análisis minucioso, tanto de los aspectos conceptuales
como de los metodológicos y estadísticos.
Capítulo 8. Validez: Concepto y tipos 221
Este tipo de validez indica cuál es la eficacia del test en la predicción de algún tipo
de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo,
podría utilizarse un test sobre razonamiento abstracto para predecir el éxito de
un alumno en la disciplina de matemáticas. Esta predicción será tanto más preci-
sa cuanto mayor sea la validez del test de razonamiento como predictor del ren-
dimiento en matemáticas. A veces se utilizan varios tests en lugar de uno solo para
predecir un criterio. Por lo tanto, la validez relativa al criterio se juzga como el gra-
do de relación entre el test (o el conjunto de tests) que actúa como predictor y
otra variable de interés que actúa como criterio.
Las mediciones de la variable con la que se evalúa el criterio se pueden reali-
zar al mismo tiempo que la del predictor o predictores, dándole entonces a la vali-
dez la denominación de validez concurrente. En el caso en que se haga en momen-
tos diferentes, se denomina validez predictiva. Las diferencias entre ambas no se
basan lógicamente en el tiempo que transcurre entre una y otra medición, sino en
si el objetivo está centrado en el diagnóstico (concurrente) o en la predicción de resul-
tados futuros (predictiva).
La validez en relación con el criterio, aunque se podría haber incluido en el
Apartado 8.4, tiene características especiales que la diferencian de otros tipos de
validez, y merece mención explícita en las clasificaciones clásicas de los tipos
de validez. Además, en torno a este tipo de validez se han desarrollado muchos
métodos para hacer más precisas las predicciones y más eficiente la toma de deci-
siones, como se va a comprobar en los siguientes capítulos.
Los problemas que se han identificado que afectan a la validez en relación con
el criterio son muchos de ellos comunes a otros tipos de validez. En la literatura
(e.g., Croker y Algina, 1986) se mencionan, por ejemplo, la no correcta identifi-
cación del criterio, la insuficiencia del tamaño muestral, la falta de fiabilidad del
Capítulo 8. Validez: Concepto y tipos 223
La estructura interna de un test viene dada por las relaciones que se establecen
entre diferentes partes de ese test, ya sea entre todos los ítems en su conjunto, ya
sea entre aquellos que se incluyen en cada uno de los posibles grupos de ítems
que forman el test. En cualquier caso, para que un test se interprete como medi-
da válida de un determinado constructo, es necesario verificar que la estructura
que se ha adoptado para el test coincide con la estructura en la que teóricamen-
te está basado el constructo.
Este concepto se puede comprender fácilmente si se acude a un ejemplo con-
creto. Consideremos el test de agresividad AQ (Aggression Questionnaire de Buss
y Perry, 1992) o bien la adaptación que se ha hecho de ese test a preadolescentes
y adolescentes AQ-PA (Santisteban et al., 2007; Santisteban y Alvarado, 2009).
Esos tests tienen una estructura tetrafactorial, pues los 29 ítems de los que cons-
tan se agrupan en cuatro factores o componentes de agresividad: física, verbal,
ira y hostilidad. Estos tests, que proporcionan una medida global de la agresivi-
dad, también proporcionan información sobre la contribución de cada una de
esas cuatro componentes a esa medida global. La validación de constructo para
ese test requiere que se verifique que ese test mide agresividad, que se puede con-
siderar que está formado por cuatro factores, y que esos factores tienen sentido
y significado dentro del constructo, en concordancia con la estructura teórica de
ese constructo.
El establecimiento de la estructura de un test se basa en su primer estadio en
los supuestos en los que descansa la teoría y también usualmente en estudios pre-
vios. Por ejemplo, los estudios que definen la agresión se han focalizado en las
intenciones, las expresiones y la influencia de factores afectivos, llevando a sub-
dividirla en varias clases tales como física, verbal, directa, indirecta, impulsiva o
conscientemente controlada. El AQ, que ha mostrado tener una buena validez
224 Principios de Psicometría
Desde esta perspectiva que engloba todos los aspectos de la validez, la correc-
ta validación es una responsabilidad compartida entre quien construye el test y
quien lo utiliza. Quienes desarrollan el test deben especificar el marco concep-
tual en el que sitúan el constructo, su especificidad, los propósitos de la eva-
luación y cómo sus medidas se relacionan con las de otras variables. También
deben justificar la pertinencia de sus decisiones en cada uno de los pasos en el
proceso de validación, así como la generalización y las limitaciones de su uso y
aplicaciones. Quienes utilizan el test son, en último término, los responsables
de su correcta aplicación, de la corrección de las interpretaciones y de si está o
no justificado su uso con el propósito y en la situación particular para la que se
utiliza.
226 Principios de Psicometría
Puntos clave
Actividades
columna, especifique las características de aquellos otros con los que teó-
ricamente se supone que deberían estar sus mediciones fuertemente aso-
ciadas y en una tercera columna, las de aquellos con los que deberían estar
no relacionadas o muy débilmente relacionadas.
r Enuncie hipótesis sobre las correlaciones (positivas o negativas) y la cuan-
tía en la que se darían las relaciones entre las variables especificadas en la
actividad anterior.
r Si dispone de tests o cuestionarios estandarizados de algunos de los cons-
tructos elegidos en la actividad anterior, haga un estudio piloto aplicando
esos tests o cuestionarios a las personas de su círculo más próximo.
La validez
Evaluación de las evidencias de validez 9
En el capítulo anterior se han presentado los conceptos de validez desde
distintas perspectivas. En este capítulo se va a tratar cómo se pueden eva-
luar esas evidencias de validez, teniendo en cuenta que la validez no es una
cuestión de todo o nada, de ser válido o no válido, sino que hay grados en
cuanto a la fuerza o debilidad de las evidencias de validez encontradas. La
validez es un factor decisivo para los usuarios de los tests, pero no hay un
valor preestablecido a partir del cual se dice que el test es o no es válido,
aunque todo test, cuestionario o inventario, debe haber mostrado necesa-
riamente que tiene validez suficiente para apoyar que, tanto su interpreta-
ción como su uso, son los adecuados.
En este capítulo se va a tratar:
respuestas que se dan a esos ítems. Por su parte, Sireci y Geisinger (1992, 1995)
recomiendan el escalamiento multidimensional y análisis de conglomerados y de
clústers como estrategias de análisis para evidenciar la representatividad del con-
tenido. Para evaluar la representatividad del dominio, se han hecho también pro-
puestas desde la teoría de la generalizabilidad ( Jarjoura y Brennan, 1982; Sha-
velson et al., 1995) e incluso utilizando modelos de ecuaciones estructurales (Ding
y Hershberger, 2002). En cualquier caso, aunque la validez de contenido se deter-
mina a través de juicios subjetivos y no existen procedimientos ni índices ade-
cuados para estimarla, el uso de algunos de los análisis formales, como los arri-
ba indicados, ayuda a tomar decisiones. Muchos de esos procedimientos proveen
de buenos indicadores de cómo el contenido de los ítems se relaciona con el
objetivo, si su número y peso relativo son los adecuados en la composición de
ese test o incluso si hay aspectos que no se contemplan en ninguno de los ítems.
En cuanto a la aplicabilidad, la validación de contenido es una técnica apro-
piada para la evaluación del rendimiento académico y ocupacional, puesto que per-
mite responder a cuestiones básicas como si la prueba es una muestra representa-
tiva de los contenidos o de los rendimientos que se van a medir, o si cubre todos
los contenidos relevantes y si está razonablemente libre de la influencia de los irre-
levantes. Sin embargo, como indican Anastasi y Urbina (1997), la mera validación
de contenido puede ser inapropiada e incluso engañosa en los tests diseñados para
la medición de aptitudes y de la personalidad, pues aunque en la construcción de
todas las pruebas deben considerarse la representatividad y la relevancia del con-
tenido, la validación de estas pruebas debe hacerse mediante métodos formales
para la validación de constructo. En cualquier caso, la validez de contenido en nin-
gún caso se debe confundir con la validez aparente (Apartado 8.3), pues para la
validación del contenido existe una sistemática y algunos índices, además de que
son los expertos quienes deben realizarla.
ρ XY =
Cov ( X , Y )
σX σY
(9.1)
232 Principios de Psicometría
Validez y fiabilidad
ρ (VX , VY ) ≥ ρ (X , VY ) ≥ ρ (X , Y ) (9.2)
Capítulo 9. Validez: Evaluación 233
luego, el valor del coeficiente de validez empírico es menor que el que se obten-
dría si se dispusiera de las puntuaciones verdaderas. Es decir, el valor empírico del
coeficiente de validez está atenuado debido a los errores de medida. Para corregir-
lo, se ha propuesto una ecuación que tiene en cuenta la precisión de las medidas,
tanto del predictor como del criterio, es decir, sus fiabilidades. Esta ecuación es:
ρ XY
ρ VX VY =
ρ XX ′ ρ YY′
(9.3)
que es la ecuación de corrección por atenuación. Esta ecuación fue primeramente de-
sarrollada por Spearman bajo los supuestos del modelo clásico, donde con ρXY
se denota la validez empírica y ρXX' y ρYY' son los coeficientes de fiabilidad del
test y del criterio respectivamente (Cuadro 9.1). El lector debe estar atento para
no confundir los coeficientes de validez y de fiabilidad utilizados en esta ecua-
ción, pues se usa la misma letra griega ρ para todos ellos. Todos son coeficientes
de correlación (y formalmente iguales a la razón entre una covarianza entre dos
variables dividida por el producto de sus desviaciones típicas), pero en cada caso
las correlaciones difieren tanto en las variables como en su significado. Las varia-
bes X, X' o Y, Y' se utilizan en los coeficientes de fiabilidad del test y del criterio,
mientras que las variables X e Y se usan en los coeficientes de validez, refirién-
dose a la variable predictora y al criterio, siendo las variables VX y VY sus corres-
pondientes puntuaciones verdaderas.
Cuadro 9.1
Cov ( VX , VY ) Cov ( X, Y ) ρ XY σ X σ Y ρ XY
( )( )
ρ VX VY = = = =
σ VX σ VY σ VX σ VY σ VX σ VY σ VX / σ X σ VY / σ Y
y de acuerdo con la ecuación (2.12), los factores del denominador son los
índices de fiabilidad de X e Y respectivamente, obteniéndose la ecuación
(9.3) dada para el coeficiente de validez desatenuado.
234 Principios de Psicometría
( ) (
ρ VX1 , VY1 = ρ VX 2 , VY2 )
Si se modifican los tests, hay diversos valores de correlación implicados en
una misma ecuación, generalmente calculados con valores muestrales. Para evi-
tar confusiones, en lugar de la letra griega ρ se van a usar las letras r y R para deno-
tar las fiabilidades iniciales (r) y mejoradas (R) para ambos tests:
Por la misma razón, también se van a utilizar las letras r y R para los coefi-
cientes de validez inicial y final, respectivamente. Usando las ecuaciones de ate-
nuación se tiene que:
rX1X1′ rY1Y1′
=
rX1Y1
(9.5)
R X 2 Y2 R X 2 X ′2 R Y2 Y2′
Capítulo 9. Validez: Evaluación 235
R X 2 Y2 =
rX1Y1
(9.6)
rX1X1′ rY1Y1′
R X 2 X ′2 R Y2 Y2′
R X 2 Y1 = ; R X1Y2 =
rX1Y1 rX1Y1
(9.7)
rX1X1′ rY1Y1′
R X 2 X ′2 R Y2 Y2′
Ejemplo 9.1
Tests predictores
A1 A2 A3
Los resultados de la Tabla 9.1 indican que el test que potencialmente tiene
mayor validez es el A3, y el que menos el A2, aunque aparece como el de mayor
validez empírica. La decisión entonces estará condicionada a cuáles son las
características de ese test, si se puede o no mejorar su fiabilidad.
Validez y longitud
R XY =
rXY
1 − rXX ′
(9.8)
+ rXX ′
k
que es la ecuación que da la validez que podría tener un test al multiplicar por k
veces su longitud, siendo sólo conocidas su fiabilidad y validez iniciales.
El valor máximo que teóricamente puede tomar la validez mediante este pro-
cedimiento es cuando aumentara indefinidamente la longitud (k → ∞), en cuyo
caso el valor de RXY viene dado por la igualdad:
R XY =
rXY
rXX ′
Cuadro 9.2
= =
rXY rXX′ rYY′ rXX′
R XY R XX′ rYY′ R XX′
2
rXY
=
rXX′
=
(
1+ k − 1 rXX′)
( )
R 2XY k rXX′ k
1+ k − 1 rXX′
2
de donde despejando RXY y extrayendo la raíz cuadrada, se obtiene la expre-
sión (9.8).
238 Principios de Psicometría
1 − rXX ′
k= (9.9)
− rXX ′
2
rXY
R 2XY
Ejemplo 9.2
1− 0.82
k= = =4
0.18
0.66 2 0.044
− 0.82
0.71
que indica que habría que multiplicar por 4 la longitud inicial, por lo que habría
que añadir 30 elementos. En la práctica esto sería inapropiado, y habría que des-
cartar ese procedimiento para aumentar la validez. El mayor valor se obtendría
con k = ∞, en cuyo caso el valor de la validez sería R = 0.73.
Ejemplo 9.3
Tabla 9.2. Valores predichos para la validez en tests con diferentes coeficientes
de fiabilidad y diferentes longitudes.
ρ XY ≤ ρ XV
Ejemplo 9.4
ρ XY ≤ ρ XX′ = 0.90
Coeficiente de determinación:
ρ2XY ≤ ρ XX ′
Coeficiente de alienación:
K = 1 − ρ2XY (9.10)
ρ2XY = 0 → σ ε2 = σ 2Y
ρ2XY = 1 → σ ε2 = 0
Cuadro 9.3
[ ] {[ ] [ ]}
siguiente:
σ 2ε = E ( Y − Yˆ ) − E ( Y − Yˆ ) = E Y − E ( Y ) − Yˆ − E ( Yˆ ) =
2 2
[
=E Y−Y ] [ ] [
+ E Yˆ − ( Yˆ ) − 2E ( Y − Y ) ( Yˆ − Yˆ ) ]
2 2
242 Principios de Psicometría
[
E Y−Y ] = σ 2Y
2
[
E Yˆ − ( Yˆ ) ] = ρ2XY
σ 2Y
E ( X − X )2 = ρ2XY σ 2Y
2
σ 2X
[ ] σ
[ σ
]
E ( Y − Y ) ( Yˆ − Yˆ ) = ρ XY Y E ( Y − Y ) ( X − X ) = ρ XY Y Cov ( X, Y )
σX σX
[ ]
E ( Y − Y )( Yˆ − Yˆ ) = ρ2XY σ 2Y
Por lo tanto
E = 1 − K = 1 − 1 − ρ2XY (9.12)
Ejemplo 9.5
σ 2ε
K2 = = 1 − 0.81 = 0.19 ; K = 1− 0.81 = 0.44
σ 2Y
c) El valor predictivo que se estima para ese test (según 9.12) es E = 0.56.
ción de la validez será tanto más precisa cuanto más representativa sea la mues-
tra de aquella población de la que se extrae. Cuanta más heterogeneidad exista
entre los elementos muestrales, mejor representada está la heterogeneidad exis-
tente en esa población. El caso más habitual en los procesos de selección es que
se tengan datos en el test X de un grupo amplio, por ejemplo del grupo de aspi-
rantes, teniéndose los datos en el test criterio Y solamente de un grupo más redu-
cido, el de seleccionados. Por lo tanto, el coeficiente de validez solamente se pue-
de calcular con los datos de ese grupo reducido. También se puede dar el caso en
el que la variable criterio haya sido la que incidentalmente se haya utilizado como
variable directamente selectiva. Se explicita a continuacón cómo variarían for-
malmente los coeficientes de validez en ambos casos:
( )
R XY =
S X rXY
(9.13)
S2X rXY
2
+ 1 − rXY
2
s2X
SY = = s Y 1 − rXY + rXY
2
s Y S X rXY 2 2 SX
(9.14)
s X R XY s2X
R XY = 1 −
(
s2Y 1 − rXY
2
) (9.15)
S2Y
Capítulo 9. Validez: Evaluación 245
Cuadro 9.4
S Y 1− R 2XY = s Y 1− rXY
2
(9.17)
= rXY Y
SY s
R XY (9.18)
SX sX
s2Y
S2Y
(1− r ) = 1− R
2
XY
2
XY (9.19)
S2Y =
2
rXY s2Y S2X
=
(
s2Y 1− rXY
2
)
R 2XY s2X 1− R 2XY
1− R 2XY
s2X
s2Y
246 Principios de Psicometría
se obtiene
Ejemplo 9.6
6 (0.78)
( )
R XY = = 0.88
36 (0.78) + 16 1 − 0.78
2 2
obteniéndose el valor de la validez que se pide que es mayor que el obtenido con
40 participantes, pues se ha aumentado el tamaño y la variabilidad de la muestra.
El cálculo de la varianza de la variable criterio en el grupo amplio se puede
obtener haciendo uso del último miembro de la ecuación (9.14), aunque una vez
Capítulo 9. Validez: Evaluación 247
estimada la validez del grupo amplio, el cálculo puede reducirse utilizando la otra
forma de esa expresión (9.14):
S X s Y rXY (3)(6)(0.78)
4 (0.88)
SY = = = 3.99
s X R XY
Luego 15.89 sería el valor que se espera para la varianza de la variable criterio.
Este tipo de validación indica cuál es la eficacia del test en la predicción de algún
tipo de comportamiento futuro del sujeto en situaciones específicas. Por ejem-
plo, un test de razonamiento abstracto se podría utilizar para predecir el éxito de
los alumnos en la disciplina de matemáticas. Esta predicción será más precisa
cuanto mayor sea la validez de esa prueba de razonamiento con respecto a poder
predecir el rendimiento en matemáticas.
La validez relativa al criterio se juzga por el grado de relación entre el test o
los tests que actúan como predictores y la variable que se va a predecir, o varia-
ble de interés, a la que se llama variable criterio. Si la relación entre predictores y
criterio se supone que es lineal, entonces, los coeficientes de correlación y de regre-
sión lineal pueden ser medidas apropiadas para evaluar esas relaciones.
Y = aX + b (9.20)
σY
Y − Y = ρ XY (X − X)
σX
(9.21)
Y$ g = aX g + b (9.22)
σY σ
a = ρ XY ; b = Y − ρ XY Y X
σX σX
z Y = ρ XY z X (9.24)
Siendo:
x = X − X; y = Y − Y ; zX = x σ X ; zY = y σ Y
Intervalos de confianza
Ejemplo 9.7
X = 26 ; Y = 5 ; S X = 4 ; S Y = 2 ; rXY = 0.72
Y = 0.72
2
4
( )
X − 26 + 5 = 0.36 X − 4.36
Yˆ g = 6.44
( )
z α = 1.96 ; σ ε = 2 1− 0.722 = 1.39 ; I = Yˆ ± z α σ ε = 3.72; 9.16
Y = a + b1 X 1 +…+ bn X n (9.27)
siendo f(Y, X1, X2, …, Xn) la función de probabilidad conjunta y la media con-
( )
dicionada de la variable Y sobre las Xi es:
m y (x 1 , … , x n ) = E Y X 1 = x 1 , … , X n = x n (9.28)
s Y • X1 , …, X n = s Y 1 − ρ2Y • X1 , …, X n (9.29)
donde
C′YX C−XX
ρ$ 2Y • X1 , …, X n =
1
C YX
(9.30)
s2Y
Capítulo 9. Validez: Evaluación 251
Ejemplo 9.8
Los constructos psicológicos se definen desde unos supuestos teóricos en los que
se incluyen sus conexiones con otros constructos, lo que en la literatura se llama
red nomológica. Esto implica que las mediciones en un constructo estén fuertemente
relacionadas con las de unos determinados constructos y débilmente relaciona-
das con las de otros. Podemos dar como ejemplo (Ejemplo 9.9) las evidencias de
validez convergente (Tabla 9.3) que se han encontrado para un cuestionario de
agresividad, estableciendo relaciones entre las puntuaciones en ese cuestionario
con las de otros que miden diferentes aspectos de la agresividad, así como con
254 Principios de Psicometría
Ejemplo 9.9
STAXI
DIAS EXPAGG BIS
E R AE
ciones del constructo con un número elevado de variables criterio. Por ejemplo,
en un estudio sobre perfeccionismo (Hill et al., 2004) se utilizan 23 variables cri-
terio y los autores establecen la validez mediante un análisis lógico de las inter-
correlaciones.
Matrices multirrasgo-multimétodo
Rasgos A1 B1 C1 A2 B2 C2 A3 B3 C3
Método 1 A1 .90
B1 .20 .89
C1 .38 .30 .76
En la Tabla 9.4 se presenta un ejemplo de una matriz completa (con los cua-
tro tipos de correlaciones) en donde se han considerado tres rasgos (construc-
tos) A, B y C (e.g., comprensión, extraversión e inteligencia emocional), eva-
luados por tres métodos. Por simplicidad, se ha denotado con una letra el rasgo,
indicando su subíndice i (i = 1, 2, 3) el método de evaluación. La matriz de corre-
laciones es una matriz de 9 × 9 elementos y simétrica con respecto a la diago-
nal principal, ya que en la correlación lineal entre dos variables se da la simetría
(rXY = rYX). A partir de esa matriz, se puede deducir:
do por diferentes métodos y, en cualquier caso, deben ser mayores que las
heterorrasgo-heterométodo. Éste es el caso de los constructos presenta-
dos en la tabla, en donde, rA1A2 = 0.67, rA1A3 = 0.66 y rA2A3 = 0.67 son
valores moderadamente altos, como también lo son los de las correlacio-
nes monorrasgo-heterométodo para el constructo B (0.77, 0.68, 0.66) y
un poco menores para el C (0.56, 0.55, 0.58). También se observa que
estos valores son mayores que los de las correlaciones heterorrasgo-hete-
rométodo.
c) Las evidencias de validez de la adecuada diferenciación entre los constructos
vienen dadas por la validez discriminante. Esta validez se evidencia cuando
las correlaciones entre las mediciones de los constructos son bajas, aun
cuando esos constructos se evalúen con los mismos métodos. Ejemplos
de esos valores en la Tabla 9.4 son rA1C1 = 0.38, rA3C3 = 0.08, rB2C2 = 0.18,
etc. Estas correlaciones deben ser menores que las obtenidas para el mis-
mo rasgo por diferentes métodos.
d) En el caso en que se encuentre que las correlaciones que miden diferentes
rasgos con el mismo método (heterorrasgo-monométodo) sean sistemáti-
camente mayores que las correlaciones monorrasgo-heterométodo, hay
que pensar en la existencia de sesgos o de errores sistemáticos atribuibles
al método.
Cuadro 9.3
Cuadro 9.4
Las técnicas de AF, por lo tanto, son las que se suelen utilizar en los estudios
de la validez de la estructura interna del test. Por una parte, identificando si el
número de factores es adecuado y que el test proporciona una medida global del
constructo que se estudia. Por otra, se evalúa la validez de las asociaciones entre
los diferentes factores (si los hay), poniéndose de manifiesto mediante el AF cómo
es ese patrón de asociaciones. Por último, en el estudio de la validez de la estruc-
tura interna del test también se debe evaluar la pertenencia o no de un determi-
nado ítem a un determinado factor. Es decir, para establecer la validez se evalúa
en qué grado el ítem que está incluido en un factor está reflejando el aspecto par-
ticular de ese factor en el constructo y no el de otro factor.
Haciendo referencia a un caso concreto, como es el cuestionario AQ que se
describe en el Cuadro 9.6, se puede decir que además de tener la adecuada con-
sistencia interna de las subescalas, ha mostrado tener una buena validez de su
estructura interna, como comprobó en primer lugar Harris (1997) y además se
ha probado que es un instrumento útil para estudiar perfiles agresivos, así como
en la predicción de conductas violentas. Otros autores han corroborado la vali-
dez de su estructura y su estabilidad en estudios transculturales. En la Figura 9.1
se da el patrón de asociaciones, tanto entre ítems como entre factores, obtenido
Capítulo 9. Validez: Evaluación 263
similitud para los parámetros, usando el programa AMOS 5.0. Hay que señalar
que el investigador debe elegir adecuadamente el método para la estimación de
los parámetros y posteriormente hacer comprobaciones sobre la bondad de ese
ajuste a través de los índices pertinentes. Los índices más usuales en estos casos
son los que se denotan con las siglas, GFI (Goodness of Fit Index), AGFI (Adjus-
ted Goodness of Fit Index) y RMSEA (Root Mean-Square Error of Approxi-
mation) que el lector interesado puede encontrar en la literatura especializada (e.g.,
Lawley y Maxwell, 1971; Mulaik, 1972; Gorsuch, 1983; Bryant y Yarnold, 1995;
Thompson, 2004). Entre los programas de software, se pueden usar los más gene-
rales como SPSS y SAS, u otros más específicos para estos propósitos entre los
que actualmente están EQS, AMOS y LISREL, siendo este último muy comple-
to y de uso generalizado.
Puntos clave
3 Cada tipo de validez suele tener su propio método de evaluación. Las eviden-
cias de la validez de contenido usualmente no se apoyan en índices, pero exis-
te una sistemática para ponerlas de manifiesto.
3 Los coeficientes de validez se definen en términos de correlaciones y están aco-
tados, tomando valores en el intervalo cerrado [0,1].
3 La fiabilidad de los tests influye directamente en su validez, que se ve atenuada
por los errores de medida.
3 La validez, al igual que la fiabilidad, varía con la longitud del test. La atenuación
y las modificaciones en la validez debidas a esas variaciones se pueden estu-
diar haciendo uso de la ecuación de Spearman-Brown.
3 La validez aumenta con la varianza de los valores muestrales.
3 La validez de los tests para predecir un criterio se evalúa por la calidad (exacti-
tud) de las predicciones basadas en la información que aportan esos tests (varia-
bles predictoras).
3 La contribución de cada una de las variables predictoras al criterio se evalúa por
la cuantía en la que su varianza contribuye a la varianza total.
3 Las relaciones entre variables predictoras y criterio se establecen mediante regre-
sión lineal, simple o múltiple, regresando la variable criterio sobre las predicto-
ras.
3 Si las variables predictoras no están prefijadas de antemano, sino que hay que
elegir un subconjunto entre las disponibles, se utilizan técnicas como la regre-
Capítulo 9. Validez: Evaluación 265
Actividades
r En el Ejemplo 9.1 el test con mayor validez empírica muestra la menor vali-
dez desatenuada. ¿Cómo se puede explicar esta aparente contradicción?
r En ese mismo Ejemplo 9.1, ¿se debe aceptar el test A3 como predictor sin
hacer más consideraciones? Obsérvese la cuantía de su fiabilidad.
r Las variaciones teóricas de la validez cuando se aumenta o se disminuye la
longitud se pueden representar gráficamente. Hágase la representación de
esas variaciones con los datos de la Tabla 9.2. Se recomienda expresar la
validez (en ordenadas) en función de k (en abscisas).
266 Principios de Psicometría
Las relaciones entre el test predictor y el criterio se utilizan a menudo para hacer cla-
sificaciones y tomar decisiones. Por ejemplo, una determinada universidad tiene esta-
268 Principios de Psicometría
blecido que se admitirá a un estudiante sólo si supera el valor de corte. Esto quiere decir
que el criterio de admisión está dicotomizado. Situaciones similares son, por ejem-
plo, ser o no seleccionado para un puesto de trabajo, o si se posee o no un rasgo en
cierto grado, o cuando se toman decisiones de si un paciente presenta o no una deter-
minada patología (admitido versus no admitido, éxito versus fracaso, patológico versus
no patológico, etc.). Lo que se está suponiendo es que se establecen dos categorías
y un valor de corte, de manera que aquellos que obtengan ese valor de corte o supe-
rior, se clasifican en una de las categorías y el resto en la otra. Si se utiliza un test (o
una batería de tests cuya puntuación total sea X) para hacer esas clasificaciones en
relación con un criterio, ese test será tanto mejor como predictor, cuanto mayor sea
el número de sujetos que se clasifiquen correctamente. Para N predicciones los resul-
tados se pueden presentar en una tabla de contingencia 2 × 2, como en la 10.1.
Resultado predicho
mediante el test
Total
éxito fracaso
En las predicciones del test, como se observa en la Tabla 10.1, se pueden dis-
tinguir dos tipos de aciertos, en cuanto a que son coincidentes con las observacio-
nes o situación real (criterio). Los aciertos son los casos “a” en los que se predice
correctamente que habrá éxito, a los que se denomina verdaderos positivos y también
los casos “d” en los que se predice correctamente que no habrá éxito, o sea, que
habrá fracaso y se los denomina verdaderos negativos. Por lo tanto, el número total de
predicciones que coinciden con el criterio es a + d, siendo c + b el número de las
que no coinciden. Es decir, a + d es el número de casos correctamente predichos
por el test, siendo c + b el número de errores que se han cometido en la predicción
de N casos. Como N variará de una ocasión a otra, parece razonable que se den
valores relativos de esas cantidades, a las que se denomina tasas.
Capítulo 10. Validez: Clasificación y diagnóstico 269
Ejemplo 10.1
Resultado predicho
mediante el test
Total
Agresivo No agresivo
Hay un total de 170 aciertos (los 100 casos positivos y los 70 negativos)
entre los 200 observados. Por lo tanto, la tasa de aciertos es del 85%, que pare-
ce relativamente alta. Entonces la siguiente pregunta a la que habría que res-
ponder es ¿se puede admitir en la práctica que ese test es un buen predictor?
Otra forma de enfocar este tema es abordarlo como el análisis de las medidas
de asociación entre dos variables, la del test predictor y la del criterio (Santiste-
ban, 1999). Los análisis son similares aunque con una perspectiva a veces ligera-
mente distinta en el significado de los datos (e.g., diagnóstico positivo o negativo
frente a presencia o ausencia de factor de riesgo), que está ampliamente tratada
en epidemiología y ciencias de la salud, en especial en el diagnóstico clínico.
Sensibilidad y especificidad
Sensibilidad =
a
a+b
(10.1)
Especificidad =
d
c+d
(10.2)
a +d
Eficacia =
a +b+c+d
(10.3)
Ejemplo 10.2
Supóngase que un test dirigido a detectar la presencia o no de una deter-
minada patología se administra a 100 personas y que se obtienen los resulta-
dos que se dan en la Tabla 10.3. Las categorías se han etiquetado como Sí y
No, indicando la presencia o ausencia de la patología.
272 Principios de Psicometría
Resultado predicho
mediante el test
Total
Sí No
Sí 8 2 10
Situación real
No 12 78 90
Total 20 80 100
El número total de casos con patología son 10 y sin patología son 90, pudién-
dose observar que:
a+d
Eficacia = = = 0.86
86
a + b + c + d 100
= = 0.40
a 8
a + c 20
Valor predictivo para casos positivos:
= = 0.975
d 78
b + d 80
Valor predictivo para casos negativos:
Capítulo 10. Validez: Clasificación y diagnóstico 273
Curvas ROC
BESD
El BESD (de sus siglas en inglés, Binomial Effect Size Display) está diseñado para
ilustrar cuáles son las consecuencias que en la práctica puede tener tomar deci-
siones basadas en el coeficiente de validez. Ha sido descrito (Rosenthal y Rubin,
1979, 1982; Rosenthal, 1990; Rosenthal y Rosnow, 2008) como un método de
fácil comprensión y con el que, utilizando cálculos muy simples, se puede poner
de manifiesto el tamaño del efecto de una variable independiente sobre la tasa
de éxito, o de mejora en la variable criterio. Este efecto se expresa como un cam-
bio desde un porcentaje (0.50 – ρ / 2) a otro porcentaje (0.50 + ρ / 2), donde
Capítulo 10. Validez: Clasificación y diagnóstico 277
φ=
(a d) − (bc)
(a + b) (a + c) (c + d) (b + d)
(10.6)
Ejecución en la tarea
Puntuación
Total
en el test
Buena Pobre
Alta 50 50 100
Baja 50 50 100
Total 100 100 200
278 Principios de Psicometría
Condiciones:
Fracaso Éxito Total
Puntuación en el test
Las principales limitaciones del BESD provienen de que los grupos con pun-
tuaciones altas y bajas (o grupos tratamiento y control cuando se trate de tests clí-
nicos) deben ser de igual tamaño. Además, tampoco parece que se ajuste a la rea-
lidad considerar que la tasa de éxito sea del 50%, o sea, suponer que la mitad de
la muestra tendrá éxito en el criterio y la otra mitad no. Por ello, aunque es un pro-
cedimiento muy intuitivo, algunos autores han criticado su uso (Hsu, 2004). No
obstante, este método se utiliza en el cálculo del tamaño del efecto y es útil si no
se violan sus supuestos. Presentaremos un ejemplo para ilustrar cómo este méto-
do puede ser útil, siendo importante la información que aportan incluso coefi-
cientes de validez relativamente bajos.
Ejemplo 10.3
Ejecución en la tarea
Puntuación
Total
en el test
Buena Pobre
Alta 80 20 100
Baja 20 80 100
Total 100 100 200
Tablas de Taylor-Russell
En los párrafos anteriores se ha visto que, para aceptar que un test es válido para
la toma de decisiones en relación con un criterio dicotomizado, hay que evaluar
la tasa de aciertos que se obtiene con ese test en relación con la tasa base, si se
dispone de ella y que en muchos casos el coeficiente de validez de una prueba no
es suficiente para tomar decisiones en relación con un criterio. Para ilustrarlo,
situémonos en un caso de toma de decisiones en un proceso de selección de per-
sonal. En este contexto, quien tiene que tomar las decisiones, no solamente ten-
drá en cuenta el valor predictivo del test y su coeficiente de validez, sino también
el porcentaje de solicitantes que puede admitir y las evidencias obtenidas median-
te la aplicación de otras pruebas (por otros analistas o por él mismo), o por su
propia experiencia desempeñando el cargo. Un método que aúna estas informa-
280 Principios de Psicometría
ciones lo proporcionan las tablas de Taylor-Russell (1939), que son tan útiles como
sencillas de manejar y que han sido un antecedente de estudios posteriores reali-
zados desde el punto de vista de la teoría de la decisión. Estas tablas permiten
conocer la ganancia neta en la selección que es atribuible al test, teniendo en cuen-
ta la tasa base y la razón de selección. Los valores que aparecen en estas tablas
indican la proporción de personas que tendrán éxito, si para la predicción se hace
uso de las pruebas.
En esas tablas se consideran distintos aspectos, cuya información hay que
tener disponible para usarlas. Hay que conocer:
– El coeficiente de validez.
– La razón de selección, que es la proporción de solicitantes que se debe acep-
tar o que se van a contratar, etc.
– La tasa base, que es la proporción de éxitos de la que se tiene conocimien-
to, habiéndose obtenido esa información por medios diferentes al uso de
ese test.
Al depender las proporciones estimadas de éxitos que dan las tablas de estos
tres indicadores, cualquier cambio en alguno de ellos alterará la eficacia con la que
se hacen esos pronósticos.
Las tablas de Taylor-Russell son de doble entrada y hay una tabla para cada
tasa base que se considera. Las entradas de cada una de estas tablas son, por un
lado, diferentes razones de selección (0.05, 0.10, 0.20, 0.30, 0.40, 0.50, 0.60, 0.70,
0.80, 0.90, 0.95) y por la otra 21 valores diferentes de validez, dados de cinco en
cinco centésimas y ordenados en orden creciente, desde el valor del coeficiente
ρ = 0.00 hasta el valor 1.00. En el cuerpo de la tabla, para una determinada tasa
base, se da la proporción de personas seleccionadas que se considera que tendrán
éxito, de acuerdo con esos pares de valores de entrada (el coeficiente de validez
de la prueba y la razón de selección).
La mejor forma de comprender su sentido y utilidad es haciendo uso de algu-
na de esas tablas. Por ello, con el fin de poder ilustrar tanto los datos de sus con-
tenidos como su significado e interpretación, en la Tabla 10.7 se da una versión
simplificada de una de esas tablas. En la práctica se debe tener disponible no una
sola, sino todas las tablas. Un conjunto completo de ellas se pueden encontrar en
otras fuentes, además de las tablas originales, que se dan y se discuten en el artícu-
lo publicado por los autores (Taylor-Russell, 1939).
Capítulo 10. Validez: Clasificación y diagnóstico 281
Tabla 10.7. Valores de la proporción de éxitos esperados para algunos valores de la razón
de selección y del coeficiente de validez de la prueba, en el caso particular
de que sea 0.60 la tasa base.
Razón de selección
Validez
0.05 0.10 0.30 0.50 0.70 0.90 0.95
Cuadro 10.1
Ejemplo 10.4
Supóngase que con una tasa base de 0.60 y con un test cuya validez es de
0.40 se han contratado 120 personas de un grupo de 400 aspirantes. ¿Cuán-
tos de esos contratados se espera que rindan bien en su trabajo?
En este caso, la razón de selección ha sido 120/400 = 0.30, y haciendo uso
de la Tabla 10.7 se observa un valor de probabilidad de 0.78. Luego se espera
que el 78% de los 120 contratados rinda bien en el trabajo, es decir, un núme-
ro aproximado de 94 de ellos.
Ejemplo 10.5
Ejemplo 10.6
tratar al 95% de los aspirantes, se puede esperar que un 37% de ellos no den buen
rendimiento, aun cuando utilice para la selección un test con validez unidad. Sin
embargo, si sólo contratara al 10%, es de esperar que el 100% de ellos diera un
buen rendimiento, aun cuando la validez del test fuese algo inferior, por ejem-
plo, 0.90. Más aún, si con esa razón de selección quien tiene que tomar las deci-
siones usa un test cuya validez fuese mucho menor, por ejemplo sólo 0.40, toda-
vía podría pronosticar un 85% en el porcentaje de éxitos. Las tablas de
Taylor-Russell se pueden aplicar a multitud de situaciones en las que el criterio
esté dicotomizado y se fije la razón de selección.
Ejemplo 10.7
Cuadro 10.2
fc − fe
κ=
N − fe
(10.7)
286 Principios de Psicometría
Ejemplo 10.8
Director de personal
Totales
A B C
A 15 8 10 33
Empresario B 10 25 10 45
C 16 12 14 42
Totales 41 45 34 120
fAA =
(33)(41) = 11; fBB =
(45)(45) = 17 ; fCC =
(34)(42) = 12
120 120 120
54 − 40
κ= = 0.17
120 − 40
se obtiene un valor del coeficiente κ que indica que la concordancia entre ambos
jueces es muy débil, aunque para ser rigurosos se debería contrastar estadís-
ticamente si ese valor es significativamente diferente de cero.
evaluar el grado de acuerdo entre jueces u observadores. Los resultados del Ejem-
plo 10.8 pueden ser un buen argumento para valorar la utilidad de administrar
pruebas específicas que ayudarán a esos empresarios en su toma de decisiones.
La utilidad también se puede evaluar en relación con las decisiones derivadas
de las tablas de Taylor-Russell, como propusieron los propios autores. La cues-
tión clave aquí es cuál es la mejor estrategia para aumentar la utilidad, ya que la
tasa de éxitos se puede incrementar aumentando el coeficiente de validez, aumen-
tando la tasa base y/o disminuyendo la razón de selección.
El estudio de la utilidad lo hacen expertos, basándose en un modelo de utilidad
y asignando valores monetarios a diferentes aspectos del proceso de toma de deci-
siones. Se estima, por una parte, el beneficio económico que conlleva tomar deci-
siones utilizando el test frente a no utilizarlo, pues el uso del test puede aumentar el
porcentaje de éxito entre los seleccionados. Por otra parte, se valora el coste añadi-
do que conlleva utilizar tests en el proceso. Es decir, el coste en términos moneta-
rios de su adquisición, administración, la valoración e interpretación de las puntua-
ciones, etc., para lo que se requiere también contratar personal especializado en esas
tareas, así como los costes en tiempo que lleva la realización de todo ese proceso.
Desde una perspectiva economicista, el empleador puede valorar la relación
coste-beneficio al utilizar unos u otros procedimientos en la toma de decisiones
y asumir o no los posibles riesgos de contratar un número mayor o menor de per-
sonas no idóneas para el puesto de trabajo.
Para el aspirante, los costes de la no distinción entre errores (falsos positivos
y falsos negativos), como sucede por ejemplo con el uso de las tablas de Taylor-
Russell, pueden ser muy elevados, pues puede verse rechazado para cursar estu-
dios en una universidad o para un puesto de trabajo, aun teniendo las condicio-
nes necesarias para acceder a ello.
En la teoría de la utilidad se pueden proponer diferentes estrategias. Una muy
U = ∑ pi u i
n
(10.8)
i=1
Ejemplo 10.9
Obsérvese que para quienes toman la decisión los errores son distinguibles y
no se les asigna el mismo peso, considerando en este caso mayor el de los falsos
positivos que el de los falsos negativos, pero en otros supuestos podría ser al con-
trario, que fuese mucho más grave (mayor pérdida) rechazar a un idóneo (o diag-
nosticar como negativo a uno que sea positivo), que admitir a uno que no lo sea.
Las estrategias para calcular la utilidad esperada dependen de los objetivos, de
las posibilidades y de las condiciones concretas en las que se lleva a cabo la selec-
ción en cada caso. Por ejemplo, una estrategia de clasificación previa en tres cate-
gorías similar a la del Ejemplo 10.8, pero basándose en las puntuaciones de los aspi-
rantes en pruebas específicas, requeriría que se actuara en dos fases y la aplicación
de al menos dos tests. Aquí se trataría de aplicar una prueba y fijar los puntos de
Capítulo 10. Validez: Clasificación y diagnóstico 289
corte con mucha rigurosidad. Decidir sobre aquellos que obtengan las puntuacio-
nes extremas, aceptándolos en un caso y rechazándolos en el otro. A todos aque-
llos que estaban dudosos, se les aplica una nueva prueba, se fijan los valores de cor-
te y se aceptan o rechazan de acuerdo con las puntuaciones en esa nueva prueba.
Esta forma secuencial de actuar puede estructurarse en dos o más pasos y suele ser
una estrategia común en la evaluación del rendimiento escolar y en empleos en los
que antes de la contratación se exige un tiempo de prueba o de aprendizaje.
Las estrategias en el planteamiento y los procedimientos para el cálculo de la
utilidad usando tests se basan en la teoría de la utilidad propuesta por Von Neu-
mann y Morgenstern (1944) cuyo cuerpo teórico e implicaciones prácticas en el
caso de la toma de decisiones bajo riesgo constituyen por sí solas una disciplina
(para ver la axiomática y su tratamiento consúltense Von Neumann y Morgens-
tern, 1944; Luce y Raiffa, 1957; Fishburn, 1964, 1970). El breve apunte que se da
en este texto cumple dos objetivos, por un lado, dar a conocer una vertiente impor-
tante en las aplicaciones y por otro, poner una vez más de manifiesto que en la
toma de decisiones, aun haciendo uso de los tests psicométricos, no es sólo el
coeficiente de validez del test lo que se tiene en cuenta. De hecho, se pueden
encontrar en la literatura numerosos tratados (e.g., Cronbach y Gleser, 1965; Wig-
gins, 1988; Vance y Colella, 1990) sobre las implicaciones que tiene el uso de las
pruebas psicométricas en la toma de decisiones.
Los valores de la utilidad esperada no dan por sí mismos mayor información
si no se los compara con algún valor de referencia. Usualmente se usan para com-
parar diversos métodos o estrategias. El método de selección o el procedimiento
que produzca la mayor utilidad esperada es el que se considera el mejor.
Ejemplo 10.10
Puntos clave
Actividades
r Con los datos de la Tabla 10.2, calcule las diferentes tasas y comente si ese
test se puede considerar un buen predictor de la agresividad.
r Considerando algunas situaciones de la vida real, discuta la diferencia entre
tipos de errores y la importancia de sus consecuencias.
r En los casos que antes ha considerado ¿qué papel juega el test predictor y
su validez?
r Haga un supuesto donde considere que es útil aplicar el método BESD y
discuta los resultados. ¿Son diferentes esos resultados si utiliza un test de
validez conocida o el coeficiente φ construido a partir de los datos?
r Genere unos datos y construya curvas ROC para diferentes puntos de cor-
te con ayuda del programa SPSS. Discuta los resultados.
r ¿Qué sucedería en el caso anterior si se fuese muy conservador en cuanto
a la prevención de falsos negativos?
r Del artículo How are we doing in soft psychology? (Rosenthal, 1990) coménte-
se, desde el punto de vista de la validez en las predicciones, los datos que
se dan acerca del efecto de un medicamento en enfermos de SIDA.
r Plantee una discusión sobre dos supuestos, uno en el que las tablas de
Taylor-Rusell resulten muy útiles para emitir un pronóstico y otro en el
que no lo sean.
r Escriba una breve reflexión sobre la información que proporcionan las
tablas de Taylor-Rusell en cuanto a la ganancia neta que en la selección
es atribuible al test, teniendo en cuenta la tasa base y la razón de selec-
ción.
r En la literatura se usan los cuadrantes de Taylor-Rusell para discutir los
efectos de las variaciones en la validez (no se dan en este texto). Esta acti-
vidad consiste en su búsqueda y lectura antes de realizar las tres activida-
des que siguen.
r La admisión en unos determinados estudios de una universidad se realiza
con un test. Imagine (genérelos) que tiene los datos de 200 aspirantes. Haga
un gráfico representando en abscisas las puntuaciones en el test (positivas
y negativas) y en ordenadas las del criterio (positivas y negativas). Fije aho-
ra un valor de correlación (validez) entre ambas variables, marque diferen-
292 Principios de Psicometría
tes puntos (pares x, y) del plano y delimite el área. Estudie ahora las varia-
ciones de esa área (elipse) con variaciones en el coeficiente de validez.
r En relación con el ejercicio anterior, a medida que crece el coeficiente de
validez, ¿la elipse es más ancha o más estrecha?
r Compare sus experiencias en los dos ejercicios anteriores con los diagra-
mas que en la literatura suelen acompañar a las explicaciones de las tablas
de Taylor-Rusell (los cuadrantes de Taylor-Rusell).
r Discuta por qué un test dirigido a la selección de personal puede no ser
útil, aun cuando tenga una validez muy alta, pudiendo sin embargo serlo
otro con menor coeficiente de validez.
r Comente el artículo “La utilidad del análisis de la utilidad” mencionado en
este texto (Vance y Colella, 1990).
r Usando los datos de la Tabla 10.6 (resultados obtenidos usando el méto-
do BESD), calcule y comente los valores de la utilidad esperada haciendo
distintos supuestos sobre los costes de una mala clasificación.
Teoría de la respuesta al ítem
Aspectos generales 11
En capítulos anteriores se ha tratado la teoría de los tests desde la pers-
pectiva de la TCT. La teoría de la respuesta al ítem (TRI) es otro enfo-
que en la teoría de los tests que supera algunas limitaciones y resuelve
algunos problemas de medición que no se pueden abordar desde la TCT.
El núcleo de la TRI es que la probabilidad de dar una respuesta correc-
ta a un ítem depende de la aptitud individual para resolver ese ítem y
de las características psicométricas de ese ítem, pudiéndose estimar el
nivel de aptitud del sujeto a partir de su respuesta al ítem. Ésta es una
diferencia esencial con la TCT, en la que las inferencias de los niveles
individuales en el rasgo siempre hay que hacerlas con referencia al deno-
minado grupo normativo. Los modelos de la TRI son modelos no linea-
les que adoptan varias formas que permiten su aplicabilidad a distintos
tipos de tests. Estos modelos permiten conocer cómo se comporta de
forma individualizada cada uno de los ítems de un test, en lo que se
diferencian también de los de la TCT, que sólo permiten estudiar el
comportamiento del test completo o de determinados subconjuntos de
ítems.
En este capítulo se va a tratar:
la publicación del libro Statistical theories of mental test scores (Lord y Novick, 1968),
en el que el tratamiento de los temas dedicados a la TRI corre a cargo de Birn-
baum, quien hace una excelente contribución, tanto en la forma como en el con-
tenido. No obstante, la TRI no se comienza a extender en diversos ámbitos has-
ta más de diez años después de esta publicación. La razón por la que esta teoría
tuvo escaso eco en su proyección hacia las aplicaciones en las décadas de los años
cincuenta y sesenta del siglo XX es la de su complejidad matemática, que conlle-
va la exigencia de métodos de cálculo y de análisis que no se han podido abordar
en intensidad hasta que ha ido creciendo la capacidad computacional de los orde-
nadores. A partir de entonces se han ido generando programas específicos y actual-
mente se dispone de una gran variedad de paquetes de software tales como BICAL,
BILOG, ConQUEST, LOGIST, MSPWIN, MULTILOG, PARSCALE y
XCALIBRA. Paralelamente han proliferado los trabajos científicos abordando
distintos aspectos, muy especialmente en la búsqueda de métodos que propor-
cionen la mayor precisión en la estimación de los parámetros y métodos de ajus-
te para distintos modelos, así como la divulgación de sus aplicaciones a distintas
áreas del ámbito psicológico y educativo. Mucha es por lo tanto la literatura cien-
tífica que actualmente rodea a este tema, tanto desde la perspectiva teórica como
desde las aplicaciones, de las que ya Lord (1980) daba una relación, no exhausti-
va, pero sí bastante completa, de la que citamos:
La TRI se fundamenta en que las respuestas de los sujetos a los ítems dependen
del nivel individual en el rasgo θ, de la dificultad del ítem, y que de la respuesta al
ítem se puede inferir el nivel de aptitud del sujeto en el rasgo que se pone en jue-
go al responder a ese ítem. Se han propuesto distintos tipos de modelos no linea-
les que permiten describir las relaciones entre los rasgos y las respuestas que se
dan a los ítems, en términos probabilísticos. Los modelos básicos que se han cla-
sificado como modelos TRI son los modelos ojiva normal, los logísticos y el mode-
lo de Rasch. Todos ellos tienen en común:
los supuestos que se hayan hecho sobre la dimensionalidad. Lo más usual es que
se comprueben los de unidimensionalidad, con el fin de conocer en qué grado
influye en los resultados la violación de esos supuestos. Por lo tanto, la compro-
bación de la unidimensionalidad ha sido un tema muy estudiado y se han pro-
puesto numerosos índices para dar cuenta de ella. El análisis factorial explorato-
rio es la técnica más utilizada, pues proporciona información sobre el porcentaje
de la varianza total que se puede explicar por uno solo de los factores. Un solo
factor difícilmente puede explicar toda la varianza, pero se puede comprobar si
lo hace en un porcentaje suficiente para considerar la unidimensionalidad, sobre
todo si el resto de la varianza se distribuye entre varios factores, sin que ninguno
de ellos detente un valor significativo. Ésta es una decisión en cierto modo sub-
jetiva y se necesitan análisis rigurosos al respecto. Una solución entre las muchas
que se han propuesto consiste en comparar la varianza del primer factor con la
del segundo en importancia (Lumsden, 1961). Otra solución es hacer esa com-
paración, pero en lugar de calcular el cociente entre las componentes de la varian-
za, utilizar las raíces latentes obtenidas de la matriz de correlaciones tetracóricas
entre los ítems (Lord, 1980). A efectos prácticos conviene saber que para com-
probar la robustez de los modelos TRI ante las violaciones de los supuestos de
unidimensionalidad se han realizado múltiples estudios experimentales y de simu-
lación, comprobándose que estos modelos son bastante robustos, es decir, que
las soluciones son bastante estables no sólo cuando no se cumplan estrictamen-
te esos supuestos, sino ante desviaciones moderadas.
Independencia local
demuestra que las variables X1, X2, …, Xn con función de probabilidad conjun-
ta f(X1, X2, …, Xn ) son mutuamente independientes, si y sólo si:
f (X 1 , X 2 , …, X n ) = f1 (X 1 ) f2 (X 2 ) … fn (X )
( )
f X 1 , X 2 , …, X n θ = ∏ f j X j θ ( )
n
(11.1)
j= 1
h 1 ( X 1 θ ; X 2 , …, X n ) = f1( X 1 θ) (11.2)
∏ f j( X j θ)
n
f ( X 1 , X 2 , …, X n θ) j=1
= = f1( X 1 θ)
f ( X 2 , …, X n θ)
∏ f j( X j θ)
n
(11.3)
j=2
Ítems binarios
Para ítems binarios, en que se asigna el valor cero en el caso en que la respuesta
haya sido incorrecta y el valor uno si la respuesta es correcta, la hipótesis de inde-
pendencia local para ítems g se traduce en que:
302 Principios de Psicometría
n
P( U 1 = u1 , …, U n = u n !) = ∏ P( U g = u g !) (11.4)
g=1
(
Pg = Pg (!) = Prob U g = 1 ! )
A esta función se la suele llamar función característica del ítem binario.
Las probabilidades teóricas en los distintos casos de respuesta a un solo ítem
binario, a un conjunto de ítems, o en la población son:
b) Para
un vector de respuesta: La probabilidad de un vector de respuesta
V = ( U1 , … , U n )% para un ! dado, se obtiene mediante la expresión:
n
( ) u 1−u
P V ! = ∏ Pg g Q g g (11.6)
g=1
Ejemplo 11.1
de acierto a cada uno de esos ítems para un nivel moderado de θ, sea θ = θ2,
son respectivamente:
( ) ( ) ( ) (
P U1 = 1 θ2 = 0.9 ; P U2 = 1 θ2 = 0.8 ; P U3 = 1 θ2 = P U4 = 1 θ2 = 0.7 ; )
P (U 5 = 1 θ ) = P (U = 1 θ ) = 0.6 ; P (U = 1 θ ) = 0.5
2 6 2 7 2
( ) ( )( )( )( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 P5 Q6 Q7 = 0.9 0.8 0.7 0.3 0.6 0.4 0.5 = 0.018
( ) ( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 = 0.9 0.8 0.7 0.3 = 0.151
Cuadro 11.1
( )
f X θ = ∑ ∏Pg g ⋅ Qg
1−ug
n
u
∑up = x g=1
∫ Ω g (θ) ∏Pg g ⋅ Qg
r r 1−ug r
P(V ) = dθ
n
u
g=1
Ejemplo 11.2
Ejemplo 11.3
Se denomina curva característica del ítem (CCI) a la curva que representa la relación
funcional entre el rasgo (la variable θ) y la probabilidad P(θ) de acertar ese ítem.
La función P(θ) a la que representa la CCI es una función creciente de θ, es decir,
la probabilidad de acierto aumenta a medida que van aumentando los valores de θ.
Generalmente la gráfica de una CCI se obtiene representando en abscisas los
valores de θ (se está suponiendo que θ es una variable continua y unidimensio-
nal), que en principio pueden ser valores cualesquiera sobre la recta real (–∞, +∞)
y en ordenadas los valores de P(θ), que al ser una probabilidad, toma sus valores
en el intervalo cerrado [0, 1]. Las CCI, que a veces también reciben la denomi-
nación de funciones de respuesta al ítem, o a los ítems, suelen presentar una for-
ma similar a la función que se representa en la Figura 11.1.
puesta correcta a un ítem no depende de que haya mayor o menor número de suje-
tos que estén situados en un mismo nivel del rasgo. Esta propiedad de la invarianza
de las CCI y, en consecuencia, de los parámetros que las describen, es uno de los
principales atractivos de estos modelos. En la TRI todos los ítems presentan una
determinada CCI, que es la que liga las características de ese ítem con el rasgo θ
que se intenta evaluar. La forma de la función matemática que representa la CCI
es lo que suele distinguir a unos modelos de otros.
La forma de toda CCI dependerá por lo tanto del tipo de función y de los pará-
metros que incluya esa función, que son los parámetros que caracterizan al ítem.
En casi todos los modelos suelen estar presentes dos de esos parámetros, el que
representa la dificultad (cuyo índice se va a denotar por “b”, que lo incluyen todos
los modelos) y el que da cuenta del poder discriminante (cuyo índice se va a deno-
tar “a”). El parámetro b tiene relación directa con la probabilidad de acertar el ítem,
de forma que para cualquier nivel del rasgo, siempre serán menores las probabilida-
des de acertar un ítem más difícil que uno más fácil. Por lo tanto, la dificultad se
expresa por la posición de la CCI sobre el continuo del rasgo. El parámetro a indi-
ca el poder de discriminación que tiene ese ítem, es decir, cuánto se diferencian las
probabilidades de acertar ese ítem en diferentes niveles de ese rasgo y en una curva,
como la dada en la Figura 11.1, se identifica por su pendiente cuando θ = b.
En los siguientes capítulos se darán detalles sobre los parámetros y se cons-
truirán las CCI de los modelos que se puede considerar que son los más básicos
y usuales. En general, todas las CCI son monótonas no decrecientes y presentan
variedad de formas. La estimación de sus parámetros y la evaluación de la bon-
dad del ajuste del modelo a los datos observados son las tareas que han de abor-
darse para estimar la aptitud, que es el objetivo que se persigue.
La TRI trata el problema de la relación matemática entre los niveles que se poseen
en un determinado rasgo y las respuestas a un determinado ítem (o a un conjun-
to de ellos), que se da mediante una función probabilística P(θ). Sin embargo, la
variable θ no es directamente medible, por lo que también es un parámetro del
modelo que habrá que estimar. La teoría de la regresión ayuda en muchos casos
a realizar esta estimación y se utilizan curvas de regresión para obtener informa-
ción acerca de las funciones de respuesta a los ítems o a los tests. La CCI se pue-
308 Principios de Psicometría
de definir como la curva que une las medias de la puntuación del ítem, condicio-
nadas a los valores de la variable θ. O sea, se puede definir como la curva de regre-
sión ítemθ. La curva característica del test (CCT) es la regresión de las puntua-
ciones globales en el test sobre la variable θ.
Al administrar un test a un conjunto de sujetos, se obtendrá una doble pun-
tuación para cada uno de ellos, su puntuación en cada ítem particular, y su pun-
tuación global en el test. En ese caso, se puede obtener la regresión ítemtest,
regresando las puntuaciones en el ítem sobre las puntuaciones globales en el test.
Si la respuesta es dicotómica (acierto versus error) la línea de regresión ítemtest
también se puede establecer en función de la proporción de respuestas correctas.
Todo esto ha llevado a que a veces se confunda la regresión ítemrasgo que es la
CCI, con la regresión ítemtest, que en principio no es una CCI, aunque en muchos
casos se confundan al utilizar los valores en el test como estimaciones suficien-
tes de los niveles del rasgo.
Para ilustrar la regresión ítemtest, considérese un test que estuviese com-
puesto por un número suficiente de ítems homogéneos y que el espacio latente
completo es unidimensional. En ese caso, se puede representar la proporción de
sujetos que, dando respuesta correcta al ítem, obtienen en el test 1, 2, …, n pun-
tos, como muestra el ejemplo de la Figura 11.2.
Figura 11.2. Curva de regresión ítemtest para una prueba de fluidez verbal
que resuelven 250 sujetos.
Capítulo 11. TRI: Aspectos generales 309
Cuadro 11.2
n n
X = E ∑ ui X = ∑ µi X
i=1 i=1
∑ µi X = nµi X = X; µi X =
n
X
i=1 n
Vj = ∑ Pi ( θj )
n
i=1
siendo la curva característica del test la que representa a esa función en todo el
rango de θ.
Son muchas las similitudes, así como las diferencias, entre la puntuación ver-
dadera y la aptitud. Una diferencia importante es que la puntuación verdadera está
definida en el intervalo [0, n], en tanto que la aptitud teóricamente puede tomar
valores desde –∞ a +∞. Además, la puntuación verdadera está definida para un
test particular, y variará con medidas no paralelas de la misma aptitud.
Se puede decir que en la TRI, al igual que en la TCT, el valor esperado de la
puntuación observada es la puntuación verdadera, pero generalmente en la TRI
la puntuación verdadera no es una función lineal del rasgo, así que, el valor espe-
rado de la puntuación observada, no es igual al valor del rasgo θ, aunque los mode-
los TRI especifican las relaciones entre el rendimiento del sujeto en un ítem y la
aptitud, de manera que siempre es posible transformar ese rendimiento en un
valor de la escala de aptitud. En otras palabras, la puntuación verdadera V y la
aptitud θ son la misma cosa expresada sobre diferentes escalas de medición. La
diferencia más importante es que la escala de medida para V depende de los ele-
mentos del test, en tanto que la escala θ es independiente de los elementos del
test (Lord, 1980, pág. 46).
El lector puede preguntarse cómo se pone en relación el rendimiento del suje-
to en el ítem y la aptitud, o sea, cómo se establece la escala de θ. Evidentemente
el establecimiento de la escala se lleva a cabo utilizando las respuestas que los suje-
tos dan a los ítems, que a su vez dependen de las características del modelo (dimen-
sionalidad, forma funcional, etc.) y de las del ítem (dificultad, discriminación, etc.).
El paso intermedio entre las puntuaciones observadas y la construcción de la esca-
la se realiza mediante los procesos de estimación de los parámetros y de ajuste del
modelo, considerando que además de los parámetros de los ítems, también θ es
un parámetro que hay que estimar a partir de los datos. La métrica de las escalas
de aptitud se elige de modo que las CCI tengan una forma matemática especifica-
da y de que, sobre los datos aportados por los sujetos en la ejecución del test, se
les pueda ordenar en aptitud. Los valores particulares de θ sobre la escala se eli-
312 Principios de Psicometría
gen de modo que maximicen el acuerdo entre los datos de respuesta al ítem, las
predicciones de los datos del test derivadas de las CCI mejor ajustadas y las pun-
tuaciones de la aptitud (niveles del rasgo) sobre la escala. Lord (1975a, 1975b) pre-
senta orientaciones interesantes para determinar la escala de aptitud. Algunos as-
pectos de este tema tales como los valores de θ que preservan las propiedades
psicométricas de la prueba (transformaciones admisibles) se tratan en este texto
(Apartados 12.3 y 15.5). En general, de los modelos de la TRI se puede decir que:
Puntos clave
Actividades
Puntuación X 1 2 3 4 5 6 7
frecuencia 10 45 77 185 273 387 400
( ) ( ) ( )
p u i = 1 θ1 = 0.2 ; p u i = 1 θ2 = 0.5 ; p u i = 1 θ3 = 0.7
El modelo ojiva normal propuesto por Lord (1968) se utiliza con ítems dicotómicos
que evalúan una sola variable. El modelo recibe esa denominación porque la función
de probabilidad de la curva característica del ítem corresponde a la función de dis-
tribución de una normal, o sea, a la curva de probabilidad acumulada de la función
de densidad de una distribución normal, como se muestra en las Figuras 12.1 y 12.2.
Para conectar ambas gráficas téngase en cuenta que los valores de P(θ) para
todo θk en la Figura 12.2 se corresponden con los de la probabilidad acumulada
(área bajo la curva desde –∞ hasta zk = θk) en la Figura 12.1. El cálculo de esas
áreas no hay que realizarlo necesariamente, puesto que esos valores están tabulados.
Supuestos básicos del modelo:
∫ ∫
1 −2
z2
Li (θ) Li (θ)
Pi ( θ) = Pi ( θ ; a i , bi ) = f ( z ) dz =
−∞ −∞
2π
e dz (12.1)
valor, por ejemplo, la unidad, se tiene un modelo con un solo parámetro. La ecua-
ción que representa la función Pi(θ) de la curva característica del ítem para el
modelo uniparamétrico tiene la forma de la ecuación (12.1) con a i = 1, o sea,
Li(θ) = θ – bi.
También se han propuesto modelos de tres y de cuatro parámetros. Un mode-
lo de tres parámetros surge cuando se desea estudiar el efecto de la conjetura, o
sea, la probabilidad de aciertos por adivinación, o bien por simple azar, porque
no se conoce la respuesta. Este efecto se supone que se produce en los niveles
más bajos de la aptitud, por lo que para estudiarlo se introduce un parámetro c i
que proporciona la asíntota más baja para la curva Pi(θ). Un cuarto parámetro γi
se puede añadir para explicar las probabilidades de respuestas incorrectas de aque-
llos sujetos que tienen un alto nivel de aptitud. Las ecuaciones de los diversos
modelos ojiva normal se dan en la Tabla 12.1
Tabla 12.1. Funciones de las CCI para modelos ojiva normal de uno,
dos, tres y cuatro parámetros.
∫ −∞
θ−bi
Un parámetro Pi (θ ) = f( z ) dz
∫ −∞i
a ( θ−bi )
Dos parámetros Pi (θ ) = f( z ) dz
Pi (θ ) = ci + (1− ci ) ∫ −∞i
a ( θ−bi )
Tres parámetros f( z ) dz
Pi (θ ) = ci + ( γi − ci ) ∫ −∞i
a ( θ−bi )
Cuatro parámetros f( z ) dz
− X −µ
z2
f( z ) = con variable z =
1
σ
2
2π
e
siendo
Para ilustrar cómo se interpretan en los gráficos de las CCI los parámetros de los
ítems en los modelos TRI se puede aprovechar la ventaja que supone para el lec-
tor estar familiarizado con la N(0,1) y que las probabilidades estén tabuladas. Así,
sin necesidad de integrar se puede conocer la probabilidad en cualquier punto o
el área contenida en cualquier intervalo de valores de la variable, aunque en la
actualidad es preferible realizar el cálculo con el computador.
Considérense, por ejemplo, siete ítems caracterizados por dos parámetros,
ai y bi, que toman los valores que se dan en la Tabla 12.2.
Ítems
1 2 3 4 5 6 7
ai 0 0.1 5 1 1 2 2
bi 1 1 1 1 2 1 2
Para cada uno de esos ítems i, se pueden calcular los valores de Pi(θ) hacien-
do uso de la expresión (12.1) con valores de la variable θ en el intervalo (–3, 3).
Justificamos esta elección para el rango de θ porque el área bajo la curva normal
para valores de z menores de –3 es despreciable (entre –∞ y – 2.58 es p = 0.005)
y a partir del valor z = 3, el aumento del área (la probabilidad) también es des-
preciable, pues es de cinco milésimas (entre 2.58 y +∞ es p = 0.005).
Las gráficas de las curvas características se obtienen representando en el eje
horizontal (abscisas) los valores de θ y en ordenadas los correspondientes valo-
res de Pi(θ) obtenidos con cada uno de los modelos. En este ejemplo se usa la
expresión (12.1) con dos parámetros para los ítems de la Tabla 12.2.
Ítem 1
Supuesto que para este ítem, a1 = 0, entonces L1(θ) = a1 (θ – b1) tomará el
valor cero para valores cualesquiera de θ y b1.
320 Principios de Psicometría
P1 ( θ) = ∫− ∞ f ( z ) dz
0
Ítem 2
Para este ítem se ha supuesto para ai un valor muy pequeño, distinto de cero
y para bi el mismo valor que en el ítem 1. Aquí el límite superior de la integral de
la expresión (12.1) es L2(θ) = 0.1 (θ – 1).
Los valores de P2 (θ) para cuatro valores de θ son:
( )
P2 θ θ = −3 ≅ 0.345; ( )
P2 θ θ = 1 = 0.50
( )
P2 θ θ = −1 ≅ 0.421; ( )
P2 θ θ = 3 ≅ 0.579
P2 (θ = 3) − P2 (θ = −3) = 0.234
Esto significa que, para los valores de ai pequeños (próximos a cero), se tie-
ne casi la misma probabilidad de dar respuesta correcta al ítem con valores ele-
vados de la aptitud que con valores bajos, o sea, el ítem no discrimina entre los
niveles de aptitud y las gráficas de esas funciones muestran pendientes muy
pequeñas.
Capítulo 12. TRI: Modelos 321
Ítem 3
Este ítem se diferencia de los dos anteriores sólo en el valor del parámetro ai
que en este caso (ai =5) toma un valor mucho mayor, en términos relativos. Esto
se pone gráficamente en evidencia en la Figura 12.3, porque la curva P3(θ) que
representa ese ítem tiene mucha pendiente en el entorno del valor θ = b = 1.
Figura 12.3. Representación gráfica de las CCI de los ítems con nulo o bajo poder
discriminante (ítems 1 y 2) y con alto poder discriminante (ítem 3).
Los ítems 1, 2 y 3 son ejemplos de casos extremos que se han presentado para
ilustrar que ai es un parámetro que indica la cualidad del ítem de dar información
sobre los valores de θ donde el ítem discrimina o no de forma efectiva, o sea, es
el poder discriminante del ítem. Al parámetro ai se le llama índice de discriminación.
Las puntuaciones de los ítems se restringen de forma que 0 ≤ ai ≤ ∞. Usual-
mente se supone que ai es finito y que la probabilidad de respuesta correcta cre-
ce a medida que θ crece.
Ítems 4, 5, 6 y 7
Estos cuatro ítems se usan para ejemplificar los casos en que los ítems tengan
el mismo valor en a y diferentes en b (los ítems 4 y 5 por un lado y los ítems 6 y
322 Principios de Psicometría
7 por otro) y los de aquellos que, teniendo el mismo valor de b, tengan diferen-
tes valores del parámetro a (los ítems 5 y 7).
Los valores que ilustran las variaciones de las funciones Pi(θ) para valores de
θ seleccionados en el rango de θ ∈[–3, 3], se dan en la Tabla 12.3, y los gráficos
de las CCI de los siete ítems aquí considerados se dan en la Figura 12.4.
Tabla 12.3. Valores de probabilidad de las funciones Pi (θ ; ai, bi ) para seis ítems.
Ítems
Valores
de θ 2 3 4 5 6 7
P(θ ; 0.1, 1) P(θ ; 5, 1) P(θ ; 1, 1) P(θ ; 1, 2) P(θ ; 2, 1) P(θ ; 2, 2)
res de θ en uno y otro test sean de una unidad, que es la diferencia entre b4 y b5.
Puesto que ambos ítems tienen el mismo poder discriminante, las diferencias se
deben a las diferencias en el parámetro b al que, por las razones expuestas, obvia-
mente hay que asociar con la dificultad del ítem, es un índice de dificultad. En estos
ítems se puede observar que en todos los casos es Pi(θ) = 0.50 cuando θ = b.
En la Figura 12.4 se representan las CCI de los siete ítems (etiquetados como
P1, P2, ... , P7) cuyos parámetros ai y bi tienen los valores dados en la Tabla 12.2.
En esta figura se puede observar que, con valores elevados de ai, la variación
de P(θ) es muy grande para valores de θ en el entorno θ = b, siendo elevada la
pendiente de su CCI para esos valores de θ. También se puede observar la dife-
rencia entre la pendiente de la CCI del ítem 3 y la del ítem 4, del que sólo difiere
en el valor del parámetro a. Por lo tanto, el poder discriminante de un ítem se pue-
de visualizar observando la pendiente de su CCI para valores de θ = b.
Para ítems con los mismos valores de a, pero que varían en b (los ítems 4 y 5
y los ítems 6 y 7), las curvas CCI de los ítems con mayor valor en b están despla-
zadas hacia la parte positiva de la variable θ. Por lo tanto, para tener la misma pro-
babilidad de acierto en uno y otro ítem es necesario poseer mayor valor en el ras-
go para el ítem que tiene mayor valor de b. También en el gráfico se puede observar
que todas las curvas con igual valor en b se cortan en el punto en que
θ = b, es decir, estos ítems tienen la misma dificultad.
324 Principios de Psicometría
8) Para valores en el rasgo menores a la dificultad del ítem (θ < bi ) las pro-
babilidades de acierto son inferiores a 0.50.
9) Las CCI poseen un punto de inflexión en θ = bi. Es el punto de máxima
pendiente.
Las relaciones entre los parámetros de los ítems en la TRI con los parámetros
convencionales del análisis clásico son de interés. El lector puede encontrar refe-
rencias y una exposición en español en Santisteban (1990a, págs. 261-266).
Una función muy similar a la que representa el modelo ojiva normal, y que posee
mayores ventajas desde el punto de vista de su tratamiento matemático en el área
de las aplicaciones, es la distribución logística.
La distribución logística se define como una función
y= = ; −∞ < x < ∞
ex 1
1 + ex 1 + e− x
(12.2)
D L i (θ )
Pi (θ) =
− D L i (θ )
−1
= = 1 + e
e 1
D L i (θ ) − D L i (θ )
1+ e 1+ e
(12.3)
e i( )
DL θ
Q i (θ) = 1 − Pi (θ) = 1 −
=
1
1 + e i ( ) 1 + e L i (θ)
θ
D L D
(12.4)
Pi ( θ)
= eD L i ( θ)
Q i ( θ)
(12.5)
Pi ( θ)
= D L i ( θ)
Q i ( θ)
ln (12.6)
Birnbaum (1968) propuso un modelo en el que la CCI toma la forma de una dis-
tribución logística de dos parámetros, cuya ecuación viene dada por (12.3) con
Li (θ) = ai (θ – bi ), siendo por lo tanto:
Da i (θ − b i )
Pi (θ) = =
e 1
Da i (θ − b i ) − Da i (θ − b i )
(12.7)
1+ e 1+ e
1) Es unidimensional.
2) Se da el supuesto de independencia local.
3) Los ítems son dicotómicos.
4) La función de distribución de probabilidad es la dada en la expresión (12.7).
Siendo, por lo tanto,
Q i (θ) = 1 − Pi (θ) =
D a i (θ − b i )
−1
= 1+ e
1
1+ e i ( )
DL θ
(12.8)
Figura 12.6. Curvas logísticas de tres ítems con diferentes índices de dificultad:
P1(a1 = 1, b1 = 0), P2(a2 = 1, b2 = 1) y P3(a3 = 4, b3 = 2).
Pi ( θ) = =
e0 1
1 + e0
(12.9)
2
θ∗ = k θ + s
b∗ = k b + s
(12.10)
a ∗ = a k
= DL i ( θ) = Da i (θ − bi )
Pi ( θ)
Q i ( θ)
ln
Pi ( θ1 ) P (θ ) P ( θ ) Q i ( θ1 )
− ln i 2 = ln i 1 =
Q i ( θ1 ) Q i ( θ2 ) Pi ( θ2 ) Q i ( θ2 )
ln (12.11)
Pi ( θ1 ) Q i ( θ1 ) Da i (θ1 − θ2 )
=e = e0 = 1
Pi ( θ2 ) Q i ( θ2 )
(12.12)
Dos características de este modelo que están relacionadas con el vector de res-
puesta se dan en el Cuadro 12.1.
Ejemplo 12.1
luego la relación entre las probabilidades de acierto y error es 5.5 veces mayor
en quien tiene 0.50 puntos más en su nivel en el rasgo.
Cuadro 12.1
Añadimos aquí dos características del modelo que están relacionadas con
los vectores de respuesta y la información que proporcionan (véase también
el Capítulo 13).
(′
)
r
9) La probabilidad de un determinado vector respuesta V = u1, … un para
un θ dado, se puede obtener haciendo uso de la expresión (11.6) y sus-
tituyendo las Pg y Qg de esa ecuación por sus expresiones dadas en
(12.7) y (12.8).
r
10) Teniendo en cuenta la probabilidad de un cierto vector de respuesta V
toda la información útil acerca de θ contenida en un patrón de respues-
ta viene dada por la siguiente expresión de la puntuación:
X ( V ) = ∑ a i ui
r n
(12.13)
i=1
Los valores de ui son cero o uno, ya que se ha supuesto que los ítems
son dicotómicos, y la expresión (12.13) no depende de los parámetros bi que
evalúan la dificultad. Esta relación se comprenderá mejor cuando se estu-
dien las funciones de información, no obstante, si se acepta que la respuesta
correcta se pondera por el valor del ai de cada uno de los ítems, ese valor
de la puntuación total dependerá de si las respuestas correctas se han dado
a ítems con un gran poder discriminante.
Esta cuestión puede distraer la atención en cuanto a la exposición del
modelo. No obstante, si no se consideran ítems aislados, sino que se quie-
ren comparar a los sujetos de acuerdo con sus puntuaciones cuando dan
respuesta a diferentes ítems, hay que tomar en consideración el papel del
índice de discriminación de esos ítems.
Considerése, por ejemplo, un test de cuatro ítems cuyos parámetros son
a1 = 1; a2 = 2; a3 = 1 y a4 = 2 y calcúlese mediante la ecuación (12.13) la pun-
tuación ponderada de algunos de los posibles patrones de respuesta.
Capítulo 12. TRI: Modelos 331
r r
Para un patrón de respuesta V = (0, 0, 0, 0) el valor de X ( V ) será 0.
Parar otros patrones tales como (1,0,0,0)r o (0,0,1,0), los valores de
X ( V ) serán 1 en ambos casos. Valores de X ( V ) igual a 2 se obtendrán para
otros patrones tales como (0,1,0,0) o (1,0,1,0) or(0,0,0,1), etc. Los patrones
(0,1,1,1) y (1,1,1,1) conducirían a valores de X ( V ) iguales a 5 y 6, respecti-
vamente.
Se observa con estos ejemplos que la puntuación no sólo depende
de cuántos ítems se han acertado, sino también de su mayor o menor índi-
ce de discriminación, que es el peso de la cantidad de información que cada
uno de esos ítems aporta a esa puntuación total, lo que permitirá ordenar a
los sujetos según su vector de respuesta.
Otro modelo de tipo logístico es el propuesto por Lord (Lord y Novick, 1968;
Lord, 1980), que puede considerarse similar al anterior, añadiendo un tercer pará-
metro ci. La forma de la CCI para este modelo se da en la Figura 12.7 para un
ejemplo con ci = 0.2, y su expresión general viene dada por:
Pi ( θ) = c i + (1 − c i )
e Da i ( θ − bi )
1 + e Da i ( θ − bi )
(12.14)
Ejemplo 12.2
a) ¿Cuál es la probabilidad que tienen de acertar ese ítem aquellos sujetos cuyo
nivel en el rasgo sea θj = 1? ¿Y la de aquellos cuyo nivel es θh = 1.5?
b) ¿Variarían esas dos probabilidades si la probabilidad de que se acierte ese
ítem por azar es 0.20?
(1.7) (1.5) (1 − 1)
( )
Pi θ = 1 =
e
(1.7) (1.5) (1−1)
=
e0
1+ e 0
= 0.50
1+ e
(1.7) (1.5) (1 − 1)
( ) (
Pi θ = 1 = 0.20 + 1 − 0.20 ) e
(1.7) (1.5) (1−1)
= 0.60
1+ e
[Pi ( θ1 ) − c] Q i ( θ1 ) = Da θ − θ
( )
[Pi ( θ2 ) − c] Q i ( θ2 ) i 1 2
ln (12.15)
luego las comparaciones entre diferentes niveles de θ dan el mismo resultado que
cuando no se incluye el parámetro c en la CCI.
e Da i ( θ − bi )
Pi ( θ) = c i + ( γ i − c i )
1 + e Da i ( θ − bi )
(12.16)
334 Principios de Psicometría
()
−D(θ − bi )
−1
Pi θ = 1+ e
Un parámetro
()
−Da (θ − bi )
−1
Pi θ = 1+ e i
Dos parámetros
() ( )
−Da (θ − bi )
−1
Pi θ = ci + 1 − ci 1+ e i
Tres parámetros
() ( )
−Da (θ − bi )
−1
Pi θ = ci + γi − ci 1+ e i
Cuatro parámetros
Capítulo 12. TRI: Modelos 335
El modelo que junto a los modelos logísticos de dos y tres parámetros ha genera-
do mayor número de trabajos, tanto teóricos como prácticos, ha sido el modelo de
Rasch. Este modelo (Rasch, 1960) fue desarrollado independientemente de los antes
citados y por otras vías. Birnbaum lo considera un caso particular de su modelo
logístico (Birnbaum, 1968, págs. 402-403 y 480). La CCI del modelo es asimilable
a una función logística de un parámetro en la que se supone que todos los elemen-
tos tienen el mismo poder discriminante y varían en términos de dificultad.
La función que describe la curva característica del modelo de Rasch es:
e(
θ − bi )
Pi (θ) =
1 + e(
θ − bi )
(12.17)
e ( i)
Pi (θ) =
Da θ − b
Da (θ − b i )
(12.18)
1+ e
Al ser a constante, por convención se le asigna el valor uno. Bajo estos supues-
tos, las curvas características tendrán todas la misma pendiente. Se puede consi-
derar que son curvas idénticas con traslaciones de amplitud bi – bk para los ítems
i, k, con dificultades bi y bk (bi > bk). En la Figura 12.8 se muestran las CCI de
tres ítems con distintos índices de dificultad.
Cuadro 12.2
θ* = e θ ; b *i = eb i
se obtiene
e( θ−bi ) e θ / ebi
Pi (θ ) = = =
1+ e( θ−bi ) 1+ (e θ / ebi )
θ * / b *i θ* b * −1
= = = 1+ i
1+ (θ * / b *i ) θ * + b *i θ *
que es como Rasch (1960) desarrolla su modelo para esta forma logística.
Pi ( θ)
= L i ( θ) = θ − b i
Q i ( θ)
ln (12.19)
lo que permite establecer diferencias entre diferentes valores de θ, pues para dos
valores θ1 y θ2 se tiene que:
L i ( θ1 ) = θ1 − b i ; L i ( θ2 ) = θ2 − b i
y la relación:
= (θ1 − bi ) − (θ2 − bi ) = θ1 − θ2
Pi ( θ1 ) Q i ( θ1 )
Pi ( θ2 ) Q i ( θ2 )
ln (12.20)
Ejemplo 12.3
( ) ( ) = eθ − θ
Pi θ1 Qi θ1
Pi (θ2 ) Qi (θ2 )
C= 1 2
Los modelos TRI más básicos, y hasta ahora los más utilizados, suponen la uni-
dimensionalidad, la independencia local y que los ítems sean dicotómicos (o que
se dicotomicen). Existen, sin embargo, otros modelos que contemplan la posibi-
lidad de respuesta múltiple o politómica, así como de puntuaciones continuas y
modelos en los que se considera más de una dimensión para el rasgo.
Un modelo que admite m categorías para la respuesta lo introdujo Samejima
(1969). Es el modelo de respuesta graduada en el que, aunque utiliza para la respuesta
escalas categóricas tipo Likert, para establecer la forma probabilística del mode-
lo se efectúa una cierta dicotomización. Bock (1972) y Samejima (1972) propo-
nen los modelos de respuesta nominal para el caso de ítems con respuesta múltiple o
politómica. En estos modelos, también es fundamental la forma de la CCI, pero
aquí esa curva no es única para cada ítem, sino que cada opción de respuesta vie-
340 Principios de Psicometría
zar estimaciones, entonces se le llama estimador. No todos los estadísticos son bue-
nos estimadores, por lo que hay que conocer las propiedades de cada estimador
y elegir el más adecuado. Existen diferentes métodos, a los que genéricamente se
les llama métodos de estimación, que se utilizan para que esa aproximación se
realice con garantías y con la debida precisión. Los métodos de estimación son
de muy diversa índole (paramétricos, no paramétricos, de información comple-
ta, de información limitada, etc.) y dentro de cada grupo siempre se pueden encon-
trar diferentes tipos, atendiendo a diferentes problemas o a distintas formas de
hacer las aproximaciones.
La estimación de los parámetros de los modelos de TRI se fundamenta en los
métodos estadístico-matemáticos (e.g., de los momentos, de los mínimos cua-
drados, de la máxima verosimilitud, bayesianos, etc.). Sin embargo, las exigencias
tanto computacionales como de interpretación han llevado a que se desarrollen
procedimientos y a que se genere una gran cantidad de software específico para
el tratamiento de la estimación de parámetros y del ajuste de gran variedad de
modelos TRI. En relación con los modelos que se presentan en este capítulo,
podemos decir que, tanto el modelo de Rasch como el logístico de dos paráme-
tros, pueden estimarse adecuadamente con el software disponible en una varie-
dad de programas, en tanto que en otros modelos, como el logístico de tres pará-
metros, no todos los programas son aconsejables, pues la presencia del parámetro
c puede generar algunos problemas en el proceso de estimación.
La gran importancia de la estimación en los modelos de TRI obliga a llamar
la atención del lector sobre este punto, aunque la extensión y la complejidad del
tema, aun en los casos más simples, excede las dimensiones de esta obra, remi-
tiéndole a otras publicaciones (e.g., Baker, 1992; Van der Linden y Hambleton,
1997 en inglés, y Meliá y Santisteban, 2009 en español). No obstante, incluimos
una breve introducción sobre la estimación de máxima verosimilitud, pues ha sido
el método por excelencia que se utiliza en TRI.
La mayor parte de los métodos de estimación aplicados en TRI tienen su fun-
damento en la estimación de máxima verosimilitud, con muchas variaciones como
el de la máxima versosimilitud conjunta, o el de la estimación por máxima verosi-
militud marginal. Los fundamentos del método pueden seguirse en cualquier manual
de estadística en el que se aborden estos temas. Una excelente referencia donde
todo el proceso está bien documentado, dando la forma concreta de las ecuacio-
nes en derivadas, es la contribución de Birnbaum (en Lord y Novick, 1968), que
desarrolla el método para el modelo logístico de dos parámetros, haciéndolo Lord
Capítulo 12. TRI: Modelos 343
(1968, 1975a, 1975b, 1980) para el modelo de tres parámetros, aunque son muchos
los autores que ya desde sus inicios tratan el tema (Urry, 1974, Jensema, 1976; Wood
et al., 1976; Schmidt, 1977; Samejima, 1977; Reckase, 1979, etc.).
L (x; θ1 , …, θm ) = ∏ f ( x i , θk )
n
(12.21)
i=1
log ∏ f ( x i ; θ1 , …, θm ) = ∑ log f (x i ; θ1 , …, θm )
n n
(12.22)
i=1 i=1
∂ log L (x; θ1 , …, θm )
= 0; k = 1, 2, …, m
∂θk
(12.23)
En los modelos TRI las funciones de probabilidad son las P(θ), y al ser los
ítems dicotómicos, la función de verosimilitud para un vector de n componentes
responde a la expresión dada en (11.6), donde el parámetro θ es desconocido y
se desea estimar. La función de verosimilitud se puede expresar, por lo tanto, como:
(
L u 1 , u 2 , …, u n θ = ∏ Pi (θ) ) [ ] [Qi (θ)]
n ui 1− u i
(12.24)
i =1
( ) [
log L u 1, u 2, …, u n θ = ∑ u i log Pi (θ) + (1 − u i ) log Q i (θ) ]
n
(12.25)
i =1
Para la obtención de los estimadores se deriva esta expresión, siendo los esti-
madores las soluciones de esas ecuaciones, como se ha indicado en (12.23). La
expresión (12.25) se simplifica cuando ui = 1 (acierto), pues sólo hay términos Pi,
y cuando es cero (error), pues sólo hay términos Qi.
El logaritmo de la función de verosimilitud, en principio, puede ser un loga-
ritmo natural o tener cualquier base, pero lo usual es tomar logaritmos neperia-
nos, sobre todo en los modelos TRI cuyas CCI incluyen funciones exponencia-
les con base e.
Ejemplo 12.4
eθ
[ ] eθ
−1
Pi (θ ) = = 1+ e − θ y Qi (θ ) = 1 − =
1
1+ e θ
1+ e θ
1+ e θ
Capítulo 12. TRI: Modelos 345
θ j x j
( ) 1
n− x j
L u1, u2 , …, un θ j = ∏ Pi (θ ) Qi (θ ) = e
n
θj θj
i=1 1+ e 1+ e
x j = ∑ uij
n
i=1
θj
( )
1
lnL u1, u2 , …, un θ j = x j ln
e
θj
+ n − x j ln
θ
( )
1+ e 1+ e j
(
∂ lnL ui θ j )= xj
−
(n − x j ) e
θj
=
x j − (n − x j ) e
θj
=0
∂θ j 1+ e
θj
1+ e
θj
1+ e
θj
θˆ j = ln
xj
n − xj
θˆ j = ln = 0.336
7
5
y para otro sujeto h que tuviese 9 aciertos se le estimaría un nivel (valor) en el rasgo:
θˆ h = ln = 1.099
9
3
Una explicación más completa en modelos TRI, dando las funciones de
verosimilitud para las respuestas a n ítems con las que se pueden obtener 2n
patrones diferentes y que cada uno de esos patrones se puede repetir un núme-
ro r de veces en una muestra, se puede encontrar en Santisteban (1990a).
346 Principios de Psicometría
Hasta ahora, para estimar θ se ha dado por supuesto que son conocidos los pará-
metros del ítem (ai, bi, ci, etc.). Esta estimación se llama estimación condicional, pues
se ha realizado la estimación de θ admitiendo que esos parámetros son conoci-
dos y que, por lo tanto, la función de verosimilitud está condicionada sólo a los
valores de θj. En el Ejemplo 12.4 anteriormente expuesto se utilizan métodos
condicionales, pero lo usual es que no se tenga conocimiento previo de los índi-
ces de dificultad y de discriminación de cada ítem, salvo que se tomen de un
banco de ítems previamente construido donde los ítems están calibrados. Por
lo tanto, de los datos muestrales habrá que estimar, tanto θ como los paráme-
tros de los ítems. A este modo de proceder se le llama estimación conjunta y habrá
que buscar el valor de los parámetros que maximicen el valor de la función de
verosimilitud que ahora, en lugar de ser una función
(
L u 1 , u 2 , …, u n θ )
será una función
(
L u 1 , u 2 , …, u n θ; a , b, c )
en el caso de un modelo de tres parámetros. Una exposición más detallada sobre
las funciones de verosimilitud se puede encontrar en Santisteban (1990a) y en
Lord y Novick (1968) o en Hambleton y Swaminathan (1985) para los modelos
logísticos.
Téngase en cuenta que si se quieren estimar simultáneamente los parámetros
de n ítems y de N sujetos, si los ítems son uniparamétricos, el número de pará-
metros que se deben estimar son n + N, o sea, el índice de dificultad de cada uno
de los ítems y el parámetro aptitud de cada uno de los sujetos. Si en cada ítem
hubiese que estimar dos parámetros, el número total de parámetros que habría
que estimar sería 2n + N, y así sucesivamente.
Con estos procedimientos analíticos (i.e., obteniendo la primera derivada, igua-
lando a cero, etc.) no siempre se obtiene la solución óptima, por lo que adicio-
nalmente, o en su defecto, se utilizan técnicas de aproximación. Son métodos
numéricos basados en algoritmos iterativos, como es el método de Newton-Raph-
Capítulo 12. TRI: Modelos 347
Cuadro 12.3
θˆ → Nθ;
2
1
∂ ln f( x, θ )
(12.26)
n E ∂ θ
348 Principios de Psicometría
∂ ln f( x, θ ) 2
nE = I (θ )
∂θ
(12.27)
σ 2 (θˆ ) =
1
I (θ )
(12.28)
s = I (θ )−1/ 2 =
1
∂ ln f( x, θ ) 2
n E
∂θ
[ ]
Prob θˆ − z α s ≤ θ ≤ θˆ + z α s = 1− α (12.29)
Cuadro 12.4
Puntos clave
Actividades
La función de información del ítem, que denotamos por I(θ; ui) para un ítem i dicotó-
mico, con respuesta ui, se define mediante la expresión:
[Pi′(θ)]
2
I ( θ, u i ) =
Pi ( θ) Q i ( θ)
(13.1)
Cuadro 13.1
Definición 1
d µ 2
X θ
dθ
( )
I θ, X =
σ 2X
(13.2)
θ
siendo:
Definición 2
Cuadro 13.2
eDai ( θ−bi )
P′(θ ) = Da i ⋅ = Da iPi (θ ) Qi (θ )
1
(13.3)
1+ e Da i ( θ−bi )
1+ e
Da i ( θ−bi )
Capítulo 13. TRI: Funciones de información 357
e(1.7 ) ( 2 ) ( θ−1)
P′(θ ) = (1.7)( 2) ⋅
1
1+ e ( 1.7 ) ( 2 ) ( θ−1)
1+ e ( 1.7 ) ( 2 ) ( θ−1)
El mayor valor para P' (θ) se obtiene cuando θ = 1. En este caso, ese valor
es próximo a la unidad, luego el ángulo α que forma la tangente a la curva en
ese punto con el eje horizontal es α = 44.8º (recuérdese que la pendiente es
igual a la tangente de ese ángulo y que tan α = 1 cuando α = 45º). Para valores
de θ extremos (positivos o negativos) P' (θ) → 0 y la pendiente es nula (α = 0º).
[Pi′(θ)]
2
I ( θ) = ∑ I( θ, u i ) = ∑
n n
i=1 Pi ( θ) Q i ( θ)
(13.4)
i=1
Var ( θ$|θ) =
1
I ( θ)
(13.5)
Se comprueba (Lord, 1980, pág. 70), que si se dan las condiciones exigidas a
los modelos TRI (unidimensionalidad e independencia local) la varianza dada en
(13.5) responde a la siguiente expresión:
Var ( θ$|θ) =
[Pi′ ( θ)]
1
(13.6)
∑
2
n
i=1 Pi ( θ) Q i ( θ)
Para obtener las ecuaciones de las funciones de información de los ítems, basta
con sustituir en (13.1) las expresiones correspondientes a cada uno de los mode-
los. Por ejemplo, para un modelo logístico de dos parámetros, la derivada P' (θ)
viene dada por (13.3), luego su función de información es:
Pi2 ( θ) Q2i ( θ)
I ( θ, u i ) = D2 a 2i = D2 a 2i Pi ( θ) Q i ( θ)
Pi ( θ) Q i ( θ)
(13.7)
Capítulo 13. TRI: Funciones de información 359
I( θ) = ∑ I( θ, u i ) = ∑ D2 a 2i Pi ( θ) Q i ( θ)
n n
(13.8)
i=1 i=1
Q i ( θ) Pi ( θ) − c i
2
I ( θ, u i ) = D2 a 2i
Pi ( θ) 1 − c i
(13.9)
( )
1
θ = bi + ln 1 + 1 + 8c i
1
D ai 2
(13.10)
La información máxima (Lord, 1980, pág. 152) viene dada por la expre-
sión:
I ( θ, u i ) =
D2 a 2i
8 (1 − c 2i )
[1 − 20 c − 8 c
i
2
i + (1 + 8 c i )3 / 2 ] (13.11)
360 Principios de Psicometría
( )
1
c i = 0; θ = bi + ln 1 + 1
1
D ai 2
Modelos I(θ)
i=1
Un parámetro
i=1
Dos parámetros
Qi (θ ) Pi (θ ) − ci
∑D
2
n
2
a i2
Tres parámetros i=1 Pi (θ ) 1− ci
La función de información del test viene dada por la suma de las funciones de
información de todos los ítems que lo componen. En la Tabla 13.2 se da un ejem-
plo de los valores de la información (utilizando la ecuación (13.7) para diferentes
valores de θ) de seis ítems que siguen modelos logísticos de dos parámetros. En
la última columna de dicha tabla se dan los valores de la información del test for-
mado por esos seis ítems.
Las funciones de información de los ítems se pueden representar gráficamente,
llevando al eje de abscisas los diferentes valores de θ y en ordenadas los de los
correspondientes I (θ, ui), para cada uno de los modelos. En la Figura 13.1 se
representan las funciones de información de los seis ítems de la Tabla 13.2. En
el mismo gráfico también se representa con trazos discontinuos la función de
información del test, calculada como suma de las informaciones que proporcio-
nan esos seis ítems. La cantidad de información de cada ítem varía con el nivel de
aptitud θ, y con sus valores respectivos de a y de b. El ítem 1, por ejemplo, da bas-
tante información para valores bajos de θ, pero su información es casi nula para
niveles altos de la aptitud. El ítem 6, por el contrario, suministra la mayor infor-
mación en los niveles más altos de θ, siendo su información prácticamente nula
en los más bajos.
362 Principios de Psicometría
Ítems
Valores Total
de θ 1 2 3 4 5 6
I(θ ; 1.5, 0) I(θ ; 1, 1) I(θ ; 2, 1) I(θ ; 1, 2) I(θ ; 2, 2) I(θ ; 1.5, 2.5)
Figura 13.1. Funciones de información de los seis ítems dados en la Tabla 13.2
y la función de información total del test.
Capítulo 13. TRI: Funciones de información 363
Si se comparan las curvas de información con ítems que siguen el mismo mode-
lo, teniendo el mismo valor de bi y diferentes valores de ai (por ejemplo las de los ítems
2 y 3) se observa que es mayor la información suministrada por el ítem con mayor
valor del parámetro a (los ítems 3 y 5). Esto es lógico, pues la ecuación (13.7) indica
que la información de un determinado ítem depende del cuadrado de su índice de
discriminación. Es decir, aquellos ítems con valores de a muy pequeños tendrán una
contribución muy escasa a la información total del test. Por lo tanto, cuando se cons-
truya un test que se desea que sus ítems sean homogéneos, debe buscarse que los dife-
rentes ítems tengan índices de discriminación parecidos, pues de otra manera aque-
llos ítems con bajos valores de ai apenas contribuirán a la información total del test,
y si son muy elevados, sucederá lo contrario. En un test en el que, por ejemplo, dos
ítems que tengan el mismo valor de bi y la relación entre sus valores de ai sea 1:2, la
información del segundo ítem será el cuádruple que la del primero, y para un deter-
minado valor del rasgo, θ = θj, se necesitarán cuatro ítems del primer tipo para tener
la misma información que el segundo ítem proporciona para ese nivel de aptitud.
Ponderaciones
Puesto que la función de información del test se obtiene sumando las funciones
de información de los ítems que lo componen y cada uno de ellos proporciona
distinta información, es muy importante al construir el test tener en cuenta con
qué peso contribuye cada ítem, para poder así maximizar la información total que
da el test. En un test con información
I ( θ) = ∑ I ( θ, u i )
i
i ∑ w 2i Pi ( θ) Q i ( θ)
(13.12)
i=1
i
364 Principios de Psicometría
Si para construir el test se eligen aquellos ítems que tengan pesos óptimos,
sean éstos wi*, la información I (θ, ∑ w* ui ) es la mayor información que se pue-
de obtener con ese test, y eso se cumple para cualquiera que sea el método de
puntuación elegido para obtener X.
La TRI ofrece la forma de elegir pesos para los ítems que den una puntuación
total X para el test que conlleve la máxima cantidad de información acerca de θ
(la cantidad de información de Fisher). La contribución de cada ítem, para dar
una medida efectiva de la información del test, no depende de qué otros ítems se
han incluido en él.
Los pesos óptimos para los ítems vienen dados por la expresión siguiente:
Pi′( θ)
w *i =
Pi ( θ) Q i ( θ)
(13.13)
De donde se deducen (Cuadro 13.3) los pesos óptimos para los diferentes
modelos. En la Tabla 13. 3 se dan esos pesos para los modelos logísticos.
Tabla 13.3. Pesos óptimos para los modelos logísticos de uno, dos y tres parámetros.
Pi′
w i* =
Da i
1+ ci e −Dai ( θ−bi )
D D ai
Pi Qi
Como puede observarse en la Tabla 13.3, los pesos óptimos de las puntua-
ciones de los ítems en los modelos logísticos de uno y dos parámetros son inde-
pendientes del nivel de aptitud del sujeto, siendo este peso, o una constante en el
modelo de un parámetro, o proporcional al poder discriminante del ítem en
el modelo de dos parámetros. Los pesos óptimos para el modelo logístico de tres
parámetros dependen de θ, que en muchos casos puede ser una dificultad añadi-
da, si es desconocido. Lord (1980, pág. 75) indica que para resolver este proble-
Capítulo 13. TRI: Funciones de información 365
ma se puede hacer una aproximación, que consiste en sustituir Pi(θ) por la pro-
porción pi de respuestas correctas dadas al ítem, que coincide con el índice de
dificultad convencional.
Cuadro 13.3
2
∑P i / Pi Qi
[ Pi′(θ)]
′
()
2
i
=∑
2
I θ =
∑ Pi Qi (Pi′ / Pi Qi ) 2 P (θ ) Q (θ )
i i i
i
P'i (θ ) =
[
Da i Qi (θ ) Pi (θ ) − ci ]
1− ci
(13.14)
w ∗i (θ ) =
[
D a i Pi (θ ) − ci ] = D ai eDL i
=
D ai
Pi (θ ) (1− ci ) ci + e DL i
1+ ci e − D L i
Hay que advertir que si se desea hacer uso de los pesos óptimos de los ítems
al construir un test, la puntuación total en ese test hay que obtenerla sumando la
de cada uno de los ítems, multiplicado por su correspondiente coeficiente de pon-
deración, como ya se indicó cuando se enunciaron las características del modelo
logístico de dos parámetros (Cuadro 12.2), donde se pueden ver algunos ejem-
plos. También conviene hacer notar que para el modelo de tres parámetros, de
acuerdo con la expresión dada en la Tabla 13.3, los pesos óptimos varían con los
diferentes valores de θ, ya que dependen de la pendiente de la curva de probabi-
lidad, como ocurre con las funciones de información (Figura 13.2).
Cuadro 13.4
Los pesos óptimos que se asignan a los ítems (mediante la ecuación 13.13)
para discriminar entre niveles de aptitud dependen del índice de discriminación
del ítem (en los modelos de dos y tres parámetros, siendo una constante en el
de un parámetro). Es conveniente añadir las siguientes consideraciones:
a) Los pesos óptimos de los ítems en los niveles más altos de θ son vir-
tualmente independientes de la aptitud, pues en el modelo de tres pará-
metros (el único en que dependen de θ) el peso óptimo del ítem se pue-
de considerar prácticamente constante a partir de un cierto nivel de aptitud
(Figura 13.2).
Capítulo 13. TRI: Funciones de información 367
Aplicabilidad
Bancos de ítems
El análisis de los ítems, el conocimiento del punto donde dan la máxima infor-
mación, la ponderación de las puntuaciones, la eficiencia relativa, etc. dan una idea
de la utilidad de la TRI en la construcción de tests. Entre muchas otras aplica-
ciones, de las que ya Lord (1980) da una extensa relación, está la construcción de
bancos de ítems. Un banco de ítems para la medición de un rasgo no es más que
una colección amplia de ítems calibrados para la medición de ese rasgo. Es decir,
tener disponible para la medición de ese rasgo un conjunto amplio de ítems de
los que se conocen sus características psicométricas.
Un determinado banco de ítems se puede utilizar al menos con dos objetivos,
aumentar el banco, o usarlo para la construcción de tests. En ambos casos, siem-
pre hay que partir de un conjunto de ítems que estén calibrados. Para la amplia-
ción del banco, hay que que generar nuevos ítems, utilizando la misma metodo-
logía que los que ya pertenencen al banco y proceder a establecer las conexiones
entre las métricas, para hacer la equiparación de las puntuaciones de los nuevos
ítems con los del banco. Para la construcción de bancos de ítems hay software
específico disponible (e.g., MICROCAT, RASCAL, ASCAL) que en algunos pro-
gramas también permite la administración de los ítems del banco y el análisis de
los resultados. No obstante, la construcción de un banco de ítems no es tarea fácil
ni puede estar en manos de inexpertos. El uso de los bancos de ítems para la cons-
trucción de tests es evidente que supone un ahorro considerable en todo tipo de
costes, pues se pueden elegir de ese banco aquellos ítems que proporcionen mayor
información en algún valor del rasgo, o para un objetivo determinado, como la
elaboración de tests a la medida, o tests secuenciales, etc.
I ( θ, Y )
E R = E R ( Y, X) =
I ( θ, X )
(13.15)
Cuadro 13.5
La eficiencia relativa de las puntuaciones de dos tests varía con el nivel de apti-
tud, obteniéndose un valor de la ER para cada uno de los valores de θ. Por lo tan-
to, si se calcula cada uno de esos valores, se pueden representar gráficamente obte-
niéndose la curva de eficiencia, o función de eficiencia, que representa las variaciones de
la ER a lo largo de θ. Es de esperar que en algunos puntos la ER sea mayor para
X que para Y, y que en otros suceda lo contrario, pues la ER depende de los valo-
res de las respectivas funciones de información en cada punto y, como se ha vis-
to anteriormente, estas funciones varían a lo largo de θ. Por ejemplo, si la infor-
mación de un test X en θ = – 1 es 3 y en θ = 1 es 6, siendo la información de un
test Y en esos puntos 1 y 12 respectivamente, el test X es tres veces más eficiente
que el Y en θ = – 1, y la eficiencia del test Y es el doble que la del test X en θ = 1.
Ejemplo 13.1
Tabla 13.4. Valores de información para los tests X e Y (IX e IY ) y eficiencias relativas (ER).
X Y ER
θ I1 I2 IX I1 I2 IY IX / IY IY / IX
test Y en relación con el test X (curva continua fina), dado que es el inverso de
la anterior. Por lo tanto, el test X es más eficiente que el Y en un rango aproxi-
mado de θ entre –1.66 y 0.27, siendo más eficiente el test Y que el X para valo-
res θ mayores de 0.27 y menores que 2.62.
Figura 13.3. Valores de las funciones de información de los tests X (IX) e Y (IY) y de las
eficacias relativas (ER) calculadas en función del rasgo θ, utilizando el modelo logístico de
dos parámetros.
Al calcular los valores de la función de información esos valores pueden ser muy
elevados o no, pero de ellos no se deriva directamente la cuantía de esa informa-
ción, ya que para interpretarlos hay que tener en cuenta que dependen de la esca-
la en que estén dados los valores de θ. La métrica de las funciones de informa-
ción está condicionada por la métrica elegida para θ.
Teóricamente, θ puede tomar valores en todo el rango de los números reales
R, o sea, desde –∞ a +∞. Por ello, el obtener valores de la función de informa-
ción, ya sean bajos o elevados, puede ser engañoso en cuanto a su valoración e
interpretación. Aun más, siempre es posible transformar un valor de la función
de información en otro cualquiera, haciendo la pertinente transformación de θ.
Capítulo 13. TRI: Funciones de información 373
De lo expuesto acerca de las funciones de información del ítem y del test, y espe-
cialmente del hecho de que la información de un test sea la suma de las funcio-
nes de información de los ítems que lo componen, se puede hacer un uso ade-
cuado para construir tests que gocen de ciertas propiedades deseables.
La forma de proceder para la construcción del test puede ser la siguiente:
3. Elegir los ítems con mayor información y con menor desviación típica.
4. Seleccionar los ítems con curvas de información que se ajusten mejor a
las áreas bajo la curva de información objetivo.
5. Calcular la información acumulada cada vez que se añade un nuevo ítem.
De esta manera, en cada momento del proceso se tiene conocimiento de
la curva de información para el conjunto de los ítems seleccionados.
6. Continuar el proceso hasta que el área bajo la curva de información obje-
tivo esté ajustada con una aproximación satisfactoria.
7. Cuidar en el proceso los efectos que sobre la información tiene la métri-
ca elegida para la escala de aptitud. Puesto que las funciones de informa-
ción dependen de los niveles de la aptitud, y puesto que la métrica para θ
se elige arbitrariamente, es necesario tenerlo en cuenta en todo el proce-
so, y en especial en la interpretación.
8. Calcular la eficiencia relativa, para el análisis de los ítems y para la com-
paración de tests. Por ejemplo, cuando se quieran comparar, en términos
de sus funciones de información, dos tests que evalúen el mismo rasgo,
o cuando se quiera comparar un test consigo mismo al considerar o no
los pesos óptimos de las puntuaciones.
9. Construir la curva que represente la eficiencia relativa de los tests en cada
uno de los valores de θ. Es la llamada función de eficiencia relativa, que per-
mite visualizar en qué puntos son igualmente eficientes (ER = 1), o cuan-
do el test X es más eficiente que el test Y (ER < 1), y en aquellos en los
que fuera la de Y mayor que la de X (ER >1).
10. Tener en cuenta la aplicabilidad de la ER a múltiples propósitos en el dise-
ño y construcción de tests. Esto se debe principalmente a la invarianza de
la ER con respecto a las transformaciones de θ y a que se puede aplicar a
cualquier sistema de puntuaciones en los tests y no solamente al caso de
ítems dicotómicos (Lord, 1980).
Puntos clave
3 La derivada P´(θ) es la pendiente de la CCI que toma valores diferentes para dife-
rentes valores de θ. Por lo tanto, la información que proporciona el ítem varía
con los niveles de θ.
3 La información que proporciona el ítem está directamente relacionada con su
indice de discriminación.
3 La forma analítica de la función de información del ítem depende de la forma
analítica del modelo que se ajusta a ese ítem.
3 La función de información del test se obtiene sumando las funciones de infor-
mación de los ítems para todos los valores de θ.
3 La función de información de un test es inversa a la varianza del estimador máxi-
mo verosímil de la aptitud y equivale a la información de Fisher para esa función
de probabilidad.
3 Se puede construir un test para un perfil de información predeterminado y con
el menor número posible de ítems si, conocidas sus funciones de información,
se eligen los ítems más adecuados para que su suma se ajuste al perfil.
3 Los ítems se pueden ponderar de forma que maximicen la información que pro-
porcionan.
3 El disponer de un banco de ítems calibrados (se han estimado sus parámetros
y se conocen sus características psicométricas) es de gran ayuda en la cons-
trucción de tests, haciendo uso de sus funciones de información.
3 Los valores de la función de información dependen de la escala elegida para θ.
Por ello, hay que interpretarlos en términos relativos y en cada caso concreto.
3 El cociente entre las funciones de información de dos tests es un indicador de
la eficiencia relativa (ER) de uno con respecto al otro.
3 Puesto que la ER varía con los valores de θ, un test puede ser más eficiente que
otro sólo en ciertos valores de θ, siendo al contrario para otros valores de θ y
ser igualmente eficiente en otros.
3 La ER, al ser una magnitud relativa, no varía con transformaciones en la métri-
ca de θ y es aplicable con cualquier sistema de puntuaciones.
3 La invarianza de la ER es muy importante, pues no sólo es un método para com-
parar la eficiencia de dos tests en diferentes valores del rasgo, sino que también
lo es para el diseño y la construcción de tipos específicos de tests, como los
tests adaptativos.
Actividades
r Calcule los valores y represente las curvas de información de los ítems cuyas
funciones de probabilidad se dan en la Tabla 12.2. Discuta acerca de la
información que contiene el test compuesto por esos seis ítems.
376 Principios de Psicometría
r Un test está formado por los ítems de la Tabla 13.2 más otro con a = 2.5
y con b = 2. Represente las funciones de información de cada uno de los
ítems y la del test.
r Si esos ítems pertenecieran a un banco y se quisiera construir un test cuya
información en θ = 1.5 fuese al menos igual a 4, ¿qué ítems se deberían
elegir? ¿Y cuáles se elegirían si a su vez se quiere que la información en
θ = 2 sea al menos igual a 5?
r Suponga que de los siete ítems de la segunda actividad, los cuatro prime-
ros forman un test y los otros tres otro diferente. Calcule la eficiencia rela-
tiva de ambos tests.
r Discuta en el caso anterior en qué valores de θ sería un test más eficiente
que el otro, o si ambos serían igual de eficientes.
r Represente gráficamente las variaciones de la eficiencia relativa de un test
con ítems ponderados, con respecto a ese mismo test sin ponderaciones
de los ítems.
r Si tuviera que hacer un test secuencial con los ítems de la Tabla 13.2 ¿en
qué orden los aplicaría? Y si el test estuviese compuesto por esos ítems más
el séptimo añadido (a = 2.5 y b = 2) ¿cuál de los dos tests sería más efi-
ciente? Justifique las respuestas.
r ¿Cuál es la amplitud del intervalo de confianza de θ para un ítem que se
ajusta a una función logística de dos parámetros, siendo a = 2 y b = 1? Para
resolverlo considere D = 1 y la información (definición 2) que se propor-
ciona en el Cuadro 13.1.
r Busque en la bibliografía el significado que en física tienen los invariantes
y relaciónelo con lo que significa la invarianza de la eficiencia relativa y con
otros conceptos (e.g., invarianza de las puntuaciones, invarianza en las trans-
formaciones, etc.) que se han tratado en este texto.
El sesgo en los tests
Sesgos y comportamiento diferencial
de los ítems 14
Los estudios en cualquier ámbito de la ciencia requieren que se minimi-
cen los errores, pero su credibilidad se sostiene en la ausencia de sesgos,
tanto en sus planteamientos y en los métodos con que se abordan los pro-
blemas, como en la interpretación de las conclusiones. La generalización
del uso de los tests y su influencia en la toma de decisiones en muchos y
muy diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.)
hace que la introducción de sesgos, favoreciendo o perjudicando a algún
grupo de población, tenga importantes implicaciones tanto económicas
como sociales e individuales. La validez del test implica ausencia de ses-
gos. Por ello, uno de los temas de investigación relevantes en psicometría
ha sido el estudio de la equidad y del sesgo de los tests. En las últimas déca-
das, con el uso de la TRI en la construcción de tests, han proliferado los
estudios sobre el funcionamiento diferencial de los ítems.
En este capítulo se va a tratar:
Consistencia interna
Índices de discriminación
Rango de dificultad
Análisis factorial
Uno de los muchos usos que se puede dar al análisis factorial en psicología es para
la detección del sesgo en la evaluación de un constructo.
El análisis factorial sirve para evaluar la estructura interna de un test, descu-
briendo si esa estructura está compuesta por uno o más factores. Por ejemplo, en
el test de agresividad al que nos hemos referido en los Apartados 8.4, 8.7 y 9.5 de
esta obra (AQ de Buss & Perry) se han identificado cuatro factores: agresividad
física, verbal, ira y hostilidad. Si al realizar los análisis los ítems que entran a for-
mar parte de cada uno de esos factores no fuesen los mismos para las muestras
de hombres que para las de mujeres, entonces habría sesgo en su estructura inter-
na y el test no tendría validez. Cuando se hizo la adaptación de ese test a adoles-
centes y niños (Santisteban et al., 2007), fue necesario comprobar que se confir-
maba su estructura de cuatro factores, para lo que se utilizaron las técnicas de
análisis factorial. Si se hubiese encontrado que en los niños o en los adolescentes
(aunque fuese en ambos géneros) en lugar de cuatro sólo se identifican dos fac-
tores, por ejemplo agresividad física y hostilidad, entonces el test AQ no sería váli-
do para esas edades, al menos en lo referente a su estructura interna, y habría ses-
go en las mediciones en esos grupos de edad en relación con las de los adultos,
si se utilizase ese test.
382 Principios de Psicometría
tud ellas tienen mayores probabilidades de acertar el ítem. Esto es, que para tener
la misma probabilidad de acierto en el ítem, los hombres tienen que tener mayor
valor en el rasgo que las mujeres. Ahora bien, si el rasgo que mide el ítem fuese
de otro tipo, por ejemplo intolerancia, el ítem estaría sesgado a favor de los hom-
bres, pues para que se les considerase igualmente intolerantes que las mujeres,
necesitarían mayores valores en ese rasgo.
que cambia el sentido del sesgo. Si en el ejemplo de la Figura 14.2 la curva B corres-
pondiese a mujeres y la A a hombres en relación con una prueba de matemáticas
para su admisión en una universidad, diríamos que el ítem está sesgado a favor
de las mujeres en los niveles medios y altos de la aptitud (a partir de θk = – 0.40)
y a favor de los hombres en los niveles bajos de aptitud, aunque los sesgos que se
presentan en la Figura 14.2 son moderados.
Se han propuesto muchos métodos para detectar el DIF, estando entre los más uti-
lizados el que proponen Holland y Thayer (1988), al aplicar la medida de asocia-
ción de Mantel-Haenszel (1959) al estudio de este problema. Es un método en el
que los datos se disponen en tablas de contingencia y que está basado en el con-
cepto de odds ratio, que se ha traducido como razón de ventajas o razón de plausi-
bilidades. El uso de este método requiere la dicotomía en los ítems y que se dis-
ponga de los datos de cada uno de los sujetos, en cuanto a si han respondido correcta
o incorrectamente al ítem, así como de su puntuación total en el test. Las respues-
tas a cada ítem se suelen codificar como uno (acierto) y cero (error), por lo que la
puntuación total en una prueba de n ítems se obtiene como total de respuestas
correctas, tomando por lo tanto esa suma de aciertos valores entre cero y n.
Capítulo 14. El sesgo en los tests 385
Grupo
Categoría
Referencia Focal Total
1 Acierto a1 c1 m11
Error b1 d1 m21
Total n11 n21 n1
2 Acierto a2 c2 m12
Error b2 d2 m22
Total n12 n22 n2
… … … … …
j Acierto aj cj m1j
Error bj dj m2j
Total n1j n2j nj
… … … … …
k Acierto ak ck m1k
Error bk dk m2k
Total n1k n2k nk
386 Principios de Psicometría
(14.1)
En la práctica, los valores que se obtienen para las odds ratio no suelen ser igua-
les a uno. Por lo tanto, una vez calculados estos valores, en particular αMH , la pre-
gunta inmediata es cuál es la magnitud de las desviaciones al valor uno que pue-
de ser admisible para considerar que no hay DIF. Para ello se propone contrastar
la hipótesis nula:
H0 : αMH = 1
H1: αMH ≠ 1
H1: αMH > 1
H1: αMH < 1
Capítulo 14. El sesgo en los tests 387
k 2
∑aj − ∑E aj − 1 ( ) 2
k
j= 1 j= 1
χ 2MH =
∑ Var (a j )
k (14.2)
j= 1
( )
E aj = ; Var a j =( )
( )
n1j m1j n1j n 2 j m1j m 2 j
n2j n j − 1
(14.3)
nj
k a d − b c 2
∑ j j
j j
j= 1
( )( ) ( ) (b j + d j )
χ 2MH =
n j
a j + bj c j + d j a j + c j
(14.4)
∑
n2j (n j − 1)
k
j= 1
Ejemplo 14.1
Niños Adultos
Aciertos 15 31 128 73
Errores 43 88 14 8
Totales 58 119 142 81
Odds ratio · = 0.99
OR · = 1.00
OR
1 2
* Obsérvese que los datos de las dos categorías (grupos de edad) en esta tabla están dispues-
tos unos al lado de otros, en vez de unos debajo de otros, como en la Tabla 14.1.
(15)(88) + (128)(8)
( )( ) + ( )( )
αMH = 177 223 = 12.05 = 0.995
31 43 73 14 12.11
177 223
Puede comprobarse que este valor es la media de las odds ratio de cada
grupo. Por ello, muchas veces es conveniente tener información de las odds
ratio de cada uno de los grupos pues, si las diferencias entre ellos fuesen muy
grandes, al calcular αMH se pierde gran parte de la información relevante que
proporciona el conocimiento de esas diferencias.
En el caso que nos ocupa, calculado αMH hay que contrastar la hipótesis
H0 : αMH = 1 frente a la alternativa H0 : αMH ≠ 1.
Capítulo 14. El sesgo en los tests 389
+
(58)(119)(46)(131) (142)(81)( 201)( 22)
(177)2 (176) ( 223)2 ( 222)
Ejemplo 14.2
Masculino Femenino
Aciertos 21 30 19 70
Errores 18 50 10 80
Totales 39 80 29 150
Odds ratio · = 1.94
OR · = 2.17
OR
1 2
Cuadro 14.1
( )
simple en el que se regresa la variable Y sobre la variable X es:
E Y X = β0 + β1 x
( ) ()
probabilidad P(x), luego
0 ≤ E Y X =P x ≤1
()
P x =
eβ0 + β1 x
β0 + β1 x
=
(
1
− β0 + β1 x )
1+ e 1+ e
( )
( )
g x = ln
1− P ( x )
= β0 + β1 x
P x
( )
logit p1 = ln
p1
1 − p1
= β0 + β1 x1
( )
logit p 2 = ln
p2
1 − p2
= β0 + β1 x 2
Luego:
( )
( )
p1 1 − p1
(1− p2 )
ln = β1 x1 − x 2
p2
Capítulo 14. El sesgo en los tests 391
¶ ) al cociente:
denominándose odds ratio (OR
( )
p1 1 − p1
p2 (1− p2 )
siendo
¶ = e β 1 ( x1 − x 2 )
OR
Ejemplo 14.3
Variable Y
Variable X Totales
Acierto Error
Mujeres 30 10 40
Hombres 8 48 56
Totales 38 58 96
(
¶ = pˆ 1 1 − pˆ 2 = 18 )
(
pˆ 2 1 − pˆ 1 )
OR
En los modelos TRI, si un ítem que mide un cierto rasgo θ está calibrado, es de
esperar que ese ítem produzca las mismas mediciones para cualquier sujeto, con
independencia del grupo de población al que pertenezca. Por lo tanto, bajo esos
supuestos, los tests formados por ítems homogéneos para la medición de ese
rasgo, es de esperar que estén ausentes de sesgo. No obstante, como el sesgo
no es una cuestión teórica sino que en la práctica se pueden introducir sesgos
en cualquier fase de la construcción, de la administración o de la evaluación de
un test, es conveniente tener herramientas que ayuden a detectar la presencia
de esos sesgos. Sólo así se puede proceder a su análisis, a detectar sus posibles
fuentes y a tratar de eliminarlos o, al menos, saber que existen y valorar sus posi-
bles consecuencias.
En la TRI la presencia de sesgo se detecta comparando las CCI estimadas para
los diferentes grupos. Siguiendo la nomenclatura anterior, a esos grupos se les
puede llamar grupo focal y de referencia. En la Figura 14.3 se muestra la ausen-
cia de sesgo comparando dos grupos, aunque actúan de forma diferenciada en el
ítem.
En las Figuras 14.4 y 14.5 se muestran ítems sesgados. En la Figura 14.4 el
ítem que se representa está sesgado en todo el rango de θ a favor de uno de los
grupos (sesgo uniforme). En la Figura 14.5 el ítem representado también está ses-
gado, pero el signo del sesgo depende de si el valor de θ pertenece a los niveles
bajos o altos de la aptitud. Para dos sujetos con igual valor en el rasgo, si esos valo-
res son bajos, el sujeto del grupo A tiene más probabilidad de acertar el ítem que
el del grupo B. Sin embargo, para valores del rasgo superiores a 0.4, es el del gru-
po B el que tiene mayor probabilidad de acertar el ítem.
Capítulo 14. El sesgo en los tests 393
Figura 14.3. Ítem insesgado. Las curvas inferiores representan las distribuciones
de las puntuaciones de los grupos A y B.
a) El cálculo del área entre las CCI de ambos grupos, que si hay sesgo no serán
coincidentes.
b) Comparar las diferencias entre las probabilidades en ambos grupos.
c) Comparar los parámetros (en principio invariantes) de los ítems.
d) Comprobar el ajuste al modelo elegido y evaluar la bondad del ajuste con
ambos grupos.
e) Comparar los modelos mediante el test de razón de verosimilitudes.
∫−∞
∞
Ds = PA ( θ) − PB ( θ) dθ (14.5)
Ds ≈ ∑ PA ( θk ) − PB ( θk ) ∆θ
n
(14.6)
k=1
que corresponde a la suma de las áreas de todos los rectángulos con base ∆θ y
altura |PA(θ) – PB(θ)| en el rango de θ que sea de interés, por ejemplo, entre –3
y +3 con ∆θ = 0.10 (para más detalle véase Santisteban, 1990a, pág. 364). Tanto
en la ecuación (14.5) como en la (14.6) las diferencias se toman en valor absolu-
to ya que, por una parte, no tendría sentido hablar de áreas negativas y por otra,
en los casos en los que el sesgo fuese no uniforme, las diferencias serían positi-
vas en un cierto rango de θ y negativas en el otro (como se puede observar, por
ejemplo en la Figura 14.5) dando un valor Ds inferior al real, o incluso nulo, fal-
seando así el verdadero valor de la diferencia existente entre las áreas de ambas
curvas y por lo tanto del DIF.
Es evidente que para utilizar este método hay que haber estimado previamente
los parámetros característicos del ítem y las variaciones de θ en uno y otro gru-
po, teniendo en cuenta que ambas CCI deben estar representadas sobre el mis-
mo continuo de la aptitud θ. Esto requiere que se trabaje con valores que estén
estandarizados, tanto para θ como para los coeficientes de dificultad, debiéndo-
se tener en cuenta las condiciones para la invarianza de θ con respecto a trans-
formaciones de la escala (Apartado 12.2).
Entre los problemas que plantea este método, y que no lo hacen muy acon-
sejable a pesar de su sencillez, es que considera la uniformidad en las áreas. Es
decir, que todas las áreas tienen el mismo peso, con independencia de dónde esté
situado el ∆θ correspondiente a cada uno de los rectángulos que contribuyen al
cálculo del área total. Otro aspecto que no se contempla y que tiene un gran efec-
to sobre el cálculo del área entre las curvas es si la probabilidad de aciertos por
azar (parámetro c) es diferente en uno u otro grupo. Además este método tam-
poco provee de algún criterio o prueba de significación que indique a partir de
qué valor esa área tiene un valor significativo para considerar que existe DIF.
Una de las formas de resolver estos problemas en los tests es hacer un análisis
individualizado de cada uno de los ítems del test y observar el comportamiento
396 Principios de Psicometría
PR ( θj ) − PF ( θj )
Dp = ∑
nF
(14.7)
j=1 nF
H0 : vA= vB
H1: vA ≠ vB
Capítulo 14. El sesgo en los tests 397
que sigue una distribución χ2 con tantos grados de libertad como el número de
parámetros (de los ítems) que se comparan. En el caso particular del modelo de
Rasch ese estadístico es:
Q = ( b A − bB ) ( )
−1
−1 −1
I A + IB
2
Una explicación más detallada de las bases de algunos de los procedimientos TRI
se puede encontrar en Santisteban (1990a), aunque entre los métodos más efica-
ces con los que actualmente se cuenta están los Mantel-Haenszel entre los no
paramétricos, y los basados en la razón de verosimilitudes entre los paramétricos.
En cualquier caso, como a la literatura se van incorporando nuevos desarrollos,
se requiere que los especialistas hagan una revisión actualizada en el momento en
el que se vaya a proceder, no sólo para elegir el método más adecuado de acuer-
do con sus objetivos y las características de sus datos, sino también en lo relacio-
nado con la parte sustantiva del sesgo, que ha quedado relegada en comparación
con la más técnica, como se indica en AERA, APA & NCME (1999).
Los análisis del DIF, como hemos ido mencionando para otras cuestiones
referentes a los modelos TRI, cuentan con software adecuado, al menos para los
modelos dicotómicos y algunos politómicos (BILOG, PARSCALE, etc.). Los
estudios del DIF en modelos con ítems politómicos se han planteado en la mayo-
ría de los casos como una extensión de los métodos utilizados en los modelos
dicotómicos y en la actualidad existen bastantes propuestas en la literatura espe-
cializada. Aunque su aparición es relativamente reciente y presentan algunos pro-
blemas específicos derivados del tipo de respuesta, se pueden encontrar buenos
resúmenes (e.g., Penfield y Lam, 2000) sobre diferentes técnicas de identificación
del DIF en estos modelos.
Puntos clave
Actividades
La teoría de la medida abarca casi todos los campos, desde el filosófico hasta el
matemático, dando explicación a multitud de aspectos de la vida diaria. En psi-
cología se ha ido generando todo un cuerpo de conocimientos, generalmente en
el seno de la psicometría y muy especialmente en el de la psicología matemática,
desarrollándose en esos contextos la denominada teoría de la medición psicoló-
gica, que no es un tema fácil si se quiere abordar en profundidad. En este texto
no se intenta hacer una disertación sobre la teoría de la medición, que en el de-
sarrollo de sus fundamentos lógicos y su axiomatización tiene un referente claro
en Hölder (1901). Sin embargo, se introducen las nociones y conceptos que pue-
den ayudar a entender el significado de los tests e interpretar la información que
proporcionan las medidas que con ellos se obtienen.
La cotidianidad en el uso de los instrumentos para la medición de los atribu-
tos físicos, al compararlos con los psicológicos, hace que surjan dudas de si estos
últimos son medibles y si hay instrumentos adecuados para hacerlo, ya que la
mayoría no son directamente medibles. Sin embargo, los tests son instrumentos
de medida que, al igual que los que se utilizan en el mundo físico, dan cuenta de
manifestaciones observables. En general, en el ámbito de lo físico y de lo psico-
lógico la primera cuestión es si el atributo pertenece a los que se han dado en lla-
mar cualitativos o a los cuantitativos. Los conceptos cualitativos son aquellos que son
comparativos o simplemente clasificatorios. Los conceptos cuantitativos son los
mensurables y/o métricos. La inclusión o clasificación de conceptos concretos en
una u otra clase es casi siempre un problema epistemológico, si bien es evidente
que en la naturaleza o en la realidad que se esté estudiando, existen propiedades
que indican que el fenómeno que se estudia haya que considerarlo esencialmen-
te cualitativo, o bien, esencialmente cuantitativo. En cualquier caso, esa clasifica-
ción depende tanto de la naturaleza del fenómeno, como de la atribución de cua-
litativo o cuantitativo que le hace quien lo estudia, basándose en la estructura
conceptual desde la que aborda ese estudio e incluso de las necesidades o exi-
gencias del experimentador. Al no ser ningún fenómeno estrictamente cualitati-
vo o cuantitativo, per se, es responsabilidad de quien lo estudia el incluirlo en una
u otra clase (Santisteban, 2003). Las llamadas ciencias físicas no tienen dificultad
en considerarse cuantitativas y el concepto de medición en ellas es tan funda-
mental y está tan arraigado, que es difícil imaginar que pensaran prescindir de él.
La psicología y las ciencias sociales se han ido incorporando a las ciencias cuan-
Capítulo 15. Medición y psicometría 403
Cuadro 15.1
medir es asignar números a las cosas, o bien, que medir es asignar números a las propiedades
de los objetos. Estas definiciones son incorrectas por imprecisas, pues la simple asig-
nación de números no garantiza: que esos números representen las propiedades
específicas de los elementos que se quieren expresar, es decir sus magnitudes; que
sea su representación inequívoca; que permitan la manipulación experimental, así
como la comparación con otras mediciones o magnitudes. Esto es, las represen-
taciones numéricas de las propiedades de los objetos o elementos, a lo que se lla-
ma magnitudes, deben ser resistentes a la manipulación experimental y ser sus-
ceptibles de operar matemáticamente con ellas, conservando tras esas operaciones
su sentido y propiedades, permitiendo además que se pueda hacer con ellas com-
paraciones y predicciones. Por lo tanto, para resolver el problema de la unicidad
es necesario que existan transformaciones admisibles para la transformación de
las puntuaciones. El conjunto de todas las transformaciones admisibles en el sis-
tema numérico indica si se tiene o no unicidad de la medida y determina el tipo
de escala.
Ahora bien, para que se mantengan las propiedades y las comparaciones, se
tienen que mantener las distancias entre las puntuaciones que las representan.
Esto conlleva haber definido con anterioridad el espacio métrico, pues un espacio
métrico es un conjunto de elementos entre los que se ha definido una distancia
(o sea, una métrica) y que esta métrica permita hacer operaciones con los ele-
mentos, operaciones que tendrán en cada caso unas determinadas propiedades.
Por lo tanto, la medición aparece como consecuencia lógica de la metrización de
los espacios y habrá distintos tipos de espacios métricos dependiendo de las pro-
piedades que cada espacio posea. La definición de la distancia, sus propiedades y
las operaciones que se puedan realizar con esa distancia es lo que determina la
estructura de ese espacio métrico.
El problema de la representación
Este problema surge ante la hipotética pregunta de si se pueden medir todos los
atributos. Es decir, si las relaciones que se observan en el sistema empírico (en el
mundo real) se pueden describir mediante sistemas formales (el sistema numéri-
co). De forma general, se puede decir que el problema de la representación con-
siste en representar un sistema de relaciones empíricas por un sistema relacional
formal (el modelo), y si el modelo es numérico, la representación se llama medición.
Si en el sistema empírico A se establecen las relaciones R y en el sistema numé-
rico B las relaciones S, se dice que el sistema empírico está representado por el numé-
rico, si existe una función f de A en B (cada elemento a de A tiene una imagen úni-
ca f (a) en B) tal que para cualesquiera elementos a, b en A, se dé la siguiente relación:
a R b ⇒ f(a) S f(b)
O sea, que si el sistema empírico está representado por el numérico, existe una
correspondencia f que aplica A en B, de modo que la relación R que se da entre
Capítulo 15. Medición y psicometría 407
El problema de la unicidad
dez de los supuestos subyacentes, aun cuando los números que se hayan asigna-
do a los objetos o a sus propiedades no estén soportados por un modelo de medi-
ción bien definido.
es una medida indirecta, pues para cada persona se obtiene como cociente entre
la edad mental y la cronológica. Este cociente, aun bajo su aparente simplici-
dad, es una medida doblemente indirecta, pues la medición de la edad mental
se obtiene tras la aplicación de tests, como ocurre con muchas otras medidas
psicométricas, que son mediciones inferidas de las puntuaciones en tests, asu-
miendo que todas esas medidas tienen todas las debidas garantías de precisión
y de validez.
Campbell (1957) dice que aunque las unidades de algunas magnitudes fuese
relativamente fácil medirlas directamente, es preferible definirlas en términos de
medición indirecta. Creemos que el problema no radica en que la medición sea
directa o indirecta, sino que lo fundamental es, por un lado, asegurarse en qué gra-
do la medida indirecta mide aquello que se quiere medir, es decir, el problema de
la validez de la medición y, por otro, cuál es la precisión de esas medidas.
Cuadro 15.2
1) escalas ordinales
2) escalas de intervalo
3) escalas de razón
Escalas ordinales
Escalas ordinales son las que tratan con estructuras en las que, o bien sólo se
conoce el orden de los elementos, o bien sólo el orden de los elementos es rele-
vante. Un conjunto A de elementos estará débilmente ordenado si entre esos ele-
mentos se establece la relación de preferencia o de indiferencia, que es una rela-
ción binaria y transitiva sobre A. Para dos elementos diferentes a y b de A, o el
elemento a se prefiere a b, o bien el b se prefiere a a. Si esas relaciones entre los
objetos se conservan en los números reales que los representan, entonces la rela-
ción a se prefiere a b (b ≺ a) se transforma en b < a y si a es indiferente a b (a ~ b), enton-
ces es en el sistema numérico a = b.
Si es R el conjunto de los números reales, una función f : (A, ≺ ) → (R, ≤) es
una escala ordinal y A es escalable. Esas funciones f que preservan el orden son
monótonas.
Al ser las escalas ordinales muy débiles, son las que menos se han desarrolla-
do en la teoría matemática, en comparación con las escalas de intervalo y las de
razón. Sin embargo, en psicología se les ha prestado atención y ha sido Droste
(1987) uno de los autores que más se ha ocupado del papel que juegan estas esca-
las en el contexto de la teoría de la medición.
Los tipos más importantes de escalas son las de intervalo y las de razón. Son esca-
las únicas sobre un grupo de transformaciones lineales unidimensionales. Esto
es, si se considera el grupo de transformaciones lineales (positivas) de los núme-
ros reales en los números reales (de R en R), y si es x un elemento genérico del
sistema empírico, cuya imagen en el sistema numérico es f(x), se tiene una escala
de intervalo o de razón cuando el conjunto de todas las transformaciones admi-
sibles f son de tal forma que:
La exigencia de que sea a > 0 lo que implica es que la escala tiene una relación
de orden empírica, que viene representada por el orden existente en R. Si fuese
a < 0, entonces no se preserva el orden.
414 Principios de Psicometría
En el caso en que sea b ≠ 0 (b ∈ R), se dice que la escala es una escala de inter-
valo, y si b = 0 entonces es una escala de razón.
Las escalas de intervalo y de razón implican la igualdad de intervalos. Esta
igualdad se da si diferencias equivalentes entre las magnitudes representan la mis-
ma cantidad de diferencia en la propiedad que se mide. Adicionalmente, las esca-
las de razón, admiten que la medida tenga cero absoluto.
El tipo de escala viene definido por el tipo de transformación admisible, esto
es, por el tipo de transformaciones que mantienen su correcta representación. La
escala de medida que se use predetermina el modelo de escalamiento. El tipo de
transformaciones admisibles de los valores de la escala que preservan la precisión
en las predicciones de ese modelo define el nivel de medida que se obtiene median-
te la escala.
Cuadro 15.3
Transformaciones admisibles
Cuadro 15.3
Escalas estandarizadas
Normas centiles
Las normas centiles dan la posición relativa del sujeto con respecto al grupo al
que pertenece. Una vez que se ordenan (generalmente en orden creciente) y se
tabulan las puntuaciones, observando su valor y su frecuencia, se calculan las fre-
cuencias acumuladas, pudiéndose determinar así el porcentaje de sujetos que alcan-
zan un valor menor o igual a una puntuación dada y hacer divisiones o clases de
acuerdo con esos porcentajes.
420 Principios de Psicometría
Puntuación: Xi 0 1 2 3 4 5 6 7 8 9 10
Frecuencia: Ni 2 3 5 15 10 15 15 10 10 5 10
Frecuencias
2 5 10 25 35 50 65 75 85 90 100
acumuladas
Las normas que acompañan a los tests deben explicitar el tipo de escala y
deben ser claras, pues se establecen para facilitar la interpretación de las puntua-
ciones a los usuarios de los tests. Una revisión escueta y actualizada de los dife-
rentes tipos de normas se puede consultar en Thorndike (2005).
Equiparación de puntuaciones
Y−Y X−X
=
sY sX
Ye = (X − X) + Y
sY
sX
Xe = X ( Y − Y ) + X
s
sY
Ejemplo 15.1
Vj = ∑ Pi ( θj )
n
i=1
Puntos clave
Actividades
AERA, APA & NCME (1999). American Educational Research Association, American
Psychological Association, and National Council on Measurements in Education.
Standards for educational and psychological testing. Washington, D.C.: American Education-
al Research Association.
Alvarado, J. M. & Santisteban, C. (2006). La validez en la medición psicológica. Aula abierta.
Madrid: Ediciones UNED.
Amón, J. (1984). Estadística para psicólogos. Vol. 2 (3ª ed.). Madrid: Pirámide.
Anastasi, A. (1950). The concept of validity in the interpretation of test scores. Educational and
Psychological Measurement, 10, 67-78.
— (1954). Psychological testing. New York: MacMillan.
Anastasi, A. & Urbina, S. (1997). Psychological testing. (7ª ed.) Englewood Cliffs. NJ: Pren-
tice-Hall.
Andersen, E. B. (1973). Conditional inference and models for measuring. Copenhagen: M. Forlag.
Andrich, D. (1995). Models for measurement: Precision and the non-dichotomization of graded
responses. Psychometrika, 60, 7-26.
— (1996). Measurement criteria for choosing among models for graded responses. En A. von Eye
& C. C. Clogg (ed.). Analysis of categorical variables in developmental research (págs. 3-35).
Orlando, Fl: Academic Press.
Angoff, W. H. (1982). Used of difficulty and discrimation indices for detecting item bias. En R.A.
Berk (ed.). Handbook of methods for detecting test bias. Baltimore, MD: The Johns Hop-
kins University Press.
APA (1954). American Psychological Association. Technical recommendations for psychologi-
cal tests and diagnostic techniques. Psychological Bulletin, 51, 201-238.
Baker, F. B. (1992). Item response theory: Parameter estimation techniques. New York, NY: Mar-
cel Dekker.
432 Principios de Psicometría
Baker, F. B. & Kim, S. H. (2004). Item response theory: Parameter estimation techniques. (2ª ed.).
New York: Marcel Dekker.
Bartholomew, D. J., Steele, F., Moustaki, I. & Galbraith, J. I. (2002). The analysis and inter-
pretation of multivariate data for social scientists. Boca Ratón: Chapman and Hall/CRC.
Barton, M. A. & Lord, F. M. (1981). An upper asymptote for the three parameter logistic item-
response model. Research Bulletin, 8120, Princeton, NJ: Educational Testing Service.
Becker, K. A. (2003). History of the Stanford-Binet intelligence scales: Content and psychometrics.
(Stanford-Binet Intelligence Scales, Fifth Edition Assessment Service Bulletin No. 1).
Itasca, IL: Riverside Pub.
Binet, A. (1886). La psychologie du raisonnement: recherches exp¯rimentales par l’hypnotisme.
Paris, F. Alcan. (Traducida al inglés como The psychology of reasoning. Chicago, IL, Open
Court, 1896).
— (1887). On double consciousness: Experimental psychological studies (2007) Kessinger Pub.
— (1903). L’etude exp¯rimentale de l’Intelligence. Paris. Schleicher.
Binet, A. & F¯r¯, C. (1887). Le magn¯tisme animal. Paris: Felix Alcan.
Binet, A. & Henri, V. (1895). La psychologie individuelle. L’ann¯e Psychologique, 2, 411-463.
Binet, A. & Simon, T. H. (1905). Application de m¯thodes nouvelles au diagnostic du niveau inte-
llectuel chez les enfants anormaux d’hospice et d’¯cole primaire. L’ann¯e Psychologique, 11,
191-244.
— (1908). Le d¯veloppement de l’intelligence chez l’enfant. L’ann¯e Psychologique, 14, 1-94.
(Traducida por E. S. Kite al inglés como The development of intelligence in children. 1916.
Vineland, NJ.: Publications of the Training School at Vineland).
— (1911). La mesure du d¯veloppment de l’intelligence chez les jeunes enfants. Paris: A. Coneslant.
Birnbaum, A. (1968). Some latent trait models and their use in inferring a examinee’s ability. En
F. M. Lord & M. Novick. Statistical theories of mental test scores (págs. 395-479). Menlo
Park, CA: Addison Wesley Pub.
— (1969). Statistical theory for logistic mental test models with a prior distribution of ability. Journal
of Mathematical Psychology, 6, 258-276.
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two
or more nominal categories. Psychometrika, 37, 29-51.
Bock, R. D. & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters:
an application of an EM algorithm. Psychometrika, 46, 443-459.
Bookstein, A. (1996). Informetric distributions. III. Ambiguity and randomness. Journal of the
American Society for Information Science, 48, 2-10.
Bibliografía 433
Borsboom, D., Mellenbergh, G. J. & Van Heerden, J. (2004). The concept of validity. Psy-
chological Review, 111, 1061-1071.
Brennan, R. L. (2001). Generalizability theory (2ª ed.). New York: Springer-Verlag.
Bridgman, P. W. (1922). Dimensional Analysis. New Haven: Yale University Press.
Bryant, F. B. & Yarnold, P. R. (1995). Principal-components analysis and exploratory and confirm-
atory factor analysis. En L. G. Grimm & P. R. Yarnold, Reading and understanding multi-
variate analysis. (Capítulo 4). American Psychological Association Books.
Burt, C. (1955). Test reliability estimated by analysis of variance. British Journal of Statistical
Psychology, 8, 103-118.
Buss, A. H. & Durkee, A. (1957). An inventory for assessing different kinds of hostility. Journal
of Consulting Psychology, 21, 343-348.
Buss, A. H. & Perry, M. (1992). The aggression questionnaire. Journal of Personality and
Social Psychology, 63, 452-459.
Camilli, G. & Shepard, L. (1994). Methods for identifying biased test items (Measurement methods
for the social science. Series 4). Thousand Oaks: Sage.
Campbell, N. R. (1920/1957). Physics: The elements. London: Cambridge University Press.
(Reimpreso en 1957 como Foundations of Science. New York: Dover)
— (1928). An account of the principles of measurement and calculation. London: Logmans
Green.
Campbell, D. T. (1957). Factors relevants to the validity of experiments in social settings. Psycho-
logical Bulletin, 54, 297-312.
— (1960). Recommendations for APA test standards regarding construct, trait and discriminant
validity. American Psychologist, 15, 546-553.
Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-
multimethod matrix. Psychological Bulletin, 56, 81-104.
Campbell, D. T. & Stanley, J. C. (1963). Experimental and quasi-experimental designs for research
and teaching. En N. L. Gage (ed.). Handbook of Research on Teaching. Chicago: Rand
McNally.
Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. London:
Sage.
Clearly, T. A. & Hilton, T. L. (1968). An investigation of item bias. Educational and Psy-
chological Measurement, 28, 61-75.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
College Board (2006). SAT Reasoning Test. Utilizado el 12/01/2009 de http://www.col-
legeboard.com/student/testing/sat/about/SATI.html.
434 Principios de Psicometría
Connolly, A. J., Nachtman, W. & Pritchett, E. M. (1971). Key math diagnostic arithmetic test.
Circle Pines, MN.: American Guidance Service.
Coombs, C. H. (1952). A theory of psychological scaling. Engineering Research Bulletin, 34.
Ann Arbor: University of Michigan Press.
Coombs, C. H., Raiffa, H. & Thrall, R. M. (1954). Some views on mathematical models and
measurement theory. Psychological Review, 61, 132-144.
Croker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York. Holt,
Rinehart and Winston.
Cronbach L. J. (1949/1990). Essentials of psychological testing. (5ª ed.). New York. Harper
& Row.
— (1951). Coefficient alpha and the internal structure of tests. Psychometrika 16, 297-334.
— (1971). Test validation. En R. L. Thorndike (ed.). Educational measurement. (2ª ed.).
Washington: American Council of Education.
— (1975). Five decades of public controversy over mental testing. American Psychologist, 30, 1-14.
— (1989). Construct validation after thirty years. En R. L. Linn (ed.). Intelligence: Measurement,
theory and public policy. Urbana, IL.: University of Illinois Press, págs. 147-171.
Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological
Bulletin, 51, 281-302.
Cronbach, L. J., Rajaratnam, N. & Gleser, G. C. (1963). Theory of generalizability. A liber-
alization of the reliability theory. British Journal of Mathematical and Statistical Psycho-
logy, 16, 137- 173.
Cronbach, L. J. & Gleser, G. C (1965). Psychological tests and personnel decisions (2ª ed.). Cham-
paign: University of Illinois Press.
Cronbach, L. J., Gleser, G. C., Nanda, H. & Rajaratnam, N. (1972). The dependability of
behavioral measurements: Theory of generalizability for scores and profiles. New York: John
Wiley.
Cronbach, L. J. & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and succesor
procedures. Educational and Psychological Measurement, 64, 391-418.
Cureton, E. E. (1950). Validity, reliability and baloney. Educational and Psychological Mea-
surement, 10, 94-96.
Darlington, R. B. (1990). Regression and linear models. New York: McGraw-Hill.
Deville, C. W. & Prometric, S. (1996). An empirical link of content and construct validity evi-
dence. Applied Psychological Measurement, 20, 127-139.
Ding, C. S. & Hershberger, S. C. (2002). Assessing content validity and content equivalence using
structural equation modeling. Structural Equation Modeling, 9, 283-297.
Bibliografía 435
Draper, N. R. & Smith, H. (1981). Applied regression analysis (2ª ed.). New York: John Wiley.
Dressel, P. L. (1940). Some remarks on Kuder Richardson reliability coefficient. Psychometrika
5, 305-310.
Droste, M. (1987). Ordinal scales in the theory of measurement. Journal of Mathematical Psy-
chology, 31, 60-82.
Ellis, B. (1968). Basic concepts of measurement. Cambridge: Cambridge University Press.
Embretson, S. E. (1983). Construct validity. Construct representation versus nomothetic span. Psy-
chological Bulletin, 93, 179-197.
Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, N.J.:
Lawrence Erlbaum.
ETS, 2008. Página WEB del Educational Testing Service. Escriba CAT en http://search.ets.org.
Utilizada el 12/01/2009.
Fan, X. & Thompson, B. (2001). Confidence intervals for effect sizes. Confidence intervals about
score reliability coefficient, please: An EPM guideline editorial. Educational and Psycholog-
ical Measurement, 61, 517-531.
Fechner, G. T. (1860). Elemente der psychophysik. Leipzig: Breitkopf und Hartel. Traduc-
ción inglesa por H. E. Adler. Elements of psychophysics. (1966). New York: Holt, Rine-
hart & Winston.
Feldt, L. S. (1990). The sampling theory for the intraclass reliability coefficient. Applied Measure-
ment in Education, 3, 361-367.
Feldt, L. S., Woodruff, D. J. & Salih, F. A. (1987). Statistical Inference for coefficient alpha.
Applied Psychological Measurement, 11, 93-103.
Feldt, L. S. & Brennan, R. L. (1989). Reliability. En R.L. Linn (ed.). Educational measure-
ment (3ª ed., págs. 105-146). Washington, DC: American Council on Education.
Ferguson, G. A. (1942). Item selection by the constant process. Psychometrika, 7, 19-29.
Fischer, G. H. & Molenaar, I. W. (1995). Rasch Models. Foundations, Recent Developments, and
Applications. New York: Springer-Verlag.
Fishburn, P. C. (1964). Decision and value theory. New York: John Wiley.
— (1970). Utility theory for decision making. New York: John Wiley.
Gleser, G. C., Cronbach, L. J. & Rajaratnam, N. (1965). Generalizability of scores influenced
by multiple source of variance. Psychometrika, 30, 395-418.
Gorsuch, R. L. (1983). Factor analysis (2ª ed.). Hillsdale, NJ: Lawrence Erlbaum. Orig ed.
1974.
Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Meas-
urement, 6, 427-439.
436 Principios de Psicometría
Hsu, L. M. (2004). Biases of success rate differences shown in binomial effect size displays. Psy-
chological Methods, 9, 183-197.
Hull, C. L. (1928). Aptitude Testing. L.W. Terman (ed.). Yonkers-on-Hudson, N.Y: World
Book Co.
Jackson, R. W. & Ferguson, G. A. (1941). Studies on the reliability of test. Bulletin No. 12.
Department of Educational Research. University of Toronto.
Jarjoura, D. & Brennan, R. L. (1982). A variance components model for measurement procedures
associated with a table of specifications. Applied Psychological Measurement, 6, 161-171.
Jensema, C. J. (1976). A simple technique for estimating latent trait mental test parameters. Edu-
cational and Psychological Measurement, 36, 705-715.
Knott, M. & Bartholomew, D. J. (1999). Latent variable models and factor analysis (2ª ed.).
London: Edward Arnold.
Kolmogorov, A. N. (1950). Foundations of the theory of probability. New York: Chelsea Pub-
lishing.
Koslow, A. (1981). Quality and quantity: Some aspects of measurement. En Proceedings of the
Philosophy of Science Association, PSA, 1, 183-198.
Kranz, D. H., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement.
Vol 1. New York: Academic Press.
Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psy-
chometrika, 2, 151-160.
Kuhn, T. S. (1961). The function of measurement in modern Physical Science. Isis, 52, 161-193.
— (1962). The structure of scientific revolutions. Chicago: University Chicago Press.
Kyburg, H. E. (1984). Theory and measurement. Cambridge studies in phylosophy. London: Cam-
bridge University Press.
Lawley, D. N. (1943). On problems connected with item selection and test construction. Proceeding
of the Royal Society of Edinburgh, 61, 273-287.
— (1944). The factorial analysis of multiple item tests. Proceedings of the Royal Society of
Edinburgh, 62A, 74-82.
Lawley, D. N. & Maxwell, A. E. (1971). Factor analysis as a statistical method. London: But-
terworth & Co.
Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. En
S. A. Stoufer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen
(eds.). Measurement and Prediction: Studies in Social Psychology in World War II, Vol. 4.
Princeton: Princeton University Press.
Levy, P. (1937). Théorie de l’addition des variables aléatoires (2ª ed. 1954). Paris: Gauthier-Villars.
438 Principios de Psicometría
Linn, R. L. & Harnish, D. L. (1981). Interactions between item content and groups membership on
achievment test items. Journal of Educational Measurement, 18, 109-118.
Loevinger, J. (1957). Objetive tests as instruments of psychological theory. Psychological Reports,
3, 635-694 (Monograph supplement 9).
Lord, F. M. (1952). A theory of test scores. Psychometric Monographs, 7.
— (1953a). The relation of test score to the trait underlying the test. Educational and Psycho-
logical Measurement, 13, 517-548.
— (1953b). An application of confidence intervals of maximum likelihood to the estimation of an
examinee’s ability. Psychometrika, 18, 57-76.
— (1963). Elementary models for measuring chance. In Harris, C. W. (ed.). Problems in mea-
suring change (págs. 21-38). Madison: University of Wisconsin Press.
— (1965). A strong true-score theory, with applications. Psychometrika, 30, 239-270.
— (1968). An analysis of the verbal scholastic aptitude test using Birbaum’s three-parameter logis-
tic model. Educational and Psychological Measurement, 28, 989-1020.
— (1975a). The ‘ability’ scale in item characteristic curve theory. Psychometrika, 40, 205-217.
— (1975b). Evaluation with artificial data of a procedure for estimating ability and item character-
istic curve parameters. Research Bulletin, 75-133. Princeton, NJ: Educational Testing
Service.
— (1980). Applications of item response theory to practical testing problems. Hillsdale, New Jersey:
Lawwrence Erlbaum Associates.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Menlo Park, CA:
AddisonWesley Publishing Company.
Loveland, E. H. (1952). Measurement of factors affecting test-retest reliability. Ph. D. Thesis.
University of Tennessee.
Luce, R. D. & Raiffa, H. (1957). Games and decisions. New York: John Wiley.
Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of fundamental
measurement. Journal of Mathematical Psychology, 1, 1-27.
Lumsden, J. (1961). The construction of unidimensional tests. Psychological Bulletin, 58,
122-131.
Mach, E. (1960). The science of mechanics. La Salle: Open Court.
Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective
studies of disease. Journal of National Cancer Institute, 22, 719-748.
Meliá, J. L. & Santisteban, C. (2009). Métodos de estimación en los modelos TRI. En prensa.
Mellenbergh, G. J. (1982). Contingency table models for assessing item bias. Journal of Educa-
tional Statistics, 7, 107-118.
Bibliografía 439
Reckase, M. D. (1979). Unifactor latent trait models applied to multifactor tests: results and impli-
cations. Journal of Educational Statistics, 4, 207-230.
Rentz, R. R. & Bashaw, W. L. (1977). The national reference scale for reading: An application of
the Rasch model. Journal of Educational Measurement, 14, 161-179.
Richardson, M. W. (1936). The relationship between the difficulty and the differential validity of a
test. Psychometrika, 1, 33-49.
Richardson, M. W. & Kuder, G. F. (1939). The calculation of test reliability coefficients based on
the method of rational equivalence. Journal of Educational Psychology, 30, 681-687.
Rosenthal, R. (1990). How are we doing in soft Psychology? American Psychologist, 45, 775-
777.
Rosenthal, R. & Rubin, D. B. (1979). Comparing significance levels of independent studies. Psy-
chological Bulletin. 86, 1165-1168.
— (1982). A simple, general purpose display of magnitude of experimental effect. Journal of Edu-
cational Psychology, 74, 166-169.
Rosenthal, R. & Rosnow, R. L. (2008). Essentials of behavioral research: Methods and data
analysis (3ª ed.). New York: McGraw-Hill.
Roskam , E. E. & Jansen, P. G. (1984). A new derivation of the Rasch model. En E. Degreef
& V. Buggenhaut (eds.). Trends in mathematical psychology (págs. 293-307). Ámsterdam:
North Holland.
Rudner, L. M., Getson, P. R. & Knight, D. L. (1980). Biased item detection techniques. Jour-
nal of Educational Statistics, 5, 213-233.
Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by splithalves. Har-
vard Educational Review, 9, 99-103.
— (1946). On the validity of educational tests. Harvard Educational Review, 16, 290-296.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psy-
chometric Monograph, No. 17.
— (1972). A general model for freeresponse data. Psychometric Monograph, No. 18.
— (1973). Homogeneous case of the continuous response model. Psychometrika, 38, 203-
219.
— (1974). Normal ogive model on the continuous response model in the multidimensional latent space.
Psychometrika, 39, 111-121.
— (1977). A method of estimating item characteristic functions using the maximum likelihood esti-
amte of ability. Psychometrika, 42, 163-191.
Santisteban, C. (1984). Los modelos del rasgo latente en la teoría de los tests. Madrid: Publica-
ciones DMCC.
— (1990a). Psicometría: Teoría y práctica en la construcción de tests. Madrid: Ediciones Norma.
Bibliografía 441
Stegelmann, W. (1983). Expanding the Rasch model to a general model having more than one dimen-
sion. Psychometrika, 48, 259-267.
Stern, W. (1912). The psychological methods of intelligence testing. Baltimore: Warwick and York.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677-680.
— (1951). Mathematics, measurement, and psychophysics. En S. S. Stevens (ed.), Handbook of
experimental psychology (págs. 1-49). New York: Wiley.
Suppes, P. & Zinnes, J. L. (1963). Basic measurement theory. En R. D. Luce, R. R. Bush &
E. Galanter (eds.), Handbook of mathematical psychology, vol I. (págs. 3-76). New York:
Wiley.
Swaninathan, H. & Gifford, J. A. (1982). Bayesian estimation in the Rasch model. Journal of
Educational Statistics. 7, 175-191.
Swaminathan, H. & Rogers, H. J. (1990). Detecting differential item functioning using logistic
regression procedures. Journal of Educational measurement 27, 361-370.
Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effective-
ness of tests in selection. Discussion and tables. Journal of Applied Psychology, 23, 565-578.
Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide
for the use of the Stanford revision and extension of the Binet-Simon Intelligence Scale. Boston:
Houghton Mifflin.
Terman, L. M. & Merrill, M. A. (1937). Measuring intelligence: A guide to the administration of
the new revised Stanford-Binet tests of intelligence. Boston: Houghton Mifflin.
— (1973). Stanford-Binet intelligence scale: Manual for the third revision form L-M (1972 norm
tables by R. L. Thorndike). Boston: Houghton Mifflin.
Thissen, D., Steinberg, L. & Wainer, H. (1993). Detection of differential item functioning using
the parameters of item response models. En P. W. Holland & H. Wainer (eds.). Differential
item functioning (págs. 67-113). Hillsdale, NJ: Lawrence Erlbaum Associates.
Thompson, B. (2004). Exploratory and confirmatory factor analysis: Understanding concepts and
applications. Washington, DC: American Psychological Association.
Thorndike, R. L. (1947). Research problems and techniques. (Report nº 3 AAF Aviation Psy-
chology Program Research Reports). Washington, D. C.: U.S. Government Printing
Office.
Thorndike, R. M. (2005). Measurement and evaluation in psychology and education (7a ed.) Upper
Saddle River, NJ: Pearson Education.
Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of Edu-
cational Psychology. 16, 433-451.
— (1927). The unit of measurement in educational scales. Journal of Educational Psycholo-
gy. 18, 505-524.
Bibliografía 443
— (1928). The absolute zero in the measurement of intelligence. Psychological Review, 35, 175-
197.
Torgerson, W. S. (1958). Theory and methods of scaling. New York: Wiley.
Tucker, L. R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11,
1-13.
— (1961). Factor analysis of relevant judgments: An approach to content validity. Presentado en
Invitational Conference on testing problems, Princeton, NJ. Reimpreso en A. Anastasi.
(1966). Testing Problems in Perspective (págs. 577-586). Washington, D. C.: American
Council on Education.
Urry, V. W. (1974). Approximations to item parameters of mental test models and their uses. Edu-
cational and Psychological Measurement, 34, 253-269.
Van der Linden, W. J. & Hambleton, R. K. (1997). Handbook of modern item response theo-
ry. New York: Springer-Verlag.
Vance, R. J. & Colella, A. (1990). The utility of utility análisis. Human Performance, 3, 123-139.
Von Davier, M. & Carstensen, C. H. (2007). Multivariate and mixture distribution Rasch mod-
els: Extensions and applications. New York: Springer Science.
Von Helmholtz (1887/1977). Zählen und Messen erkenntnistheortisch betrachtet. Philosophis-
che Aufsätze Eduard Zeller zu seinem fünfzigjährigen Doktorjubiläum gewidmet,
Fues’ Verlag, Leipzig (Traducción inglesa por M. F. Lowe). Numbering and measuring
from an epistemological viewpoint. En R. S. Cohen and Y. Elkana (eds.). Hermann von
Helmholtz epistemological writings. Dordrecht: Reidel.
Von Neumann, J. & Morgenstern, O. (1944). Theory of games and economic behaviour. Prince-
ton: Princeton University Press.
Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
— (1997). WAIS-III Administration and scoring manual. The Psychological Corporation,
San Antonio, TX.
— (2003). Wechsler Intelligence Scale for Children–4th Edition (WISC-IV® ). San Antonio,
TX: Harcourt Assessment.
Westen, D. & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures. Jour-
nal of Personality and Social Psychology, 84, 608-618.
Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45,
479-494.
Widaman, K. E. (1985). Hierarchically nested covariance structure models for multitrait-multimeth-
od data. Applied Psychological Measurement, 9, 1-26.
Wiggins, J. S. (1988). Personality and prediction: Principles of personality assessment. Malabar,
FL: S. A. Krieger Pub (primera edición en 1973 en Reading, Ma: Addison-Wesley).
444 Principios de Psicometría
Correlación/ones Diseño/s
coeficiente, 30, 58-59, 78-84, 173-177, 212, anidados, 188, 204-205
219-220, 231-234, 239, 250-251, 276- cruzados, 188, 190-191, 193-195, 204-205
281 de dos facetas, 185, 193-195, 201-202, 204-
entre medidas paralelas, 61-64, 67, 173, 232 205
entre puntuación observada y error, 59, 64 de una faceta, 188-193, 198-201
desatenuadas, 234-235 mixtos, 188
Cota inferior de la fiabilidad (véase Fiabilidad) Distribución/ones de probabilidad
Cualitativo, concepto de, 402, 404 asimétrica, 33-34
Cuantitativo/cuantificar, 20, 26, 30, 46, 402- bimodal, 34-35
405, 416 binomial, 42, 45, 340
Cuestionarios condicionales, 45, 346-347
de agresividad, 220, 223, 254-255, 261-263 logísticas (véase también Modelos logísticos)
de impulsividad, 220, 254-255 marginales, 300
de sensibilidad al ruido, 220 normal, 32-33, 38, 42, 70-71, 159-162, 165-
Curva 166, 171, 175, 316-320, 327, 357, 421-
característica del test, 308, 311 422
CCI (Característica del Ítem) (véase tam- normal acumulada (véase también Mode-
bién Modelos), 297, 306-310, 317, los ojiva normal)
319-325, 334-336, 339, 344 Poisson, 42, 316, 340, 417
de eficiencia, 370, 372-374 uniforme, 32
de información, 361-367, 371, 373 División del test en dos partes, 85-90
iosr (Item-Observed Score Regression), Eficiencia
309-310 función de, 370
ROC (Receiver Operating Characteristic relativa, 368, 369-374
Curves), 273-276 Elemento, 23, 42, 90-92, 103-105, 108, 110-
Decisión/ones 116, 119, 123-124, 126, 130-131, 136-137,
absolutas, 196-198, 200-203 146-147, 230, 236, 238-239, 244, 405-407,
estudios de, 27, 267-269, 273, 276-290 411, 413
relativas, 196-203 Equidad (véase Sesgo)
DIF (Funcionamiento Diferencial de los Ítems) Equiparación de puntuaciones, 423-425
método de Mantel-Haenszel, 382, 384-389, Error/es
392, 398 aleatorios, 40, 60, 378
métodos de clase latente, 382 de predicción, 156, 158-159, 243
no uniforme, 382-384, 395-396 de medida, 40, 148, 156-157, 159-161, 164,
uniforme, 382-384, 392, 395-396 170, 223, 233, 239, 245, 250, 348, 355-
Diferencias 356, 367-368
de medias (véase Contrastes) de estimación, 156, 157-159, 241, 243, 249
individuales, 20, 22, 24, 25, 26, 28, 36, 39, relación entre, 156, 159
148, 185-187, 195-196, 214 sistemáticos, 259
Dimensiones/dimensionalidad, 44, 103-104, Escala
141-143, 145, 261-262, 297-299, 341, 423 admisible, 407
Índice de contenidos 447
compuestos, 22, 23, 80, 104, 107, 118 de contenido, 213-218, 230-231, 236
de Mantel-Haenszel (véase DIF) de criterio, 211-213, 218-219, 246-253, 256,
de potencia, 28 268-270, 276-279, 282
de Stanford-Binet, 25, 419 de la estructura interna, 223, 260-263
de velocidad, 28, 145 definición de, 209-212, 231-232, 243
eficacia del, 269, 271-272, 369-372 discriminante, 218-220, 253-260
especificidad, 225, 270-276 empírica, 212-214, 233-236
paralelos, 66, 105, 107, 116, 118, 170 en los procesos de respuesta, 221-222
psicológicos, 20, 36, 213, 282, 403 factorial, 212-213
psicométricos, 22, 39, 42, 103, 164, 289 predictiva, 212-213, 232, 255
referidos a la norma, 27-28 tipos, 211-215, 222-223
referidos al criterio, 27-28 y fiabilidad, 232-240, 258
sensibilidad (véase Sensibilidad del test) y longitud, 236-239
test-retest, 83-84, 86, 88, 134, 145, 168 y representación muestral, 243-247
Transformación/ones Valor
lineal, 38, 65, 328, 333, 390, 408, 413, 415, de corte, 197, 273-275
419, 424, 426 predictivo, 242-243, 271-273, 279
admisibles, 38, 312, 326, 328-329, 336, 405, Valores propios, 143, 145
407-408, 414-415, 418, 425 Variabilidad
monótonas, 407, 415, 418 atribuible al error, 66-68
logarítmicas, 426-427 de las puntuaciones, 28-34, 66-68, 100-103,
en los parámetros, 328-329, 333, 336, 347 243
Unidad de medida, 35-38, 155, 312, 414, 419 Variable latente, 45, 317
Unidimensionalidad del rasgo, 297-299 Variables métricas, 45
Universo Variaciones de la fiabilidad, 105, 108, 144-147
de generalización, 41, 185 Varianza
de ítems, 184-188 de las puntuaciones observadas y de las
de observaciones admisibles, 184 verdaderas, 54-68, 82, 116-118, 153-
Utilidad, análisis de, 284-290 164
Validez de los errores, 57, 59-65, 82, 93, 101-102,
aparente, 217-218 116, 118, 147-148, 156-159, 198, 243
coeficiente de, 230-231, 235, 256-259, 276- partición de la, 189-190
284 WAIS, 27, 419
acotaciones del, 239-240 Verosimilitud/es
concurrente, 212, 213, 222, 232 máxima (véase Estimación de máxima vero-
convergente, 218-219, 253-260 similitud)
de constructo, 213-215, 220, 223-226, 256- razón de, 394, 396-398
257, 259-260 WISC, 27, 419