Está en la página 1de 75

1 2

INDICE

INTRODUCCIN 4

TEMA I: REDACCIN Y ANLISIS DE TEMS 7

1.- INTRODUCCIN 7
2.- DEFINICIN DEL CONSTRUCTO 7
3.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO 8
4.- CUANTIFICACIN DE LAS RESPUESTAS 12
5.- ANLISIS DE TEMS 13
6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA 18
7.- CORRECCIN DE LOS EFECTOS DEL AZAR 18
EJERCICIOS 21

TEMA II: MODELO CLSICO Y CONCEPTO DE FIABILIDAD 29

1.- INTRODUCCIN 29
2.- SUPUESTOS FUNDAMENTALES 29
3.- CONCEPTO DE FORMAS PARALELAS 31
Introduccin a la Psicometra 4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD
5.- FIABILIDAD DE UN TEST DE POR "N" FORMAS PARALELAS
33
34
EJERCICIOS 36
Teora Clsica de los Tests
TEMA III: FIABILIDAD DEL TEST 41
y Teora de la Respuesta al tem
1.- INTRODUCCIN 41
2.- FIABILIDAD COMO ESTABILIDAD TEMPORAL 41
(Febrero 2006) 3.- FIABILIDAD COMO CONSISTENCIA INTERNA
4.- FIABILIDAD COMO CORRELACIN ENTRE FORMAS PARALELAS
43
47
5.- EL ERROR TPICO DE MEDIDA 48
6.- FACTORES QUE AFECTAN A LA FIABILIDAD DE UN TEST 50
EJERCICIOS 54

TEMA IV: VALIDEZ DEL TEST 61

Francisco J. Abad 1.- CONCEPTO DE VALIDEZ 61


Jess Garrido 2.- VALIDEZ DE CONTENIDO
3.- VALIDEZ DE CONSTRUCTO
61
62
Julio Olea 4.- VALIDEZ REFERIDA AL CRITERIO 84
5.- ALGUNOS EJEMPLOS EMPRICOS DEL PROCESO SEGUIDO PARA LA
Vicente Ponsoda VALIDACIN DE TESTS 92
EJERCICIOS 101
3 4
TEMA V: BAREMACIN DE UN TEST 119
INTRODUCCIN
1.- INTRODUCCIN 119
2.- BAREMOS CRONOLGICOS 119
3.- CENTILES O PERCENTILES 120 La Psicometra se ocupa de los problemas de medicin en Psicologa, utilizando la Estadstica
4.- PUNTUACIONES TPICAS 122 como pilar bsico para la elaboracin de teoras y para el desarrollo de mtodos y tcnicas
EJERCICIOS 125 especficas de medicin. Usualmente, suelen diferenciarse varios ncleos temticos diferentes
propios de la Psicometra:
TEMAVI: INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM 130
a) Teoras de la medicin. Tienen como objetivo establecer las condiciones y propiedades de
las asignaciones numricas que pueden realizarse. El establecimiento de diferentes escalas de
1.- INTRODUCCION 130 medida, tal como lo hizo Stevens, es un ejemplo de este primer ncleo de inters.
2.- CURVA CARACTERSTICA DEL TEM 131
3.- SUPUESTOS DE LA TRI 136 b) Escalamiento. En el terreno de la Psicofsica, e histricamente desde los trabajos de
4.- ESTIMACIN DE PARMETROS 138 Fechner en el siglo XIX, se plantea el problema de la medicin de las sensaciones que
5.- FUNCIN DE INFORMACIN 142 generan diferentes niveles de estimulacin fsica. Thurstone ser el responsable del trnsito
6.- APLICACIONES 145 del escalamiento psicofsico al escalamiento psicolgico, donde se proponen modelos y
7.- REFERENCIAS (DE ESTE TEMA) 146 tcnicas para la medicin de atributos estrictamente psicolgicos.
EJERCICIOS 148
c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacin
matemtica para estudiar las propiedades mtricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicolgicas superiores. La principal
preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medida
que se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica
de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.

En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin y
Escalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyos
desarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica para
analizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que
pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.

La actividad profesional del psiclogo requiere en muchos momentos la utilizacin y/o


construccin de tests que pretenden evaluar determinados constructos psicolgicos no
susceptibles a un proceso de medicin directa. Resulta usual, por ejemplo, en el mbito de la
Psicologa Educativa, la aplicacin de tests de inteligencia, de hbitos de estudio, de
motivacin, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapia
individual, un psiclogo aplica determinadas pruebas para diagnosticar los problemas
depresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o su
nivel de asertividad. Los psiclogos que se ocupan de la seleccin de personal en grandes
organizaciones tambin utilizan tests para determinar, al menos inicialmente, cules son las
personas del grupo de aspirantes que mejor pueden desempear el puesto de trabajo.
5 6
Cada vez es mayor el nmero de tests disponibles en el mercado para su utilizacin. Basta El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos de la
con ojear los catlogos de empresas consultoras especializadas (TEA, MEPSA, COSPA,...) Teora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias
para percatarnos de la gran extensin de atributos psicolgicos que podemos ya medir principales entre ambas aproximaciones.
mediante tests. El psiclogo necesita conocer las posibilidades de cada uno de estos tests: la
informacin que aporta, cmo se interpretan las puntuaciones que proporciona, en qu grado Estos apuntes contienen una breve descripcin de los principales contenidos tericos de la
podemos fiarnos de estas puntuaciones, para qu tipo de personas resulta apropiada su asignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la asignatura,
aplicacin, etc. El manual de estos tests suele incluir datos empricos sobre todos estos los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test de
aspectos, que determinarn en gran parte las garantas que nos ofrece la prueba que vamos a rendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.
aplicar.

Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicologa, los


profesionales no se encuentran con todos los tests que pueden necesitar para su actividad
laboral cotidiana. No resulta extrao, por ejemplo, que un psiclogo social tenga que
construir un test concreto para evaluar la actitud que tiene la poblacin de estudiantes
universitarios hacia grupos marginados, que un orientador escolar necesite elaborar un test
para conocer la opinin de los profesores hacia la LOGSE o que un psiclogo clnico precise
de una prueba concreta para evaluar determinados aspectos de las relaciones de los
adolescentes con sus padres.

Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las destrezas
necesarias para valorar la informacin psicomtrica que incluyen los tests comercializados y,
adems, que conozca los mtodos y tcnicas fundamentales para disear una prueba concreta
con fines especficos. Trataremos de ayudarle a ello en las siguientes pginas.

En la exposicin que vamos a realizar en los primeros 5 captulos, tratamos de describir el


proceso natural que se sigue en la construccin de un test, y que bsicamente se resume en las
siguientes fases:

1. Definicin del constructo.


2. Construccin del test provisional.
3. Aplicacin a una muestra.
4. Anlisis de tems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremacin.

Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con cierto
fundamento estadstico) que nos conducen a seleccionar la forma y contenidos ms
apropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a la
comprobacin emprica de las garantas psicomtricas que la prueba manifiesta como
instrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) y
a la comprobacin prctica del contenido autntico que estamos evaluando (validez). La
denominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas
pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de la
versin definitiva del test, aplicada a una muestra representativa de la poblacin de personas
a la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una
puntuacin concreta en relacin con las que obtiene la muestra seleccionada.
7 8

TEMA I: REDACCIN Y ANLISIS DE TEMS 3.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO

De la definicin operacional del constructo y de la delimitacin de sus componentes debemos


1.- INTRODUCCIN llegar a establecer un conjunto de elementos o tems (frases, preguntas, situaciones anlogas,
tareas, etc.) que representen estos componentes, o mejor, las conductas mediante las que se
manifiestan los diversos componentes del constructo.
Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un tem
tericas que no son accesibles a la medicin directa y para los que no existen "metros" o podra ser el siguiente:
"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumo Deberamos facilitar la integracin de los gitanos en nuestro pas
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudara Parece razonable suponer que una persona tolerable estara de acuerdo con esta afirmacin,
de que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondad mientras que otra intolerable estara en desacuerdo.
y la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de grado
y siempre susceptibles de mejora. Enrelacin con la construccin de los tems existen dos temas importantes a tener en cuenta:
el formato de respuesta y las normas de redaccin de los tems.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del 3.1.- FORMATO DE RESPUESTA
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuacin que debera
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar. En tests de rendimiento ptimo (pruebas de rendimiento y de inteligencia) se pretende medir
el rendimiento mximo al que llega cada persona ante una serie de preguntas o tareas.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin Usualmente, el formato de respuesta de estos tems se ajusta a uno de los siguientes tres
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a formatos:
evaluar.
a) Eleccin binaria: De dos alternativas, se elige la que se considera correcta (S o No;
verdadero-falso).
2.- DEFINICIN DEL CONSTRUCTO
Por ejemplo, un tem de un test de rendimiento en Historia Moderna puede ser:

El primer paso consiste en proporcionar una definicin operacional del constructo o rasgo "Pi y Margall fue uno de los presidentes de la 1 Repblica Espaola" V F
que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer los
diversos componentes o manifestaciones del mismo: dogmatismo ante la poltica, ante la b) Eleccin mltiple: Entre ms de dos alternativas se elige la que se considera correcta. Es
educacin de los hijos, ante la religin, en las relaciones familiares,... Muy relacionada con sin duda el formato de respuesta ms utilizado, entre otras por razones de objetividad y otras
esta definicin operativa es la cuestin del establecimiento de los objetivos que se pretenden de tipo operativo.
conseguir con el cuestionario.
Por ejemplo, un tem de un test de aptitud verbal puede ser:
Tambin es necesario especificar el tipo de poblacin al que va a aplicarse la prueba y las
decisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muy "Automvil es a volante como bicicleta es a ....
diferente, y determinar su contenido, que un test de inteligencia se vaya a aplicar a personas
de la poblacin general o a personas con problemas intelectuales. Un cuestionario de a) Pedal
depresin puede utilizarse con fines cientficos en una investigacin o para decidir el ingreso b) Silln
en un centro psiquitrico de personas con problemas depresivos. c) Manillar
d) Parrilla
9 10

c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de conceptos. Por
ejemplo, un tem de un cuestionario sobre conocimientos de polticos espaoles c) Adjetivos bipolares: Este formato es tpico de lo que se denomina "diferencial
contemporneos puede ser: semntico", un instrumento formado por pares de adjetivos opuestos, cada uno de los cuales
representa un continuo bipolar con varias categoras, y que permite estudiar el significado
"Enlace mediante una lnea el nombre del poltico con el partido poltico al que semntico que se atribuye a determinados constructos, personas o instituciones.
pertenece"
J. A. Durn i Lleida PSOE Por ejemplo:
Carlos Solchaga CIU
Iaki Anasagasti PNV
Rodrigo Rato PP Alegre ________ ________ ________ __ Triste
Listo ________ ________ ________ __ Tonto
Mediante las pruebas de rendimiento tpico se quiere reflejar el comportamiento ordinario Simptico ________ ________ ________ Antiptico
de las personas, no teniendo sentido el concepto de rendimiento mximo dado que el objeto Feliz ________ ________ ________ __ Infeliz
de la evaluacin es algn tipo de opinin, actitud o rasgo de personalidad. El formato de Social___ ________ ________ ________ __Asocial
respuesta de los cuestionarios de rendimiento tpico se ajusta a alguno de los siguientes:

a) Opcin binaria: La persona debe manifestar si est de acuerdo o en desacuerdo con una
afirmacin. Por ejemplo, un tem de un cuestionario sobre la actitud de los padres hacia los 3.2.- REDACCIN DE TEMS
profesores de sus hijos puede ser:

"En realidad, los profesores en el colegio hacen poco ms que cuidar a nuestros Algunas de las recomendaciones generales en la redaccin de tems en pruebas de
hijos cuando nosotros trabajamos" rendimiento ptimo son las siguientes:

Acuerdo ( ) Desacuerdo ( ) - La idea principal del tem debe estar en el enunciado.


- Simplicidad en el enunciado.
b) Categoras ordenadas: El formato establece un continuo ordinal de ms de dos - Evitar los conocimientos excesivamente triviales o excesivamente rebuscados.
categoras, que permite a la persona matizar mejor su respuesta. Normalmente, este continuo - Evitar dar informacin irrelevante en el enunciado.
est formado por 5 7 categoras ordenadas, con una categora central para indicar la - Evitar dar indicios sobre la solucin.
valencia neutra y a partir de la cual posicionarse en uno u otro sentido. Por ejemplo, un tem - Evitar cuestiones sobre opiniones.
sobre la actitud de los adolescentes hacia el consumo de drogas, podra ser el que sigue: - No encadenar unos tems con otros.
- Anticipar la dificultad e incluir preguntas de todo rango de dificultad (casi siempre
"Las drogas pueden realmente resolver problemas de uno mismo" conviene ms preguntas de dificultad media).
- La dificultad no debe estar en la comprensin del tem.
( ) Muy en Desacuerdo - Minimizar el tiempo de lectura.
( ) Bastante en Desacuerdo - Evitar el uso de negaciones (si se incluyen, subrayarlas), errores gramaticales y
( ) Neutral ortogrficos.
( ) Bastante de Acuerdo
( ) Muy de Acuerdo En cuanto al nmero de opciones, con dos distractores es suficiente; pero si la prueba es
corta, es necesario un mayor nmero de distractores para evitar los efectos de los aciertos
A veces, se establecen nominalmente los dos extremos del continuo, dejando sealadas las aleatorios. Todos los distractores deben ser de longitud y lenguaje parecidos y tambin se
restantes categoras del mismo: deben evitar los solapamientos entre ellos. Por supuesto, se deben evitar los llamados tems
defectuosos que son aquellos tems con ms de una respuesta correcta; aunque parezca
MD ____ ____ ____ ____ ____ MA absurdo son errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, se
deben evitar las opciones del tipo no lo s, todas las anteriores son correctas o ninguna
o se ordenan numricamente las categoras sucesivas: de las anteriores es correcta; as como balancear la posicin de la opcin correcta en las
diferentes preguntas para que no se site siempre en la misma opcin.
1 2 3 4 5 6 7
11 12
En las pruebas de rendimiento ptimo es muy importante tener en cuenta la dificultad jueces, y comparar las respuestas de una persona con estas valoraciones. En tests de
existente en crear las alternativas incorrectas, dado que no deben ser posibilidades absurdas personalidad puede incluirse una escala de sinceridad.
de respuesta que se puedan eliminar con cierto grado de sentido comn. Bien al contrario,
esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente El nmero de categoras que se suelen incluir en este tipo de tems es usualmente de cinco ya
tienen las personas que no conocen la respuesta correcta de la pregunta en cuestin. Deben que, a partir de ese nmero de categoras no mejoran las propiedades psicomtricas de los
estar escritas en lenguaje tcnico y ser plausibles para quien no conoce la respuesta, evitando tems. Adems, un nmero muy elevado de categoras (siete u ocho) lleva a inconsistencias
en todo momento alternativas graciosas u otras que no seran elegidas por nadie. Otra en las respuestas, que es una fuente de error. Un nmero muy reducido (dos tres) lleva a
buena recomendacin en este sentido sera el uso de alternativas de respuesta que son poca discriminacin (menor variabilidad) y a reducir la fiabilidad, aunque siempre puede
verdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el establecimiento compensarse con un mayor nmero de tems. No obstante, en poblaciones especiales (nios,
de alternativas mltiples exige un claro conocimiento tanto del contenido a evaluar como de discapacitados, mayores) se aconseja el uso de un menor nmero de categoras.
las personas a las que va dirigida la prueba. Una reciente revisin de las orientaciones a
seguir a la hora de escribir tems de opcin mltiple se encuentra en Haladyna, Downing y Tambin se ha planteado en tems de rendimiento tpico (principalmente en escalas de
Rodrguez (2002).1 actitudes o tests de personalidad donde no se pide el grado de frecuencia de un
comportamiento) si es correcto o no la inclusin de una categora central en las opciones de
Otras recomendaciones a tener presente en las pruebas de rendimiento ptimo son: respuesta (indiferente, neutral, dudo, no s). Podran generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo que se les
- El nmero de preguntas debe ser proporcional a la importancia dada a cada tema. est preguntando, que el enunciado les resulta ambigo o simplemente que ignoran el
- Corregir los aciertos obtenidos por azar. contenido del enunciado. En realidad, deberan ser seleccionadas por las personas
- Cuantos ms tems, mejor. autnticamente indecisas. La investigacin en este sentido nos dice que los indicadores
psicomtricos de los tems no se alteran mucho con o sin categora central, cuando el nmero
Respecto a la manera de formular las cuestiones en tests de rendimiento tpico de categoras es mayor de tres. En todo caso, se puede comprobar si las personas con nivel
(declaraciones o afirmaciones ante las cuales se debe opinar), se han propuesto algunas medio en el total del test tienden a elegir ms frecuentemente las categoras centrales.
sugerencias que pueden ayudar a su correcta redaccin:

- Utilizar el tiempo presente. 4.- CUANTIFICACIN DE LAS RESPUESTAS


- Deben ser relevantes, en el sentido de que su contenido debe relacionarse
claramente con el rasgo.
- Contenido claro, evitando excesiva generalidad. Frases cortas, simples e inteligibles. Una vez establecido el formato de respuesta que se considera ms apropiado para el caso, y
Evitar incluir dos contenidos en un tem. de cara al estudio psicomtrico de la prueba, es preciso decidir la manera de cuantificar los
- Tener en cuenta que lo que se dice en la declaracin pueda ser asumido por alguien, y posibles resultados a las cuestiones. En general, para los tems de cuestionarios de
no por todos. rendimiento ptimo se cuantificar con 1 el acierto y con 0 el error, de tal manera que la
- En escalas de actitudes, no plantear la existencia o no de hechos, sino el puntuacin directa de un sujeto en un cuestionario determinado ser igual al nmero de tems
posicionamiento personal sobre la afirmacin. Redactar tems que discriminen entre que ese sujeto acierta.
los de actitud positiva y los de actitud negativa.
- Para minimizar la aquiescencia (tendencia a responder afirmativamente, La cuantificacin de las respuestas a tems de pruebas de rendimiento tpico requiere ciertos
independientemente del contenido por el que se pregunta) conviene redactar tems de matices. Dado un formato de respuesta determinado (opcin binaria, categoras ordenadas o
modo directo e inverso (declaraciones tanto en sentido positivo como en sentido adjetivos bipolares) es necesario cuantificar las posibles respuestas a un tem teniendo en
negativo). A posteriori, se puede comprobar cmo una persona ha respondido a los cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y
tems directos e inversos. Tambin puede comprobarse que la correlacin entre ambos opinin.
tipos de tems es alta.
- Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de universales (todo, Por ejemplo, para un tem con formato de respuesta de opcin binaria (acuerdo/desacuerdo)
siempre, nada,...). puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
- En lo posible, aunque no es fcil, se debe minimizar la posibilidad de deseabilidad el tem est planteado para medir de manera directa o inversa el constructo de inters. Estos
social (emitir respuestas socialmente aceptables para transmitir una imagen positiva). pueden ser 2 tems de un cuestionario de actitud ante al aborto voluntario:
Puede deberse a varias cosas: desajuste psicolgico, insinceridad consciente,... El
grado de deseabilidad social que manifiestan los tems puede evaluarse mediante tem A: "Abortar es matar".
De acuerdo ( ) En desacuerdo( )
1
Haladyna, T.M., Downing, S.M. & Rodrguez, M.C. (2002). A review of multiplechoice item writing
guidelines for classroom assessment. Applied Measurement in Education 15, 309-334.
13 14
tem B: El bienestar de la madre tambin importa.
De acuerdo ( ) En desacuerdo ( )
tems
En el tem A, el acuerdo se puntuara con 1 y el desacuerdo con 2, ya que estar en desacuerdo
con esa afirmacin indica una actitud ms positiva hacia el aborto voluntario. En el tem B,
sin embargo, el acuerdo se puntuara con 2 y el desacuerdo con 1, ya que estar de acuerdo con 1 2 3................... n X
esa afirmacin indica una actitud ms positiva hacia el aborto.

Si el formato de respuesta es de n categoras ordenadas, las diversas categoras se Sujeto n 1


cuantificarn normalmente desde 1 hasta n, teniendo en consideracin (como en el caso
anterior) la direccin de la afirmacin o cuestin. Por ejemplo, para 5 categoras, las dos Sujeto n 2
posibles cuantificaciones sern:
Sujeto n 3
Muy en desacuerdo Bastante en desacuerdo Neutral Bastante de acuerdo Muy de acuerdo .
1 2 3 4 5 .
5 4 3 2 1 .
.
Tambin se puede asignar el 0 a la categora central, valores negativos a las categoras que se .
encuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha. .
Sujeto n N
En estos casos, la puntuacin directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; segn esto, convendra cuantificar las diversas alternativas con valores entre 1 y n Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al tem
para evitar una puntuacin directa negativa. j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en el total
del test.

5.- ANLISIS DE TEMS Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.

Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado 5.1.- NDICE DE DIFICULTAD
en que cada tem es un "buen medidor" del rasgo de inters es algo que se puede comprobar
estadsticamente de manera sencilla si obtenemos tres indicadores para cada tem:
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por lo que
a) El ndice de dificultad. slo tiene sentido su clculo para tems de tests de rendimiento ptimo.

b) El ndice de homogeneidad. El ndice de dificultad de un tem j se define como el cociente entre el n de sujetos que lo
han acertado (Aj) y el n total de sujetos que lo han intentado resolver (Nj)
c) El ndice de validez.
Aj
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de la Dj =
Nj
poblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos que
tems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x tems: Atendiendo a la disposicin de datos en la matriz expuesta ms arriba, el ndice de dificultad
de un tem (columna) j ser el cociente entre el n de unos y el total de unos y ceros que tiene
la columna. Los sujetos que han omitido el tem (no han contestado) no se contabilizan en
Nj.
15 16
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10 5.2.- NDICE DE HOMOGENEIDAD
personas a un test formado por 6 tems dicotmicos (1 indica acierto y 0 error):

El ndice de homogeneidad, llamado a veces ndice de discriminacin, de un tem (Hj) se


tems define como la correlacin de Pearson entre las puntuaciones de los N sujetos en el tem j y
las puntuaciones X en el total del test:
1 2 3 4 5 6 X
Hj= rjx
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2 Segn la disposicin de la matriz de datos, para obtener los Hj de los tems, debemos calcular
3 0 0 1 - 0 1 2 la correlacin entre las columnas j y la columna X de puntuaciones directas en la prueba.
4 0 0 0 - 1 1 2
Sujetos 5 0 1 0 1 - 1 3 Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categoras
6 0 1 - - - 1 2 ordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos se
7 0 0 - 1 1 1 3 obtienen los siguientes datos:
8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2 tems
10 0 1 0 - 0 1 2
1 2 3 X
Aj 0 5 2 3 3 9

Nj 10 10 7 4 7 9 1 2 3 5 10
2 3 1 0 4
Dj 0 0.5 0.29 0.75 0.43 1 Sujetos 3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Con estos resultados podemos comprobar varios aspectos de la interpretacin de Dj:

- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el tem) y el valor Puede comprobarse que los ndices de homogeneidad de los 3 elementos son:
mximo 1 (todos los sujetos que lo intentan lo aciertan).
H1= r1x= 0,75
- A medida que Dj se acerca a 0 indica que el tem ha resultado muy difcil; si se H2= r2x= 0,94
acerca a 1, que ha resultado muy fcil; y si se acerca a 0,5, que no ha resultado ni fcil H3= r3x= 0,86
ni difcil.
El ndice de homogeneidad de un tem nos va a informar del grado en que dicho tem est
- Dj est relacionado con la varianza de los tems: Si Dj es 0 1, la varianza es igual a midiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la
cero; a medida que Dj se acerca a 0,5, la varianza del tem aumenta. De nada sirve un homogeneidad o consistencia interna del test. Los tems con bajos ndices de homogeneidad
tem con Dj = 0 o Dj = 1, ya que no discriminara entre los diferentes sujetos (todos miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
aciertan o todos fallan). evaluar un rasgo o constructo unitario, deberan eliminarse los que tienen un Hj prximo a
cero.
Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los tems ms fciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, los En ocasiones, un test est formado por diferentes subtests con contenidos distintos. En este
ms difciles (con menor Dj). El nmero de tems de cada categora de dificultad que deben caso, los Hj deben obtenerse con relacin a las puntuaciones directas del subtest concreto.
incluirse en el test depende de los objetivos que quiera conseguir la persona que disea el
cuestionario. En general, la mayor parte de los tems deben ser de dificultad media. Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificacin de las
respuestas que se ha seguido en ese tem. Si un tem obtiene una correlacin negativa y alta
con el total de la prueba, seguramente es debido a que se ha cuantificado errneamente el
tem (se ha tomado como directo siendo inverso, o viceversa).
17 18
Cuando un test tiene un nmero pequeo de tems, resulta ms apropiado obtener el ndice que se pretende es seleccionar los tems que ms contribuyen a la validez del cuestionario,
de homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un tem de entre los tems de igual varianza, seran preferibles los que tienen alto Vj y bajo Hj.
con las puntuaciones en el total del test despus de restar de este total las puntuaciones del
tem cuyo ndice queremos obtener. En el ejemplo precedente, el ndice de homogeneidad
corregido para el tem 1 ser 0.49, resultado de correlacionar la 1 columna de la tabla (2, 3, 6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Anlogamente, los
ndices de homogeneidad corregidos para los tems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lgico suponer, el Hj corregido de un tem suele ser inferior a su Hj sin corregir. Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los patrones de
respuesta que se han dado a las diferentes alternativas de cada tem. Para un tem concreto de
una prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en mayor
5.3.- NDICE DE VALIDEZ medida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin ser
seleccionada por un nmero de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
Las puntuaciones de los N sujetos en un tem j pueden correlacionarse tambin con las que incorrectas.
estos sujetos obtienen en un criterio de validacin externo al test (Y); esta correlacin define
el ndice de validez del tem j: Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de
tres tems de un determinado test:
Vj= rjy

El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo rasgo u tem Opcin correcta Porcentaje de respuesta
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de a b c d e
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estas 1 b 16 40 15 14 15
valoraciones como el criterio de validacin de un test de motivacin laboral; el total de ventas 2 c 35 15 21 17 12
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de 3 a 60 1 21 18 0
aptitud para la venta.

Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las El patrn de respuestas obtenido para el tem 1 es adecuado, pues la mayor parte de la
puntuaciones directas de las 5 personas en un criterio Y: muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por
un porcentaje parecido de personas. El tem 2 seguramente no es muy adecuado, pues la
muestra selecciona en mayor grado una alternativa incorrecta como la buena; al menos,
Sujeto: 1 2 3 4 5 habra que reformular esa alternativa incorrecta. Para el tem 3, los problemas se refieren a
dos alternativas incorrectas que apenas si son seleccionadas por la muestra; tambin habra
Y: 5 3 6 0 6 que reformular esas dos opciones de respuesta.

Los ndices de validez de los tres tems sern: 7.- CORRECCIN DE LOS EFECTOS DEL AZAR

V1= r1Y = 0,87


En los tests formados por tems de opcin mltiples de las que slo una es correcta, podemos
V2= r2Y = 0,88 sobrestimar la puntuacin directa de una persona dado que alguno de sus aciertos ha podido
producirse por azar. El problema entonces consiste en establecer un procedimiento para
V3= r3Y = 0,54 descontar del nmero total de aciertos (A) los que se han producido por azar (Aa).

Los elementos que tengan una correlacin con el criterio prxima a cero deberan eliminarse
de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende medir. Si lo
19 20
Si asumimos que, cuando no se conoce la respuesta correcta a un tem, todas las
alternativas de respuesta son equiprobables, la probabilidad de acertar al azar ese tem se cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
puede establecer como: tests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay que
descontar 0,33 puntos por cada error; y as sucesivamente.
P (Aa) = 1/n
La puntuacin directa corregida de una persona en el test se obtiene entonces haciendo:
siendo n el nmero de alternativas del tem.
Xc = A - Aa
De la misma forma, la probabilidad de errar el tem ser:

P(E) = 1 - (1/n) = (n-1) / n Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5
opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) y
Llamemos Ra el n de respuestas aleatorias que proporciona (es decir, el nmero de tems que omisiones (O) que obtuvieron 3 personas:
ha contestado sin saber la solucin). De las Ra, algunas sern aciertos aleatorios (Aa) y otras
sern errores (E). Nuestro objetivo es estimar los Aa para descontarlos del nmero total de
aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma: Persona A E 0

El n total de errores se puede establecer como el producto del valor Ra por la probabilidad de 1 112 28 0
cometer un error: 2 110 12 18
3 109 0 31

n 1
E = Ra
n
Si atendemos nicamente al nmero de aciertos obtenidos, parece claro que quien ms ingls
Si despejamos Ra de esta expresin, podremos estimarla a partir de datos conocidos (E y n): sabe es la persona 1, seguida de la 2 y en ltimo lugar la persona 3. Sin embargo, corrigiendo
los efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:

n
Ra = E
n 1 28
Xc1 = 112 = 105
4
Siguiendo el mismo razonamiento, el nmero de aciertos aleatorios se puede estimar
multiplicando el valor Ra por la probabilidad de cometer un acierto por azar (Aa): 12
Xc 2 = 110 = 107
4
1
Aa = Ra
n 0
Xc3 = 109 = 109
4
Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:

n 1 1 Podemos comprobar que la correccin afecta sensiblemente al orden que establecemos


Aa = E = E respecto al dominio del idioma ingls. Adems, si nos fijamos en la correccin hecha para la
n 1 n n 1 persona 3, vemos que no se le ha descontado nada; esto es debido a que no cometi ningn
error.
Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero de
alternativas que tienen los tems. Podemos observar que cada error se pondera por la
expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
21 22

EJERCICIOS 3. A continuacin se ofrece una matriz tems por sujetos:

1. A continuacin se expone una escala de actitud favorable ante las drogas. Cada a) Cul es el tem ms fcil?
frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchas b) Cul es el ms difcil?
veces) o S (siempre). c) Cul es el tem en el que las personas muestran ms variabilidad?
d) Cul es en el que muestran menos variabilidad?
a) A menudo me influyen ms las opiniones de los dems que las mas propias . . . ______
b) Evito vivir situaciones lmites ...................................... ______ tem 1 tem 2 tem 3 item 4 tem 5 tem 6
c) No me importara tomar estimulantes para disminuir la sensacin de fatiga
fsica o mental en el trabajo ........................................ ______ sujeto 1 1 1 0 1
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . . ______ sujeto 2 1 1 1 1 1 0
e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______ sujeto 3 0 1 0 0 0 0
sujeto 4 1 1 0 0
Las respuestas de 4 personas a la escala han sido las siguientes:
sujeto 5 1 1 0 1 0 0
sujeto 6 0 1 1 0 0 0
tem a tem b tem c tem d tem e

sujeto 1 S PV MV N S 4. Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero o


falso. Justifique sus respuestas.
sujeto 2 PV MV AV MV AV
a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de seleccin.
sujeto 3 N S N MV N
c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir un
criterio.
sujeto 4 MV N AV MV PV d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos tems que correlacionen poco con la puntuacin total en el test.
e) Un tem con un ndice de homogeneidad alto pero con un bajo ndice de validez no es
A partir de la informacin anterior, complete la siguiente tabla de datos. Para ello necesariamente un mal tem. Estos resultados pueden deberse a que el criterio
deber obtener las puntuaciones en cada tem y en el total de la escala: seleccionado sea poco adecuado.

tem a tem b tem c tem d tem e TOTAL


5. Un test tiene 3 tems dicotmicos y su media es 1.7. Sabemos que no se han
sujeto 1 dejado tems sin responder y que
sujeto 2
sujeto 3 tem 1 tem 2 tem 3
sujeto 4 Dj ? ? 0.8
Sj2 0.25 ? ?
Hj 0.6 0.4 0.2
2. Diga si las siguientes afirmaciones referidas al ndice de dificultad (Dj) son
verdaderas o falsas. Vj 0.4 0.3 0.5

a) Slo tiene sentido su clculo en pruebas de rendimiento ptimo. a) Complete la tabla.


b) Se deben seleccionar slo aquellos tems con Dj prximos a 1. b) Atendiendo al ndice de dificultad, cul es el peor tem?
c) Si un tem tiene una alta varianza, su ndice de dificultad ser alto. c) Atendiendo al ndice de homogeneidad, cul es el peor tem?
d) A un tem de baja varianza le corresponde necesariamente un ndice de dificultad bajo. d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?
23 24

6. Se ha construido una pequea prueba de 6 elementos de Verdadero-Falso, para 8. A continuacin se ofrecen ciertos datos de un tem dicotmico: su ndice de
realizar una primera valoracin de la rapidez visomotora de las personas que desean dificultad, varianza, ndice de homogeneidad e ndice de homogeneidad corregido.
obtener el carnet de conducir. Un grupo de 10 personas respondi al test y a una prueba Identifquelos.
de agilidad psicomotora, que se consider como un criterio adecuado de validacin. La
siguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuaciones 0.15 es _____________________________
en el criterio. 0.24 es _____________________________
0.40 es _____________________________
tem 1 tem 2 tem 3 tem 4 tem 5 tem 6 Y 0.53 es _____________________________
sujeto 1 1 1 0 1 1 1 12
sujeto 2 1 1 1 0 1 1 11 9. En un test de rendimiento ptimo, un tem tiene 4 posibles respuestas y ha sido
sujeto 3 1 0 0 1 0 1 7 respondido por 350 personas. 100 personas han elegido cada una de las alternativas
sujeto 4 1 0 1 1 1 0 8 incorrectas y 50 personas, la correcta.
a) Es un tem adecuado o debera ser modificado?
sujeto 5 0 1 0 0 0 0 4
b) Cunto vale su ndice de dificultad?
sujeto 6 1 1 0 0 1 1 10 c) Cuanto vale su varianza?
sujeto 7 1 0 1 1 0 0 7
sujeto 8 0 0 1 1 1 1 10
10. Una persona completa un test de 50 tems. Acierta 30 y falla 4. Su puntuacin
sujeto 9 1 1 0 1 1 1 11 corregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. Cuntas
sujeto 10 1 1 1 1 1 1 12 alternativas tiene cada tem?

a) Diga cul es el tem con mayor ndice de dificultad.


b) Obtenga un indicador del grado en el que el elemento 2 mide lo mismo que la prueba. 11. Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como
c) Obtenga la puntuacin directa corregida para la persona 8. 0 o 1. A continuacin se ofrecen las puntuaciones sin corregir (X) y corregidas para
d) Obtenga el grado en que el tem 5 mide lo mismo que el criterio Y. eliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Diga
razonadamente qu personas han dejado preguntas sin contestar.

7. Los indicadores de cuatro tems dicotmicos han sido los siguientes: X Xc

tem 1 tem 2 tem 3 tem 4 sujeto 1 20 18


Dj 0,4 0,8 0,3 0,6 sujeto 2 15 5
Hj 0,1 0,5 0,8 0,4
sujeto 3 25 25
Vj 0,2 0,1 0,6 0,3
sujeto 4 17 12
a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero
____ porque ______________________________________________. sujeto 5 23 22

b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____
porque _____________________________. 12. Creamos un test para medir conocimientos sobre el cdigo de la
circulacin. Los tems son de opcin mltiple con 3 opciones de las que slo una es
c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____ correcta. Las medias de tres tems del test han sido las siguientes: 0.1 (tem 1), 0.6 (tem
porque ____________________________________. 2) y 1 (tem 3). Responda razonadamente.
a) Qu tem es ms difcil?
b) Es posible que la mitad de la muestra haya fallado simultneamente los dos primeros
tems?
25 26

c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianza SOLUCIONES
del tem de ms varianza de los tres? 1.
d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una
puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido? tem item item tem tem TOTAL
a b c d e
13. Una muestra de 200 personas responde a un test de rendimiento ptimo de tres sujeto 1 5 4 4 5 5 23
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
sujeto 2 2 2 3 2 3 12
tem, y cual es en cada uno la alternativa correcta.
sujeto 3 1 1 1 2 1 6
Alternativa Alternativa Alternativa Alternativa
a b c correcta sujeto 4 4 5 3 2 2 16
tem 1 30 80 90 a
tem 2 140 0 60 a
tem 3 90 10 100 c 2. a) Verdadero
tem 4 70 80 50 b b) Falso
tem 5 60 50 90 c c) Falso
d) Falso
a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.
b) Cul es el tem ms difcil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado? 3. Tal y como se desprende de la tabla siguiente:
Razone su respuesta a) El tem ms fcil es el nmero 2, ya que todos los sujetos lo aciertan.
b) El tem ms difcil es el nmero 6, ya que nadie lo acierta.
14. Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La c) El tem en el que hay ms variabilidad es el nmero 4, porque presenta la mayor
escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Las varianza.
siguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidad d) Los tems de menos variabilidad son los nmeros 2 y 6, porque la varianza es
corregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin a nula en ambos.
la escala 1.
tem 1 tem 2 tem 3 tem 4 tem 5 tem 6
Tabla 1 tem 1 tem 2 tem 3 Dj 0,67 1 0,33 0,5 0,25 0
H 0.572 0.454 0.575
Sj2 0,22 0 0,22 0,25 0,19 0
HC 0.456 0.281 0.437

Tabla 2 tem 1 tem 2 tem 3


4. a) Verdadero, dado que es una correlacin entre las puntuaciones en el tem y en el
H 0.562 0.622 0.611
test.
HC 0.237 0.205 0.233 b) Falso. Siempre que se pretenda medir un nico rasgo con el test, debe ser
descartado; si se pretenden medir varios rasgos, podra ser admitido.
Diga razonadamente qu tabla contiene los H y HC de los tres tems en relacin al test c) Falso, la afirmacin hace referencia al ndice de validez.
completo. d) Falso. Al disear un test que mida varios rasgos, se pretende buscar tems que
correlacionen con los tems que miden el mismo rasgo, y que adems no
correlacionen con otros tems que miden un rasgo diferente. En esta situacin, la
correlacin entre los tems y las puntuaciones del test pueden ser bajas.
e) Verdadero. El tem mide lo mismo que el test, pero no mide lo mismo que el
criterio, que podra ser poco adecuado.
27 28

5. a) D1 = 0,5 D2 = 0,4 S22 = 0,24 S32 = 0,16


b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, es
algo peor. 12 a) El tem 1, pues tiene el menor (0.1) ndice de dificultad.
c) El tem 3. b) No. Pues el tem 2 ha sido acertado por el 60% de la muestra.
d) El tem 2. c) Var (item 1) = (0.1)(0.9) = 0.09
Var (item 2) = (0.6)(0.4) = 0.24
Var (item 3) = (1)(0) = 0
6. a) El tem 1: D1 = 0,8 El tem de ms varianza es el tem 2 (0.24).
b) H2 = 0.305 d) Xc = X E/2. 16 = 20 E/2. Luego, E = 8.
c) La persona nmero 8: Xc = 2
d) V5 = 0.84
13. a) 30/200 = 0.15
b) El 1, pues su ndice de dificultad (0.15) es el ms bajo. En los otros tems sus
7. a) El tem 1 (menor H). ndices de dificultad son: 0.7 (tem 2), 0.5 (tem 3), 0.4 (tem 4) y 0.45 (tem 5)
b) El tem 2 (menor V-H). c) El 1, pues las opciones incorrectas son ms elegidas que la correcta. El 2, pues una
c) El tem 2 (D ms distante de 0.5). alternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias
parecidas.

8. Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (la 14. HC produce resultados tanto ms diferentes de H cuanto menor sea el nmero de
varianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues tems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24. Tabla 1: 0.116 0.173 0.138
Dado que el ndice de homogeneidad corregido suele ser menor que el ndice de Tabla 2: 0.325 0.417 0.378
homogeneidad sin corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidos Luego el test largo, de 12 tems, es el que tiene diferencias menores: Tabla 1.
y sin corregir, respectivamente.

9. a) Debera ser modificado. La alternativa ms seleccionada debera ser la correcta.


b) Dj = 50/350 = 0.14
c) Sj2 = (0.14)(0.86) =0.12

10. n=5

Xc = A E/(n-1). Luego, 29 = 30 4/(n-1)

11.
Sujeto Preguntas sin contestar
1 3
2 0
3 0
4 3
5 1
29 30

TEMA II: MODELO CLSICO Y CONCEPTO DE FIABILIDAD El problema es que E y V resultan en principio desconocidos, si bien podemos obtener
informacin sobre ellos si se plantean determinados supuestos adicionales:

1.- INTRODUCCIN (2) V = E[X]

Definimos la puntuacin verdadera de una persona como el valor esperado de las posibles
En las Ciencias clsicas (Medicina, Fsica, Qumica,...) existen aparatos, con mrgenes de puntuaciones empricas que puede obtener en el test. Dicho de otro modo, sera el promedio
error especificados, para medir determinadas caractersticas como son la temperatura, la de las puntuaciones empricas que obtiene la persona en un nmero elevado de aplicaciones
presin sangunea, el peso, la concentracin de determinados elementos qumicos, etc. En del test.
Psicologa no existen instrumentos de medicin de la introversin, la actitud hacia el aborto,
la aptitud espacial o la habilidad lectora, caractersticas que no son susceptibles de una Del supuesto anterior se desprende que:
medicin directa. Para medir los rasgos psicolgicos se han elaborado teoras matemticas o
estadsticas que permiten inferir el nivel de rasgo a partir del rendimiento observado de la
E[E] = 0
persona.
Asumiendo que X y E son dos variables aleatorias, mientras que la puntuacin V de la
Si elaboramos, por ejemplo, una prueba de atencin, una persona obtiene una determinada
persona es constante, resulta fcil comprobar la igualdad anterior, puesto que:
puntuacin X en el test. La cuestin que nos planteamos es si esa X representa una buena
manifestacin del rasgo autntico de atencin que tiene esta persona. Podemos pensar en las
consecuencias que tiene para el psiclogo que un test no proporcione una buena informacin E[E] = E[X - V] = E[X] - E[V] = E[X] V = V V = 0
de los niveles de rasgo. Un psiclogo clnico que utiliza un test de depresin en su labor
profesional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el (3) VE = 0
test resultan buenas cuantificaciones de los niveles de depresin de sus pacientes.

La teora clsica de los tests (a partir de los trabajos iniciales de Spearman) propone un Este tercer supuesto nos dice que si en una poblacin conociramos las puntuaciones V y E
modelo formal, denominado como modelo clsico o modelo lineal clsico, fundamentado en de los individuos, la correlacin entre ambas variables sera nula. Se asume que puntuaciones
diversos supuestos a partir de los cuales se extraen determinadas consecuencias de verdaderas elevadas (bajas) no tienen porqu tener asociados errores elevados (bajos).
aplicabilidad prctica para determinar el grado en que un test informa de los niveles de rasgo.
(4) E E = 0
j k

2.- SUPUESTOS FUNDAMENTALES


El cuarto supuesto asume que si en una poblacin conociramos los errores de medida de
cada individuo en dos tests diferentes (j y k), dada su condicin de aleatoriedad, la
El modelo de puntuacin verdadera se concreta en un primer supuesto: correlacin entre ambas variables tambin sera nula.

(1) X = V + E (5) E V = 0
j k

que indica que la puntuacin emprica directa de una persona en un test (X) est compuesta
de dos componentes hipotticos: el nivel de rasgo o puntuacin verdadera de la persona (V) y El quinto supuesto nos indica que si en una poblacin conociramos las puntuaciones E en un
un error de medida (E) que se comete al medir el rasgo con el test. El error de medida se test j y las puntuaciones V en un test k, ambas variables correlacionaran cero.
considera una variable aleatoria compuesta por los diferentes factores (propios del sujeto, del
test y externos a ambos) que hacen que su puntuacin emprica no sea exactamente su nivel
de rasgo. Por tanto, el error de medida se establece como la diferencia entre la puntuacin Ejemplo: Supongamos una poblacin de 5 personas, para las que conocemos sus
emprica y la verdadera: puntuaciones V, E y X en dos tests diferentes, denominados con los subndices 1 y 2 (En
realidad, slo podemos conocer las puntuaciones X; las restantes puntuaciones se proponen
E=X-V nicamente por razones didcticas):
31 32

con cierta probabilidad, si dos formas son o no paralelas.


V1 E1 X1 V2 E2 X2
Para muestras relacionadas, el contraste sobre diferencia de medias se plantea como:
12 -2 10 12 0 12
11 0 11 11 -2 9 H0 : 1 - 2 = 0
11 0 11 11 2 13
12 2 14 12 0 12 H1 : 1 - 2 0
4 0 4 4 0 4
Siendo el estadstico de contraste:

El lector puede comprobar que se cumplen los supuestos planteados en la pgina anterior, en D N
la tabla de puntuaciones. T= , que sigue la distribucin t con N-1 grados de libertad,
SD
De cualquier forma, insistimos que en la aplicacin real de un test slo se conocen las
puntuaciones X de las personas, por lo que los supuestos planteados (por muy lgicos y donde D es la media de las diferencias, N el tamao de la muestra y SD la desviacin tpica
razonables que sean) no pueden someterse a contrastacin emprica, siendo sta una de las insesgada de las diferencias.
principales limitaciones de la TCT.
El contraste sobre diferencia de varianzas, para muestras relacionadas, se plantea como:

3.- CONCEPTO DE FORMAS PARALELAS H0 : 1 - 2 = 0

H1 : 1 - 2 0
Cuando un psiclogo aplica un test a una persona, nicamente conoce su puntuacin directa
X en la prueba. Lo importante, como venimos indicando, es obtener informacin de las Siendo el estadstico de contraste:
relaciones entre las X y las V. Un procedimiento sera obtener la correlacin entre ambas
para un grupo de N personas, pero nos encontramos con el inconveniente de desconocer las ( S12 S 22 ) N 2
autnticas V de las N personas. S resulta factible, sin embargo, obtener la correlacin entre T= , que sigue la distribucin t con N 2 grados de libertad.
las puntuaciones empricas que proporcionan dos formas paralelas de un test, diseadas 2S1 S 2 1 r122
ambas para evaluar el mismo rasgo V de los individuos.
donde r12 es la correlacin de Pearson entre X1 y X2.
Segn el modelo clsico, dos formas paralelas de un test se definen mediante dos
condiciones: Ejemplo: Queremos saber, con probabilidad 0.95, si dos tests (1 y 2) son o no formas
paralelas. Aplicamos ambos tests a una muestra de 5 personas y obtienen las siguientes
a) Un individuo tiene la misma puntuacin V en ambas formas. puntuaciones:

b) La varianza de los errores de medida en ambas formas es la misma.


X1 X2
El lector puede comprobar en la tabla de datos expuesta anteriormente que los tests 1 y 2 15 15
pueden considerarse formas paralelas, dado que se cumplen en los datos las dos condiciones 10 15
planteadas. Ahora bien, estamos asumiendo que los datos anteriores se refieren a una 13 20
poblacin determinada, en la que conocemos las V y los E de los individuos. En la prctica 14 10
desconocemos esas puntuaciones y, adems, disponemos generalmente de datos muestrales y 18 15
no poblacionales. Cmo determinar entonces si dos formas son o no paralelas? En la tabla
anterior podemos constatar que, si dos formas son paralelas, las medias poblacionales de X en
ambas son iguales, y tambin los son las varianzas poblacionales de las puntuaciones X. Para el contraste de diferencia de medias, obtenemos un valor T = -0.46, lo que nos lleva a no
Segn esto, y haciendo uso de los procedimientos empleados en estadstica inferencial, si rechazar H0, mientras que para el contraste sobre diferencia de varianzas obtenemos un
disponemos de datos muestrales podemos realizar los contrastes oportunos para determinar, estadstico T = -0.34, que tambin nos lleva a no rechazar H0 de igualdad de varianzas
33 34

poblacionales. Segn esto, podemos decir, con probabilidad 0.95, que ambos tests son formas
paralelas. lo que significa que el coeficiente de fiabilidad es el cociente entre la varianza de las
puntuaciones verdaderas y la varianza de las puntuaciones empricas. Se puede interpretar
Los fundamentos de este tipo de contrastes pueden consultarse en el libro de Pardo y San como la proporcin de la varianza emprica que puede atribuirse a la variabilidad de las
Martn (1998) "Anlisis de datos en Psicologa II". personas a nivel de rasgo o puntuaciones verdaderas. Ntese adems que el coeficiente de
fiabilidad puede asumir valores entre 0 y 1, ya que las varianzas siempre sern positivas.

4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD En las siguientes pginas estudiaremos varios procedimientos para calcular el coeficiente de
fiabilidad de un test.

Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que los
resultados empricos de ambas en una poblacin correlacionen de forma elevada. Si esto es 5.- FIABILIDAD DE UN TEST DE POR "n" FORMAS PARALELAS
as, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar los diversos
niveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos fiarnos de que
reflejen fidedignamente los niveles de rasgo. Pues bien, definimos inicialmente el coeficiente Imaginemos que disponemos de n formas paralelas para medir un rasgo psicolgico
de fiabilidad como la correlacin entre los resultados que proporcionan dos formas paralelas. determinado. Segn lo visto, las n formas tendrn en la poblacin las mismas varianzas
Para datos poblacionales y puntuaciones diferenciales, la expresin de la correlacin de empricas. Adems, las correlaciones entre todos los posibles pares de formas paralelas que
Pearson es la siguiente: podemos establecer sern tambin iguales, e indicarn la fiabilidad de cualquiera de ellas a la
hora de determinar los niveles de rasgo.
x1 x2
12 =
N 1 2 Los parmetros de la poblacin en una forma paralela podemos designarlos como x, v , e ,
y xx . Si unimos las n formas paralelas en un nico test, los parmetros de este test alargado
Segn el primer supuesto del modelo clsico, que se cumple tambin para escala diferencial, podemos expresarlos como nx , nv , ne, y nxx. Vamos a llegar a determinadas expresiones
tenemos que x = v + e, con lo que la expresin anterior quedara como: para obtener los parmetros del test alargado conociendo los parmetros de una forma
paralela.
(v1 + e1 )(v2 + e2 )
12 =
N 1 2
a) La varianza emprica del test formado por n formas paralelas ser:
Desarrollando la frmula anterior, obtenemos que: 2nx = n 2x + n(n-1) 2x xx = n 2x [1 + ( n 1 ) xx]
v1v2 v1e2 e1v2 e1e2
12 = + + +
N 1 2 N 1 2 N 1 2 N 1 2 b) La varianza verdadera del test formado por n formas paralelas ser:

Recordando los supuestos del modelo clsico, podemos comprobar que los tres ltimos 2nv = n 2v + n(n-1) 2vvv = n 2v [1 + ( n 1 ) ] = n2 2v
sumandos son iguales a cero, con lo que nos queda la siguiente expresin:

v1v 2 c) La varianza error del test formado por n formas paralelas ser:
12 =
N 1 2
2ne = n 2e + n (n-1) 2e ee = n 2e
y dado que las puntuaciones v de un mismo individuo en dos formas paralelas las asumimos
idnticas, y tambin son iguales las varianzas poblacionales en ambas formas, la expresin
d) A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad
anterior queda como:
es el cociente entre la varianza verdadera y la varianza emprica, podemos obtener el
coeficiente de fiabilidad del test alargado:
v 2 2
12 = = v
N 1 2 x2
35 36

nv2 n 2 v2 n xx EJERCICIOS
nxx = = 2 2 =
nx n x (1 + (n 1) xx ) 1 + (n 1) xx
2

1. Cuatro personas responden a dos tests. Sus puntuaciones en X (conocidas) y en V y E


(nunca conocidas, pero supuestamente conocidas en el ejemplo) son las siguientes:
La expresin anterior se conoce como frmula general de Spearman-Brown, y permite
obtener el coeficiente de fiabilidad de un test compuesto por n formas paralelas. TEST 1 TEST 2
Ejemplo: Un test de aptitud para la direccin empresarial est formado por dos formas X1 V1 E1 X2 V2 E2
paralelas de 20 tems cada una. Aplicados a una poblacin de directivos, se obtiene una persona 1 3 2 1 0 2 -2
correlacin de 0.6 entre ambas formas. Cul ser el coeficiente de fiabilidad del test persona 2 2 3 -1 5 3 2
compuesto por la unin de las dos formas paralelas?
persona 3 4 5 -1 7 5 2
persona 4 7 6 1 4 6 -2
n xx 2(0.6)
xx = = = 0.75 Comprobar qu supuestos de la Teora Clsica se cumplen y cuales no, en cada test.
1 + (n 1) xx 1 + (2 1)0.6

2. Un test se aplica a 4 personas. Suponemos conocidas algunas de sus puntuaciones


Comprobamos que el coeficiente de fiabilidad del test alargado (de 40 tems) es superior al verdaderas y errores. Sabiendo que en los siguientes datos se cumple exactamente la Teora
coeficiente de fiabilidad de cualquiera de las formas iniciales de 20 tems. Esto representa Clsica, complete las puntuaciones que faltan en la tabla:
una propiedad interesante del coeficiente de fiabilidad, dado que nos indica que si alargamos
un determinado test con formas paralelas, podemos incrementar su fiabilidad.
X V E
El razonamiento que hemos expuesto se puede generalizar al caso de que los k tems que persona 1 5 0
componen un test fueran formas paralelas. En una determinada poblacin, los k tems de un persona 2 7 1
test sern paralelos si todos tienen la misma media, la misma varianza y la misma fiabilidad. persona 3 0
Segn la frmula general de Spearman-Brown, el coeficiente de fiabilidad del test se puede
expresar como: persona 4
MEDIA 6

k il
xx = 3. En la aplicacin de un test de aptitud numrica, el encargado de controlar el tiempo
1 + (k 1) il
prolonga 1 minuto el perodo establecido para resolver las diversas tareas. Cul es el
supuesto de la Teora Clsica que se vera afectado por tal error, y que por tanto sera difcil
donde k es el nmero de tems del test y jl es la correlacin de Pearson entre cualquier par de de asumir racionalmente?
tems, que indica la fiabilidad de cada uno de los tems.

4. Si dos tests son paralelos, una persona obtendr la misma puntuacin emprica en uno
y otro. V ( ) F ( ) Depende ( ). Razone su respuesta.

5. Despus de aplicar a 5 personas dos formas de un test de razonamiento analgico, se


obtienen los siguientes datos (las desviaciones tpicas tienen denominador n-1):

SA = 3,79 SB = 2,83 SD = 1,41 rAB = 0,95

a) Cul es la diferencia mnima que deberamos haber obtenido para considerar, con
probabilidad 0.95, que las medias poblacionales son diferentes?
37 38

b) Suponiendo que las dos medias no alcanzan esa diferencia mnima, podemos afirmar, con
probabilidad 0.95, que ambas formas son paralelas? a) El ndice de homogeneidad de un tem depende de la relacin entre el tem y las
puntuaciones en el test. V( ) F( )
b) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza error.
6. Si dos formas paralelas de un test se aplican en el mismo momento a un grupo V( ) F( )
normativo, la correlacin entre los resultados de ambas aplicaciones debe ser igual a 1. c) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza verdadera.
V ( ) F ( ). Razone su respuesta. V( ) F( )
d) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza emprica.
V( ) F( )
7. Si la varianza verdadera de un test es el 64 % de su varianza emprica, cul es su e) Segn el modelo clsico, los errores de medida NO pueden ser negativos. V( ) F( )
coeficiente de fiabilidad? f) En el modelo clsico se asume que las puntuaciones verdaderas y empricas correlacionan
0 en la poblacin. V( ) F( )

8. Complete los valores omitidos en la siguiente tabla, siendo n el nmero de veces que
se alarga el test.

2x 2v 2e xx n tems

Test original 25
Test alargado 112 16 4

9. En un test A de 10 tems la varianza de las puntuaciones verdaderas es 3 y la varianza


error es 1. Elaboramos 4 formas paralelas del test A y formamos un nuevo test (test B),
resultado de aadir al test A las 4 formas paralelas anteriores. Justifique sus respuestas.

a) El test B tendr _____ tems.


b) La varianza de las puntuaciones verdaderas del test B ser _________.
c) La varianza de las puntuaciones empricas obtenidas en el test B ser ________.

10. El coeficiente de fiabilidad de un test X de 10 tems es 0.67. Responda


razonadamente.

a) Qu proporcin de la varianza de X se debe a las diferencias en los verdaderos niveles de


rasgo?
b) Formamos el test doble (de 20 tems). Qu proporcin de la varianza del test doble se
debe a los errores de medida?
c) Si correlacionamos las puntuaciones obtenidas entre las dos formas paralelas que forman el
test doble, qu correlacin esperamos encontrar? Qu proporcin de la varianza de las
puntuaciones obtenidas en la primera forma depende de las puntuaciones obtenidas en la
segunda forma?

11. Diga si las siguientes afirmaciones son ciertas (V) o no (F). No necesita razonar sus
respuestas.
39 40

SOLUCIONES
9.
1. X = V + E. Se cumple.
La media de los errores es 0. Se cumple el segundo supuesto.
VE = 0. Se cumple el tercer supuesto. Items n S2v S2e
Los errores correlacionan. No se cumple el supuesto 4.
Los errores no correlacionan con las puntuaciones verdaderas (E1 V2 = E2 V1 = 0). Se Test A 10 1 3 1
cumple el supuesto 5.
Test B 5
2. Como la media de los errores ha de ser cero, E4 = -1.
Como la correlacin entre V y E es cero, tendr que ser cero su
a) El nmero de tems del test B ser (5)(10) = 50.
numerador, (V V )( E E ) . Es decir, (5-6).(0)+ (7-6).(1)+(V3-6)(0)+(V4-6).(-1) =
b) Snv2 = (n2 )Sv2 = (25)(3) = 75
0, luego, V4 = 7. c) 80. Pues Sne2 = (n) Se2 = (5)(1) = 5 y Snx2 = Snv2 + Sne2 = 80.
Como la media de V ha de coincidir con la media de X, se obtiene V3 = 5
Como X = V + E, X1 = 5; X2 = 8; X3 = 5 y X4 = 6.
10. a) El coeficiente de fiabilidad es 0.67. Luego la proporcin que piden es 0.67.
3. Si se prolonga el tiempo, cabe suponer que las puntuaciones X de las personas seran b) En el test doble, R = 2(0.67)/(1+0.67) = 0.8. Luego, la proporcin que piden es 0.2.
superiores a las que les corresponderan con el tiempo bien controlado. En este caso, c) La correlacin es rxx, que vale 0.67. La proporcin pedida es 0.672 = 0.45.
los errores de medida (E = X - V) sern mayoritariamente positivos, con lo cual se
incumple el supuesto de que su media debe ser cero. 11. a) V
b) V
4. Depende. El modelo supone que en dos formas paralelas, una misma persona tiene la c) V
misma V, pero sus puntuaciones empricas en una y otra forma por lo general sern d) V
diferentes. e) F
f) F

5. a) La diferencia mnima es 1.75.


b) El estadstico T para contrastar si las dos varianzas poblacionales son iguales es
1.65, menor que el valor de las tablas (3.182). Aceptamos que son formas paralelas.

6. Falso. No tiene por qu ser 1, ya que las puntuaciones empricas en una y otra forma
no tienen por qu ser las mismas. La correlacin entre ambas ser un indicador de la
fiabilidad de cualquiera de ellas.

7. rxx = 0.64

8.

2x 2v 2e xx n tems

Test original 10 6 4 0,6 1 25

Test alargado 112 96 16 0,86 4 100


41 42

TEMA III: FIABILIDAD DEL TEST


Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hbitos de
estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo
1.- INTRODUCCIN las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:

Se entiende por fiabilidad el grado de estabilidad, precisin o consistencia que manifiesta el test Persona Test Restest
como instrumento de medicin de un rasgo determinado. Si un herrero mide varias veces con
una cinta mtrica la longitud de una barra de hierro, siempre obtendr la misma medicin, 1 16 10
debido a que tanto la cinta mtrica como la barra permanecen invariantes. Ahora bien, cuando 2 14 14
empleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni 3 12 8
otro permanezcan invariantes de una situacin a otra; anlogamente, sera como disponer de una 4 11 12
cinta mtrica elstica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto, 5 10 10
ms o menos dilatada). Es labor de la psicometra establecer en cada caso el grado de 6 8 8
estabilidad del instrumento de medicin. 7 8 7
8 6 5
Hasta el momento, el modelo clsico de puntuacin verdadera y el planteamiento de la fiabilidad 9 4 4
como correlacin entre formas paralelas, se han establecido en trminos paramtricos; es decir, 10 1 2
suponiendo conocidos los datos de la poblacin de referencia. Lo real es que en la prctica
vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto significa
que, de modo directo, nicamente vamos a disponer de las puntuaciones empricas de dicha Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
muestra, a partir de las cuales podemos obtener los estadsticos que sean oportunos. ltimas columnas:

Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes: rxx = 0.87

a) Aludiendo a la estabilidad temporal de las medidas que proporciona. En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hbitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantas respecto a
manera consistente. la precisin con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
Ms concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza emprica se debe a la variabilidad de las personas a nivel
2.- FIABILIDAD COMO ESTABILIDAD TEMPORAL de puntuaciones verdaderas.

Si disponemos de las puntuaciones de N personas en un test y, despus de transcurrido un Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable
tiempo, volvemos a medir a las mismas personas en el mismo test, cabe suponer que siendo el (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
test altamente fiable, deberamos obtener una correlacin de Pearson elevada entre ambos contrario, no se podra discernir entre la inestabilidad debida al rasgo de la causada por el
mediciones. Dicha correlacin entre la evaluacin test y la evaluacin retest (rxx) se denomina instrumento de medicin. Es aconsejable dejar periodos largos entre la evaluacin test y la retest
coeficiente de fiabilidad test-retest, e indicar tanta mayor estabilidad temporal de la prueba cuando los tems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
cuanto ms cercano a uno sea. podran emitir pautas de respuesta similares en las dos aplicaciones del test nicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
Este modo de operar se desprende directamente del modelo lineal clsico, segn el cul se incrementara debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
define la fiabilidad como la correlacin entre las puntuaciones empricas en dos formas embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
uno aplicado dos veces. factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlacin entre las puntuaciones del test y del retest.
43 44

3.- FIABILIDAD COMO CONSISTENCIA INTERNA

tems
La precisin o fiabilidad de un test se puede entender tambin como el grado en que diferentes
subconjuntos de items miden un rasgo o comportamiento homogneo; es decir, el grado en que
covaran, correlacionan o son consistentes entre s diferentes partes del cuestionario. Sujeto 1 2 3 4 5 6 P I Total

Lo ms usual es obtener la consistencia entre dos mitades del test (mtodo de dos mitades) o
entre tantas partes como elementos tenga la prueba (consistencia interna). 1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
3.1.- MTODO DE DOS MITADES 4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una con 7 1 1 1 1 1 1 3 3 6
los elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuacin directa en 8 0 1 1 1 0 1 3 1 4
ambas mitades. Disponemos entonces de dos variables (P e I), cuya correlacin de Pearson (rPI) 9 0 1 0 0 0 0 1 0 1
indica su grado de relacin. 10 0 0 0 0 0 0 0 0 0

Si la mitad par e impar fueran entre s formas paralelas (ya sabemos cmo comprobarlo
estadsticamente), la correlacin entre ambas sera una medida de la fiabilidad de cada una de Media 1.6 1.3 2.9
ellas. Ahora bien, cuando hemos deducido la frmula general de Spearman-Brown hemos visto Desviacin tpica 1.28 1.19 2.02
que los tests ms largos (con ms items) suelen ser ms fiables, por lo que rPI estar
subestimando el coeficiente de fiabilidad del test total en la medida que P e I son variables
extradas de la mitad de tems que tiene el test. Para superar este problema, y as obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la frmula de Spearman-Brown,
considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test En este caso se obtiene que rPI = 0.34, y por tanto:
completo tiene el doble de items que cualquiera de sus mitades:
2(0.34)
rxx = = 0.51
1 + 0.34
2rPI
rxx =
1 + rPI De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre s. Unicamente un 51 % de la varianza de las puntuaciones
empricas se debe a la varianza de las puntuaciones verdaderas. No podramos afirmar con
A partir de esta frmula podemos comprobar que el coeficiente de fiabilidad, entendido como la suficiente certeza que ambas mitades miden con precisin el rasgo de inters.
expresin de la consistencia entre dos mitades, es mayor que la correlacin de Pearson entre
ambas mitades. La razn de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento ptimo suelen tener tems ordenados en dificultad, de tal forma que se comienza a
responder los tems ms fciles hasta llegar a los situados al final del test, que son los ms
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10 difciles. Si realizsemos la particin en dos mitades atendiendo a su disposicin en la prueba (la
personas que responden a un cuestionario de 6 tems valorados de forma dicotmica: primera mitad formada por los primeros n/2 tems, la segunda por los n/2 tems ltimos)
difcilmente podra cumplirse que ambas tuvieran la misma media.
45 46

3.2.- COEFICIENTE DE CRONBACH


Esta frmula reproduce el coeficiente de fiabilidad del test si todos los tems son paralelos. En la
prctica, es muy difcil que esto se produzca pero, sin embargo, tiene sentido su aplicacin para
En el tema precedente vimos que si los k tems de un test fueran paralelos, el coeficiente de establecer el grado en que los diferentes tems estn midiendo una nica dimensin o rasgo.
fiabilidad del test podra obtenerse aplicando la frmula general de Spearman-Brown: Podemos observar en la ltima expresin que depende del grado de covariacin de los tems:
tendr un valor alto (cercano a 1) cuando los tems covaren fuertemente entre s; asumir
valores cercanos a cero si los tems son linealmente independientes (si covaran de forma
k jl escasa). Matemticamente, puede asumir valores negativos.
xx =
1 + (k 1) jl
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como ocurre en la
prctica totalidad de los tests, los tems no son paralelos. Suele considerarse una "estimacin por
siendo k el n de tems del test y jl la correlacin de Pearson entre cualquier par de tems. defecto" del coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si los tems son
paralelos) o menor (cuando no lo son). Debe interpretarse como un indicador del grado de
Expresada la frmula anterior para datos muestrales, quedara como: covariacin entre los tems, y es aconsejable complementarlo con otras tcnicas estadsticas (por
ejemplo Anlisis Factorial) antes de interpretarlo como una medida de unidimensionalidad.

kr jl Ejemplo:
rxx =
1 + (k 1)r jl

Sujetos tems X
Una frmula equivalente a la anterior; es decir, que proporciona exactamente el mismo 1 2 3 4
resultado, es la denominada coeficiente de Cronbach:
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
k S j
2

= 1 4 1 1 1 1 4
k 1 S x
2
5 1 1 0 1 3
6 1 1 0 0 2

donde k es el n de tems Varianzas 0.14 0.25 0.14 0.25 1.33

S 2
j es la suma de las varianzas de los tems y Sx2 es la varianza del test

k S j
2
Dado que las puntuaciones en el test son la suma de las puntuaciones en los tems, la varianza 4 0.14 + 0.25 + 0.14 + 0.25
= 1 = 1 = 0.55
del test puede expresarse como: k 1 S x2 4 1 1.33

k
S x2 = S 2j + 2 cov( j , l )
j =1 j <l En este caso, el coeficiente obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariacin entre los tems. No podemos afirmar con rotundidad que este
por lo que la expresin inicial puede quedar como: test mide un rasgo unitario.

El coeficiente puede obtenerse tambin entre diferentes grupos de tems (subtests). En ese
2 cov( j , l ) caso, k ser el nmero de subtests y S2j la suma de las varianzas de los subtests. Un
k j <l coeficiente bajo indicar que los diferentes subtests miden rasgos o constructos diferentes.
=
k 1 S x2

47 48

5.- EL ERROR TPICO DE MEDIDA


4.- FIABILIDAD COMO CORRELACIN ENTRE FORMAS PARALELAS

5.1.- CONCEPTO
A veces, por razones de ndole prctica o investigadora, se disea un test y una segunda versin
del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original
pero con diferentes tems. Como ya hemos explicado, dos versiones o formas se consideran Asumiendo el postulado fundamental del modelo clsico, que expresa la relacin:
paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilsticamente similares.
X=V+E
La correlacin de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas
paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicar el grado en
que pueden considerarse equivalentes. es fcil demostrar que se cumple la siguiente relacin para datos muestrales:

Ejemplo: Sx2 = Sv2 + Se2

Sujetos Forma 1 Forma 2 A la desviacin tpica de los errores de medida (Se) se denomina error tpico de medida. En
cierta manera, el Se representa tambin una medida de precisin: cuanto ms cercano a cero sea
1 1 4 el error tpico de medida de un test, eso significar que dicho test proporciona a cada persona
2 14 12 una puntuacin X cercana a su nivel de rasgo V.
3 11 13
4 11 9 En trminos paramtricos, habamos demostrado en el tema anterior que:
5 10 12

Medias 9.4 10 v2
Varianzas 19.44 10.8 xx =
x2
Varianzas (ins.) 24.3 13.5

Para datos muestrales, la expresin anterior queda establecida como:


rxx = r12 = 0.883

No es comn disear una forma paralela de un test para obtener datos sobre su fiabilidad. S v2 S2
rxx = 2
= 1 e2
Cuando se disean (tarea por otra parte difcil) es porque van a utilizarse en determinados Sx Sx
trabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.

Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo De donde se deduce que el error tpico de medida puede obtenerse a partir de la expresin:
o motivacional, conviene utilizar antes y despus del entrenamiento pruebas equivalentes
aunque con contenidos diferentes (formas paralelas) para evitar los efectos del recuerdo.
S e = S x 1 rxx
49 50

6.- FACTORES QUE AFECTAN A LA FIABILIDAD DE UN TEST


5.2. APLICACIN: CONTRASTE SOBRE PUNTUACIONES VERDADERAS

El conocimiento preciso y exhaustivo de los factores que determinan la cuanta del coeficiente
Un test impreciso puede proporcionar a dos personas puntuaciones empricas diferentes aunque de fiabilidad puede ayudarnos en la tarea de disear pruebas adecuadas. El tema es relevante en
sus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadstica inferencial, la fase de seleccin de tems, para saber cules deben seleccionarse dependiendo de los objetivos
podemos contrastar, con cierta probabilidad, si dos puntuaciones empricas diferentes suponen o que se pretenden conseguir. Tambin va a resultar til para conocer las propiedades y
no niveles de rasgo distintos. limitaciones que asumimos cuando aplicamos un determinado cuestionario.

Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subndices i Ya hemos aclarado las diferentes versiones que pueden adquirir la fiabilidad de un cuestionario,
y j) planteamos las siguientes hiptesis: entendida sobre todo como consistencia o como estabilidad temporal.

Respecto a la consistencia interna (coeficiente ), basta inspeccionar las dos expresiones


H0: Vi = Vj formales que hemos proporcionado para comprobar que los elementos que covaran de manera
elevada y positiva con los restantes son los que ms contribuyen a que sea elevado. Se puede
H1: Vi Vj comprobar, adems, que S2x = ( Hj Sj)2, con lo que, si sustituimos la expresin en la frmula de
, comprobamos tambin que (entre los elementos de igual variabilidad) los de mayor Hj son los
que ms contribuyen a incrementar . Si en la fase de anlisis de items tenemos como objetivo
Puede comprobarse que el estadstico de contraste se expresa como: elaborar un test con elevada consistencia interna, tenemos que quedarnos con los tems que
manifiestan un mayor ndice de homogeneidad.

Xi X j Adems, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la
Z=
Se 2 longitud del test y que resultara fcil obtener valores elevados cuando se incluyen tems
redundantes, lo que, evidentemente, no resulta deseable.

Si el valor de Z se encuentra dentro de la zona de aceptacin, admitiremos, con la probabilidad En cuanto al coeficiente de fiabilidad (rxx), su cuanta depende en parte de la variabilidad de la
establecida, que las puntuaciones V de las dos personas son las mismas; de lo contrario, muestra donde se obtiene y tambin de la longitud (nmero de tems) del test.
admitiremos que difieren sus niveles de rasgo.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos
Ejemplo: Un test de Inteligencia general manifiesta en un grupo normativo un coeficiente de (muestras de personas donde se obtiene el coeficiente). Ms concretamente, un mismo test suele
fiabilidad de 0.91 y una desviacin tpica de 16. Dos personas obtienen en el test unas obtener un rxx mayor en un grupo heterogneo que en otro menos heterogneo (de menor
puntuaciones directas de 126 y 120 puntos, respectivamente. Podemos afirmar, con varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una
probabilidad 0.95, que ambas personas difieren en sus rasgos intelectuales?. muestra de la poblacin general que una muestra de universitarios o en otra de personas con
deficiencias cognitivas (estas ltimas ms homogneas). La razn es simple: el coeficiente de
En este caso, el estadstico ser: fiabilidad, obtenido por el mtodo que sea, se fundamenta estadsticamente en una correlacin
de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las
variables que se correlacionan.
126 120
Z= = 0.88 Por otra parte, si los tems estn bien formulados y resultan discriminativos, un test incrementar
16 1 0.91 2 su rxx a medida que incrementa su longitud (nmero de tems), aunque no lo hace de manera
lineal. La siguiente grfica muestra el coeficiente de fiabilidad de un test alargado N veces (N: 1,
2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:
Con probabilidad 0.95, la zona de aceptacin queda establecida entre los lmites Z = -1.96 y Z
= 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.
51 52

Si las 3 formas aadidas fuesen autnticamente paralelas a la original al pasar de 25 a 100 tems
1,0
el coeficiente de fiabilidad pasa de 0.6 a 0.86.

Imagnese ahora que el test de atencin de 25 tems tiene un rxx = 0,92. Si se aaden 75 tems
,8
ms paralelos, el test alargado tendra de coeficiente de fiabilidad:
Fiabilidad del test alargado N veces
,6
nrxx (4)0.92
R xx = = = 0.98
1 + (n 1)rxx 1 + (3)0.92
,4

En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de
0.7 atencin es de 0.26, mientras que en el segundo caso, el incremento es nicamente de 0.06. Esto
,2
se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el
0.4
primero.
0,0 0.1
1 7 13 19 25 31 37 43 49 Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la frmula
4 10 16 22 28 34 40 46 se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el mtodo de
las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sera el coeficiente de
N fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el
resultado de esa correlacin hay que corregirlo, haciendo n = 2 en la frmula de Spearman-
Brown, para obtener el coeficiente de fiabilidad del test completo.
Queremos indicar con la grfica anterior que el incremento es ms significativo cuando el test Estas relaciones entre fiabilidad y longitud de un test pueden ayudarnos a estimar el coeficiente
inicial tiene un nmero pequeo de tems y bajo coeficiente de fiabilidad, que cuando el test de de fiabilidad alargando n veces o, planteado inversamente, el nmero de veces que debemos
partida tiene ya un coeficiente de fiabilidad considerable. multiplicar la longitud inicial de un test para alcanzar un Rxx determinado. En la prctica, puede
resultar eficaz disear un test inicial corto y estimar cul debera ser su longitud para alcanzar un
La frmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra coeficiente de fiabilidad determinado, y as comprobar si merece la pena continuar con tems
concreta, permite estimar cul ser el coeficiente de fiabilidad (Rxx) de un test que se forma con paralelos o reformar los ya generados. Para ello, si despejamos n de la frmula general de
n versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx: Sperman-Brown, obtenemos la siguiente expresin:

nrxx R xx (1 rxx )
R xx = n=
1 + (n 1)rxx rxx (1 R xx )

Las n-1 formas aadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario, Ejemplo: Supongamos que un test inicial de 25 tems obtiene un coeficiente de fiabilidad de 0.6,
la frmula anterior no tiene significado alguno. considerado bajo para los objetivos que se pretenden conseguir con su aplicacin. Una manera
de incrementar su precisin es alargarlo con tems paralelos a los iniciales. Al constructor de la
Por ejemplo, supongamos que una prueba de atencin de 25 tems obtiene en un grupo prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0.86, y se pregunta
normativo un rxx= 0,6. Si se aadieran 75 tems (tres formas paralelas) al test inicial, el test con cuntos tems lo conseguira.
alargado tendra 100 tems (4 veces el inicial), y su fiabilidad sera:
Aplicando la frmula precedente, obtenemos:
nrxx (4)0.6
R xx = = = 0.86 0.86(1 0.60)
1 + (n 1)rxx 1 + (3)0.6 n= =4
0.60(1 0.86)
53 54

EJERCICIOS
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de 100
tems, conseguiremos la precisin deseada. Por tanto, a los 25 tems que tiene el test inicial 1. Seale el objetivo que se pretende conseguir con cada una de las siguientes
habra que aadir 75 tems paralelos (3 formas) para conseguir la fiabilidad de 0.86. actuaciones en la construccin de un cuestionario.

El lector puede comprobar que este planteamiento es el inverso al del ejemplo precedente, que a) Correlacionar las puntuaciones totales en el cuestionario con las mismas puntuaciones
consideraba los mismos datos, y que por eso es lgico que el resultado de n sea 4. obtenidas un mes despus.
b) Correlacionar las puntuaciones de la mitad par con las obtenidas en la mitad impar.
c) Valorar todas las covariaciones que se producen entre los diferentes elementos.
d) Correlacionar las puntuaciones totales en el test con las obtenidas por los mismos sujetos
en una forma paralela.

2. Seale qu factores pueden afectar al coeficiente de fiabilidad de un test (rxx).

3. Un psiclogo construye una escala de actitudes para evaluar el dogmatismo religioso.


La escala consta de 4 tems, y en cada uno se puede manifestar la opinin segn una escala de
7 puntos (del 1 al 7). A continuacin se detallan las respuestas de un grupo normativo de 5
personas:

Sujeto tem 1 tem 2 tem 3 tem 4


1 1 5 2 7
2 2 3 4 6
3 4 4 3 3
4 5 5 6 7
5 6 7 6 7

Obtenga e interprete el coeficiente de la prueba.

4. Cul sera el coeficiente de un test formado por 20 tems completamente


independientes entre s?

5. De un test formado por 40 elementos se sabe que la correlacin entre las


puntuaciones en los 20 elementos pares y en los 20 elementos impares es igual a 0,5. Obtenga
el coeficiente de fiabilidad del test de 40 elementos.

6. Un psiclogo social disea un test de actitudes hacia la no violencia formado por 4


tems, en cada uno de los cuales los sujetos pueden manifestar su opinin segn una escala de
55 56

3 puntos (0, 1 ,2). A continuacin se detallan las respuestas dadas por un grupo normativo de b) Obtenga la diferencia mnima que debe producirse entre las puntuaciones de dos
8 personas: conductores en el test para considerar, con probabilidad 0.99, que sus puntuaciones
verdaderas son distintas.
Sujetos
n 1 n 2 n 3 n 4 n 5 n 6 n 7 n 8 tems
tem n 1 2 2 2 2 2 2 1 0 Conductor 1 2 3 4 5 6
tem n 2 2 2 2 2 1 1 0 0 1 0 1 1 1 1 1
tem n 3 2 1 2 0 0 1 0 0 2
1 1 1 1 0 1
tem n 4 1 1 0 1 0 0 0 0 3 0 1 0 1 0 0
4
Obtenga el coeficiente de fiabilidad de test por el mtodo de dos mitades. Aplique para ello 0 1 1 0 0 0
la frmula de Spearman-Brown .

10. Un test de habilidad verbal de 30 tems tiene, segn el procedimiento de las dos
7. Se aplican dos formas paralelas de un test a un grupo normativo de 10 personas. Sus mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
puntuaciones empricas directas en ambas formas fueron las siguientes:
a) Calcule la correlacin entre la mitad par e impar del test.
b) Suponiendo que las dos mitades son autnticamente paralelas, obtenga la varianza de las
Sujetos 1 2 3 4 5 6 7 8 9 10
puntuaciones en la mitad impar del test.
Forma A 6 3 5 4 4 6 5 5 6 3 c) Obtenga la covarianza entre las dos mitades.
d) Obtenga la varianza error del test si se le aaden 45 elementos paralelos a los que ya tiene.
Forma B 6 3 4 4 5 6 3 5 6 5

Obtenga el coeficiente de fiabilidad del test segn el mtodo de formas paralelas. 11. Sean dos tests de tres tems. La matriz de correlaciones entre los tres tems en cada
test ha sido:

8. A continuacin se detallan las puntuaciones que un grupo normativo de 4 personas Correlaciones Test A Test B
obtiene en un test de personalidad, cuyo coeficiente de fiabilidad fue 0.8: item1 e item2 0.5 0.3
item1 e item3 0.7 0.4
Sujeto: 1 2 3 4
item2 e item3 0.6 0.4
Xi : 14 6 16 4

a) Calcule la varianza verdadera del test. a) En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) Calcule el error tpico de medida del test. b) En cual de los tests cabe esperar que sea mayor el ndice de homogeneidad del tem 1?
Razone su respuesta.

9. Un psiclogo que trabaja en un centro dedicado a evaluar la rapidez visomotora de los


conductores confecciona una pequea prueba para medir esta habilidad. La prueba consta de 12. Un test est formado por 4 tems dicotmicos que tienen igual media (0.6). La
6 elementos que se valoran de forma dicotmica. La tabla siguiente muestra las respuestas correlacin entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
que se obtuvieron en un grupo normativo formado por 4 aspirantes a conductores: tems.

a) Obtenga el coeficiente de fiabilidad del test.


57 58
17. Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
13. Disponemos de un test inicial, A, de 20 tems, que tiene un coeficiente de fiabilidad puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
raa. Multiplicamos su longitud por 2, 3 y 4, siempre con elementos paralelos, y formamos los Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hiptesis
tests B, C y D, de 40, 60 y 80 tems, respectivamente. Obtenemos sus coeficientes de nula de igualdad de puntuaciones verdaderas.
fiabilidad: rbb, rcc y rdd. Dado que el test B resulta de aadir 20 tems al test A; el C, de aadir
otros 20 al test B; y el D, de aadir otros 20 al C, cabe esperar que rbb raa = rcc rbb = rdd a) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
rcc? las puntuaciones verdaderas de Carlos y Bernardo llegaramos a la misma decisin que antes
sobre sus puntuaciones verdaderas?
b) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
14. Un cuestionario para evaluar el rendimiento en Aritmtica est formado por 4 tems, las puntuaciones verdaderas de Carlos y Antonio Mantendramos la hiptesis nula de
que se valoran de forma dicotmica (1 el acierto y 0 el fallo). Se aplic a una muestra de 100 igualdad de puntuaciones verdaderas?
nios. A continuacin se detalla alguna informacin estadstica de la mitad par (P), impar (I)
y del total del test (X). Tambin aparecen las frecuencias de aciertos (F) de cada uno de los 4
tems, no habiendo omisiones en ninguno.

Correlaciones :

P I X tem 1 2 3 4
P 1
F 50 70 60 80
I 0,.45 1
X 0,79 0,74 1
Medias 1,50 1,10 2,60
Sj 0,67 0,83 1,14

a) Imagnese que aplicamos el test a un nio antes y despus de un programa de


entrenamiento en aritmtica. Diga cul debe ser la diferencia mnima entre sus dos
puntuaciones para considerar, con probabilidad 0.99, que dicho entrenamiento ha tenido
eficacia; es decir, para considerar que su nivel de rasgo se ha incrementado.
b) Obtenga e interprete un indicador de la consistencia interna global de la prueba.

15. Un test A tiene 100 tems y un coeficiente de fiabilidad de 0.5. Un test B tiene el
mismo coeficiente de fiabilidad, pero tiene 10 tems. Significa esto que si a ambos tests
aadimos 50 tems paralelos, los dos tests alargados tendran la misma fiabilidad?
SI( ) NO( ) Depende ( ). Razone su respuesta.

16. Tenemos un test de 5 tems con coeficiente de fiabilidad de 0.10.


Aplicando la frmula n = R(1-r)/(1-R)r, para que R = 0.95, n ha de ser 171.

a) Cuntos tems se han de aadir al test para que su fiabilidad sea 0.95? Realice el clculo
necesario.
b) Puede el valor n de la frmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
59 60
SOLUCIONES
4 (4)0.24
= 0.44
1. a) Obtener la fiabilidad test-retest, es decir, la estabilidad temporal de las = 1
3 1
puntuaciones que proporciona el cuestionario. ( 4) 0. 24 + 2 ( 6 ) 0 .24
6
b) Obtener la fiabilidad del test mitad. Aplicando la correccin de Spearman-Brown
se obtiene la fiabilidad del test completo, segn el procedimiento de las dos mitades.
c) Estudiar la consistencia interna del test. Se puede hacer mediante el coeficiente
13. No. A incrementos constantes en longitud, no se producen incrementos constantes en
de Cronbach.
rxx.
d) Obtener la fiabilidad mediante el mtodo de las formas paralelas.
14. a) Z = 2.33 en las tablas en contraste unilateral.
2. La varianza del grupo normativo y la longitud del test.
rxx = (2)(0.45)/(1+0.45) = 0.62
Se = 0.70
3. = 0.77, que se puede considerar un coeficiente medio-alto. Los 4 tems covaran
Diferencia mnima: (2.33)(0.70)2 = 2.3
entre s de forma apreciable.

4. = 0. Si los tems son independientes, sus covarianzas sern igual a cero. 4 0.86
b) S12 = 0.25; S22 = 0.21; S32 = 0.24; S42 = 0.16. = 1 = 0.45.
3 1.142
5. rxx = 0,66

6. rxx = 0,83 15. NO. En el primer caso, el test inicial se habr alargado 1.5 veces para llegar a los 150
tems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
7. rxx = 0, 587 los 60 tems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.
8. a) Sv2 = 20,8
b) Se = 2,28
16. a) tems que ha de tener el test = (171)(5) = 855
9. a) rxx = 0,778 tems a aadir = 855 5 = 850.
b) 2.58 ser la diferencia mnima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones b) r y R son coeficientes de fiabilidad, por lo que 0 < r, R < 1. Por lo tanto, en la
verdaderas son diferentes. frmula, n no puede tomar valores negativos. En la frmula equivalente que se
estudia en un tema posterior (validez), entonces s que n puede tomar un valor
10. a) rP I = 0,67 negativo e indica que el valor de Rxy propuesto no es alcanzable alargando el test. En
el caso de la fiabilidad, todo valor menor de 1 es alcanzable y n da siempre positivo.
b) Si2 = 6
c) SP I = 4
d) S2n e = 10 17. a) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la
diferencia entre las puntuaciones observadas es de 4 puntos, necesariamente se ha de
11. a) El test A. Cuando las correlaciones entre los tems son ms altas, lo sern las rechazar la igualdad cuando la diferencia es mayor. La diferencia entre Carlos y
covarianzas, y por tanto el coeficiente alfa. Bernardo es de 7 puntos.
b) El test A. Cuando las correlaciones entre los tems son altas, tambin lo sern las
correlaciones de cada tem con el test total (ndice de homogeneidad). b) Si se rechaza el contraste de igualdad de puntuaciones verdaderas cuando la
diferencia entre las puntuaciones observadas es de 4 puntos, no podemos saber qu
suceder cuando la diferencia sea menor. Se puede aceptar o rechazar la hiptesis
12. S12 = S22 = S32 = S42 = 0,24 nula. La diferencia entre Carlos y Antonio es de 3 puntos. Habr que hacer el
cov(i,j) = ri j Si Sj = (1/6)(0.24)1/2(0.24)1/2 = (1/6) (0.24) contraste para saberlo.
61 62
TEMA IV: VALIDEZ DEL TEST definitiva, nos referimos a explicitar claramente los objetivos de la evaluacin y la
importancia que se quiere dar a cada uno, lo que determinar la cantidad de cuestiones a incluir
referidas a cada uno de esos objetivos. En definitiva, la validez de contenido es un tema
1.- CONCEPTO DE VALIDEZ particular del de muestreo: si deseamos realizar inferencias sobre el rendimiento de las personas
en una poblacin de contenidos determinada, el test debe incluir una muestra representativa de
dichos contenidos.
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestin de qu es lo que autnticamente est evaluando. En el mbito El proceso de validacin de contenido es eminentemente lgico, si bien pueden utilizarse jueces
psicosocial, los diferentes constructos resultan difcilmente operativizables de manera expertos en el tema para valorar la congruencia entre los diversos items y los diversos objetivos.
indiscutible, y a veces se producen dudas razonables sobre qu mide un determinado test. Una Existen procedimientos cuantitativos diversos para que cada experto valore el grado en que un
prueba de inteligencia general tendr un elevado grado de validez si asigna puntuaciones altas a tem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo ms
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y sencillo sera el siguiente:
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendr un elevado nivel de validez si se demuestra que mide de forma exhaustiva - Especificar los diversos objetivos (v.gr. reas diferentes de contenidos) que se
todos los componentes en que puede manifestarse la autoestima. pretenden evaluar.
- Elaborar varios tems para cada objetivo.
La validacin es un proceso continuo, que incluye procedimientos diferentes para comprobar si - Seleccionar una muestra de expertos en el contenido del test.
el cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo - Pedirles que, segn su opinin, asignen cada tem al objetivo que pretende medir.
de conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el - Seleccionar los tems en los que los expertos manifiestan mayor acuerdo en sus
test. Las inferencias pueden ser de muy diverso tipo: qu rasgo estamos midiendo realmente? clasificaciones.
Qu podemos predecir sobre el comportamiento de un sujeto que obtiene una determinada
puntuacin en el test? Qu consecuencias de diverso tipo tiene esa puntuacin, en contextos de Muy en relacin con la validez de contenido se encuentra lo que se ha dado en llamar "validez
evaluacin o seleccin? aparente", que se refiere al grado en que un test da la impresin a los evaluandos de que mide lo
que se pretende. En situaciones aplicadas, es importante que las personas perciban que los tems
Aunque cada vez se tiende ms a concebir la validez como un proceso unitario que tiene como del test tienen que ver con la finalidad que se persigue con el procedo de evaluacin.
objetivo aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente
se han diferenciado varios procedimientos de validacin, alguno de los cuales incluye varios
mtodos diferentes de comprobacin. Los fundamentales procedimientos son denominados 3.- VALIDEZ DE CONSTRUCTO
como validez de contenido, de constructo y referida al criterio.

Un constructo es un concepto elaborado por los tericos de la Psicologa para explicar el


2.- VALIDEZ DE CONTENIDO comportamiento humano. Inteligencia fluida, extroversin, autoconcepto, asertividad,
motivacin intrnseca... son constructos que forman parte de teoras psicolgicas y que precisan
de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...) tems de un test, y debe comprobarse empricamente que resultan adecuados para reflejar el
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar constructo de referencia
o en una especialidad temtica concreta), tiene sentido justificar que el conjunto de items que
forman el test conforman una muestra representativa del universo de contenidos que interesa
evaluar. Un test de conocimientos de Qumica en 8 de EGB, por ejemplo, debera incluir 3.1.- ESTRATEGIAS PARA LA VALIDEZ DE CONSTRUCTO
cuestiones representativas de los diferentes ncleos de contenidos que oficialmente deben
impartirse en ese nivel de estudios. Sera una prueba poco vlida si incluye demasiadas
cuestiones de unos temas y muy pocas de otros. La validez de constructo incluye la planificacin y ejecucin de determinados estudios de
investigacin orientados a comprobar empricamente que un test mide realmente el constructo o
Para justificar, aunque slo sea racionalmente, que un test posee validez de contenido, debe rasgo que pretendemos.
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cules son los contenidos de Qumica que debe conocer un alumno de 4 de ESO, cules son los Aunque los mtodos a emplear son sin duda variados, as como la tcnicas estadsticas para
componentes que interesa considerar en un cuestionario de cultura general, qu tipo de analizar los datos, podemos encontrar un comn denominador a todos ellos, que se sintetiza en
conocimientos y destrezas son las pertinentes para medir el nivel bsico de ingls, etc. En las siguientes fases:
63 64
debe establecer relaciones entre el constructo de inters y otros diferentes, y por tanto
1.- Formular hiptesis relevantes (extradas de deducciones tericas o del sentido debe ser posible establecer diseos de investigacin para contrastar las previsiones
comn) en las que aparezca el constructo que pretendemos evaluar con el test. En tericas. Por ejemplo, Molt (1988) predice (y comprueba) que la escala de
definitiva, una hiptesis de trabajo consiste en poner en relacin dos o ms variables. susceptibilidad al castigo (que mide el grado de evitacin de situaciones reales aversivas)
Pues bien, una de esas variables ha ser el constructo que pretendemos medir con el test. debe proporcionar puntuaciones relacionadas directamente con neuroticismo e
inversamente con estabilidad emocional.
2.- Efectuar en la prctica mediciones oportunas de las variables o constructos
involucrados en las hiptesis. La medicin del constructo de inters se realizar con la - Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
prueba diseada a tal efecto, que es la que pretendemos validar. para comprobar si realmente es as. Resulta un enfoque eminentemente diferencial: si el
test es vlido, debera reflejar las diferencias entre grupos que se predicen desde la teora
3.- Determinar si se verifican o no las hiptesis planteadas. En el caso de que as sea, psicolgica. Por ejemplo, si un test de inteligencia general para edades infantiles es
queda confirmado mediante una investigacin que el test mide el constructo de inters ya vlido, debera reflejar el mayor rendimiento de los nios de ms edad.
que, de lo contrario, no habra razones lgicas para que se cumplieran las hiptesis
formuladas. Si las hiptesis no se confirman no significa en principio que el test no es - Utilizar una estrategia experimental para comprobar si el test resulta sensible para
vlido, ya que puede ser debido a que las hiptesis no estaban planteadas de manera detectar los efectos previsibles debidos a la manipulacin o seleccin de los niveles en
adecuada, lo cual exigira una revisin de la teora subyacente. una o ms variables independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta estrategia.
Imaginemos, por ejemplo, que un investigador est interesado en validar una prueba de
motivacin intrnseca-extrnseca que ha construido. Desde la teora motivacional de partida se - Aplicar la tcnica multivariada del Anlisis Factorial (exploratorio o confirmatorio)
puede deducir que las personas motivadas intrnsecamente (por el mero placer que les supone la sobre la matriz de correlaciones entre items, para descubrir estadsticamente las variables
ejecucin de determinadas tareas) deberan rendir mejor en actividades escolares que las o dimensiones subyacentes (factores) a la covariacin entre los elementos.
personas motivadas por razones extrnsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que demostrar empricamente que
mide autnticamente el constructo motivacional que se pretende, y podra proceder de la 3.2.- VALIDEZ DE CONSTRUCTO FACTORIAL
siguiente manera:

a) Aplicar el test a un grupo amplio de alumnos del nivel escolar apropiado. Este ltimo mtodo, denominado validez de constructo factorial, requiere alguna precisin que
puede ser pertinente por fundamentarse en una tcnica estadstica relativamente sofisticada y,
b) Recoger informacin de cada alumno sobre su nivel intelectual, su calificacin sobre todo, porque su utilizacin prctica es muy extensa.
acadmica media en el ltimo curso y las horas que dedica al estudio.
El anlisis factorial es una tcnica estadstica multivariante que sirve para estudiar las
c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
nivel intelectual medio y que ocupen un nmero similar de horas en el estudio, pero que datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
el grupo A tenga niveles altos de motivacin intrnseca y el B niveles altos de informacin final, proporciona una matriz de tamao n p, denominada matriz factorial rotada.
motivacin extrnseca. Esta matriz contiene las saturaciones de cada variable en cada una de las p dimensiones
extradas, y que son las correlaciones de Pearson entre cada variable y cada dimensin.
d) Comparar el rendimiento acadmico de los dos grupos. Si la hiptesis de partida fuera
cierta, el grupo A debera rendir significativamente ms que el grupo B, con lo cul se El anlisis factorial se realiza con dos objetivos 1) determinar cual es el nmero de dimensiones
aportara informacin sobre la validez del test. Desde luego, si el test no midiera o factores que mide un test y descubrir cual es el significado de cada una; 2) obtener la
motivacin, sera improbable que se verificase la hiptesis de trabajo. puntuacin de cada sujeto en cada dimensin. Normalmente, el nmero de dimensiones que
mide un test es mucho menor que el de tems. Para descubrir su significado y darles sentido es
Pueden ser muy variados los mtodos a seguir que, cumpliendo el proceso de ejecucin necesario fijarse en las variables que saturan de forma elevada en cada dimensin. Cuando el
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En cada investigador se enfrenta con la tarea de dar significado a una dimensin, debe realizar un
caso habr que seguir el que ms convenga para contrastar las hiptesis de partida, pero algunos proceso inferencial para encontrar el nexo de unin entre las variables que manifiestan
mtodos suelen ser ms frecuentes. Entre ellos destacamos: correlaciones elevadas en la dimensin. Adems, los diferentes factores (dimensiones) extrados
no tienen la misma importancia. Cada uno explica una determinada cantidad de la varianza total
- Obtener las relaciones entre las puntuaciones en el test y en otras variables que deberan de los tems, que se expresa porcentualmente, y que indica la importancia de esa dimensin para
relacionarse con el constructo de inters. Si el modelo terico est bien fundamentado, dar cuenta de la covariacin entre las variables. Si un factor explica un porcentaje elevado de la
65 66
varianza total, eso es sntoma de que las saturaciones de las variables en dicho factor son altas, En el factor II obtienen saturaciones elevadas (en valor absoluto) los tems 2 y 4, mientras que
lo que significa que es una dimensin importante a la hora de describir las relaciones entre las el resto de saturaciones son cercanas a cero. El hecho de que el tem 2 tenga una saturacin
variables originales. positiva y el 4 negativa significa que las personas con puntuacin alta en el factor II tienden a
estar de acuerdo con el tem 2 y en desacuerdo con el 4. Este segundo factor podra etiquetarse
Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologas.
3.2.1.- EJEMPLO DE ANLISIS FACTORIAL
Vemos, pues, que las relaciones de covariacin entre los tems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
Un psiclogo ha elaborado una prueba de cinco tems para evaluar la actitud hacia las nuevas no son tan evidentes en la realidad; el investigador debe decidir cuntos factores estn presentes
tecnologas por parte de las personas mayores. Los tems, que se responden en una escala de en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
siete categoras ordenadas (desde 1: muy en desacuerdo" hasta 7: muy de acuerdo"), son los tan sencillo como en este ejemplo. Lo cierto es que la aplicacin del anlisis factorial aporta
siguientes: informacin sobre las dimensiones que estamos midiendo con un determinado cuestionario, es
decir, proporciona informacin sobre la validez de la prueba.
tem 1: El uso de telfonos mviles puede hacerme la vida ms fcil.
tem 2: Los aparatos modernos son demasiado caros. En las siguientes secciones se describe ms detalladamente como se obtiene e interpreta la
tem 3: Me gustara tener una agenda electrnica. estructura factorial que subyace a las respuestas a los tems de un test.
tem 4: El coste de las llamadas desde un mvil es razonable.
tem 5: Gracias a internet podemos resolver muchos problemas.
3.2.2.- EL MODELO FACTORIAL
Los 5 tems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se someti a un anlisis factorial, obtenindose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlacin de cada tem con cada uno de los factores que mide el test: El anlisis factorial se basa en un modelo que es una extensin del utilizado en teora clsica de
tests. A modo de ejemplo, consideremos los siguientes seis tems de una escala de Cordialidad
dirigida a poblacin infantil:
tem Factor I Factor II
1. Me comporto de manera honesta y correcta con los dems.
1 0.845 -0.126 2. Trato a mis compaeros afectuosamente.
2 -0.201 0.803 3. Si un compaero tiene dificultades, le ayudo.
3 0.672 0.012 4. Confo en los dems.
4 0.052 -0.615 5. Pienso que otras personas son buenas y honradas.
5 0.713 -0.143 6. Dejo que los dems usen mis cosas.

Estos tems se aplicaron a una muestra de 564 chicos y chicas de entre 11 y 14 aos. La matriz
% de varianza 34% 21% de correlaciones obtenida en esta muestra fue:
total explicada
1 1
r 1 0,459 1
Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que 21
se tipifican las puntuaciones en los tems; la varianza total sera cinco, que es la suma de la r31 r32 1 0,313 0,384 1
=
varianza de cada tem. El factor I explica un 34% de la varianza total, el factor II explica un 21% r41 r42 r43 1 0,246 0,285 0,240 1
de la varianza total. Con los dos factores se explica el 55% de la varianza de los tems. r51 r52 r53 r54 1 0,171 0,274 0,227 0,448 1

r61 r62 r63 r64 r65 1 0,150 0,281 0,266 0,286 0,239 1
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologas pueden ser tiles para mejorar su calidad de vida. El tem 2 tiene una
saturacin negativa (aunque baja) porque posiblemente manifiesta una actitud contraria hacia las Observe que unos tems correlacionan ms entre s que otros. En realidad, el patrn de
nuevas tecnologas. Por tanto, el factor I puede denominarse Actitud positiva hacia las nuevas correlaciones nos informa de cuntas dimensiones subyacen a las respuestas en esos tems. A
tecnologas como medio para mejorar la calidad de vida. continuacin se ver que, utilizando el anlisis factorial, seremos capaces de extraer muchsima
informacin sobre los tems a partir de esa matriz de correlaciones.
67 68

3.2.2.1. El modelo factorial con un nico factor Lo que se simplifica a:

Puede plantearse que los seis tems miden una misma caracterstica, la cordialidad. Aplicando (1 F + E1 )( 2 F + E 2 )
el modelo de la teora clsica de tests a las puntuaciones de los tems, se obtienen las ecuaciones: r12* =
N

X 1 = V + E1 Asumiendo que los errores no correlacionan entre s ni con la puntuacin en el factor (como
X 2 = V + E2 en la Teora Clsica), obtenemos que la correlacin esperada segn el modelo sera igual al
producto de los pesos de los 2 tems en el factor:
X 3 = V + E3
X 4 = V + E4
X 5 = V + E5 12 F 2
r12* = = 1 2
X 6 = V + E6 N

F 2
Para entender la ltima simplificacin, debe recordar que F 2 es la varianza de las
Esto significa que todos los tems miden la misma caracterstica (la cordialidad), representada N
por V en el modelo. Adems, hay un error de medida que puede ser distinto para cada tem (Ei). puntuaciones F; al estar las puntuaciones F en puntuaciones tpicas su varianza es 1. Por
Es posible plantearse que no todos miden igual de bien la cordialidad. Por esta razn se definen tanto, sabiendo que F = 0 :
los parmetros i, denominados saturaciones, que indican la relacin de cada tem con la
caracterstica o factor que miden todos ellos. Cuanto mayor sea i, mejor indicador de la F 2
cordialidad ser la puntuacin en el tem. Si a la cordialidad se la denomina F en lugar de V, se =1
N
obtiene el modelo de un factor:
Si calculramos cuales son los valores esperados de las correlaciones segn el modelo
unidimensional, a las que denominamos correlaciones reproducidas ( r * ), obtendramos la
X 1 = 1 F + E1
siguiente matriz:
X 2 = 2 F + E2
X 3 = 3 F + E 3 1 1
X 4 = 4 F + E4 r * 1 1
21 2 1
X 5 = 5 F + E 5 r31* r32* 1 3 1 3 2 1
* =
4 1 4 2 4 3
* *
X 6 = 6 F + E 6 r41 r42 r
43 1 1
r51* r *
52 r*
53 r54* 1 5 1 5 2 5 3 5 4 1
*
r61 r *
62 r*
63 r64* r65* 1 6 1 6 2 6 3 6 4 6 5 1
Las saturaciones se calculan a partir de la matriz de correlaciones entre los tems. Los clculos
exigen la aplicacin de clculos de lgebra matricial y se realizan mediante ordenador. Sin
embargo, la lgica es fcil de ejemplificar. Asumamos que las variables X1, X2, X3, X4, X5, X6 y F En trminos generales, los programas de anlisis factorial buscan aquellos valores de ( 1 ,
estn en puntuaciones tpicas. Si el modelo unidimensional fuera cierto, la correlacin esperada 2 , 3 , 4 , 5 y 6 ) que hacen que las correlaciones esperadas segn el modelo ( r21* , r31* ,
entre X1 y X2 (que denominaremos r12* ) sera: r41* , r51* , ) se parezcan lo ms posible a las correlaciones observadas (0,459, 0,313, 0,246,
0,171,). En el ejemplo, a partir de la matriz de correlaciones mencionada anteriormente, se
llega al siguiente modelo de un factor:
X 1 X 2
r12* =
N
69 70
X 1 = 0,540F + E1
X 2 = 0,671F + E 2 1 1
r r * 1 0,096 1
X 3 = 0,542F + E3 21 21
r31 r31* r32 r32* 1 0,020 0,021 1
X 4 = 0,529F + E 4 =
r41 r41 r42 r42* r43 r43* 0,040 0,070 0,046
*
1 1
X 5 = 0,483F + E5 r51 r51* r52 r52* r53 r53* r54 r54* 1 0,090 0,050 0,035 0,192 1

r61 r61 r62 r62* r63 r63* r64 r64* r65 r65* 1 0,086 0,012 0,029 0,055 0,028 1
*
X 6 = 0,437 F + E 6

Lo cual significa que el factor tiene una relacin ms fuerte con el tem 2 que con los dems, Por ejemplo, el residual para la correlacin entre los tems 1 y 3 ( r31 r31* ) es 0,020.
aunque todas las saturaciones son elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada tem con el factor. Pueden tomar valores positivos o A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
negativos. Si la saturacin es cero, o prxima a cero, no existe relacin entre el tem y el factor. lineales de variables, la varianza de un tem puede calcularse como una funcin de su saturacin
Saturaciones extremas, en cualquier direccin, significan que la relacin es fuerte. en el factor, de la varianza del factor y de la varianza del error. Por ejemplo, sabiendo que:
Generalmente, en los programas informticos, las saturaciones se disponen en una matriz que se
denomina matriz factorial:
X 1 = 0,540F + E1
Matriz factoriala
la varianza de X1 ( X2 1 ) puede calcularse como:
Factor
1
x1 .540 X2 = 0,540 2 F2 + 12
1
x2 .671
x3 .542
x4 .529
donde F2 y 12 representan la varianza de F y la varianza de E1. Al estimar el modelo factorial
x5 .483 a partir de la matriz de correlaciones, se est asumiendo implcitamente que los tems y el factor
x6 .437 vienen expresados en puntuaciones tpicas. Esto significa que las varianzas del factor y del tem
Mtodo de extraccin: Mxima verosimilitud. son 1 ( F2 = 1, X2 1 = 1); Por tanto, la varianza del tem (1) se descompone del modo siguiente:
a. 1 factores extrados. Requeridas 4 iteraciones.
1 = 0,540 2 (1) + 12

Las correlaciones esperadas segn el modelo seran: Como se puede ver, una parte de la varianza del tem depende de su saturacin en el factor
comn. A esa parte se la denomina comunalidad y se la representa por el smbolo hi2 . El resto
de la varianza del tem depende de la varianza del error ( 12 ). A esa parte se la denomina
1 1 unicidad. Simblicamente,
r * 1 0,362 1
21
r31* r32* 1 0,293 0,363 1 1 = h12 + 12
* =
r41 r42* r43* 1 0,286 0,355 0,287 1 La comunalidad de un tem indica la cantidad de su varianza explicada por el factor. En el
r51* r52* r53* r54* 1 0,261 0,324 0,262 0,256 1 modelo de un factor, la comunalidad de un tem se obtienen elevando la saturacin de ese tem
*
r61 r62* r63* r64* r65* 1 0,236 0,293 0,237 0,231 0,211 1 en el factor al cuadrado. En el ejemplo, las comunalidades son h12 = 0,292 (que es 0.5402),
h22 = 0,450 (que es 0.6712), h32 = 0,294 , h42 = 0,280 , h52 = 0,234 y h62 = 0,191 .

Segn el modelo de un factor los dos tems que ms deberan correlacionar son los tems 2 y 3 La varianza de los errores se denomina unicidad, y se simboliza, como ya hemos mencionado,
puesto que son los que ms correlacionan con ese factor. Las correlaciones reproducidas se mediante i2 . La unicidad de un tem indica cuanta varianza del mismo no depende del factor,
parecen a las correlaciones observadas en nuestra muestra, pero no son iguales. La diferencia
entre una correlacin observada y una reproducida se llama residual: es decir, es varianza especfica del tem que no se relaciona con lo que los tems miden en
71 72
conjunto. Las unicidades se calculan i2 = 1 hi2 . En el ejemplo, las unicidades son
p
12 = 0,708 , 22 = 0,550 , 32 = 0,706 , 42 = 0,720 , 52 = 0,766 y 62 = 0,809 . rij* = ix jx
x =1

La suma de las comunalidades es la varianza de los tems explicada por el factor. En


nuestro ejemplo, esta suma es 1,740. Como la varianza total de los tems es 6, la proporcin de De nuevo, el programa busca aquellos valores de que hacen que las correlaciones
varianza explicada por el factor es 1,740/6 = 0,290; es decir, el 29%. La suma de las unicidades esperadas segn el modelo ( r21* , r31* , r41* , r51* , ) se parezcan lo ms posible a las
es la varianza de los tems no explicada por el factor, en este caso el 71% del total. correlaciones observadas (0,459, 0,313, 0,246, 0,171,). Al estimar las saturaciones a partir
de la matriz de correlaciones se obtiene el resultado:

3.2.2.2. El modelo factorial con ms de un factor

X 1 = 0,576F1 + 0,151F2 + E1
Es posible formular modelos factoriales en los que cada tem mida ms de una
caracterstica simultneamente. Supongamos que se hipotetiza que el cuestionario mide dos X 2 = 0,729F1 + 0,222F2 + E 2
factores, denominados F1 y F2. Entonces, las saturaciones se denominan ij (siendo i el tem y j X 3 = 0,469F1 + 0,239F2 + E3
el factor), y el modelo de dos factores es: X 4 = 0,199F1 + 0,678F2 + E 4
X 1 = 11 F1 + 12 F2 + E1 X 5 = 0,174F1 + 0,606F2 + E5
X 2 = 21 F1 + 22 F2 + E 2 X 6 = 0,270F1 + 0,340F2 + E6
X 3 = 31 F1 + 32 F2 + E3
X 4 = 41 F1 + 42 F2 + E 4 Los programas nos informarn de esas saturaciones, mediante una matriz denominada
X 5 = 51 F1 + 52 F2 + E5 matriz de factores rotados:
X 6 = 61 F1 + 62 F2 + E6

Las correlaciones reproducidas segn el modelo de 2 factores independientes seran: Matriz de factores rotadosa

Factor
1 2
1 x1 .576 .151
r * 1
21 x2 .729 .222
r31* r32* 1 x3 .469 .239
* = x4 .199 .678
r41 r42* r43* 1 x5 .174 .606
r51* r52* r53* r54* 1 x6 .270 .340
*
r61 r62* r63* r64* r65* 1 Mtodo de extraccin: Mxima verosimilitud.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
1 a. La rotacin ha convergido en 3 iteraciones.
+ 1
21 11 22 12
3111 + 32 12 31 21 + 32 22 1 Puede verse que los tems 1, 2 y 3 tienen una correlacin ms fuerte con el factor I que

4111 + 42 12 41 21 + 42 22 4131 + 42 32 1 con el factor II, mientras que ocurre lo contrario para los tems 4, 5 y 6. Viendo las saturaciones
5111 + 52 12 51 21 + 52 22 5131 + 52 32 51 41 + 52 42 1 y el contenido de los tems, puede suponerse que el factor I significa Trato a los dems,
mientras que el factor II podra indicar Confianza en los dems.
6111 + 62 12 6121 + 62 22 6131 + 62 32 61 41 + 62 42 6151 + 62 52 1
Al haber dos factores independientes, las comunalidades se calculan mediante hi2 = i21 + i22 .
De forma genrica, para un nmero p el nmero de factores independientes:
Las comunalidades de los 6 tems seran 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. Las
73 74
unicidades se calculan del mismo modo que en el modelo de un factor ( i2 = 1 hi2 ), y son En primer lugar, al aadir un nuevo factor al modelo, aumenta la varianza explicada. En el
0,646, 0,419, 0,723, 0,500, 0,603 y 0,812. Las correlaciones reproducidas segn el modelo ejemplo, la varianza explicada ha pasado del 29% al 38% al aadir un segundo factor. Al extraer
seran: un factor ms, el porcentaje de varianza se incrementara. Sin embargo, este incremento de la
varianza no siempre justifica que se aadan nuevos factores. Lo esperable, y deseable, es que el
nmero de dimensiones sea mucho menor que el de tems. Esto significara que una misma
1 1 caracterstica est siendo medida por muchos tems a la vez, lo que redundara en una mejor
r * 1 0,453 1
21 precisin de la medida.
r31* r32* 1 0,306 0,395 1
* = El nmero de factores no se decide de forma caprichosa y se han propuesto varios mtodos para
r41 r42* r43* 1 0,217 0,295 0,255 1 determinar cul es el nmero ptimo de factores que deben retenerse. Esta decisin es muy
r51* r52* r *
53 r54* 1 0,192 0,262 0,227 0,445 1 importante, pues el primer objetivo del anlisis factorial es determinar cuantas dimensiones est
*
r61 r62* r *
63 r64* r65* 1 0,207 0,272 0,208 0,284 0,253 1 midiendo un test, es decir, cuantos factores deben incluirse en la solucin factorial.

La matriz de residuales sera: El procedimiento ms riguroso estadsticamente se basa en la utilizacin de criterios de bondad
de ajuste, mediante el estadstico X2 de Pearson. En los apartados anteriores, obtuvimos los
1 1
r r * 0,005 residuales en el modelo de dos factores (diferencias entre las correlaciones reproducidas y las
21 21 1 1 observadas en la muestra). Se recordar que esos residuales eran distintos de cero. Parecera que
r31 r31* r32 r32* 1 0,006 0,011 1 el modelo de dos factores no reproduca de forma perfecta las correlaciones observadas en la
=
r41 r41 r42 r42* r43 r43*
*
1 0,029 0,010 0,015 1 muestra. Sin embargo, esto no supone un problema por s mismo. En realidad, lo correcto es
r51 r51*
r52 r52* r53 r53* r54 r54* 1 0,021 0,012 0,000 0,003 1 plantearse si podemos mantener que los residuales son cero en la poblacin. Sabemos que por

r61 r61
*
r62 r62* r63 r63* r64 r64* r65 r65* 1 0,056 0,009 0,058 0,002 0,013 1 mera variacin muestral es improbable que los residuales sean cero en la muestra incluso si lo
son en la poblacin. As pues mediante el estadstico X2 contrastamos si podemos mantener la
Indicando que con el modelo de dos factores las diferencias entre las correlaciones reproducidas Hiptesis nula de que todos los residuales son cero en la poblacin.
y las correlaciones observadas es muy pequea.
Veamos un ejemplo. Primero, estimamos varios modelos con distinto nmero de factores. El
Adems, tambin es posible calcular la varianza explicada por cada factor. Esta varianza es la modelo ms simple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para
suma de las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor x interpretar los resultados y obtener conclusiones. La siguiente tabla muestra los valores del
estadstico X2 para los modelos de uno y dos factores, los grados de libertad (gl) y el nivel crtico
es 12x + 22 x + 32 x + 24 x + 52 x + 26 x . Genricamente, siendo n el nmero de variables:
(p).
n


i =1
2
ix
Factores X2 gl p RMSEA
( intervalo de confianza del 90%)
En el ejemplo, la varianza explicada por cada factor es 1,226 y 1,072, que, al ser la varianza total 1 82,213 9 0,000 0,121
6, representa un porcentaje del 20 % y del 18 % respectivamente. Por tanto, el porcentaje de (0,098-0,145)
varianza explicada por el modelo de dos factores es del 38 % aproximadamente. 2 10,776 4 0,029 0,055
(0,016-0,096)

3.2.3.- SELECCIN DEL NMERO DE FACTORES


Utilizando un nivel de significacin = 0,01, puede concluirse que el modelo de un factor no
ajusta a los datos. En cambio, con ese nivel de significacin, podemos mantener que el modelo
Se ha aplicado el modelo de un factor y el modelo de dos factores a los mismos datos. Las de dos factores se ajusta a los datos. Si utilizamos = 0,05 diramos que ninguno de los 2
correlaciones reproducidas segn el modelo de un factor se parecan bastante a las correlaciones modelos se ajustara a los datos.
observadas en la muestra. Al extraer dos factores, se parecan ms an. Por tanto, parece que las
correlaciones se ajustan un poco mejor al modelo de dos factores. Justifica eso extraer dos Un problema asociado al estadstico X2 es que hace que nuestra decisin sobre el nmero de
factores? o deberamos analizar lo que ocurre cuando extraemos tres factores? factores a retener dependa mucho del tamao de la muestra. Si la muestra es suficientemente
grande, residuales muy pequeos pueden resultar significativos y se tender a extraer un nmero
de factores mayor que el necesario desde el punto de vista prctico. En ese caso, el criterio
75 76
basado en el estadstico X2 es excesivamente exigente y poco realista, pues ningn terico En nuestro ejemplo, inicialmente obtendramos la siguiente matriz factorial (no rotada) de
espera que un modelo factorial ajuste de forma perfecta a los datos. Por el contrario, si la saturaciones:
muestra es pequea, residuales de valor elevado pueden no resultar estadsticamente
significativos y extraeremos un nmero de factores menor que el necesario.
Matriz factoriala

Algunos autores han propuesto utilizar indicadores de ajuste que nos permitan evaluar el grado Factor
de discrepancia entre las correlaciones reproducidas y las correlaciones observadas en la 1 2
muestra. El RMSEA (Root Mean Square Error of Approximation) es uno de esos indicadores. x1 .537 -.257
Valores por debajo de 0,05 indican buen ajuste del modelo a los datos, valores entre 0,05 y 0,08 x2 .700 -.303
indican ajuste aceptable, valores entre 0,08 y 0,10 indican ajuste marginalmente aceptable y x3 .512 -.121
valores por encima de 0,10 indican mal ajuste. Si bien no hay que tomar esa clasificacin como x4 .591 .388
las Tablas de la Ley, estas guas pueden servir de orientacin para tomar una decisin sobre el x5 .525 .349
nmero de factores a retener. En nuestro ejemplo, el modelo de un factor muestra mal ajuste. x6 .425 .084
Siguiendo este criterio podramos mantener el modelo de dos factores (RMSEA = 0,055) que Mtodo de extraccin: Mxima verosimilitud.
muestra un ajuste aceptable. Adems puede observarse que el modelo de un factor y el a. 2 factores extrados. Requeridas 5 iteraciones.
modelo de dos factores difieren claramente en el RMSEA (ver los intervalos de confianza
para el RMSEA).

Para tomar una decisin sobre el nmero de factores a retener, ayuda observar los residuales. Segn est estructura, el primer factor sera un factor general en el que pesan todos los tems. En
En nuestro caso, se observa que los mayores residuales para el modelo de un factor se el segundo factor, los pesos mayores son para los tems 4 y 5 (positivos) y para el tem 2
encuentran para las correlaciones entre los tems 4 y 5 (0,192). Ese residual positivo nos indica (negativo). En principio, esta estructura es difcil de interpretar.
que esos dos tems correlacionan entre s ms de lo que se esperara si el modelo de un factor
fuera cierto. Naturalmente, cuando extraemos el segundo factor esos dos tems pesan en l. Su Para facilitar la interpretacin se aplica a las saturaciones un proceso denominado rotacin, por
contenido es muy similar (tem 4: Confo en los dems; tem 5: Pienso que otras personas son el cual se transforman las saturaciones en otras ms sencillas de interpretar. Con la rotacin se
buenas y honradas). intenta que la solucin factorial se aproxime a la denominada estructura simple. Una estructura
simple implica que: a.) en cada factor pesan alto un conjunto de variables (y pesan bajo o cero
Existen otros procedimientos de extraccin ms sencillos pero tambin muy criticados como la las restantes variables). b.) los conjuntos de tems definiendo cada factor no deben solaparse
regla de Kaiser (regla K1) el Scree test. Una descripcin de los mtodos de extraccin y reglas demasiado. c.) cada variable pesa solo en un conjunto pequeo de factores (y pesa bajo o cero en
disponibles en el paquete SPSS puede encontrarse en Pardo y Ruiz2 (2002). Otros mtodos el resto de los factores). Por ejemplo, si la solucin factorial hubiera sido:
como el mtodo de anlisis paralelo o la regla MAP de Vellicer tambin han sido
recomendados. F1 F2
X1 0,9 0,0
3.2.4.- ROTACIONES X2 0,0 0,7
X3 0,8 0,0
X4 0,0 0,6
Cuando se estima un modelo factorial las saturaciones no siempre son fcilmente interpretables,
en el sentido de que pueden no indicar con claridad qu es lo que estn midiendo los factores. X5 0,7 0,0
Para interpretar la solucin, los tems se agrupan en factores, y el significado de stos se infiere X6 0,0 0,8
analizando qu tienen en comn los tems que se agrupan en un mismo factor. Esto no siempre
es fcil de descubrir, por ejemplo, si los tems agrupados en un mismo factor son muy Esta solucin sera ms fcilmente interpretable que la que hemos obtenido porque no hay tems
heterogneos y no tienen un contenido comn. Adems, hemos visto que los tems pueden tener que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra una
saturaciones relativamente altas en ms de un factor, lo que significa que miden ms de una estructura simple sino una solucin lo ms parecida posible a la estructura simple. Veremos a
caracterstica y hace ms difcil descubrir su significado. continuacin, cul es la estructura ms simple que podemos obtener en nuestro ejemplo.

2
Pardo, A. y Ruz, M.A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid: Mc Graw Hill.
77 78
3.2.4.1. ROTACIN ORTOGONAL Las posiciones relativas de las variables en el espacio factorial no cambian. Al cambiar los
ejes, por ejemplo, las nuevas saturaciones del tem 5 seran 0,174 y 0,606. La matriz factorial
rotada sera:
Las saturaciones encontradas en la solucin factorial pueden representarse en un espacio con
tantas dimensiones como factores. En el ejemplo, el resultado sera el siguiente, donde los ejes Matriz de factores rotadosa
son los factores y cada punto representa las saturaciones de una de las variables (por ejemplo, el
tem 5 tena saturaciones 0,525 y 0,349 en los factores 1 y 2, respectivamente). Factor
1 2
x1 .576 .151
x2 .729 .222
Grfico de factor
x3 .469 .239
1,0 x4 .199 .678
0,8 x5 .174 .606
0,6 x6 .270 .340
0,4 x5
x4 Mtodo de extraccin: Mxima verosimilitud.
0,2 Mtodo de rotacin: Normalizacin Varimax con Kaiser.
Factor 2

x6
0,0 a. La rotacin ha convergido en 3 iteraciones.
x3
-0,2
x1 x2
-0,4
Observe que la matriz factorial rotada es ms fcil de interpretar que la matriz factorial no
-0,6
rotada. Sin embargo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
-0,8
correlaciones reproducidas segn el modelo. Por ejemplo:
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
Matriz factorial (no rotada) Matriz de factores rotados
h12 0,5372 + (-0,257)2 = 0,354 0,5762 + 0,1512 = 0,354
La rotacin ortogonal consiste en cambiar (girar) los ejes de referencia (los factores) un cierto r12* 0.537*0,700+(-0,257*-0,303)=0,453 0,576*0,729+0,151*0,222=0,453
nmero de grados. Observa lo que ocurre cuando cambiamos los ejes de la siguiente forma:

ANTES DE LA ROTACIN DESPUS DE LA ROTACIN S cambia el porcentaje de varianza explicada por cada factor (pero no el total de varianza
explicada por los dos factores en su conjunto):
Grfico de factor Grfico de factor

1,0 1,0 % de Varianza explicado por Matriz factorial (no rotada) Matriz de factores rotados
0,8 0,8 x4 Factor 1 30,755 20,428
0,6 0,6 x5 Factor 2 7,539 17,866
0,4 x5
x4 0,4 % Total 38,294 38,294
x6 x3
0,2 0,2 x2
x1
Factor 2

Factor 2

0,0
x6
0,0 Este es un resultado general de la rotacin ortogonal: la varianza explicada por cada factor
-0,2
x3
-0,2 cambia despus de la rotacin, pero no la varianza explicada en total.
x1 x2
-0,4 -0,4
-0,6 -0,6
El tipo de rotacin que se ha utilizado en este apartado es la denominada VARIMAX. Consiste
-0,8 -0,8
en mover los ejes de referencia, mantenindolos ortogonales entre s, para que las saturaciones
sean lo ms diferentes posible entre si, con lo que se intenta que tomen valores extremos o
-1,0 -1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 valores prximos a cero y se eviten los valores intermedios. Con la rotacin VARIMAX los
Factor 1 Factor 1 factores son independientes (correlacionan 0 entre s).
79 80
3.2.4.2. ROTACIN OBLCUA
Al cambiar los ejes, por ejemplo, las nuevas saturaciones del tem 5 seran -0,022 y 0,643. Puede
verse que la solucin rotada es ms sencilla porque los tems tienen saturaciones altas en un
La rotacin oblicua es ms compleja que la ortogonal porque permite que cada factor se rote un factor y bajas en el otro. Viendo las saturaciones y el contenido de los tems, puede suponerse
nmero de grados diferente. En el ejemplo, aplicando la denominada rotacin oblicua (el que el factor I significa Trato a los dems, mientras que el factor II podra indicar Confianza
mtodo OBLIMIN) se llega a la solucin: en los dems. Como hay una correlacin positiva entre los dos factores, los sujetos que tienden
a ser cordiales y afectuosos en el trato tambin suelen confiar en los dems.

De nuevo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
Matriz de configuracin.a correlaciones reproducidas segn el modelo (aunque con esta rotacin, el clculo de las
comunalidades y de las correlaciones reproducidas es ms complejo).
Factor
1 2 La solucin obtenida tras la rotacin oblicua tiene tres caractersticas especficas que deben
x1 .620 -.044
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los tems con los factores, 2)
x2 .774 -.020
no es posible determinar la varianza explicada por cada factor, y 3) los factores pueden estar
x3 .462 .100
correlacionados. Estas caractersticas no se dan en la solucin inicial del anlisis factorial ni en
x4 -.021 .719
la obtenida tras la rotacin ortogonal.
x5 -.022 .643
x6 .190 .294
En resumen, en la prctica el anlisis factorial se aplica en dos pasos. En primer lugar se obtiene
Mtodo de extraccin: Mxima verosimilitud. la solucin inicial, lo que permite evaluar la bondad de ajuste del modelo y determinar el
Metodo de rotacin: Normalizacin Oblimin con Kaiser.
nmero de factores. En segundo lugar se realiza una rotacin, ortogonal u oblicua, segn los
a. La rotacin ha convergido en 6 iteraciones.
propsitos del investigador. La solucin rotada sirve para interpretar el sentido de los factores. Si
se realiza la rotacin ortogonal, es posible calcular las comunalidades, unicidades y la varianza
explicada por cada factor. Si se realiza la rotacin oblicua, se obtiene la correlacin entre
La siguiente figura muestra las saturaciones obtenidas tras la rotacin oblicua. A diferencia de lo factores y unas saturaciones ms sencillas de interpretar.
que suceda en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares. Estadsticamente, esto significa que las puntuaciones en los dos factores estn
correlacionadas. En el ejemplo, la correlacin es de 0,586. 3.2.5.- PUNTUACIONES FACTORIALES

ANTES DE LA ROTACIN DESPUS DE LA ROTACIN Obtenida una solucin factorial definitiva, es posible calcular la puntuacin de los sujetos en
(Factor 1 y 2 correlacionados) cada uno de los factores. De este modo, en lugar de obtener una puntuacin nica para cada
sujeto en el test, se obtiene la puntuacin en cada uno de los factores que se estn midiendo.
Grfico de factor Grfico de factor
La siguiente tabla muestra las respuestas de los cinco primeros sujetos, sus puntuaciones
1,0 1,0
x4
factoriales correspondientes a la rotacin factorial y la oblicua. Al haber concluido que el test
0,8 0,8
x5
mide dos factores sera incorrecto utilizar la puntuacin en el test como el resultado de cada
0,6 0,6
x5
sujeto. En su lugar, habra que utilizar las dos puntuaciones factoriales correspondientes a la
0,4 x4 0,4
x6 rotacin que finalmente se decida aplicar.
0,2 0,2
Factor 2

Factor 2

x6 x3
0,0 0,0 x1 x2
x3
-0,2 -0,2
x1 x2 Oblicua Ortogonal
-0,4 -0,4
Sujeto X1 X2 X3 X4 X5 X6 F1 F2 F1 F2
-0,6 -0,6
1 3 2 3 5 2 1 -1,77 -0,34 -1,95 0,27
-0,8 -0,8 2 4 3 3 3 3 3 -0,88 -0,47 -0,85 -0,22
-1,0 -1,0 3 3 2 1 1 2 4 -2,28 -1,94 -1,93 -1,42
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1 Factor 1 4 5 3 2 2 2 2 -1,01 -1,40 -0,65 -1,26
_ 5 2 4 1 4 3 1 -1,37 -0,43 -1,44 0,01
81 82

En la siguiente figura aparecen los diagramas de dispersin de las puntuaciones factoriales de los E1 E2 E4 E3 E5 E6
564 sujetos del ejemplo. El diagrama izquierdo corresponde a la rotacin ortogonal y el derecho
a la oblicua. El diagrama derecho muestra que existe una relacin entre las puntuaciones en 1 1 1 1 1 1
ambos factores debida a la correlacin existente entre los factores. Esto no sucede as en el
izquierdo.
X1 X2 X3 X4 X5 X6

2 2 11 21 31 42 52 62

1 1

0 0
F1 F2
F2

F2

-1 -1

-2 -2

Las variables se representan mediante cuadrados si son observables (como x1 x5) o


-3 -3 mediante crculos si son variables no observables (como los factores F1 y F2, o los errores).
Las relaciones entre variables se representan mediante lneas. Una lnea curva bidireccional
-4 -3 -2 -1 0 1 2 -4 -3 -2 -1 0 1 2
F1 F1
conectando dos variables indica que ambas estn correlacionadas (en la figura, los Factores
F1 y F2 estn correlacionados). Las flechas rectas direccionales indican que hay una relacin
direccional entre las 2 variables conectadas (por ejemplo, x1 recibe lneas de F1 y del error
para representar que est influenciada por ambas variables). La figura anterior se traducira al
3.2.6. EL ANLISIS FACTORIAL CONFIRMATORIO siguiente conjunto de ecuaciones:

X 1 = 11 F1 + E1
Cmo ya hemos mencionado anteriormente, el anlisis factorial sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. En realidad hay dos estrategias X 2 = 21 F1 + E 2
distintos de anlisis factorial: exploratorio y confirmatorio. Hasta ahora hemos visto como se X 3 = 31 F1 + E3
realiza el primer tipo. En un anlisis factorial exploratorio, el investigador no tiene una idea
exacta de cuantos factores subyacen a las relaciones entre variables ni tampoco de qu variables
X 4 = 42 F2 + E4
tienen un peso alto en cada factor. En el anlisis factorial confirmatorio, por el contrario, el X 5 = 52 F2 + E5
investigador plantea hiptesis definidas a priori sobre cul es el nmero de factores y cmo X 6 = 62 F2 + E6
pesan las variables en ellos. A medida que se acumulan estudios dentro de un campo de
conocimiento, los investigadores prefieren utilizar tcnicas confirmatorias frente a
Observa que no se contemplan efectos de F2 a X1 o X2, ni tampoco de F1 a X4 o X5. Esto es
exploratorias. An as, la teora que subyace a ambos tipos de anlisis factorial es la misma.
importante. La principal diferencia entre el modelo de anlisis factorial exploratorio y el
modelo de anlisis factorial confirmatorio es que en el ltimo se han fijado algunos pesos al
Imagnese que en la prueba de Cordialidad, basndose en estudios previos, establece que los
valor cero (por ello no se representan en la figura). De esta manera, la solucin factorial
tems 1, 2 y 3 deben conformar un factor de trato a los dems mientras que los tems 4, 5 y
obtenida en el anlisis factorial confirmatorio es nica y la solucin que obtenemos es la que
6 deben conformar un factor de confianza en los dems. Esto se podra representar de la
debemos interpretar (no es necesaria la rotacin).
siguiente manera:
83 84
Para nuestro ejemplo, obtendramos la siguiente matriz factorial: A B
A Factor g Espacial Neuroticismo Factor g Espacial Neuroticismo
Factor g 0,87
Factor 1 Factor 2 Espacial 0,61 0,81
X1 0,595 0 Neurocicismo 0,25 0,31 0,73
X2 0,745 0 B
X3 0,536 0 Factor g 0,65 0,41 0,09 0,81
X4 0 0,690 Espacial 0,35 0,50 0,11 0,33 0,78
X5 0 0,616 Neurocicismo -0,05 0,08 0,62 0,19 0,25 0,74
X6 0 0,440

La matriz multirasgo-multimtodo se compone de varias submatrices. La matriz superior


En principio, la hiptesis que se planteaba el investigador no parece desencaminada, ya que izquierda contiene las correlaciones entre los tests de la batera A. En la diagonal aparecen los
los tems pesan en su factor. La correlacin que el programa estima entre los dos factores es coeficientes de fiabilidad de cada test. Fuera de la diagonal aparecen las correlaciones entre los
0,617. La siguiente tabla muestra los valores del estadstico X2 para ese modelo, los grados de tests de la batera A. La matriz inferior derecha muestra la misma informacin referida a la
libertad (gl), el nivel crtico (p), el RMSEA y su intervalo de confianza. batera B.

La matriz inferior izquierda (sombreada) contiene las correlaciones entre los tests de las dos
X2 gl p RMSEA bateras. En la diagonal estn los coeficientes de validez convergente (0,65, 0,50 y 0,62), que
( intervalo de confianza del 90%) son las correlaciones entre los dos tests que miden el mismo rasgo. Fuera de la diagonal
22,874 8 0,004 0,057 aparecen los coeficientes de correlacin entre distintos rasgos medidos por distintos tests.
(0,031-0,086)
Para evaluar los dos tipos de validez mencionados se procede del siguiente modo:

Utilizando un nivel de significacin = 0,05, puede concluirse que el modelo no se ajusta 1) Los coeficientes de validez convergente deben ser mayores que las correlaciones entre
perfectamente a los datos. Sin embargo el RMSEA (0,057) muestra que el modelo tiene un tests que miden diferentes rasgos. En estos datos, existe el problema de que, en la batera
ajuste aceptable (est entre 0.05 y 0.08). A, la correlacin entre razonamiento espacial y factor g es excesivamente alta, por lo que
esta batera no parece discriminar bien entre ambas. Este problema no sucede en la
batera B.
3.2.7.- VALIDEZ CONVERGENTE-DISCRIMINANTE. MATRICES MULTIRASGO-
MULTIMTODO 2) El mtodo empleado para medir los rasgos no debe afectar a las relaciones entre ellos.
Esto significa que las tres matrices de correlacin deben ser similares, exceptuando los
elementos de la diagonal. El resultado no es completamente satisfactorio porque la
Muy en relacin con la validez factorial se encuentra tambin la validez convergente- batera B discrimina mejor entre los tres rasgos que la batera A.
discriminante, la cual se evala mediante las matrices multirrasgo-multimtodo. El sentido
de estas definiciones es el siguiente:
4.- VALIDEZ REFERIDA AL CRITERIO
Validez convergente. Si dos tests miden un mismo rasgo, la correlacin entre ellos debe
ser alta.
4.1.- CONCEPTO
Validez discriminante. Si dos tests miden rasgos diferentes, las correlacin entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo. En el apartado correspondiente al anlisis de tems estudiamos el concepto de ndice de validez
de un elemento, y ya entonces avanzamos el concepto de criterio externo al test, con el que
Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo. correlacionar el rendimiento en cada tem.
Cada uno de los rasgos se evala mediante dos bateras de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-multimtodo, Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de
denominada as porque se evalan varios rasgos utilizando varios mtodos. rendimiento (por ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van
a conseguir, el aprovechamiento de un cursillo o la mejora en un proceso teraputico) conviene
85 86
que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe S y2 y ' es la varianza de los errores de pronstico
ser una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones
escolares, total de ventas producidas en un determinado perodo, estimaciones de un terapeuta de
La ecuacin de regresin de Y sobre X en la escala directa se establece como:
las mejoras conseguidas por cada persona, etc. A la correlacin entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicar
Sy Sy
el grado en el que el test sirve para pronosticar con precisin el rendimiento en el criterio. Yi ' = (Y rxy X ) + rxy Xi
Sx Sx
Supongamos, por ejemplo, que la correlacin entre un test de conocimientos adquiridos en 1 de
BUP y la calificaciones obtenidas en COU es 0,95 en una muestra apropiada. Como la Mediante esta expresin podemos estimar la puntuacin directa en el criterio de una determinada
correlacin es elevada, cometeramos errores de pronstico pequeos, haciendo uso de la persona pero, como es conocido, esa estimacin ser tanto ms precisa cuanto mayor sea la
oportuna ecuacin de regresin, al predecir el rendimiento en COU de un alumno si conocemos correlacin entre test y criterio. Estadsticamente, resulta ms apropiada una estimacin por
su rendimiento en el test. Podramos estimar con bastante exactitud el rendimiento que intervalos realizada con cierta probabilidad, para lo cual aplicaremos la siguiente expresin:
manifestar en COU un determinado alumno que se encuentra todava en 1 de BUP.
Yi ' Z1 / 2 S y y '
El lector puede imaginar que no siempre es til medir un criterio directamente, debido a razones
de coste temporal y econmico. Por eso es preciso que los profesionales dispongan de tests con
elevada validez relativa al criterio en mbitos en los que de una u otra forma deben tomar donde Z1-/2 es el valor Z, de la normal (0, 1), asociado a la probabilidad establecida y
decisiones sobre el nivel de los sujetos en un criterio o sobre su admisin o no a un puesto de Sy-y' es el error tpico de estimacin.
trabajo o de estudio determinado.

En muchas ocasiones no resulta sencillo establecer criterios apropiados, fiables y fcilmente Ejemplo: A una muestra de 5 alumnos de bachillerato se le aplica un test de habilidades
mensurables. Los problemas en cualquiera de estas direcciones repercuten disminuyendo el comunicativas (X). A sus respectivos profesores se les pide que hagan una valoracin (de 0 a 20
coeficiente de validez y, por tanto, la precisin con que se puede pronosticar un nivel dado en el puntos) de la capacidad de relacin interpersonal de sus alumnos. Estas valoraciones hacen la
criterio conociendo la puntuacin en el test. funcin de criterio (Y). Los resultados en el test y en el criterio fueron los siguientes:

4.2.- INTERPRETACIN Y ESTIMACIONES EN EL CRITERIO


Alumno X Y

El coeficiente de validez es una correlacin de Pearson y, por tanto, su interpretacin ms 1 7 6


inmediata se fundamenta en el denominado coeficiente de determinacin, que es simplemente 2 13 10
el cuadrado de la correlacin y que indica la proporcin de varianza del criterio que podemos 3 10 9
pronosticar con el test. As, un test con un coeficiente de validez de 0.5 indicar que explica un 4 9 8
25 % de la variabilidad o diferencias individuales en el criterio, mientras que el 75 % restante se 5 11 12
debe a variables diferentes al test.
Media 10 9
Recordando algunos conceptos fundamentales de la regresin lineal simple, el coeficiente de Varianza 4 4
determinacin se puede expresar de la siguiente manera:
El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
S y2' S y2 y ' comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
rxy2 = =1
S y2 S y2 capacidad de relacin interpersonal de sus alumnos.

Si queremos pronosticar puntualmente la puntuacin en el criterio del alumno n 5, aplicando la


donde S y2 es la varianza del criterio oportuna ecuacin de regresin obtenemos:

S y2' es la varianza de los pronsticos Y5' = 9.8


87 88
Para realizar la estimacin por intervalo para este mismo alumno, con probabilidad 0.95,
fijamos el valor Z1-/2 = 1.96 y calculamos el error tpico de estimacin: siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.

S y y ' = S y 1 rxy2 = 1.2


Demostracin:

y el intervalo ser:
Una de las expresiones de la correlacin de Pearson es:
12.152
9.8 (1.96) (1.2)
7.448
rxy =
( x x )( y y )
NS x S y
Diremos entonces, con probabilidad 0.95, que la puntuacin del alumno 5 en el criterio se
encontrar entre 12.152 y 7.448.
Realizando las sustituciones oportunas que permiten los supuestos de la Teora Clsica:
Cuando, tanto en contextos aplicados como investigadores, se desea predecir de la forma ms
precisa posible las puntuaciones en un determinado criterio, es comn utilizar ms de un
predictor. En este caso debe aplicarse la tcnica estadstica de Regresin Mltiple, que
rxy =
(V x + E x V x )(V y + E y V y )
proporciona los pesos (coeficientes de regresin parcial) de cada predictor segn la importancia NS x S y
que tengan para la prediccin.

4.3.- FACTORES QUE AFECTAN AL COEFICIENTE DE VALIDEZ Si realizamos los productos trmino a trmino en el numerador, divididos entre N resultan
covarianzas, y finalmente, el coeficiente de validez quedara como:

Centrndonos en la validez relativa al criterio, el coeficiente de validez es una correlacin entre


una variable X (test) y otra Y (criterio). La cuanta de la correlacin viene condicionada por Cov (Vx ,V y )
rxy =
varios factores, como son: SxS y

- La fiabilidad del test.


Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo clsico,
- La fiabilidad del criterio. son cero.
- La autntica relacin entre test y criterio. Otra manera de expresar la ecuacin anterior es:
- La variabilidad de la muestra en el test y en el criterio.

Respecto a los dos primeros factores, aunque no tratamos en toda su extensin el desarrollo rVxVy SVx SVy
formal de las relaciones, podemos decir que el coeficiente de validez tiende a incrementarse a rxy = = rVxVy rxx ryy
medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno u Sx S y
otro se reflejan mediante una disminucin del coeficiente de validez. De hecho, se puede
comprobar que el lmite mximo al que puede llegar rxy es r xx r yy . Es decir,
Dado que la correlacin entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.

rxy rxx ryy Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85, mientras
que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73. Segn
89 90
estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar el
valor de 0.79, que es la raz cuadrada del producto entre los dos coeficientes de fiabilidad. rxy = rVxVy rxx ryy y Rxy = rVxVy Rxx ryy

Dividiendo miembro a miembro y despejando el coeficiente de validez del test alargado,


tendramos que:
De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raz
cuadrada del coeficiente de fiabilidad del test; tambin es menor o igual que la raz cuadrada de
la fiabilidad del criterio: rxy rxy rxy
Rxy = = =
rxx rxx 1 rxx
+ rxx
Rxx nrxx n
rxy rxx ryy rxx (1 + (n 1)rxx )

rxy rxx ryy ryy Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le aadiera una forma
dado que el valor mximo de un coeficiente de fiabilidad es uno. paralela de 30 items, el coeficiente de validez pasara a valer:

Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lgico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y 0,51
R xy = = 0,60
en su caso, del criterio) influya tambin en rxy aunque de modo indirecto. La frmula que 1-0,42
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas + 0,42
2
paralelas) es:

Si de la frmula anterior despejamos n, podemos estimar el nmero de veces que deberemos


rxy multiplicar la longitud del test para alcanzar un coeficiente de validez Rxy deseado:
Rxy =
1 rxx
+ rxx
n
1 rxx
n=
rxy2
donde Rxy es el coeficiente de validez del test alargado. rxx
rxy es el coeficiente de validez del test original. Rxy2
rxx es el coeficiente de fiabilidad del test original.
n es el n de veces que se alarga el test original.
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.
Demostracin:
En el caso hipottico de un test infinitamente largo o, lo que es lo mismo, de un test con mxima
Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de precisin, en la siguiente frmula, Rxx valdra 1, y Rxy se podra interpretar como el mximo
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con coeficiente de validez obtenible como resultado de mejorar la fiabilidad del test todo lo posible.
lo cual aumentarn su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.
rxy rxy rxy
Segn las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para el Rxy = = =
rxx rxx rxx
coeficiente de validez del test inicial y del test alargado:
Rxx 1
91 92
5.- ALGUNOS EJEMPLOS EMPRICOS DEL PROCESO SEGUIDO PARA LA
Ejemplo: Un determinado test de 10 items manifiesta en un grupo normativo un coeficiente de VALIDACIN DE TESTS
fiabilidad de 0.4 y un coeficiente de validez de 0.35. Nos cuestionamos cuntos items paralelos
necesitara el test para conseguir: En las siguientes pginas mostramos algunos trabajos desarrollados para la validacin de
varios tests psicolgicos, de contenido y objetivos bien diversos. Hemos intentado incluir
a) Un coeficiente de validez de 0.5 ejemplos que sigan estrategias de investigacin diferentes para obtener informacin sobre el
constructo que se mide o sobre el tipo de inferencias que se pueden hacer a partir de las
b) Un coeficiente de validez de 0.9 puntuaciones obtenidas en los tests.

a) 5.1.- Barraca, J., Lpez-Yarto, L. & Olea, J. (2000). Psychometric properties of a


1 0.4 new Family Life Satisfaction Scale. European Journal of Psychological Assessment,
n= = 6.7 16, 2, 98-106.
0.352
0.4
0.52 Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfaccin familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
b) terico concreto, lo que ha dado lugar a instrumentos de evaluacin de la satisfaccin familiar
fundamentados en una pobre definicin del constructo. Los trabajos sobre instrumentos
1 0.4
n= = 2.4 previos de evaluacin han estudiado su relacin con otras variables (por ejemplo, con la
0.352 satisfaccin hacia la calidad de vida, con el constructo locus of control o con el nivel de
0.4 religiosidad) que al menos puede decirse que son cuestionables. Critican tambin que los
0.9 2
instrumentos hasta entonces disponibles no incluyen suficientemente los componentes
afectivos del constructo. Adems, algunos de los cuestionarios previos para evaluar la
Podemos comprobar a partir de estos clculos que el coeficiente de validez de 0.5 lo satisfaccin familiar resultan poco amigables de responder: uno de ellos, por ejemplo,
conseguiremos con un test de, aproximadamente, 70 items; con lo cul habra que disear 6 consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situacin real de su
formas adicionales paralelas al test original. familia y otra sobre lo que sera su familia ideal.

El coeficiente de validez de 0.9 es imposible de conseguir, por mucho que incrementemos la Todo ello les lleva a la opcin de construir una nueva escala de satisfaccin familiar, para lo
longitud del test inicial con formas paralelas, de ah que en b, hallamos obtenido un valor de n cual siguieron el siguiente procedimiento:
negativo. El mximo coeficiente de validez obtenible mejorando la fiabilidad (o alargando el
test) es Rxy = rxy / rxx = 0.35 / 0.4 = 0.55 , que es menor de 0.9. Definicin del constructo: Se entiende la satisfaccin familiar como el conjunto de
sentimientos que cada persona experimenta en su propia familia, y que son el resultado de sus
Hemos indicado tambin que rxy depende de la variabilidad del grupo normativo. De forma continuas interacciones con los dems, as como de las consecuencias positivas o negativas
parecida a lo que aconteca con la varianza del grupo en el test y su coeficiente de fiabilidad, derivadas.
el coeficiente de validez de un test respecto a un criterio es tanto ms elevado cuanto mayor
es la varianza de grupo normativo en ambos. Significa esto que, por ejemplo, un test de Instrumento inicial de evaluacin: Decidieron evaluar estas connotaciones afectivas mediante
aptitud para la venta tendr un coeficiente de validez mayor en una muestra de la poblacin una escala de adjetivos bipolares, tambin denominado diferencial semntico, que tena el
general (donde habr heterogeneidad respecto a la aptitud por ser vendedor) que en una siguiente formato:
muestra de vendedores experimentados (seguramente obtendran todos puntuaciones
elevadas, y por tanto sera un grupo ms homogneo). En la medida que el poder predictivo Cuando estoy en casa con mi familia, normalmente me siento:
de un test respecto a un criterio depende de su rxy, habr que considerar la variabilidad del
grupo donde se ha obtenido. Feliz _____ _____ _____ _____ _____ _____ _____ Infeliz
Solo _____ _____ _____ _____ _____ _____ _____ Acompaado

Cada tem se puntu desde uno hasta 7, dado que haba ese nmero de categoras ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unnime fueron considerados relevantes para evaluar el constructo.
93 94
en su desarrollo cognitivo, pero que tienen sntomas claramente autistas en lo que se refiere
Anlisis y seleccin de tems: Se aplic la escala inicial a una muestra de 274 personas. a problemas de interaccin social y de conductas estereotipadas.
Mediante el programa SPSS se obtuvieron varios indicadores psicomtricos para cada uno de
los 52 tems: a) correlacin tem-total, b) varianza, c) saturaciones factoriales (rotacin Elaboracin del cuestionario: Varios especialistas clnicos ingleses y suecos elaboraron un
varimax), y d) coeficiente de la escala cuando se elimina el tem. Se retuvieron finalmente listado de sntomas caractersticos del sndrome en chicos de entre 7 y 16 aos. Ellos mismos
los 27 tems que cumplieron simultneamente los siguientes requerimientos: a) correlacin elaboraron 27 tems que recogieran esos sntomas y que fueran inteligibles para personas no
tem-total mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor expertas (padres y profesores), ya que no intentaban tanto diagnosticar con precisin el
rotado por encima de 0.30, y d) coeficiente de la escala (al eliminar el tem) igual o superior sndrome como que informantes no expertos (padres o profesores) identificaran a los chicos
al de la escala completa (=0.9808). que necesitaban un diagnstico diferencial en profundidad. La sintomatologa que pretendan
incluir era: interaccin social, problemas de comunicacin, conducta repetitiva y esterotipias
Estudio de la fiabilidad: Se obtuvo un coeficiente igual a 0.976. El coeficiente de fiabilidad motoras. El formato de tems y respuesta que establecieron fue:
test-retest, obtenido tras un perodo de 4 semanas, result ser 0.758; an no siendo ptimo
este coeficiente, es bastante usual que la estabilidad temporal no sea mucho ms alta cuando Este chico destaca como diferente de otros chicos de su edad en los siguientes
se emplea un diferencial semntico como instrumento de evaluacin. aspectos:
- Carece de sentido comn No Algo S
Validez de constructo factorial: Se realiz un nuevo anlisis factorial sobre la matriz de - Carece de empata No Algo S
correlaciones entre los 27 tems. El primer factor explic el 62.3 % de la varianza total, lo que - Tiene movimientos involuntarios en la cara o el cuerpo No Algo S
se consider suficiente prueba de unidimensionalidad. Todos los tems obtuvieron
saturaciones por encima de 0.68 en el primer factor sin rotar. Cada respuesta era cuantificada como 0, 1 2 puntos, con lo que el rango terico de
puntuaciones poda oscilar entre 0 y 54.
Validez convergente: Se aplicaron a la misma muestra dos de los instrumentos previos de
evaluacin: el cuestionario Family Satisfaction (Olson y Wilson, 1982) y la Family Muestras seleccionadas: En el estudio se describe la seleccin de dos muestras de chicos
Satisfaction Scale (Carver y Jones, 1992). El nuevo cuestionario correlacion 0.646 con las diagnosticados previamente con determinados desrdenes conductuales por diversos
puntuaciones en el primero y 0.787 con las correspondientes en el segundo. psiclogos y psiquiatras. La muestra principal estaba formada por 3 tipos de patologas: 21
casos de desrdenes de espectro autista (en el que se incluye el sndrome de Asperger), 58
Datos adicionales sobre la validez de constructo: Se aplic el nuevo cuestionario a una casos con dficit atencional, hiperactividad y conducta disruptiva, y 31 con problemas de
muestra de 16 personas (con la misma edad media de la muestra general) que asistan a una aprendizaje (retraso en lectura y escritura). La muestra de validacin estaba formada por 34
terapia de familia. La media de esta muestra clnica en el cuestionario fue de 97.56, mientras chicos y chicas diagnosticados previamente en contextos clnicos como sndromes de
que la media de la muestra general fue 121.56. El contraste estadstico entre ambas medias Asperger.
(prueba U de Mann Whitney) result significativo con un nivel de confianza del 95 %, con lo
que se concluy que la nueva escala era capaz de diferenciar el grado de satisfaccin familiar Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos aplicaciones,
de ambas muestras. fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los profesores.

La correlacin entre las evaluaciones de los padres y de los profesores (fiabilidad interjueces)
5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for se obtuvo en los tres grupos de la muestra principal. Considerando la evaluacin de la
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in muestra completa, esta correlacin fue 0.66, mientras que result 0.77 para los chicos con
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141. espectro autista, 0.27 para los chicos con dficit atencional y 0.19 para los chicos con
trastornos de aprendizaje.
En el presente artculo se describe un estudio realizado para comprobar las propiedades
psicomtricas de un nuevo instrumento, el Autism Spectrum Screening Questionnaire Validez convergente. Los padres y profesores respondieron tambin a dos escalas generales
(ASSQ), diseado para detectar (no tanto evaluar con precisin) a chicos y chicas que tienen de evaluacin de psicopatologas en nios, las escalas de Rutter y las de Conners, obteniendo
severos desordenes autistas pero con alto funcionamiento cognitivo, en concreto el correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, as como valores de
denominado como sndrome de Asperger. Este alto funcionamiento cognitivo complica 0.77 y 0.70 en la muestra de profesores.
mucho la deteccin de esta patologa.
Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
Descripcin del sndrome: No existiendo un acuerdo universal sobre los sntomas del consista en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ serva
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni para diferenciar a los diversos grupos diagnsticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo
95 96
diagnstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra En el presente estudio, se obtuvieron, por ejemplo, las siguientes proporciones de sensibilidad
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario y de falsos positivos, cuando los informantes eran los padres y el trastorno era el referido a
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos desordenes de espectro autista (subgrupo de la muestra principal):
con diagnstico de espectro autista obtuvieron siempre las medias ms elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los Punto de corte Sensibilidad Falsos positivos Cociente entre ellos
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas por 7 .95 .44 2.2
ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadsticamente similares en 13 .91 .23 3.8
la muestra de validacin (sndrome Asperger) que en la submuestra de espectro autista de la 15 .76 .19 3.9
muestra principal. 16 .71 .16 4.5
17 .67 .13 5.3
Establecimiento de puntos de corte. Antes de comprender lo que realmente se hizo en este 19 .62 .10 5.5
trabajo, conviene describir el procedimiento general y su sentido. En contextos de diagnstico 20 .48 .08 6.1
clnico interesa muchas veces estudiar el grado en que las puntuaciones en un cuestionario 22 .43 .03 12.6
sirven para clasificar de forma fiable, es decir, si sirve el cuestionario para clasificar
correctamente a una persona dentro o fuera del grupo clnico objeto de estudio. As, Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
podramos establecer una determinada puntuacin como punto de corte, de tal manera que si errores con los chicos realmente diagnosticados como autistas, sera aconsejable establecer
la puntuacin de una persona supera dicho punto de corte la clasificaramos en el grupo con como punto de corte la puntuacin X=13, a partir de la cual se detecta al 91 % de los chicos
trastornos, mientras que si se encuentra por debajo de dicho punto de corte concluiramos que con autismo de la muestra principal. El coste de esta clasificacin es que clasificaramos
no tiene dicho trastorno. Para establecer un determinado punto de corte, debemos entender en como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
primer lugar dos conceptos esenciales: problemas de aprendizaje. Tal coste no sera muy elevado si el cuestionario representa slo
una primera deteccin, y es posible posteriormente profundizar en el diagnstico diferencial
- La sensibilidad, tambin denominada probabilidad de acierto o de verdaderos mediante procedimientos alternativos.
positivos, que es la proporcin de personas realmente diagnosticadas con desrdenes
que las clasificamos como tales mediante el cuestionario. Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que tienen
- La especificidad o proporcin de personas sin trastorno que los clasificamos como otros trastornos, los autores optan por establecer un punto de corte en la puntuacin X=19, lo
tales a partir de sus puntuaciones en el cuestionario. La proporcin complementaria a cual minimiza la proporcin de verdaderos positivos (0.62) pero tambin la de falsos
la especificidad es la probabilidad de falsos positivos (tambin denominadas como negativos (0.10). Teniendo en cuenta el tamao muestral, esta decisin equivale a emitir un
falsas alarmas), que es la proporcin de personas que realmente no tienen el trastorno 82 % de decisiones correctas.
y que decimos a partir del cuestionario que s lo tienen.

Las dos proporciones anteriores variarn segn la puntuacin total en el cuestionario que 5.3.- Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboracin de un banco de tems,
establezcamos como punto de corte (en el caso del ASSQ podramos establecer en teora prediccin de la dificultad y diseo de anclaje. Metodologa de las Ciencias del
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiramos como punto de Comportamiento, Vol. Especial, 427-430.
corte la puntuacin 54, que es la mxima posible, obviamente la sensibilidad sera 0 (todos Olea, J., Abad, F.J., Ponsoda, V. y Ximnez, M.C. (2004). Un test adaptativo
los chicos con sndrome Asperger quedaran clasificados como no Asperger) y la informatizado para evaluar el conocimiento del ingls escrito: Diseo y
especificidad 1 (todos los chicos sin sndrome Asperger quedaran clasificados como tales); si comprobaciones psicomtricas. Psicothema 16, 519-525.
el punto de corte lo pusiramos en la puntuacin 0, la sensibilidad sera 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte ms apropiado tendramos que En ambos trabajos se recogen los estudios realizados para poner en funcionamiento un Test
intentar maximizar ambas proporciones simultneamente, lo cual depende del grado de Adaptativo Informatizado (TAI) de conocimientos del idioma ingls en su versin escrita.
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnsticos Este tipo de tests requieren un amplio banco de tems, su estudio psicomtrico desde la Teora
posibles. En la prctica, para cada puntuacin posible como punto de corte, suele de la Respuesta al tem, as como un conjunto de programas informticos para la presentacin
representarse en un cuadrado unitario la proporcin complementaria a la especificidad o de los mejores tems a cada persona y para la estimacin de su nivel (normalmente entre un
proporcin de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de ordenadas). rango de valores que oscila entre 4 y +4). Nos centraremos fundamentalmente en el proceso
Esta representacin se conoce como curva ROC, y muchas veces interesa establecer como de construccin del banco de tems, que conforma el contenido fundamental del TAI, y en el
punto de corte aquella puntuacin del cuestionario que queda representada ms cerca de la anlisis de sus propiedades psicomtricas.
esquina superior izquierda del cuadrado unitario. Esa puntuacin ser la que maximiza
simultneamente la especificidad y la sensibilidad.
97 98
Criterios generales para la elaboracin del banco de tems. Varias especialistas en Filologa
Inglesa, junto a varios profesionales de la Psicometra, elaboraron el banco de tems. Los
Estudio piloto de uno de los subtests. El primero de los subtests se aplic a una muestra de
psicmetras indicaron a las fillogas algunos criterios a considerar en la elaboracin del 435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicologa, y
banco de tems: a) deba tener aproximadamente 600 tems, b) su dificultad previsible deba
estudiantes de Filologa Inglesa. Se les pidi alguna informacin adicional, como su
ser heterognea, ya que el TAI pretende evaluar cualquier nivel de dominio del ingls escrito, autoevaluacin del dominio del ingls y el procedimiento seguido para el aprendizaje del
d) los tems deban ser de opcin mltiple, siendo el enunciado una frase donde faltaran
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
ciertas palabras, y 4 opciones de respuesta de las que slo una es correcta, e) las 3 opciones estudio psicomtrico fueron:
incorrectas de un tem deban cumplir los requisitos de redaccin que son aconsejables (ver
tema 1 de estos materiales), f) las fillogas deberan partir de un modelo terico (ellas diran a) Se eliminaron 9 tems por ser demasiado fciles o correlacionar de forma escasa con
cual) explicativo de lo que representa el conocimiento del ingls escrito. el total del subtest.
b) De los 52 tems retenidos, la media de las correlaciones tem-total fue 0.556. El
Validez de contenido del banco de tems. Las especialistas en Filologa establecieron un coeficiente de Cronbach result ser de 0.91
modelo de dominio del ingls escrito funcional-cognitivo, en el que adems de la c) El anlisis factorial sobre la matriz de correlaciones tetracricas entre los 52 tems dio
competencia gramatical (aspectos fundamentalmente sintcticos) se incluyeran contenidos lugar a un factor con varianza explicada de 15.78 (30.35 % de la varianza total), lo
para evaluar la competencia en el discurso (componentes pragmticos y lxicos), de tipo ms que se consider como prueba suficiente de unidimensionalidad. Esto es un requisito
instrumental para contextos comunicativos concretos. Finalmente establecieron 7 categoras para la aplicacin del modelo de TRI seleccionado por los investigadores.
gramaticales generales, denominadas como: aspectos formales, componentes morfolgicos, d) Se realiz un anlisis de regresin mltiple, donde las variables independientes fueron
sintcticos, morfosintcticos, pragmticos, lxicos y una categora mixta. Estas categoras se la informacin adicional recogida y la variable dependiente el nivel de conocimientos
dividan a su vez en otras subcategoras: por ejemplo, en los componentes morfolgicos (222 estimado desde la TRI. El coeficiente de correlacin mltiple entre las variables
tems en total) se especificaron 17 subcategoras diferentes. De esta forma se redactaron un adicionales (autoevaluacin y formacin en el idioma) y las puntuaciones estimadas
total de 635 tems, cada uno perteneciente a una categora y subcategora especficas. Un en el subtest result ser 0.747.
ejemplo de un tem de morfologa (subcategora de tiempos verbales) es:
Estudio psicomtrico simultneo de 5 subtests. Se aplicaron 5 de los subtests restantes a una
We * when he gets here. muestra de 3224 estudiantes de primer curso de la Pontificia Universidad Catlica de Chile.
a) wouldnt b) have left c) couldnt leave d) will have left Cada grupo de algo ms de 600 estudiantes respondi a uno de los subtests y a una serie de
preguntas adicionales de un cuestionario, donde se recab informacin sobre el tipo de
Cinco personas nativas, profesores de ingls en diversos centros educativos, revisaron el colegio donde estudiaron la enseanza media (bilinge-ingls u otros), su nivel autopercibido
banco, detectando errores de diverso tipo en la redaccin y marcando lo que consideraban en el idioma (en escritura, lectura y conversacin) y sobre su formacin complementaria en el
como respuestas correctas. Varias reuniones entre una de las fillogas y uno de los nativos idioma (en casa, en estancias prolongadas en pases anglfonos, en escuelas oficiales de
sirvieron para corregir los errores y no tener duda sobre la opcin correcta de algunos tems. idiomas, etc). Adems de obtener de nuevo informacin sobre la consistencia interna y
unidimensionalidad de los subtests (resultados satisfactorios para ambos objetivos) se estudi
la validez predictiva de las puntuaciones. Ms concretamente, se realizaron dos estudios:
Elaboracin de subtests equivalentes. Para estudiar las propiedades psicomtricas del banco
de tems es necesario aplicarlo a muestras de personas con nivel heterogneo de ingls. Sin a) Las primeras pruebas de validez se realizaron a partir de los datos obtenidos en el
embargo, es prcticamente imposible aplicar 635 tems a cada persona, con lo cual es cuestionario. Se realizaron 5 ANOVAs, uno por cada variable independiente incluida en el
necesario establecer lo que se denomina un diseo de anclaje, que consiste en construir cuestionario, siendo en todos ellos la variable dependiente el nivel de rasgo estimado (en una
subtests, de tal forma que sean lo ms equivalentes posible en dificultad y en contenidos escala de -4 a 4) para cada estudiante a partir de sus respuestas al subtest correspondiente (los
incorporados. As, se elaboraron 15 subtests diferentes, cada uno de los cuales tena las cinco valores F resultaron significativos, p < 0.001): a) con la variable independiente tipo de
siguientes caractersticas: colegio, los niveles de rasgo medios () fueron 0.50 (colegio bilinge-ingls) y -0.24 (otros
colegios). El tamao del efecto (2) fue 0.10. b) con la variable independiente formacin, los
a) Estaba formado por 61 tems, 41 propios de ese subtest y 20 comunes a todos los
niveles de rasgo medio fueron -0.16 (slo colegio), 0.24 (colegio+academia), 0.57
subtests. (colegio+familia) y 1.18 (colegio+extranjero). El tamao del efecto fue 0.09. c) con la
b) Tena una dificultad heterognea. Los 5 nativos haban valorado subjetivamente la
variable independiente autoevaluacin de la lectura, los niveles de rasgo medio fueron -1.16
dificultad de los tems, y en cada subtest se incluan tems de amplia gama de (nada), -0.86 (sencillo), -0.13 (con esfuerzo), 0.94 (bien) y 1.64 (bilinge). El tamao del
dificultad previsible.
efecto fue 0.46. d) con la variable independiente autoevaluacin de la escritura, los niveles
c) La cantidad de tems de una categora se decida segn el peso de esa categora en el de rasgo medio fueron -1.30 (nada), -0.64 (sencillo), 0.03 (con esfuerzo), 0.90 (bien) y 1.77
banco completo; por ejemplo, para la categora morfologa, que tena el 35 % de los
(bilinge). El tamao del efecto fue 0.49. e) con la variable independiente autoevaluacin de
tems del banco (222 de los 635 tems totales), se eligieron 20 tems para cada subtest la conversacin, los niveles de rasgo medio fueron -1.23 (nada), -0.66 (sencillo), 0.25 (con
(aproximadamente el 35 % de 61).
esfuerzo), 1.01 (bien) y 1.76 (bilinge). El tamao del efecto fue 0.53. En los cinco anlisis se
99 100
observa que los niveles de rasgo medios se incrementan a medida que lo hacen los niveles
de cada una de las variables independientes. Todas las comparaciones mltiples post hoc
(estadstico DHS de Tukey) resultaron significativas (p<0.05). En los valores de los tamaos
del efecto (2) puede observarse un mayor poder predictivo de las autoevaluaciones del nivel
de ingls que de las variables relacionadas con la formacin en el idioma.
Enseanza
e
b) Adicionalmente se puso a prueba mediante el programa AMOS (versin 4.01) un media
modelo estructural para obtener la capacidad predictiva de las estimaciones de los niveles de 0.39
conocimiento con relacin a una variable latente de nivel informado de ingls, donde tuvieran Formacin
saturaciones positivas las 5 variables evaluadas en el cuestionario. Este tipo de anlisis e
0.35
estadstico, denominado como ecuaciones estructurales o tambin como modelos
confirmatorios (vase Ruiz3, 2000), sirve para estudiar el grado de ajuste entre un modelo 0.82
Nivel informado Lectura
terico (donde se plantean ciertas relaciones entre variables empricas y tericas) y los datos estimada de ingls e
reales. En nuestro caso, el modelo terico consiste en plantear una variable latente o factor 0.81
0.86
(nivel informado de ingls) en la que obtuvieran saturaciones positivas las 5 variables
incluidas en el cuestionario; adems, planteamos una relacin positiva entre esta variable Escritura e
latente y las puntuaciones estimadas a partir del rendimiento manifestado en los subtests de
ingls escrito.
e 0.89
Conversacin
Algunas medidas de ajuste del modelo fueron: gl = 4.599, AGFI = 0.992, RMSEA =
2 e
0.037, que son indicadores de un buen ajuste del modelo terico a los datos empricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlacin entre las estimaciones de nivel de ingls y el factor latente de nivel informado de
ingls es 0.81.

3
Ruiz, M.A. (2000). Introduccin a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.
101 102
b) Correlacionando las puntuaciones del test con otro criterio distinto, podramos
EJERCICIOS obtener un coeficiente de validez mayor de 0.60? Razone su respuesta.

1. Seale el objetivo que se pretende conseguir con cada una de las siguientes 7. Un pequeo test de aptitudes intelectuales consta de dos tems de aptitud verbal (el 1 y
actuaciones en la construccin de un cuestionario. el 4) y de dos tems de aptitud numrica (el 2 y el 3). Despus de aplicarse a un grupo
normativo, la matriz de correlaciones se someti a un anlisis factorial, cuya matriz F rotada
a) Correlacionar las puntuaciones totales en el cuestionario con un criterio externo al test. se presenta en la tabla que aparece a continuacin.
b) Preguntar a varios jueces expertos sobre la representatividad de los contenidos de un test.
c) Aplicar un anlisis factorial a las puntuaciones obtenidas en el test y en varios tests a) Considera que el estudio factorial aporta datos a la validez del test?
relacionados con el constructo de inters. b) Calcule el porcentaje de la varianza total explicado por el Factor I.

tem Factor I Factor II


2. Seale qu variables pueden afectar al coeficiente de validez de un test (rxy).
1 0,247 0,883

3. Sabemos que aumentando la longitud de un test, podemos aumentar tambin su 2 0,906 0,083
fiabilidad, y que la fiabilidad del test es un factor que permite incrementar la validez del test. 3 0,937 0,024
Queremos obtener un coeficiente de validez de 0,8 (Rxy) y sabemos que la fiabilidad del test
es 0,8 (rxx) y la del criterio es 0,6 (ryy). Lograremos nuestro objetivo aumentando la 4 -0,108 0,925
fiabilidad del test?

8. Estamos intentando elaborar una escala que mida la calidad de ciertos productos.
4. Un psiclogo social disea un test con 5 tems y obtiene los coeficientes de fiabilidad, Cada tem consiste en un adjetivo y la persona ha de evaluar de 1 (totalmente en
rxx= 0,4, y validez, rxy= 0,36. En vista de estos valores tan bajos, decide rechazar el test. desacuerdo) a 5 (totalmente de acuerdo) en qu medida el adjetivo se aplica al producto.
Valore esta actuacin del psiclogo. Tras un anlisis factorial, la matriz rotada resultante ha sido:

5. A continuacin se detallan las puntuaciones que 10 personas obtuvieron en un test de Factor I Factor II Factor III
rendimiento escolar (X) y las calificaciones medias del curso (Y), que se consideran como un
Barato -0,1 0,8 0,2
criterio de aprovechamiento acadmico.
Agradable 0,2 0,2 0,7
Sujetos 1 2 3 4 5 6 7 8 9 10 til 0,9 -0,1 -0,2
Test 18 15 12 11 8 4 5 6 9 3 Cmodo 0,6 -0,2 -0,1
Calificacin 9 8 7 6 4 2 4 4 5 2 Precio justo 0,1 0,9 0,2
Bonito -0,2 -0,1 0,6
a) Suponiendo que las 10 personas constituyen un grupo normativo apropiado, obtenga el Necesario 0,7 0,2 0,0
coeficiente de validez del test.
b) Obtenga el error tpico de estimacin del test. Atractivo -0,2 -0,1 0,5
Prctico 0,8 0,1 0,2
6. En un test de 10 tems el coeficiente de fiabilidad es 0.25 y el de validez es 0.10. Manejable 0,8 0,2 -0,1
a) Correlacionando las puntuaciones del test con otro criterio, podramos obtener un
coeficiente de validez menor de 0.10? Razone su respuesta.
Qu aspectos de la calidad mide la escala?
103 104

9. En la seleccin de aspirantes a un curso de formacin, los sujetos han sido a) La correlacin de las puntaciones en un tem con las puntuaciones en el test:
examinados con un cuestionario que obtuvo una media de 5 y una desviacin tpica de 2. Una b) La correlacin de las puntaciones en un tem con las puntuaciones en un criterio:
vez terminado el curso, los mismos sujetos fueron valorados por sus formadores segn una c) La suma de las correlaciones al cuadrado de los tems con un factor:
escala de 0 a 20, con media 10 y desviacin tpica 3. La correlacin entre los resultados en el d) La correlacin de un tem con un factor:
cuestionario y las valoraciones de los formadores fue de 0.35. e) La correlacin entre la forma par e impar de un test:
f) La proporcin de varianza de un criterio que explica un test:
a) Realice una estimacin puntual de la valoracin que recibira una persona que obtuvo 4
puntos en el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrar la 14. Un test tiene un coeficiente de fiabilidad de 0.6 y de validez de 0.42. Duplicamos el
valoracin para esta misma persona. test y conseguimos un coeficiente de validez superior a 0.42. Volvemos a duplicarlo y
conseguimos un coeficiente de validez an mayor.

10. Un test de 5 tems tiene un coeficiente de fiabilidad de 0.4 y un coeficiente de validez a) Podr conseguirse por la va de sucesivos alargamientos un coeficiente de validez de 0.8?
de 0.5. Justifique su respuesta.
b) Podr conseguirse por la va de sucesivos alargamientos un coeficiente de fiabilidad de
a) Queremos que su coeficiente de validez alcance el valor de 0.6. Qu longitud debera 0.98? Justifique su respuesta.
tener el test?
b) Queremos que su coeficiente de validez alcance el valor de 0.8. Qu longitud debera
tener el test? 15. Aplicamos a Juana un test para predecir su rendimiento en un criterio, concluyendo
c) Cul es mximo valor del coeficiente de validez que se puede alcanzar alargando el test? que, con probabilidad 0.99, su puntuacin en dicho criterio estar entre 24 y 30. Responda
razonadamente a las siguientes cuestiones:

11. Un psiclogo dispone de tres pruebas de desorden del pensamiento (T1, T2, y T3), de a) Cul es la estimacin puntual que hemos realizado a Juana?
igual variabilidad, para pronosticar un determinado criterio (esquizofrenia). Los coeficientes b) Si hubiramos establecido el intervalo con probabilidad 0.95, su amplitud sera
de fiabilidad, de validez y nmero de tems de cada test son: (mayor/menor/igual) a 6?

rxx rxy tems


16. Un Centro de Investigaciones Sociolgicas est interesado en evaluar el impacto que
T1 0,3 0,27 20 los escndalos acaecidos en la vida pblica han tenido en la imagen que la sociedad espaola
tiene de la clase poltica. Para ello, elaboran un cuestionario con seis elementos y la aplican a
T2 0,7 0,59 40 una muestra de cinco sujetos. Adems se les pide a los sujetos que den una valoracin
personal de la clase poltica, en una escala de 1 a 20. La tabla recoge las respuestas dadas por
T3 0,9 0,60 40
los cinco sujetos a las preguntas del cuestionario junto con su valoracin de la clase poltica.

Si los tres tests tuviesen la misma longitud, cul sera ms fiable? cul, ms vlido? SUJETOS ITEM valoracin de la clase poltica
1 2 3 4 5 6
1 4 2 3 3 5 4 15
12. El coeficiente de determinacin de un test es 0.25 y la varianza del criterio es 2. 2 4 2 2 5 2 4 10
3 4 3 2 2 4 6 18
a) Obtenga el coeficiente de validez y la varianza de los errores de pronstico. 4 1 2 1 4 3 4 9
b) Obtenga, con probabilidad 0.95, la amplitud que tendr la estimacin por intervalo en el 5 2 1 2 1 2 2 13
criterio para cualquier persona.

a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 tems.
13. Asocie cada uno de estos trminos a cada una de las frases: coeficiente de fiabilidad,
b) Cul ser la validez de este cuestionario si tomamos las valoraciones realizadas por los
ndice de validez, varianza explicada por un factor, coeficiente de determinacin, ndice de
sujetos como un criterio adecuado? Interprtelo.
homogeneidad, saturacin.
105 106
c) Cuntos elementos tendramos que aadirle al cuestionario para que su nuevo
Matriz factoriala
coeficiente de validez alcanzase un valor de 0,60?
Factor
17. Del estudio psicomtrico de un test de 4 items, hemos obtenido: 1
IT1 .671
Estadsticos de fiabilidad IT2 .508
Estadsticos de los elementos
Alfa de IT3 .774
Desviacin
Cronbach IT4 -.196
Media tpica N
basada en Mtodo de extraccin: Mxima verosimilitud.
IT1 2.64 1.295 156
los
IT2 2.28 1.242 156 a. 1 factores extrados. Requeridas 4 iteraciones.
Alfa de elementos N de
Cronbach tipificados elementos IT3 3.45 1.225 156
.433 .414 4 IT4 3.29 1.158 156
Prueba de la bondad de ajuste
Matriz de correlaciones inter-elementos
Chi-cuadrado gl Sig. RMSEA Intervalo de confianza 90%
IT1 IT2 IT3 IT4 .415 2 .813 .000 .000-.098
IT1 1.000 .347 .517 -.133
IT2 .347 1.000 .393 -.060
IT3 .517 .393 1.000 -.165 RESPONDA RAZONADAMENTE LAS SIGUIENTES PREGUNTAS
IT4 -.133 -.060 -.165 1.000
Se ha calculado la matriz de covarianzas y se utiliza en el a) El test es de rendimiento ptimo?
anlisis. b) Supongamos que queremos que el test definitivo tenga 3 tems. Cul eliminara si
queremos que el test tenga la mxima variabilidad? Cul sera la variabilidad y consistencia
Estadsticos total-elemento
interna del test de 3 tems resultante?
Media de la Varianza de Alfa de c) Supongamos que queremos que el test definitivo tenga mxima consistencia y solo dos
escala si se la escala si Correlacin Correlacin Cronbach si tems. Qu dos tems eliminara? Calcule e interprete el coeficiente de fiabilidad del test de
elimina el se elimina el elemento-tot mltiple al se eleimina dos tems resultante, sabiendo las correlaciones entre ellos.
elemento elemento al corregida cuadrado el elemento
IT1
d) Diga cuanto vale la correlacin del tem 2 con el factor 1.
9.01 4.942 .410 .294 .169
IT2
e) Qu porcentaje de varianza total explica el factor?
9.38 5.295 .374 .183 .220
IT3 8.21 5.106 .428 .328 .160
f) Segn los resultados del anlisis factorial, dira que el investigador puede mantener la
IT4 8.37 8.672 -.152 .030 .684
unidimensionalidad del test?

Estadsticos de la escala
18. En una muestra de universitarios, que haban superado la selectividad, el coeficiente
Desviacin N de de validez de un test de conocimientos fue 0.54. Cul hubiese sido si se hubiese calculado
Media Varianza tpica elementos con los datos de todos los aspirantes y no slo de los que han superado el examen? a) mayor
11.65 8.976 2.996 4 que 0,54; b) menor que 0,54; c) igual (0,54). Razone su respuesta.
Varianza total explicada

Sumas de las saturaciones al cuadrado 19. Si el coeficiente de validez del test es 0.7, la correlacin entre las puntuaciones
Autovalores iniciales de la extraccin verdaderas entre dicho test y el criterio ser: a) 0,7; b) mayor que 0,7; c) menor que 0,7.
% de la % de la Razone su respuesta.
Factor Total varianza % acumulado Total varianza % acumulado
1 1.892 47.302 47.302 1.345 33.631 33.631
2 .963 24.064 71.366 20. Son corrrectos los siguientes enunciados sobre la validez de un test?
3 .668 16.707 88.072
4 .477 11.928 100.000 a) La validez de constructo de un test asegura su validez referida a un criterio. V ( ) F ( ).
Mtodo de extraccin: Mxima verosimilitud. b) Para estudiar la validez de contenido de un test no es necesario aplicarlo a una muestra.
V ( ) F ( ).
107 108
c) Si el coeficiente de validez de un test vale 0,7 esto significa que el 70% de la
variabilidad de las puntuaciones en el criterio se puede pronosticar a partir del test.
V ( ) F ( ). Estadsticos de fiabilidad
Alfa de Cronbach Parte 1 Valor .531
N de elementos 5a
Parte 2 Valor .403
21. Hemos analizado mediante SPSS un test de 9 tems y 5 opciones de respuesta cuyos N de elementos 4b
tems son los siguientes: N total de elementos 9
Correlacin entre formas .502
tem 1. Me gusta leer libros. Coeficiente de Longitud igual .669
Spearman-Brown Longitud desigual .671
tem 2. Entiendo bien las explicaciones de los profesores.
Dos mitades de Guttman .634
tem 3. Me gustan los documentales de la 2 a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
tem 4. Me gusta ver los telediarios y saber lo que ocurre en el mundo. b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.
tem 5. Soy creativo a la hora de inventar juegos.
tem 6. Se me dan bien las matemticas.
tem 7. Me gustan las novedades. Varianza total explicada

tem 8. Me atrae la idea de viajar y conocer otras culturas. Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado
tem 9. Entiendo todo rpidamente. Autovalores iniciales de la extraccin de la rotacin
% de la % de la % de la
Factor Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 2.641 29.349 29.349 2.108 23.425 23.425 1.915 21.276 21.276
Estadsticos total-elemento
2 1.755 19.498 48.847 1.205 13.388 36.812 1.398 15.536 36.812
Media de la Varianza de Alfa de 3 1.059 11.772 60.619
escala si se la escala si Correlacin Correlacin Cronbach si 4 .840 9.339 69.958
elimina el se elimina el elemento-tot mltiple al se eleimina 5 .738 8.203 78.160
elemento elemento al corregida cuadrado el elemento 6 .605 6.724 84.884
ITEM01 28.32 21.711 .281 .139 .645 7 .569 6.320 91.204
ITEM02 27.62 22.300 .482 .477 .597 8 .484 5.379 96.583
ITEM03 28.12 22.761 .240 .097 .652 9 .307 3.417 100.000
ITEM04 27.65 22.537 .385 .331 .615 Mtodo de extraccin: Mxima verosimilitud.
ITEM05 28.56 21.576 .408 .208 .607
ITEM06 27.94 22.629 .267 .306 .644 Matriz factoriala Matriz de factores rotadosa
ITEM07 26.80 24.387 .336 .268 .630 Factor Factor
ITEM08 26.81 25.381 .165 .232 .657 1 2 1 2
ITEM09 27.81 21.871 .536 .528 .586 ITEM01 .255 .290 ITEM01 .128 .364
ITEM02 .744 -.217 ITEM02 .771 .079
Estadsticos de fiabilidad ITEM03 .222 .054 ITEM03 .185 .133
ITEM04 .379 .684 ITEM04 .094 .776
Alfa de
ITEM05 .469 .058 ITEM05 .413 .230
Cronbach
basada en ITEM06 .512 -.356 ITEM06 .608 -.138
los ITEM07 .396 .348 ITEM07 .237 .471
Alfa de elementos N de ITEM08 .080 .575 ITEM08 -.142 .563
Cronbach tipificados elementos ITEM09 ITEM09 .803 .168
.807 -.146
.654 .674 9
Mtodo de extraccin: Mxima verosimilitud. Mtodo de extraccin: Mxima verosimilitud.
a. 2 factores extrados. Requeridas 5 iteraciones. Mtodo de rotacin: Normalizacin Varimax con Kaiser.
Estadsticos de resumen de los elementos a. La rotacin ha convergido en 3 iteraciones.
Mximo/ N de
Media Mnimo Mximo Rango mnimo Varianza elementos
Medias de los Parte 1 3.149 2.646 3.586 .939 1.355 .172 5a Prueba de Bondad de ajuste modelo de dos factores:
elementos Parte 2 3.864 3.263 4.404 1.141 1.350 .385 4b
Ambas partes 3.467 2.646 4.404 1.758 1.664 .372 9 Prueba de la bondad de ajuste
Varianzas de los Parte 1 1.504 .939 2.128 1.189 2.266 .229 5a
elementos Parte 2 1.016 .631 1.706 1.075 2.703 .227 4b Chi-cuadrado gl Sig.
Ambas partes 1.287 .631 2.128 1.497 3.372 .266 9 14.327 19 .764
Correlaciones Parte 1 .193 .087 .394 .308 4.542 .008 5a
inter-elementos Parte 2 .154 -.143 .467 .609 -3.273 .052 4b
Ambas partes .187 -.143 .633 .776 -4.442 .027 9
RMSEA Intervalo de confianza 90%
Se ha calculado la matriz de covarianzas y se utiliza en el anlisis. .000 .000-.068
a. Los elementos son: ITEM01, ITEM02, ITEM03, ITEM04, ITEM05.
b. Los elementos son: ITEM06, ITEM07, ITEM08, ITEM09.
109 110

Prueba de Bondad de ajuste modelo de un factor:


23. Un test de responsabilidad consta de 25 tems. Su coeficiente de fiabilidad test-retest
Prueba de la bondad de ajuste
fue 0.82, su media 30 y su varianza emprica 16. La correlacin entre el test y un criterio
Chi-cuadrado gl Sig. externo fue 0.40, siendo la varianza del criterio igual a 20 y su media 50.
64.403 27 .000
a) Una persona obtiene en el test de responsabilidad una puntuacin que se encuentra dos
RMSEA Intervalo de confianza 90% desviaciones tpicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qu
valores estimamos que se encontrar su puntuacin directa en el criterio.
.124 .087-.161
b) Obtenga e interprete la proporcin de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le aadimos dos formas paralelas.
Responda a las siguientes preguntas RAZONADAMENTE:
24. A continuacin aparecen distintas partes de una salida de SPSS para el anlisis de la
a) Diga si el test es de rendimiento tpico o de rendimiento ptimo.
fiabilidad de 6 de los 36 tems del test de matrices progresivas de Raven en una muestra de
b) Diga cul es la varianza explicada por el segundo factor.
1800 sujetos. En concreto, se analizaron los tems que ocupaban las posiciones 10, 15, 20,
c) Puede decirse que el test es unidimensional?
25, 30 y 35 del test.
d) Interprete el significado de los factores.
e) La primera mitad del test est formada por los tems_____________________________ , Matriz factoriala
y su consistencia interna es_____. Factor
f) Asumiendo que ambas mitades son paralelas obtenga e interprete el coeficiente de 1
fiabilidad de cualquiera de ellas raven10 .484
g) Si tuviera que eliminar un tem diga qu tem eliminara y por qu _________ . raven15 .245
h) Atendiendo a la columna Alpha if item deleted diga cuales son los dos tems que ms raven20 .260
correlacionan con el total del test. raven25 .358
raven30 .308
22. A un grupo normativo de 100 sujetos se le ha aplicado un test (X) formado por 4 raven35 .245 Prueba de la bondad de ajuste
tems y se le ha medido en un criterio (Y), obtenindose la siguiente matriz de correlaciones. Mtodo de extraccin: Mxima verosimilitud. Chi-cuadrado gl Sig.
Se indica tambin la varianza de cada variable. a. 1 factores extrados. Requeridas 3 iteraciones. 15.869 9 .070

Item 1 Item 2 Item 3 Item 4 X Y


Item 1 1,00 RMSEA Intervalo de confianza 90%
Item 2 0,70 1,00 .021 .000-.037
Item 3 0,00 0,25 1,00 ANLISIS DE LAS OPCIONES (TEM 35)
Item 4 -0,44 -0,31 -,31 1,00 100.0

X 0,71 0,87 0,5 -0,15 1,00 90.0


Y 0,75 0,68 -0,08 0,14 0,76 1,00 80.0
Varianza 0,30 0,27 0,27 0,17 1,06 25,9
70.0

60.0

a) Diga cules son: 1) el tem que ms contribuye a la consistencia interna del test, 2) el tem 50.0

que ms contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad, 40.0
realice los clculos oportunos. 37 37
30.0
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendra el intervalo para estimar la puntuacin en el criterio de 20.0

cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de 10.0 15
4
significacin de 0.05. 0.0
1 2 3
5
5
6 7 8 9
d) Sabiendo que el coeficiente de fiabilidad del test de 4 tems es 0.80, obtenga e interprete el
coeficiente de validez que tendra el test si le aadimos 12 tems paralelos a los que ya tiene.
111 112

Estadsticos de fiabilidad Estadsticos de la escala


Alfa de Cronbach Parte 1 Valor .258 Desviacin N de
N de elementos 3a Media Varianza tpica elementos
Parte 2 Valor .255 Parte 1 2.31 .636 .797 3a
N de elementos 3b Parte 2 1.56 .864 .929 3b
N total de elementos 6 Ambas partes 3.86 1.840 1.356 6
Correlacin entre formas .229 a. Los elementos son: raven10, raven15, raven20.
Coeficiente de Longitud igual .373 b. Los elementos son: raven25, raven30, raven35.
Spearman-Brown Longitud desigual .373
Dos mitades de Guttman .370
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35. En la figura se representan los porcentajes de eleccin de las opciones de respuesta para el
tem 35, cuya opcin correcta es la 3 (recuerde que el test se ha aplicado a 1800 sujetos y que
cada tem tiene 8 opciones de respuesta).
Estadsticos de los elementos

Desviacin
Media tpica N
RESPONDA RAZONADAMENTE A LAS SIGUIENTES PREGUNTAS:
raven10 .82 .381 1800
raven15 .78 .417 1800 a) Atendiendo a los datos del anlisis de fiabilidad y a la figura Cul es el ndice de
raven20 .70 .456 1800
raven25 .61 .488 1800
dificultad del tem 35 considerando las omisiones como datos perdidos? Qu nmero de
raven30 .58 .494 1800 personas omiten este tem?
raven35 .37 .484 1800 b) Observando la frecuencia de eleccin de las opciones del tem 35 se incumple alguno de
los supuestos de la frmula de correccin del azar? Cul?
c) Considerando que el patrn de omisiones es parecido para todos los tems, cree usted que
en general habr muchas diferencias entre las puntuaciones directas y las correspondientes
corregidas?
Estadsticos de resumen de los elementos d) Obtenga e interprete el coeficiente de fiabilidad del test completo de 36 tems.
Mximo/ N de e) De las 2 partes del test que se consideran en el anlisis, diga cules son los tems que
Medias de los Parte 1
Media
.769
Mnimo
.704
Mximo
.824
Rango
.120
mnimo
1.170
Varianza
.004
elementos
3a
forman la mitad ms consistente.
elementos Parte 2 .519 .373 .608 .235 1.629 .016 3b f) Algunos autores obtienen datos que indican que sobre el rendimiento de los 36 tems del
Ambas partes .644 .373 .824 .451 2.208 .027 6 Raven subyacen dos dimensiones cognitivas. Los datos que se muestran para los 6 tems
Varianzas de los Parte 1 .176 .145 .208 .064 1.439 .001 3a
elementos
analizados van en esta lnea?
Parte 2 .239 .234 .244 .010 1.043 .000 3b
Ambas partes .207 .145 .244 .099 1.687 .002 6 g) El tem que ms contribuye al primer factor es el.. ya que su correlacin con dicho
Correlaciones Parte 1 .108 .056 .156 .100 2.777 .002 3a factor es .
inter-elementos Parte 2 .102 .080 .115 .035 1.429 .000 3b h) Cul es el porcentaje de varianza total explicado por el primer factor antes de rotar?
Ambas partes .098 .036 .174 .138 4.830 .002 6
Se ha calculado la matriz de covarianzas y se utiliza en el anlisis.
i) Crees que las dos mitades que hemos formado son formas paralelas?
a. Los elementos son: raven10, raven15, raven20.
b. Los elementos son: raven25, raven30, raven35. 25. A continuacin aparecen distintas partes de una salida de SPSS correspondientes a 8
tems, en una muestra de 102 sujetos.
Estadsticos total-elemento

Media de la Varianza de Alfa de Estadsticos de los elementos


escala si se la escala si Correlacin Correlacin Cronbach si
elimina el se elimina el elemento-tot mltiple al se eleimina Desviacin
elemento elemento al corregida cuadrado el elemento Media tpica N
raven10 3.04 1.449 .269 .076 .302 item1 1.66 1.278 102
Estadsticos de fiabilidad
raven15 3.09 1.529 .133 .029 .376 item2 1.98 1.134 102
raven20 3.16 1.456 .159 .030 .361 Alfa de item3 1.54 1.224 102
raven25 3.26 1.365 .207 .052 .330 Cronbach item4 1.68 1.055 102
basada en
raven30 3.29 1.369 .196 .040 .338 item5 1.72 1.093 102
los
raven35 3.49 1.434 .148 .028 .370 Alfa de elementos N de item6 2.60 1.065 102
Cronbach tipificados elementos item7 2.22 1.059 102
.592 .598 8 item8 2.65 1.157 102
113 114

Estadsticos total-elemento Prueba de Bondad de ajuste modelo de dos factores:


Media de la Varianza de Alfa de
escala si se la escala si Correlacin Correlacin Cronbach si
elimina el se elimina el elemento-tot mltiple al se eleimina Prueba de la bondad de ajuste
elemento elemento al corregida cuadrado el elemento
item1 14.37 17.444 .219 .368 .586 Chi-cuadrado gl Sig.
item2 14.05 16.918 .344 .167 .544 7.648 13 .866
item3 14.49 17.401 .246 .188 .575
item4 14.35 18.627 .184 .095 .590 RMSEA Intervalo de confianza 90%
item5 14.31 16.811 .380 .303 .533 .000 .000-.057
item6 13.43 17.456 .318 .132 .553
item7 13.81 16.470 .445 .338 .515
item8 13.38 17.684 .246 .336 .574

Estadsticos de fiabilidad
Alfa de Cronbach Parte 1 Valor .216
Prueba de Bondad de ajuste modelo de un factor:
N de elementos 4a
Parte 2 Valor .448
Prueba de la bondad de ajuste
N de elementos 4b
N total de elementos 8 Chi-cuadrado gl Sig.
Correlacin entre formas .550 55.004 20 .000
Coeficiente de Longitud igual .710
Spearman-Brown Longitud desigual .710
Dos mitades de Guttman .710
a. Los elementos son: item1, item2, item3, item4.
b. Los elementos son: item5, item6, item7, item8.
RMSEA Intervalo de confianza 90%
.136 .096-.178
Varianza total explicada

Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado


Autovalores iniciales de la extraccin de la rotacin
% de la % de la % de la
Responda razonadamente a las siguientes preguntas:a) Asumiendo que las dos mitades son
Factor Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado formas paralelas, obtenga e interprete el coeficiente de fiabilidad del
1 2.199 27.490 27.490 1.373 17.163 17.163 1.534 19.178 19.178
2 1.670 20.873 48.363 1.542 19.275 36.438 1.381 17.260 36.438
a.1) test completo de 8 tems
3 1.000 12.500 60.862 a.2) subtest formado por los tems 5, 6,7 y 8
4 .867 10.834 71.696 b) Para maximizar la varianza del test habra que eliminar el tem _____, ya que
5 .784 9.805 81.501
c) El ndice de homogeneidad corregido del tem 2 es ______. Con un nivel de confianza del
6 .586 7.322 88.823
7 .498 6.220 95.043 95%, considera que la relacin entre ese tem y la puntuacin en el resto del test es
8 .397 4.957 100.000 significativamente distinta de cero?
Mtodo de extraccin: Mxima verosimilitud. d) Para maximizar la consistencia interna del test habra que eliminar el tem _____, ya que

Matriz de factores rotadosa
Matriz factoriala e) Atendiendo a toda la informacin de las tablas, convendra eliminara algn tem? En
Factor
Factor 1 2
caso de respuesta afirmativa, diga qu tem o tems convendra eliminar.
1 2 item1 -.045 .972 f) Obtenga e interprete la comunalidad del tem 1.
item1 .973 -.004 item2 .376 .210 g) Deberan extraerse ____ factores, ya que
item2 .194 .385 item3 .449 -.034
item3 -.052 .447
h) Para interpretar el significado del factor 2 utilizara los tems
item4 .327 .010
item4 -.003 .328 item5 .660 -.021
__________________________, ya que
item5 -.048 .658 item6 .298 .201 i) La proporcin de varianza total explicada por el factor I no rotado es ______, y por el
item6 .188 .306 item7 .746 .003 factor II rotado es ______.
item7 -.029 .745 item8 .041 .591
item8 .589 .066 Mtodo de extraccin: Mxima verosimilitud.
Mtodo de extraccin: Mxima verosimilitud. Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. 2 factores extrados. Requeridas 36 iteraciones. a. La rotacin ha convergido en 3 iteraciones.
115 116

SOLUCIONES 11. Si los tres tests tuviesen la misma longitud el ms fiable sera el tercero, ya que si
alargsemos el Test 1 hasta que tuviese 40 tems su coeficiente de fiabilidad valdra
1. a) Obtener su coeficiente de validez. 0,46. El ms vlido sera tambin el Test 3, ya que al alargar el Test 1 su coeficiente de
b) Aportar informacin sobre su validez de contenido. validez toma el valor de 0,33.
c) Aportar datos sobre su validez factorial. Cabe pensar que si el test es vlido, sature en el
mismo factor que los otros tests que miden constructos relacionados. 12. rx y2 = 0.25; Sy2 = 2
Coeficiente de validez: 0.5
2. El coeficiente de validez viene determinado por varios factores: Varianza de los errores de pronstico: 1.5
- La fiabilidad del test y del criterio. Amplitud del intervalo: 4.80
- La longitud de ambos.
- La variabilidad del grupo normativo en ambos. 13. a) Indice de homogeneidad
- La autntica relacin entre el test y el criterio. b) ndice de validez
c) varianza explicada por un factor
3. No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En d) Saturacin
este caso, la validez mxima que puede alcanzar este test completamente fiable sera la raz e) Coeficiente de fiabilidad
cuadrada del coeficiente de fiabilidad del criterio, que sera igual a 0.77. f) Coeficiente de determinacin

4. No estara totalmente justificada la desestimacin del cuestionario, dado que, por 14. a) 0.8 es mayor que el tope mximo alcanzable (0.54 = 0.42/0.6) alargando el test,
tener tan pocos tems, obtendramos un incremento apreciable en sus cualidades luego NO se puede alcanzar el valor 0.8.
psicomtricas al incrementar su longitud. b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.

5. a) rxy = 0.98 15. a) Y = (30 + 24)/ 2 = 27.


b) Sy-y' = 0.45 b) Menor. Con probabilidad 0.99, A= (2)2.57S. Con probabilidad 0.95, A = (2)1.96S.

6. a) S. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida. 16. a) Las varianzas de los tems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
b) No, ya que rxy 0.25 = 0.5 . La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 (7.36/17.67)) = 0.70. Alta consistencia, pues el test es corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
7. a) Parece que s, dado que los dos tems de aptitud verbal obtienen saturaciones altas
c) La correlacin par e impar es 0.33. El coeficiente de fiabilidad del test (dos mitades) es
en el Factor II, mientras que los dos tems de aptitud numrica obtienen saturaciones altas en
0.50. El nmero de formas paralelas necesarias para alcanzar la validez 0.6 es 36.73. El test
el Factor I.
deber tener 36.73x6= 220.38 tems, por lo que deberemos aadir 220.38 6 = 214.38 215
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4 = 44.
tems.
8. El Factor I podra definirse como un producto bueno.El Factor II como un
17. a) No, pues las medias son mayores que 1.
producto barato y el Factor III como un producto bonito.
b) Eliminaramos el tem 4. La varianza del test resultante sera 8.672. Su coeficiente alfa
sera 0.684.
9. a) Y' = 9.475
c) Hay que quitar los tems 2 y 4. El test formado por los tems 1 y 3 tendra un coeficiente de
b) Li = 3.97 Ls = 14.98
fiabilidad de 0.682 (dos mitades), pues la correlacin entre la mitad par e impar es 0.517 y
aplicando Spearman-Brown, el coeficiente de fiabilidad es 0.682.
10. a) n = 2.04 2, debera estar formado por 2 formas paralelas del test inicial; es decir,
d) 0.508
por 10 tems.
e) 33.63%
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la longitud del
f) Claramente no. Aunque el RMSEA indica un buen ajuste del modelo de un factor, el peso
test.
del tem 4 es negativo.
c) El mximo valor del coeficiente de validez obtenible por alargamiento del test es
Rxy rxy / rxx = 0.5 / 0.4 = 0.79. 18. Sera mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado la
selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar un mayor
coeficiente de validez.
117 118

varianza observada se debe a la varianza de los niveles de rasgo. Es una fiabilidad aceptable
19. La correlacin entre las puntaciones verdaderas del test y criterio es mayor o igual que para un test de esa longitud.
el coeficiente de validez (vase apartado 4.3). e) La mitad ms consistente es la parte 1 (tems 10, 15 y 20). Su alfa es 0.258.
f) No, pues el ajuste del modelo de un factor es bueno segn ambos indicadores de ajuste.
20. Podemos mantener que el modelo se ajusta a los datos con un nivel de confianza del 95% y
a) F adems el RMSEA indica un buen ajuste (RMSEA < 0.05).
b) V g) tem 10, pues la correlacin es 0.484.
c) F h) 10.756 (suma de saturaciones al cuadrado dividido por 6 y multiplicado por 100).
i) Claramente no, las dos mitades difieren en media puesto que los tems estn ordenados por
21. dificultad.
a) Tpico (las medias de los tems son mayores de 1).
b) 1.398 (el % de varianza explicada sera 15.536). 25.
c) No. Hemos retenido dos factores. El modelo de un factor no ajusta bien a los datos. El a1) El coeficiente de fiabilidad del test es 0.71. El 71% de la varianza de las puntuaciones
estadstico de contraste muestra que con un nivel de confianza del 95%, podemos decir que observadas corresponde a variabilidad de las puntuaciones verdaderas (y el 29% al error de
algn residual es distinto de cero. Adems el RMSEA es mayor que 0.08. Por el contrario, medida).
para el modelo de dos factores, los indicadores de ajuste muestran valores aceptables (el a2) 0.550, pues es la correlacin entre las dos partes.
RMSEA nos indica que el modelo muestra buen ajuste a los datos ya que su valor es menor b) Para maximizar la varianza del test habra que eliminar el tem 4, ya que al eliminarlo la
que 0.05). varianza del test de 7 tems alcanza el valor ms alto (18.627).
d) Para el factor 1, se utilizaran los tems 2, 5, 6 y 9. Podramos ponerle la etiqueta de c) El ndice de homogeneidad corregido del tem 2 es 0.344. Si sera significativo, pues
Percepcin de la propia capacidad. Para el factor 2, se utilizaran los tems 1, 4, 7 y 8. La .344 102 = 3.474 > 1.96.
etiqueta, atendiendo al contenido comn de esos tems, podra ser Curiosidad intelectual. d) Para maximizar la consistencia interna del test habra que eliminar el tem 4, ya que, al
e) Primera mitad: tems 1 a 5. Su alfa es 0.531. eliminarlo, se conseguira que el test de 7 tems tenga el mayor alfa (0.590).
f) El coeficiente de fiabilidad del test de 10 tems es 0.671 = 2r/(1+r), siendo r la correlacin e) El tem 4, por que prcticamente no cambia el coeficiente alfa del test al eliminar ese tem.
entre las dos partes y el coeficiente de fiabilidad de cada una. Despejando, r = 0.505. Adems, la puntuacin en ese tem no correlacina significativamente con la puntuacin en el
g) El tem 8 que tiene el menor ndice de homogeneidad corregida (HC = 0.165). Adems, al
resto del test ( .184 102 = 1.858 < 1.96)
eliminarlo aumenta alfa desde 0.654 a 0.657
h) Los dos que tengan menores valores en esa columna: tems 2 y 9. f) La comunalidad del tem 1 es (-0.045)2+(0.972)2 = 0.947. El 95% de la varianza del tem 1
est explicado por los dos factores.
22. El tem 2, pues tiene la mayor correlacin con el test (0.87). El tem 4, pues tiene la g) Deberan extraerse 2 factores, ya que los indicadores de ajuste muestran que el modelo de
mayor diferencia V-H (0.29). un factor no se ajusta a los datos, mientras que el modelo de dos factores s.
b) El coeficiente alfa vale 0.06. El test no tiene consistencia. h) Para interpretar el significado del factor 2 utilizara los tems 1 y 8, ya que son los que
c) 12.97 tienen saturaciones ms altas en ese factor, en la matriz rotada.
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de validez i) La proporcin de varianza total explicada por el factor I no rotado es 1.534/8 = 0.19, y por
es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del criterio puede el factor II rotado es 1.381/8 = 0.17.
explicarse por las puntuaciones en el test

23. a) (38.27, 54.43).


b) El coeficiente de validez del test alargado es 0.43. La proporcin pedida es 0.18. Es
un coeficiente de validez medio.

24.
a) 0.59, pues 0.37/(1-0.37) = 0.587. Lo omiten 666 = (0.37)1800.
b) Las alternativas no son igualmente elegidas.
c) Las diferencias entre puntuaciones y puntuaciones corregidas sern pequeas, pues el
nmero de errores en los tems es bajo y el nmero de opciones en cada tem es alto.
d) El coeficiente de fiabilidad por el mtodo de las dos mitades es 0.373. Alargando el test 6
veces, resulta un test con coeficiente de fiabilidad dos mitades de 0.781. El 78% de la
119 120

TEMA V: BAREMACIN DE UN TEST


Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
1.- INTRODUCCIN permitir obtener la EM de cualquier nio al que apliquemos el test. Por ejemplo, si un nio
obtiene el test una puntuacin directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin es la media que obtienen
La puntuacin directa de una persona en un test no es directamente interpretable si no la los nios de 9 aos.
referimos a los contenidos incluidos en el test o al rendimiento de las restantes personas que
comparten el grupo normativo. Nosotros centramos en este segundo sentido el tema de la El Cociente Intelectual (CI) se denomina as (y no coeficiente, como es usual escuchar en
interpretacin de una puntuacin directa en un cuestionario, para lo cual es necesario tratar el determinados mbitos) porque es el resultado de dividir la edad mental (EM) entre la edad
tema de la obtencin de baremos para comparar esta puntuacin con las que obtienen las cronolgica (EC) del sujeto; para evitar decimales el resultado se multiplica por 100, de tal
personas que han formado el grupo normativo. De una u otra forma, los baremos consisten en manera que se puede obtener a partir de la frmula:
asignar a cada posible puntuacin directa un valor numrico (en una determinada escala) que
informa sobre la posicin que ocupa la puntuacin directa (y por tanto la persona que la obtiene)
en relacin con los que obtienen las personas que integran el grupo normativo donde se EM
CU = 100
bareman las pruebas. EC

Entre las mltiples formas de baremar un test, destacamos las siguientes:


Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una puntuacin directa de 18
- Baremos cronolgicos: Edad Mental y Cociente Intelectual. puntos, diremos que su EM es de 11 aos, y que su CI es:

- Centiles o percentiles.
11
- Puntuaciones tpicas: estndares, normalizadas, escalas T y D, estaninos o eneatipos. CU = 100 = 110
10
Lo ms usual en las pruebas comercializadas es encontrarse baremos realizados en escala de
centiles estaninos. Podemos observar que si la EM de un sujeto coincide exactamente con su EC, el CI es igual a
100, e indicar que este sujeto obtiene exactamente la puntuacin media de su grupo de edad. Si
el CI supera el valor de 100 significar que el sujeto tiene una Inteligencia superior al promedio
2.- BAREMOS CRONOLGICOS de su edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene una inteligencia
inferior a la media de su grupo de edad. Usualmente, Cocientes Intelectuales inferiores a 70
indican problemas importantes (deficiencias) de tipo cognitivo, mientras que Cocientes
Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene Intelectuales superiores a 140 indican excepcionalidad intelectual.
sentido comparar la puntuacin de un sujeto con las que obtienen los de su misma edad y los de
edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI). 3.- CENTILES O PERCENTILES

Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a diferentes Los centiles, como recordaremos, representan medidas de posicin en un distribucin de
grupos de edad (nios entre 5 y 14 aos), y que obtenemos las puntuaciones medias de cada frecuencias. Los baremos centiles consisten en asignar a cada posible puntuacin directa un
grupo de edad en la prueba, siendo las que siguen: valor (en una escala de 1 a 100) que se denomina centil (o percentil) y que indican el porcentaje
de sujetos del grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. As, si un sujeto obtiene en un cuestionario de autoritarismo una
Edad: 5 6 7 8 9 10 11 12 13 14 puntuacin de 20 puntos, poco sabemos sobre su nivel de autoritarismo, pero si sabemos que a
esa puntuacin le corresponde el centil 95 , ya conocemos que este sujeto supera en ese rasgo al
Media: 6 8 9 11 14 15 18 22 24 27 95% de los sujetos utilizados para baremar el test; si el grupo normativo fuese una muestra
121 122

representativa de la poblacin general, podramos inferir que esta persona supera en As, si un sujeto obtiene una puntuacin directa de 20 puntos en el cuestionario, diremos que
autoritarismo al 95% de las personas, y que slo un 5% de personas son ms autoritarias que l. supera en conocimientos informticos al 9,5% de los sujetos universitarios, mientras que ms del
90% de los alumnos universitarios tienen mayor conocimiento en el manejo de ordenadores que
El modo de clculo del centil asociado a una puntuacin se resume en los siguientes pasos: la persona evaluada.

1) Disponer en una columna, ordenadas de mayor a menor o de menor a mayor, las


posibles puntuaciones directas (Xi) que se puedan obtener en el test. 4.- PUNTUACIONES TPICAS

2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos del grupo


normativo que la han obtenido. En Anlisis de Datos se vio el significado y proceso de clculo de las puntuaciones tpicas (Zx)
asociadas a unas puntuaciones directas determinadas. En este apartado vamos a encontrar una
3) Disponer una tercera columna de frecuencias acumuladas (Fi). clara aplicacin de estas puntuaciones, y de otras que se derivan de stas, para baremar un
cuestionario; vamos a diferenciar adems entre baremos tpicos estndares y baremos
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a la normalizados.
puntuacin directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el nmero
total de sujetos que forman el grupo normativo.
4.1.- PUNTUACIONES TPICAS ESTNDARES
Ejemplo:

Supongamos que aplicamos un cuestionario de conocimientos en el manejo de ordenadores a un Como sabemos, una puntuacin tpica Zi se obtiene haciendo:
grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos que
obtuvieron cada una de ellas (f) son las siguientes: Xi - X
Zi =
SX
X: 28 27 26 25 24 23 22 21 20 19 18
puede ser positiva o negativa, e indica el n de desviaciones tpicas que se aleja de la media una
determinada puntuacin directa.
f: 2 4 21 32 45 37 22 18 12 6 1
As, conociendo la puntuacin tpica de un sujeto en un test y la variabilidad del grupo
normativo, podemos interpretar el nivel de rasgo del sujeto (atendiendo a la cuanta y signo de
su puntuacin Zi) en comparacin con los niveles de los restantes sujetos. Por ejemplo, una
A partir de estos datos, los centiles correspondientes a cada puntuacin directa, se obtienen de la
puntuacin tpica de -2,33 indica que es un sujeto cuya puntuacin se encuentra 2,33
siguiente forma:
desviaciones tpicas por debajo de la media.
Centiles
X f F C = (100)F/200
4.2.- PUNTUACIONES TPICAS NORMALIZADAS
28 2 200 100
27 4 198 99 Cuando se puede asumir (o se comprueba) que las puntuaciones de un grupo normativo en un
26 21 194 97 test siguen una distribucin normal, un centil concreto Ci dividido entre 100 indica el rea de la
25 32 173 865 curva normal que queda por debajo de la puntuacin correspondiente.
24 45 141 705
23 37 96 48 Por ejemplo, observando la curva normal de la figura, podemos constatar que el C1 es
22 22 59 295 aproximadamente el centil 10, y deja por debajo un rea de 0,10 de la curva normal; el C2 es el
21 18 37 185 centil 42, y deja por debajo una proporcin de 0,42 del rea de la curva normal; el C3 es
20 12 19 95 aproximadamente el centil 95, y deja por debajo de s un rea de 0,95 de la curva normal.
19 6 7 35
18 1 1 05
123 124

4.3.- PUNTUACIONES TPICAS DERIVADAS

Las puntuaciones tpicas (estndares y normalizadas) tienen dos dificultades formales para su
,5
interpretacin: la posibilidad de asumir valores no enteros y negativos. Con objeto de superar
C2 estas pequeas dificultades, se han propuesto otros baremos, que no son ms que una
transformacin lineal de las puntuaciones tpicas, con lo que no se alteran las propiedades de la
,4
escala tpica. Estas puntuaciones se denominan escalas tpicas derivadas (si el objeto de la
transformacin lineal es una puntuacin tpica estndar) o escalas tpicas derivadas
normalizadas (si suponen la transformacin lineal de una puntuacin tpica normalizada),
,3
siendo las principales las denominadas como escala T, escala D y estaninos (o eneatipos):

Escala Derivada Derivada y normalizada


,2
C1 Escala T Ti= 50+(10)Zi Tni= 50+(10)Zni
Escala D Di= 50+(20)Zi Dni= 50+(20)Zni
,1 C3 Estaninos Eni= 5 + 2 Zni

En definitiva, las puntuaciones T representan una escala con media 50 y desviacin tpica 10.
0,0
As, una puntuacin T = 78 significa que la persona obtiene una puntuacin Zi = 2.8, es decir,
-5,0 -3,8 -2,6 -1,4 -,2 1,0 2,2 3,4 4,6
2.8 desviaciones tpicas por encima de la media del grupo normativo.
-4,4 -3,2 -2,0 -,8 ,4 1,6 2,8 4,0

Z Las puntuaciones D suponen una escala con media 50 y desviacin tpica 20. Por ejemplo, una
puntuacin D = 35 indica que la persona obtuvo una puntuacin Zi = -.75, o lo que es lo mismo,
una puntuacin que se encuentra .75 desviaciones tpicas por debajo de la media del grupo
normativo donde se barema el test.
Pues bien, conociendo la proporcin que queda por debajo de un punto dado de la distribucin,
podemos utilizar la tabla de la curva normal para obtener sin clculos la puntuacin tpica Los estaninos representan otra escala con media 5 y desviacin tpica 2. Una persona que
asociada (Zn), que se denominar puntuacin tpica normalizada. Indicar el nmero de obtenga el estanino 8 en un test de aptitud espacial indicar que se encuentra 1.5 desviaciones
desviaciones tpicas que una puntuacin se encuentra por encima (si es positiva) o por debajo (si tpicas por encima de la media del grupo normativo.
es negativa) de la media en una distribucin normal.
Consideremos un caso de baremacin de una misma puntuacin en diferentes escalas. Por
Por ejemplo, las puntuaciones tpicas normalizadas asociadas a los centiles 1, 26, 57 y 97 son: ejemplo, a un sujeto que obtiene una puntuacin directa de 30 puntos en un test de aptitud
mecnica con media de 38 puntos y desviacin tpica 4, le podemos asignar puntuaciones en los
Centil Centil/100 Zn siguientes baremos:

1 0,01 -2,33 Puntuacin tpica: -2


26 0,26 -0,64 Escala T: 30
57 0,57 0,18 Escala D: 10
97 0,97 1,88 Estanino: 1

Si no se puede asumir racionalmente o no se puede comprobar que las puntuaciones siguen una Todas estas puntuaciones en escalas o baremos diferentes indican lo mismo: que es un sujeto
distribucin normal, no se puede hacer uso de las tablas de la curva normal para obtener las Zn. que se encuentra dos desviaciones tpicas por debajo de la media de grupo normativo en aptitud
S podran calcularse las puntuaciones tpicas estndares Zx, ya que no asumimos ningn mecnica.
supuesto sobre la distribucin de los datos. Si los datos de una muestra se ajustan a la normal,
entonces cada Zx de una persona es similar a su Zn. La interpretacin de cada una de las escalas tpicas derivadas normalizadas sigue la misma
lgica que su correspondiente escala tpica derivada sin normalizar, haciendo siempre la
salvedad de que la interpretacin hay que referirla a una distribucin normal.
125 126
7. La puntuacin de una persona en un test de inteligencia se encuentra 0,5
EJERCICIOS desviaciones tpicas por encima de la media del grupo normativo. Obtenga sus puntuaciones
en los baremos Z, T y D.
1. Cul es el objetivo de la construccin de baremos?
8. Algunas de las puntuaciones de Juan y Antonio en un examen han sido las siguientes:
2. Un grupo de 200 personas obtuvo en un test de inteligencia una media de 14.78
puntos y una desviacin tpica de 3.34. La siguiente tabla recoge la distribucin de
frecuencias de las puntuaciones obtenidas por los sujetos en el test: Centil Zn En Dn Tn

X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Juan 93 1,5
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
Antonio 65
a) Calcule los centiles correspondientes a cada una de las puntuaciones directas.
b) Calcule las puntuaciones tpicas, puntuaciones T y D que corresponden a sujetos con Complete las puntuaciones omitidas.
puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribucin se adapta a la distribucin de la curva normal, que 9. En un test cuyas puntuaciones se distribuyen normalmente, 5 personas (numeradas
puntuaciones tpicas normalizadas y en las escalas derivadas (T, D y E) corresponderan a del 1 al 5) obtienen las siguientes puntuaciones en los correspondientes baremos:
esos mismos sujetos.
1) Dn = 50 2) Tn = 20 3) En = 5 4) Zn = -3 5) Centil = 90
3. La media de un test es 45 y la desviacin tpica 10. Sabemos que a la puntuacin
directa de 40 le corresponde el centil 21, y que en las tablas de la curva normal la puntuacin Site el nmero correspondiente a cada persona en la curva normal.
tpica -0,8 deja por debajo de s la probabilidad de 0,21. Calcule el valor asociado a la
puntuacin directa de 40 en las siguientes escalas: 10. Aplicamos un test a un grupo normativo de 350 personas. La distribucin de
frecuencias resultante fue:
a) Centil.
b) Tpica normalizada (Zn).
c) Escala D no normalizada. X 45 44 43 42 41 40 39 38
d) Estanino.
f 5 15 45 85 90 56 44 10
4. En un test distribudo normalmente, el sujeto A ocupa el centil 20, el B el centil 40 y
el C el centil 60. Por lo tanto, la diferencia entre las puntuaciones directas de A y B ser la a) Qu centil, puntuacin tpica y tpica normalizada corresponden a la persona que obtenga
misma que para los sujetos B y C. V ( ) F ( ) Depende ( ). Razone su respuesta: una puntuacin directa de 42?
b) Sabemos que la persona A en la escala T tiene una puntuacin que coincide con la de la
5. Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70 y 80. Diga persona B en la escala D. Han podido tener las dos personas la misma puntuacin en el test?
razonadamente qu puntuacin corresponde a cada escala:
11. Dos personas tienen exactamente los mismos conocimientos en un examen de
a) La puntuacin en la escala centil es ______ Introduccin a la Psicometra, que consta de 50 preguntas con 4 alternativas de respuesta y
b) La puntuacin en la escala T es ______ slo una correcta. La primera, una persona poco amante del riesgo, slo responde a lo que
c) La puntuacin en la escala D es ______ sabe, y obtiene 30 aciertos. La segunda, mucho ms arriesgada, responde a todas las
preguntas.
6. En un grupo normativo se han obtenido los estaninos (normalizados) y las
puntuaciones tpicas normalizadas de cada persona. Entre ambos se obtiene una correlacin a) Cantos fallos es previsible que tenga la segunda persona si responde completamente al
de 1. Diga cul de las siguientes alternativas es correcta y porqu. azar las preguntas que no sabe? Cul ser su puntuacin despus de descontarle los aciertos
aleatorios?.
a) No es posible esa correlacin. b) Obtenga e interprete el estanino en el que se encontrar la primera persona si su
b) Se ha obtenido por casualidad. puntuacin tpica normalizada en el examen fue de 1.5.
c) Es necesariamente 1.
d) Slo es 1 si la distribucin es simtrica.
127 128
12. Una persona obtiene una puntuacin Tn = 80 en el baremo de una escala de SOLUCIONES
autoritarismo realizado en una muestra A. La misma persona obtiene una Tn = 70 en la
misma escala baremada en una muestra B. Cul de las dos muestras manifiesta mayor nivel 1. La construccin de baremos tiene por objeto poder interpretar puntuaciones directas
de autoritarismo? Razone su respuesta. de los tests en funcin de la posicin relativa que esas puntuaciones directas tienen en el
conjunto de las puntuaciones obtenidas.

2. a) Los centiles se muestran en la cuarta fila


X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
F 2 5 9 20 37 52 75 95 114 137 159 174 182 190 194 199 200
C 1 3 5 10 19 26 38 48 57 69 80 87 91 95 97 100 100
b)

X Zx T D

10 -1,43 35,7 21,4

21 1,86 68,6 87,2


c)

X Zn Tn Dn E

10 -1,28 37,2 24,4 2,44

21 1,88 68,8 87,6 8,76

3. a) C21= 40
b) Zn = -0,8
c) D = 40
d) E = 3

4. Falso. La escala de centiles tiene propiedades ordinales. Si, como se dice, la


distribucin es normal, la diferencia de 20 en la escala de centiles extremos indicar una
mayor diferencia de puntuaciones que la diferencia de 20 en centiles centrales. La diferencia
entre A y B ser mayor que la diferencia entre B y C.

5. T = 60 D = 70 C80

6. La alternativa correcta es la c), ya que ambos baremos resultan de una transformacin


lineal de las puntuaciones tpicas normalizadas.

7. Z = 0.5, T = 50 + (10) 0.5 = 55 y D = 50 + (20) 0.5 = 60.

8. Puntuaciones de Juan: En = 8, Dn = 80, Tn = 65.


Puntuaciones de Antonio: En = 8, Dn = 80, Zn = 1.5 y centil 93.
129 130
TEMAVI: INTRODUCCIN A LA TEORA DE LA RESPUESTA AL
TEM

1.- INTRODUCCION
9.
La Teora de la Respuesta al Item (TRI) constituye un nuevo enfoque en Psicometra que
permite superar algunas de las limitaciones de la Teora Clsica de los tests (TC).

Su propsito es similar al de la Teora clsica. Pretende obtener la puntuacin que


corresponde a una persona en una dimensin o rasgo, como su inteligencia, su nivel en un
cierto rasgo de personalidad, su dominio en una cierta materia, etc..

La TRI debe su nombre a que se centra ms en las propiedades de los tems individuales que
en las propiedades globales del test, como haca la TC.

Este captulo es slo una breve introduccin a la TRI. Lo que vamos a estudiar slo es
aplicable a tems que puedan cuantificarse como cero o uno. La TRI permite tambin el
anlisis de tems con otros formatos de respuesta (por ejemplo, las categoras ordenadas),
pero tales desarrollos no son tratados en estas lneas.

Buena parte de la Psicometra actual est relacionada con la TRI y es muy abundante la
bibliografa existente. Las personas interesadas en ampliar conocimientos, pueden consultar
los libros de Muiz (1997), Hambleton, Swaminathan y Rogers (1991) y Hambleton y
10. Swaminathan (1985). Nos hemos basado principalmente en los dos primeros para redactar
este tema.
X 45 44 43 42 41 40 39 38
Entre las principales limitaciones de la TC se pueden exponer las siguientes:
f 5 15 45 85 90 56 44 10
a) La principal limitacin consiste en que las caractersticas del test y las puntuaciones
de las personas no pueden ser separados: Se define la puntuacin de una persona
F 350 345 330 285 200 110 54 10 como el nmero de preguntas que acierta, y la dificultad de un tem como la
proporcin de personas que lo responden correctamente en un determinado grupo.
C 100 98,57 94,28 81,43 57,14 31,43 15,42 2,85 Esto tiene una serie de consecuencias negativas:

a) C81 = 42, Z= 0,54, Zn = 0,89 - Las caractersticas de los tems dependen del grupo de personas en el que se han
b) Slo si ZA = ZB = 0. En ese caso, TA = DB = 50 aplicado. Por ejemplo, supongamos que queremos conocer el ndice de dificultad de
un determinado tem que mida conocimientos de tauromaquia. Dicho ndice ser muy
11. a) La segunda persona tendr 15 errores y 5 aciertos (15 = (20)3/4 y 5 = (20)/4). Su diferente si utilizamos en la baremacin un grupo de personas abonadas a la feria de
puntuacin corregida ser 30. San Isidro o un grupo de turistas japoneses.
b) El estanino ser 2.
- La puntuacin de una persona depende del conjunto particular de tems
12. La persona tiene una puntuacin mayor en la muestra A que en la muestra B, eso administrados. La puntuacin que una persona obtenga ser diferente si le aplicamos
indica que la primera muestra es menos autoritaria que la muestra B. dos tests que midan la misma caracterstica pero cuyo nivel de dificultad sea diferente.
Esto hace muy difcil comparar dichas puntuaciones, que slo podrn interpretarse en
relacin al test en el que fueron obtenidas.
131 132
calculamos la proporcin (5/132 = 0.04). Hacemos lo mismo con los que obtuvieron en el
Frente a la TC, una de las propiedades de la TRI es su invarianza, en un doble test 51 puntos (y obtenemos la proporcin, supongamos que 0.15),... con las que obtuvieron
sentido: invarianza de los tems respecto a posibles diferentes distribuciones de la en el test 100 (la proporcin fue 0.45),... con las que obtuvieron 150 (la proporcin fue 0.99).
habilidad o del rasgo (en lo sucesivo nivel de habilidad y de rasgo sern sinnimos), e La siguiente grfica muestra la proporcin de aciertos en el grupo de personas que obtuvo en
invarianza de la habilidad medida a partir de diferentes conjuntos de tems. Haremos el test 50 puntos, 51, .. 150.
un breve comentario sobre cada tipo de invarianza. Si las condiciones de aplicacin de
la TRI se cumplen, ha de ocurrir lo siguiente:
Grfica 1
- Sea cual sea la distribucin de los niveles de rasgo obtendremos las mismas
estimaciones de los parmetros de los tems. Esta propiedad se cumple tambin en
1,0
otros mbitos. Por ejemplo, en Estadstica, si se cumplen los supuestos de la regresin
lineal, se llega a los mismos parmetros cuando se ajusta la recta de regresin a toda
la poblacin o slo a parte de ella. Anlogamente, los parmetros de los tems debern
ser los mismos si stos se han aplicado a un grupo de personas con alto nivel de rasgo, ,8

o a un grupo con niveles bajos. Es decir, los parmetros de los tems sern los mismos
sea cual sea la distribucin de los niveles de habilidad de la muestra en los que se han

Probabilidad de acertar el tem


aplicado. ,6

- El nivel de habilidad de una persona puede ser obtenido a partir de conjuntos de


tems distintos. Algunas de las aplicaciones de la TRI descansan precisamente en esta ,4
propiedad (vase ms adelante el apartado "Aplicaciones").

b) Una segunda limitacin tiene con ver el error de medida. La TC supone que el error
,2
de medida es una propiedad del test y, por lo tanto, igual para todos los sujetos,
independientemente de cual sea su puntuacin. Por el contrario, la TRI permite
obtener la precisin con la que cada persona es medida.
0,0
40 60 80 100 120 140 160
La TRI permite superar estas y otras limitaciones de la TC mediante unos supuestos fuertes y
restrictivos, y una metodologa ms compleja, que requiere establecer modelos matemticos, Inteligencia
la estimacin de sus parmetros, enjuiciar el ajuste entre datos y modelos, etc..

Antes de ver cuales son los supuestos, vamos a estudiar los principales modelos de la TRI.
En este ejemplo podemos ver que cuanto mayor es el cociente intelectual de las personas,
mayor es la proporcin de aciertos en el tem. A una puntuacin de 100 le corresponde una
2.- CURVA CARACTERSTICA DEL TEM proporcin de 0.45; mientras que a una de 150 le corresponde una proporcin de 0.99.

En la grfica 1 tenemos una CCI emprica, pero la TRI necesita resumir la informacin que
La curva caracterstica de un tem (CCI) indica la probabilidad que tienen de acertarlo las contiene cada CCI emprica en una frmula o modelo en el que uno, dos o tres valores
personas que se enfrentan a l. Esta probabilidad depende, naturalmente, de cual sea el nivel resuman la informacin contenida en la CCI emprica. En la aplicacin de de la TRI, un paso
de la persona en la variable medida. inexcusable es optar por un modelo (o frmula) que sea una buena descripcin del
rendimiento en los tems. Vamos a ver a continuacin que son varios los modelos que podran
Podemos ver esto con ms claridad mediante un ejemplo. Supongamos que tenemos un test dar cuenta de una distribucin como la mostrada en la grfica 1. Los modelos de CCI ms
que mide inteligencia y que ha sido aplicado a muchsimas personas (100.000, por ejemplo). utilizados en la prctica son los logsticos de uno, dos y tres parmetros.
Supongamos que la menor y mayor puntuacin obtenidas en el test son 50 y 150. Vamos a
representar el rendimiento en un tem concreto de la siguiente forma: Nos fijamos en todas
las personas que han obtenido la puntuacin 50 (supongamos que son 132). Vemos cuantas
personas de las anteriores han acertado el tem (supongamos que han sido slo 5) y
133 134
2.1. MODELO LOGSTICO DE UN PARAMETRO (MODELO DE RASCH) Grfica 2
1,0

Este es el modelo ms simple de todos. Se le llama tambin modelo de Rasch. La


probabilidad de acertar un tem depende solamente del nivel de dificultad de dicho tem y del
nivel del sujeto en la variable medida (nivel de rasgo o habilidad). ,8

La expresin matemtica es:


,6

D( - b)
e 1
P( ) = - b)
= D( - b)
1 + e D( 1+e ,4

Probabilidad
Donde
,2

P(): Probabilidad de acertar el tem si el nivel de rasgo es . P1

: Nivel de habilidad del sujeto. 0,0 P2


b : Indice de dificultad del tem. -5 -4 -3 -2 -1 0 1 2 3 4 5
e : Base de los logaritmos neperianos (2.718)
D : Constante (D = 1.7 1) Nivel de rasgo

El nivel de habilidad del sujeto () puede definirse en cualquier escala (en la grfica 1 se ha
utilizado la escala de cociente intelectual). No obstante, en la prctica, suele utilizarse una
escala tpica, con media cero, varianza uno y un rango de valores entre -3.0 y 3.0.
2.1.- MODELO LOGSTICO DE DOS PARAMETROS
El ndice de dificultad (b) es aquel valor de para el cual P()= 0.5. Por tanto, cuanto mayor
sea "b" ms difcil es el tem. En la grfica 2, se han representado dos CCIs. En la primera, la
que est ms a la izquierda, el valor de al que corresponde P()= 0.5 es aproximadamente - Este modelo aade al anterior un segundo parmetro que indica la capacidad discriminativa
0.95. Por lo tanto, la dificultad del primer item es b1= -0.95. En el segundo tem, el valor de del tem:
al que corresponde P()= 0.5 es aproximadamente 0.6. Por lo tanto, la dificultad del segundo
tem es b2= 0.6. La grfica muestra que la probabilidad de acertar el tem es sistemticamente Da( - b)
e 1
menor en el tem 2 que en el tem 1. El tem 2 es ms difcil que el uno, y sus ndices de P( ) = - b)
= - b)
dificultad as lo muestran (b2 > b1). 1 + e Da( 1 + e Da(

Donde a" es el ndice de discriminacin del tem.

El parmetro "a" indica la mayor o menor inclinacin o pendiente de la CCI cuando =b.
Normalmente los valores de "a" oscilan entre 0,3 y 2.5, y se suelen considerar items
"discriminativos" los que tienen valores "a" mayores de uno.

En la grfica 3 vemos la CCI de dos tems de igual dificultad (b1= b2= 0.75), la principal
diferencia entre ellos es que el tem 2 (el de la derecha), cuando = 0.75, tiene una pendiente
mucho mayor (a2 = 2.4) que la del tem 1 (a1 = 0.4). Como la pendiente es tan alta, las
personas con > 0.75 tienen casi todas ellas una muy alta probabilidad de acertar el tem 2 (y
casi todas ellas lo acertarn), y las personas con < 0.75 tienen casi todas ellas una
135 136
probabilidad prxima a cero de acertarlo (y casi ninguna lo acertar). Por lo tanto, el tem En la grfica 4 podemos ver la CCI de varios tems con los mismos valores de a (1) y b
2 discrimina entre los que tienen > 0.75 y los que tienen < 0.75. (0), pero distintos valores de parmetro c (c1= 0, c2= 0.15 y c3= 0.30).

Por su parte, el tem 1 tiene muy poca pendiente cuando = 0.75. En consecuencia, aunque Grfica 4
la mayora de las personas con > 0.75 lo acertarn, muchas lo fallarn (pues la probabilidad
de acierto es claramente inferior a uno). Igualmente, aunque la mayora de las personas con
< 0.75 fallarn el tem, muchas lo acertarn, pues la probabilidad de acierto es claramente
1,0
superior a cero. En el tem 1 la probabilidad crece muy suavemente a medida que aumenta
por lo que no es buen discriminador entre las personas con > 0.75 y las que tienen < 0.75.

Grfica 3 ,8

1,0 1,0

Probabilidad de acertar el tem


,6

,8 ,8

,4
Probabilidad de acertar tem 1

Probabilidad de acertar tem 2


,6 ,6

,4 ,4
tem 1
,2

,2 ,2
tem 2

0,0 tem 3
0,0 0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5

Nivel de rasgo Nivel de rasgo Nivel de rasgo

2.3.- MODELO LOGSTICO DE TRES PARMETROS


3.- SUPUESTOS DE LA TRI

3.1.- UNIDIMENSIONALIDAD
Este modelo aade a los dos parmetros "a" y "b" un tercero, "c", que representa la
probabilidad de acertar el tem al azar. Exactamente "c" es el valor de P() para valores
Tal y como hemos visto en el apartado anterior, en todos los modelos de CCIs, la
extremadamente bajos de . La expresin matemtica es la siguiente:
probabilidad de acertar un tem depende nicamente de sus parmetros y de . En un tem
que mida el nivel de vocabulario de ingls, la probabilidad de acertarlo depende de los
valores "a", "b" y "c" del tem y del nivel de vocabulario ingls de la persona (su ). La CCI
Da( - b)
(1 c ) e excluye que el rendimiento en el tem dependa de los niveles de la persona en otros rasgos
P( ) = c + - b) ms o menos relacionados con el de vocabulario de ingls (como el nivel de ingls hablado,
1 + e Da( el nivel de gramtica inglesa, ....). De tener en consideracin otros rasgos, en la frmula
apareceran los elementos 2, 3, etc.. , es decir, los niveles de la persona en esos otros rasgos.
En otras palabras, el rendimiento en un tem depende del nivel de la persona en un slo rasgo
1 c o dimensin.
= c + - b)
1 + e Da(
Un test consta de un conjunto de tems. La TRI supone adems que todos los tems que
forman el test han de medir un mismo y nico rasgo. El supuesto de unidimensionalidad
exige que todos y cada uno de los tems del test midan una nica dimensin.
137 138

Este supuesto nunca se cumple totalmente porque el rendimiento en un test est influido por Si correlacionamos las cien respuestas al primer item con las cien respuestas al segundo, la
variables cognitivas y de personalidad, como la motivacin, ansiedad, etc. Por lo que, en la correlacin de Pearson es cero. Lo visto sugiere un procedimiento para contrastar si el
prctica, es una cuestin de grado, y no puede afirmarse categricamente si un conjunto de supuesto de independencia local se cumple. Consiste en obtener la matriz de correlaciones
tems son o no unidimensionales. Hay, no obstante, varios mtodos para comprobar la entre los tems, pero no en la muestra completa, sino en submuestras que sean lo ms
unidimensionalidad. El propuesto por Reckase (1979) se basa en el anlisis factorial y homogneas posible en cuanto al nivel de habilidad de sus miembros. En tales submuestras
consiste en estudiar la varianza explicada por el primer factor extrado de la matriz de tiene que ocurrir que ningn tem correlacione con ningn otro, si se cumple el supuesto.
correlaciones entre tems. En la prctica, cuando el primer factor explica ms de un 25% de la (Hambleton y otros, 1991, pag. 56).
varianza total, tras haber eliminado los tems con saturaciones inferiores a 0.10, se considera
que se cumple el supuesto de unidimensionalidad.
4.- ESTIMACIN DE PARMETROS

3.2.- INDEPENDENCIA LOCAL


Seleccionado un modelo de TRI, hay que aplicar el test a una muestra amplia y estimar los
Existe independencia local entre los tems de un test si la respuesta que una persona da a uno parmetros de cada tem y la de cada sujeto, a partir de la matriz de respuestas obtenidas. Si
de ellos no depende de las respuestas que da a los otros. tenemos, por ejemplo, diez tems que miden un mismo rasgo, los podemos aplicar a una
muestra de 300 personas. La matriz de datos tendr 300 filas, siendo cada fila la secuencia de
La independencia local se deriva de la unidimensionalidad porque, simplemente, significa unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el modelo
que la respuesta a un tem slo depende de sus parmetros y de , y no est influida por el logstico de tres parmetros, tendremos que estimar los 30 parmetros de los tems (es decir,
orden de presentacin de los tems, las respuestas que ya se hayan dado, etc.. "a", "b" y "c" de cada tem) y 300 parmetros de las personas (los 300 valores de "", uno por
persona). La estimacin de parmetros es el paso que nos permite llegar de las respuestas
Matemticamente puede expresarse diciendo que la probabilidad de que un sujeto acierte "n" conocidas de las personas a los tems a los valores desconocidos de los parmetros de los
tems es igual al producto de las probabilidades de que acierte cada uno de ellos por separado. tems y de los niveles de rasgo.

Por ejemplo, un test consta de dos tems y la probabilidad de que Juan acierte el primero es P1 Para obtener las estimaciones se aplica fundamentalmente el mtodo de mxima
= 0.4 y la de que acierte el segundo P2 = 0.8. El principio de independencia local establece verosimilitud. La lgica general de la estimacin consiste en encontrar los valores de los
que la probabilidad de que acierte los dos viene dada por: (P1)(P2) = (0.4)(0.8) = 0.32. parmetros que hagan ms probable la matriz de respuestas obtenida.

La probabilidad de acertar el primero y fallar el segundo sera (como Q2 = 1 - P2 = 1 - 0.8 = Si lanzamos una moneda diez veces y obtenemos siete caras, el estimador mximo-verosmil
0.2): del parmetro "p" (probabilidad de cara de la moneda) es 7/10= 0.7, como se demuestra en
los libros de Estadstica (vase Amn (1984), pag. 249 y ss). El resultado "siete caras en diez
(P1)(Q2) = (0.4)(0.2) = 0.08. lanzamientos" es poco compatible con que la probabilidad de cara sea 0.1, 0.2, ... . De
hecho, la probabilidad de obtener siete caras y tres cruces es prcticamente cero si p= 0.1 o si
La de que falle el primero y acierte el segundo ser (Q1)(P2) = (0.6)(0.8) = 0.48. p= 0.2. Dicha probabilidad pasa a ser 0.117 si p= 0.5, y alcanza el mximo valor (0.267)
cuando p= 0.7. El estimador mximo-verosmil proporciona el valor de "p" bajo el que tiene
La de que falle ambos tems ser (Q1)(Q2) = (0.6)(0.2) = 0.12. mxima probabilidad el suceso que hemos encontrado.

Supongamos que 100 personas con idntico nivel de rasgo que Juan contestan al test. En TRI, el procedimiento de estimacin sigue una lgica similar. Se obtienen las
Espereramos aproximadamente los siguientes resultados (1, acierto; 0, error): estimaciones de los parmetros y de los niveles de con los que la matriz de datos
encontrada tiene la mxima compatibilidad.
tem 1 tem 2 Nmero de personas
1 1 32 Supongamos, por ejemplo, que tenemos un test compuesto por tan slo dos tems, y se lo
1 0 8 aplicamos a un sujeto. Supongamos tambin que acierta el primero y falla el segundo. A
0 1 48 partir de estas respuestas, la estimacin mximo-verosmil de su se puede explicar de forma
0 0 12 grfica, como lo hacemos a continuacin (en este ejemplo, para simplificar la explicacin,
------ suponemos que los parmetros de los tems son conocidos).
100
139 140
Como el sujeto ha acertado el primer tem, podemos calcular, mediante su CCI Grfica 6
(recurdese que los parmetros del tem son conocidos), la probabilidad de que esto ocurra 1,0

para cada nivel de . Grficamente, para un tem cuyo nico parmetro es b1 = -0.7:
,8

Grfica 5

Probabilidad de fallar el tem 2


,6

1,0

,4

,8

,2
Probabilidad de acertar tem 1

,6

0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
,4
Nivel de rasgo

,2
Esta grfica nos indica que es ms probable que fallen el tem los sujetos con niveles bajos de
0,0
habilidad que los sujetos con niveles altos (cosa bastante lgica). Por lo tanto, si el sujeto slo
-5 -4 -3 -2 -1 0 1 2 3 4 5 hubiese respondido a este tem, de nuevo son infinitos los valores de que maximizan la
Nivel de rasgo
probabilidad del suceso encontrado (error en el segundo tem).

Como hecho ha respondido a dos tems, el valor estimado de para este sujeto sera aquel
que haga ms probable el resultado obtenido (acertar el primer tem y fallar el segundo).
Si slo hubiera respondido a ese tem, a partir de la grfica anterior podemos ver que no Segn el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto,
existe un nico valor de para el que la probabilidad del suceso encontrado (acierto en el la probabilidad de que ocurran ambos conjuntamente es igual al producto de las
primer tem) sea mxima. Por el contrario, son infinitos los valores de que para los que la probabilidades de acertar el primero (P1) por la de fallar el segundo (Q2). Si representamos
CCI alcanza el valor mximo 1. grficamente la funcin L = (P1)(Q2) para cada valor de , correspondiente al ejemplo que
venimos comentando, obtendramos una curva parecida a la siguiente:
Como el sujeto ha fallado el segundo tem, a partir de su CCI podemos calcular la
probabilidad de que esto ocurra para cada uno de los valores de . En concreto, como la Grfica 7
probabilidad de fallar (Q) se puede obtener a partir de la probabilidad de acertar (Q = 1-P),
,6
podremos representar la probabilidad de error en el segundo tem como se muestra en la
siguiente grfica. Ntese que la siguiente grfica no es la CCI del tem 2, pues para cada ,5
valor de se ha representado la probabilidad de error y no la de acierto, como exige la CCI.
Supongamos que el nico parmetro del tem 2 es b2 = 1. ,4

,3

,2

Verosimilitud (L)
,1

0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5

Nivel de rasgo
141 142
En este caso vemos que la que hace ms probable el resultado obtenido (acierto en el L(3) = (0.99)(0.99)(0.97)(1-0.85) = 0.14
primer tem y fallo en el segundo) es algo mayor que cero. De hecho, 0.15 ser la estimada L(2) = (0.99)(0.97)(0.85)(1-0.50) = 0.41
para este sujeto. .
.
En general, una persona responder a un nmero de tems mayor de dos y producir una .
particular secuencia de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y
errores se puede escribir como: Los restantes valores de L son L(1)= 0.35, L(0)= 0.06, L(-1) = L(-2) = L(-3) = 0.0. Por lo
tanto, de los siete valores de considerados, el valor que maximiza L es = 2.

L = P R Q1- R Cuando se trata de estimar en una situacin real el nivel de rasgo, no se hace una bsqueda
restringida a unos cuantos valores, se necesita hallar el valor de que maximiza L de entre
Donde: todos los posibles valores, no slo de entre unos pocos.

R: Resultado en cada tem (1, acierto; 0, fallo) En el caso de la TRI no existen frmulas que permitan obtener las estimaciones de manera
P: Probabilidad de acierto en cada tem directa. En el ejemplo de las monedas se sabe que el estimador mximo-verosmil de la
Q: Probabilidad de error en cada tem (Q= 1-P). proporcin poblacional es la proporcin muestral. En la TRI, al no existir tales frmulas, las
estimaciones se obtienen por mtodos numricos, mediante programas de ordenador. En el
La estimada por el mtodo de mxima verosimilitud ser el valor de para el que la caso ms general se establece una funcin L que depende de los parmetros de los tems y de
anterior expresin alcanza su mximo valor. los niveles de rasgo. Los programas de ordenador contienen algoritmos que encuentran el
conjunto de estimaciones para el que la funcin L alcanza el valor mximo. Los parmetros
Apliquemos lo anterior al siguiente ejemplo. Un test consta de 4 tems, cuyos parmetros, de los tems y los niveles de rasgo de las personas sern los valores dados por el programa de
segn el modelo de Rasch, son -1, 0, 1 y 2. Una persona completa el test y acierta los tres ordenador para una matriz de respuestas particular.
primeros tems y falla el cuarto. Obtenga el valor de la funcin de verosimilitud, L, para los
siguientes valores de : -3, -2, -1, 0, 1 y 2. Cul de los anteriores valores maximiza L? En la Teora Clsica, una vez aplicados unos tems a un conjunto de personas, se puede
obtener la puntuacin de cada persona en el test combinando las puntuaciones en los tems
Aplicando la frmula del modelo de Rasch (o de un parmetro), se obtiene la probabilidad de del test. En la TRI, una vez que se han aplicado los tems, se genera la matriz de respuestas
acierto para cada tem y cada uno de los valores de : que contiene los aciertos y fallos de cada persona en cada tem del test. A continuacin, se ha
de aplicar un programa de ordenador (ASCAL, BILOG,..) que nos dar los niveles de rasgo y
P() los parmetros de los tems. Segn hemos visto, por tratarse de estimaciones por el mtodo de
-------------------------------------------------- mxima verosimilitud, los valores que nos da el programa son los que hacen ms plausible la
tems b -3 -2 -1 0 1 2 3 matriz de datos original, son los ms compatibles con la matriz de datos original.
1 -1 0.03 0.15 0.50 0.85 0.97 0.99 0.99
2 0 0.01 0.03 0.15 0.50 0.85 0.97 0.99
3 1 0.01 0.01 0.03 0.15 0.50 0.85 0.97 5.- FUNCIN DE INFORMACIN
4 2 0.01 0.01 0.01 0.03 0.15 0.50 0.85

Una vez aplicado un conjunto de tems y estimado el nivel de habilidad de un sujeto, la TRI
La funcin de verosimilitud, L, al haber acierto en los 3 primeros tems y fallo en el ltimo, nos permite calcular el error tpico de estimacin (Se) de esa persona en el test aplicado.
ser la siguiente: Esto es una diferencia fundamental con la TC, que asume que el error es el mismo para todos
los sujetos.
L =(P11Q10)(P21Q20)(P31Q30)(P40Q41)= (P1)(P2)(P3)(Q4)
El error tpico de estimacin nos dice la precisin con que hemos estimado . A mayor error,
Aplicando la frmula anterior a cada uno de los valores de se obtienen los siguientes menos precisin. Su tamao depende de varios factores:
resultados:
1- Nmero de tems aplicado: En general, al aumentar la longitud del test disminuye
Se.
143 144
2- La capacidad discriminativa de los tems: Al aumentar el parmetro "a"
disminuye Se.
Cuanto mayor sea I() menor ser Se y, por tanto, mayor la precisin de la estimacin de .
3- La diferencia entre "b" y : Cuanto ms prximo a est el ndice de dificultad de
los tems (b), menor ser Se. Si se calcula I() para todos los niveles de y se representa grficamente se obtiene una
curva como la que muestra la siguiente grfica:
La varianza de las puntuaciones estimadas, Var(), se obtiene mediante la expresin
siguiente: Grfica 8
,4

1
Var( ) = S e2 =
(P )2

PQ ,3

Informacin del test de dos tems


Donde P' es la derivada de P. La varianza anterior nos dice cmo es de importante la
variacin entre los valores de estimados y el valor verdadero de . Cuanto menor sea esta
,2
varianza, indicar que ms nos podemos fiar del test; pues sabemos que son pocas las
diferencias entre los valores estimados y el verdadero.

Por su parte, el error tpico de estimacin de es la desviacin tpica de las puntuaciones


estimadas, es decir, ,1

2
Se = Se
0,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
El error tpico de estimacin permite obtener el intervalo confidencial en el que, con
probabilidad predeterminada, se ha de encontrar el nivel de habilidad de la persona. En Nivel de rasgo
concreto, si a la "" estimada de una persona le sumamos y restamos (1.96)Se, obtenemos los
extremos del intervalo en el que, con probabilidad 0.95, se encontrar su verdadero nivel de
rasgo.
Vemos que este test (compuesto por dos tems, cuyos parmetros son a1= 1.5 , b1 = -0.7 a2= 1
Por ejemplo, si la estimada es 0.8 y su error tpico de estimacin es 0.22, entonces, el nivel y b2 = 2 ) aporta ms informacin para valores de en torno a -0.5.
de rasgo de dicha persona se encuentra entre 0.37 (pues 0.8-(1.96)(0.22)= 0.37) y 1.23 (pues
0.8+(1.96)(0.22) = 1.23), con probabilidad 0.95. La FI tiene una gran importancia en la utilizacin de los tests, ya que nos permite elegir aquel
que aporte ms informacin en el intervalo de que estemos interesados en medir.

La funcin de informacin del test aplicado se define como la inversa de Var(), es decir: Tambin es muy til en la construccin del test. A partir de un banco de tems calibrados (es
decir, de los que hemos estimado sus parmetros) podemos seleccionar aquellos que permitan
que la FI se ajuste a unos objetivos determinados.
1
I( ) = 2
Se Todos los conceptos anteriores referidos a la funcin de informacin del test son aplicables
tambin a cada uno de los tems por separado. De hecho la FI del test no es ms que la suma
Por lo tanto, de las FFII de cada uno de los tems que lo componen. En concreto la FI de un tem sera:

(P )2
(P )2 I( ) =
I( ) = PQ
PQ
145 146
difieren sustancialmente de los tests al uso. Un TAI consta de un banco de tems bien
calibrado y de un programa de ordenador encargado de decidir qu tem del banco presentar a
Vemos que la nica diferencia con la FI del test es que ha desaparecido el signo de sumatorio. la persona, de presentrselo, de analizar la respuesta emitida por la persona, de elegir un
nuevo tem del banco, etc..
Al igual que con el test completo, podemos representar grficamente la FI de los tems y ver a
que nivel de proporcionan ms informacin. La siguiente grfica muestra la funcin de Un TAI difiere muchsimo de un test de lpiz y papel. Una primera diferencia es que es
informacin de los dos tems que forman el test y la funcin de informacin del test. administrado por un ordenador y una segunda es que cada persona es evaluada con items
distintos. Sin embargo, lo fundamental de los TAIs es que los tems son elegidos con el
criterio de estimar el nivel de habilidad de la persona con la mxima precisin y menor
Grfica 9 nmero de tems. Ms en concreto, un TAI procede como se expone a continuacin:

a) Presentacin del primer tem.


,4
b) Estimacin del nivel de rasgo de la persona.
c) Bsqueda del tem del banco ms informativo para el nivel de estimado en el paso
precedente.
d) Aplicacin del tem elegido.
,3
e) Estimacin del nivel de rasgo correspondiente a la secuencia de respuestas dada a
los tems presentados.
f) De nuevo paso "c", y as sucesivamente hasta que se haya conseguido un error
tpico de estimacin menor que un tope preestablecido o se haya administrado un
,2
predeterminado nmero de tems.

El principal logro de los TAIs es que con muy pocos tems (veinte, ms o menos) se pueden
conseguir precisiones en la medicin comparables o mejores que las obtenidas en tests no
,1 adaptativos mucho ms largos. Esto es as porque en los TAIs slo se administran tems
test
Informacin

autnticamente informativos para determinar el nivel de rasgo de la persona y se evitan los


tem 1 tems demasiados fciles o difciles, que apenas informan sobre el nivel de rasgo. Hemos
construido un TAI de vocabulario ingls (Ponsoda, Olea y Revuelta, 1994) y hemos obtenido
0,0 tem 2
que, en ocasiones, con slo diez tems se obtiene una excelente precisin (un error tpico de
-5 -4 -3 -2 -1 0 1 2 3 4 5
estimacin equivalente a un coeficiente de fiabilidad de 0.9).
Nivel de rasgo
7.- REFERENCIAS (de este tema)

Amn J. (1984). Estadstica para psiclogos. Probabilidad. Estadstica Inferencial. Volumen


Esto nos permite elegir los tems ms adecuados en cada momento en funcin de nuestras 2. 3 edicin. Madrid: Pirmide.
necesidades. Por ejemplo, si queremos llevar a cabo una seleccin de personal en la que slo
vamos a elegir unos pocos sujetos muy competentes, a partir de un banco de tems Hambleton R.K. y Swaminathan H. (1985). Item Response Theory: Principles and
previamente calibrado, podramos elegir aquellos tems que proporcionan ms informacin applications. Boston: Kluwer.
para niveles altos de . Esto nos permite reducir enormemente el nmero de tems de un test
sin perder precisin al estimar . Hambleton R.K, Swaminathan H. y H.J. Rogers (1991). Fundamentals of Item Response
Theory. MMSS volumen 2. Londres: Sage.

6.- APLICACIONES Lpez Pina, Jos Antonio (1995). Teora de la respuesta al tem: fundamentos. Barcelona:
PPU. Barcelona.

La TRI ha permitido la elaboracin y el desarrollo de tests adaptativos informatizados (TAIs) Muiz Fernndez J. (1997). Introduccin a la Teora de Respuesta a los Items. Madrid:
(vase Renom, 1993; Olea, Ponsoda y Prieto, 1997; Olea y Ponsoda, 2003). Tales tests Pirmide.
147 148
EJERCICIOS
Olea, J., Ponsoda, V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirmide.
1. Dos tems han sido calibrados con el modelo logstico de dos parmetros. Sus
Olea, J. y Ponsoda, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones. parmetros son a1=1 y b1= 0.5, y a2= 0.5 y b2= 2.5.

Ponsoda V., Olea J. y Revuelta J. (1994). ADTEST: A computer adaptive test based on the a) Qu item de los dos es ms fcil?
maximum information principle. Educational and Psychological Measurement, 57, 2, b) Qu item es ms discriminativo?
210-221. c) Una persona cuya = 2 responde a los dos tems (y se cumple el supuesto de independencia
local) Cual es la probabilidad de que falle los dos? Cual la de que acierte los dos? Cual la
Reckase M.D. (1979). Unifactor latent trait models applied to multi-factor tests: Results and de que acierte uno y falle el otro?
implications. Journal of Educational Statistics, 4, 207-230.
2. Aplicamos tres tems a 5 personas y sus respuestas han sido las siguientes (1, acierto;
Renom J. (1993). Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona: 0, error):
PPU.
Persona tem 1 tem 2 tem 3
1 1 0 1
2 1 1 0
3 1 1 0
4 1 0 0
5 0 1 1

Procedemos a la estimacin conjunta, mediante el modelo L3P, de los parmetros de


los tems y de los niveles de rasgo de las cinco personas.

a) Todas las personas menos la nmero cuatro tienen dos aciertos, por lo tanto todas ellas
menos la cuatro debern obtener el mismo nivel de rasgo. V( ) F( )
b) La dificultad del tem 1, b1, deber de ser menor que la del tem 2, b2. V( ) F( ).
c) El parmetro "c" deber ser 1/3, pues slo hay tres tems. V( ) F( ).

3. Obtenga cuanto vale la probabilidad de acertar un tem en el modelo logstico de tres


parmetros cuando el nivel del habilidad de la persona coincide con la dificultad del item.

4. Los tres parmetros de un tem son a= 2, b= 1 y c= 0.2.

a) Qu probabilidad de acertar el tem tiene una persona con nivel de habilidad = 0?


b) Puede corresponder a una persona una probabilidad de acertar de 0.10 en ese tem?

5. Elegimos cien personas que tienen exactamente el mismo nivel de rasgo. Se les pasa
un tem fcil (b= -1) y lo aciertan 80 de los cien. Se les pasa a continuacin un tem ms
difcil (b= 0.5) y lo aciertan 40 de los cien. Supongamos que se cumplen los supuestos de la
TRI cabe esperar que los 40 que han resuelto el segundo tem, el ms difcil, hayan tambin
resuelto el tem ms fcil?

6. La estimada de Andrs es 1.2 y su error tpico de estimacin 0.15.

a) Obtenga el intervalo en el que se encuentra la puntuacin de Andrs con probabilidad


0.99.
149 150
b) Obtenga la estimada y el error tpico de estimacin de Antonio, sabiendo que su SOLUCIONES
est entre 1.12 y 2.10, con probabilidad 0.95.
1. a) El tem 1, pues b1 < b2.
7. Pasados varios tems, un TAI estima a una persona una de 0.5. Los parmetros de b) El tem 1, pues a1 > a2.
dos tems que todava no han sido aplicados son los siguientes: a1= 1, b1= 0.5, a2= 2 y b2= 1. c) 0.367 (dos aciertos), 0.043 (dos fallos) y 0.590 (un acierto y un fallo).
Si el TAI ha de suministrar un tem de estos dos Cual suministrara? (La derivada P'
correspondiente al modelo logstico de dos parmetros es P'= DaPQ). 2. F, V, F.

8. El nivel de rasgo de una persona es 1 (es decir, = 1). Aplicando el modelo logstico 3. (1+c)/2.
de dos parmetros obtenemos las CCIs de dos items. La probabilidad de acierto en el item 1
(a1= 1 y b1= 0.5) coincide con su probabilidad de acierto en el item 2 (a2= 2, b2 no conocido). 4. a) P(0) = 0.226.
Obtenga cuanto vale b2. b) Es imposible, pues P() c = 0.20.

9. Tenemos tres tems. La probabilidad de acierto, en cada uno de ellos, que 5. No. La independencia local supone que la probabilidad de acertar ambos items ser
corresponde a cada uno de los siguientes valores de se ofrece a continuacin: (80/100)(40/100) = 0.32.

P() 6. a) lmite inferior: 1.2-(2.56)(0.15) = 0.816.


--------------------------------------------- lmite superior: 1.2+(2.56)(0.15) = 1.584.
-3 -2 -1 0 1 2 3 b) zeta estimada = (1.12+2.10)/2 = 1.61.
tem 1 0.1 0.15 0.2 0.35 0.5 0.65 0.8 error tpico = (2.10-1.61)/1.96 = 0.25.
tem 2 0.0 0.0 0.0 0.10 0.5 0.90 1.0
tem 3 0.0 0.10 0.5 0.90 1.0 1.0 1.0 7. En el primer tem, P=0.5, Q=0.5, P'=0.425 e I(0.5)=0.72.
En el segundo, P=0.15, Q=0.85, P'=0.446 e I(0.5)=1.47.
a) Dibuje las tres CCIs. El TAI aplicara el segundo tem, a pesar de que la dificultad del primero coincide con
b) Compare la dificultad y poder discriminativo de los tems 1 y 2. Cual es ms difcil? la estimada.
Cual es ms discriminativo?
c) Compare la dificultad y poder discriminativo de los tems 2 y 3. Cual es ms difcil? 8. Ha de cumplirse que a1/a2 = (-b2)/(-b1).
Cual es ms discriminativo? De donde, b2= 0.75.

10. Un test consta de slo dos tems (a1=1, b1=0, y a2=2, b2=-1). 9. b) Misma dificultad (b1=b2=1). Ms discriminativo, el dos; pues su CCI tiene ms
pendiente.
a) Obtenga la funcin de informacin del test para los valores de = -3, -2, -1, 0, 1, 2 y 3. (Se c) Ms fcil el tem tres (b3= -1) y misma discriminacin.
recuerda que en el modelo logstico de dos parmetros P'= DaPQ).
b) Para qu valor de (de los expuestos anteriormente) el test proporciona la mxima 10. a) En tem 1, I(-3)= 0.017, I(-2)= 0.091, I(-1)=0.376, I(0)= 0.72, I(1)= 0.376,
informacin? I(2)=0.091 e I(3)=0.017.
c) Obtenga el error tpico de estimacin con el que el test estimara la de una persona cuya En tem 2, I(-3)= 0.014, I(-2)= 0.364, I(-1)=2.89, I(0)= 0.364, I(1)= 0.014, I(2)=0.000
real fuese -1. e I(3)=0.000.
En el test, I(-3)= 0.031, I(-2)= 0.455, I(-1)=3.266, I(0)= 1.084, I(1)= 0.390, I(2)=0.091
e I(3)=0.017.
b) De los niveles de rasgo considerados, el que se estimara con mayor precisin es
= -1. Es decir, el test resulta mximamente informativo para = -1.
c) S2e = 1/3.266 = 0.306. Se = 0.55.

También podría gustarte