Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción A La Psicometría
Introducción A La Psicometría
INDICE
Introduccin a la Psicometra
Teora Clsica de los Tests
y Teora de la Respuesta al tem
(Febrero 2006)
Francisco J. Abad
Jess Garrido
Julio Olea
Vicente Ponsoda
INTRODUCCIN
1.- INTRODUCCIN
2.- DEFINICIN DEL CONSTRUCTO
3.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO
4.- CUANTIFICACIN DE LAS RESPUESTAS
5.- ANLISIS DE TEMS
6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
7.- CORRECCIN DE LOS EFECTOS DEL AZAR
EJERCICIOS
7
7
8
12
13
18
18
21
29
1.- INTRODUCCIN
2.- SUPUESTOS FUNDAMENTALES
3.- CONCEPTO DE FORMAS PARALELAS
4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD
5.- FIABILIDAD DE UN TEST DE POR "N" FORMAS PARALELAS
EJERCICIOS
29
29
31
33
34
36
41
1.- INTRODUCCIN
2.- FIABILIDAD COMO ESTABILIDAD TEMPORAL
3.- FIABILIDAD COMO CONSISTENCIA INTERNA
4.- FIABILIDAD COMO CORRELACIN ENTRE FORMAS PARALELAS
5.- EL ERROR TPICO DE MEDIDA
6.- FACTORES QUE AFECTAN A LA FIABILIDAD DE UN TEST
EJERCICIOS
41
41
43
47
48
50
54
61
61
61
62
84
92
101
3
119
1.- INTRODUCCIN
2.- BAREMOS CRONOLGICOS
3.- CENTILES O PERCENTILES
4.- PUNTUACIONES TPICAS
EJERCICIOS
119
119
120
122
125
130
1.- INTRODUCCION
2.- CURVA CARACTERSTICA DEL TEM
3.- SUPUESTOS DE LA TRI
4.- ESTIMACIN DE PARMETROS
5.- FUNCIN DE INFORMACIN
6.- APLICACIONES
7.- REFERENCIAS (DE ESTE TEMA)
EJERCICIOS
130
131
136
138
142
145
146
148
INTRODUCCIN
La Psicometra se ocupa de los problemas de medicin en Psicologa, utilizando la Estadstica
como pilar bsico para la elaboracin de teoras y para el desarrollo de mtodos y tcnicas
especficas de medicin. Usualmente, suelen diferenciarse varios ncleos temticos diferentes
propios de la Psicometra:
a) Teoras de la medicin. Tienen como objetivo establecer las condiciones y propiedades de
las asignaciones numricas que pueden realizarse. El establecimiento de diferentes escalas de
medida, tal como lo hizo Stevens, es un ejemplo de este primer ncleo de inters.
b) Escalamiento. En el terreno de la Psicofsica, e histricamente desde los trabajos de
Fechner en el siglo XIX, se plantea el problema de la medicin de las sensaciones que
generan diferentes niveles de estimulacin fsica. Thurstone ser el responsable del trnsito
del escalamiento psicofsico al escalamiento psicolgico, donde se proponen modelos y
tcnicas para la medicin de atributos estrictamente psicolgicos.
c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacin
matemtica para estudiar las propiedades mtricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicolgicas superiores. La principal
preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medida
que se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica
de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin y
Escalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyos
desarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica para
analizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que
pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.
La actividad profesional del psiclogo requiere en muchos momentos la utilizacin y/o
construccin de tests que pretenden evaluar determinados constructos psicolgicos no
susceptibles a un proceso de medicin directa. Resulta usual, por ejemplo, en el mbito de la
Psicologa Educativa, la aplicacin de tests de inteligencia, de hbitos de estudio, de
motivacin, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapia
individual, un psiclogo aplica determinadas pruebas para diagnosticar los problemas
depresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o su
nivel de asertividad. Los psiclogos que se ocupan de la seleccin de personal en grandes
organizaciones tambin utilizan tests para determinar, al menos inicialmente, cules son las
personas del grupo de aspirantes que mejor pueden desempear el puesto de trabajo.
5
Cada vez es mayor el nmero de tests disponibles en el mercado para su utilizacin. Basta
con ojear los catlogos de empresas consultoras especializadas (TEA, MEPSA, COSPA,...)
para percatarnos de la gran extensin de atributos psicolgicos que podemos ya medir
mediante tests. El psiclogo necesita conocer las posibilidades de cada uno de estos tests: la
informacin que aporta, cmo se interpretan las puntuaciones que proporciona, en qu grado
podemos fiarnos de estas puntuaciones, para qu tipo de personas resulta apropiada su
aplicacin, etc. El manual de estos tests suele incluir datos empricos sobre todos estos
aspectos, que determinarn en gran parte las garantas que nos ofrece la prueba que vamos a
aplicar.
Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicologa, los
profesionales no se encuentran con todos los tests que pueden necesitar para su actividad
laboral cotidiana. No resulta extrao, por ejemplo, que un psiclogo social tenga que
construir un test concreto para evaluar la actitud que tiene la poblacin de estudiantes
universitarios hacia grupos marginados, que un orientador escolar necesite elaborar un test
para conocer la opinin de los profesores hacia la LOGSE o que un psiclogo clnico precise
de una prueba concreta para evaluar determinados aspectos de las relaciones de los
adolescentes con sus padres.
Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las destrezas
necesarias para valorar la informacin psicomtrica que incluyen los tests comercializados y,
adems, que conozca los mtodos y tcnicas fundamentales para disear una prueba concreta
con fines especficos. Trataremos de ayudarle a ello en las siguientes pginas.
En la exposicin que vamos a realizar en los primeros 5 captulos, tratamos de describir el
proceso natural que se sigue en la construccin de un test, y que bsicamente se resume en las
siguientes fases:
1. Definicin del constructo.
2. Construccin del test provisional.
3. Aplicacin a una muestra.
4. Anlisis de tems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremacin.
Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con cierto
fundamento estadstico) que nos conducen a seleccionar la forma y contenidos ms
apropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a la
comprobacin emprica de las garantas psicomtricas que la prueba manifiesta como
instrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) y
a la comprobacin prctica del contenido autntico que estamos evaluando (validez). La
denominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas
pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de la
versin definitiva del test, aplicada a una muestra representativa de la poblacin de personas
a la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una
puntuacin concreta en relacin con las que obtiene la muestra seleccionada.
6
El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos de la
Teora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripcin de los principales contenidos tericos de la
asignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la asignatura,
los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test de
rendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.
1.- INTRODUCCIN
Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
tericas que no son accesibles a la medicin directa y para los que no existen "metros" o
"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudara
de que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuacin que debera
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a
evaluar.
2.- DEFINICIN DEL CONSTRUCTO
El primer paso consiste en proporcionar una definicin operacional del constructo o rasgo
que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer los
diversos componentes o manifestaciones del mismo: dogmatismo ante la poltica, ante la
educacin de los hijos, ante la religin, en las relaciones familiares,... Muy relacionada con
esta definicin operativa es la cuestin del establecimiento de los objetivos que se pretenden
conseguir con el cuestionario.
Tambin es necesario especificar el tipo de poblacin al que va a aplicarse la prueba y las
decisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muy
diferente, y determinar su contenido, que un test de inteligencia se vaya a aplicar a personas
de la poblacin general o a personas con problemas intelectuales. Un cuestionario de
depresin puede utilizarse con fines cientficos en una investigacin o para decidir el ingreso
en un centro psiquitrico de personas con problemas depresivos.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un tem
podra ser el siguiente:
Deberamos facilitar la integracin de los gitanos en nuestro pas
Parece razonable suponer que una persona tolerable estara de acuerdo con esta afirmacin,
mientras que otra intolerable estara en desacuerdo.
Enrelacin con la construccin de los tems existen dos temas importantes a tener en cuenta:
el formato de respuesta y las normas de redaccin de los tems.
3.1.- FORMATO DE RESPUESTA
En tests de rendimiento ptimo (pruebas de rendimiento y de inteligencia) se pretende medir
el rendimiento mximo al que llega cada persona ante una serie de preguntas o tareas.
Usualmente, el formato de respuesta de estos tems se ajusta a uno de los siguientes tres
formatos:
a) Eleccin binaria:
verdadero-falso).
9
c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de conceptos. Por
ejemplo, un tem de un cuestionario sobre conocimientos de polticos espaoles
contemporneos puede ser:
"Enlace mediante una lnea el nombre del poltico con el partido poltico al que
pertenece"
J. A. Durn i Lleida
PSOE
Carlos Solchaga
CIU
Iaki Anasagasti
PNV
Rodrigo Rato
PP
10
c) Adjetivos bipolares: Este formato es tpico de lo que se denomina "diferencial
semntico", un instrumento formado por pares de adjetivos opuestos, cada uno de los cuales
representa un continuo bipolar con varias categoras, y que permite estudiar el significado
semntico que se atribuye a determinados constructos, personas o instituciones.
Por ejemplo:
Alegre
Listo
Simptico
Feliz
Social___
Desacuerdo ( )
____
MA
________
________
________
________
________
________
________
________
________
________
________
________
________
________
________
__ Triste
__ Tonto
Antiptico
__ Infeliz
__Asocial
11
En las pruebas de rendimiento ptimo es muy importante tener en cuenta la dificultad
existente en crear las alternativas incorrectas, dado que no deben ser posibilidades absurdas
de respuesta que se puedan eliminar con cierto grado de sentido comn. Bien al contrario,
esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente
tienen las personas que no conocen la respuesta correcta de la pregunta en cuestin. Deben
estar escritas en lenguaje tcnico y ser plausibles para quien no conoce la respuesta, evitando
en todo momento alternativas graciosas u otras que no seran elegidas por nadie. Otra
buena recomendacin en este sentido sera el uso de alternativas de respuesta que son
verdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el establecimiento
de alternativas mltiples exige un claro conocimiento tanto del contenido a evaluar como de
las personas a las que va dirigida la prueba. Una reciente revisin de las orientaciones a
seguir a la hora de escribir tems de opcin mltiple se encuentra en Haladyna, Downing y
Rodrguez (2002).1
Otras recomendaciones a tener presente en las pruebas de rendimiento ptimo son:
-
Haladyna, T.M., Downing, S.M. & Rodrguez, M.C. (2002). A review of multiplechoice item writing
guidelines for classroom assessment. Applied Measurement in Education 15, 309-334.
12
jueces, y comparar las respuestas de una persona con estas valoraciones. En tests de
personalidad puede incluirse una escala de sinceridad.
El nmero de categoras que se suelen incluir en este tipo de tems es usualmente de cinco ya
que, a partir de ese nmero de categoras no mejoran las propiedades psicomtricas de los
tems. Adems, un nmero muy elevado de categoras (siete u ocho) lleva a inconsistencias
en las respuestas, que es una fuente de error. Un nmero muy reducido (dos tres) lleva a
poca discriminacin (menor variabilidad) y a reducir la fiabilidad, aunque siempre puede
compensarse con un mayor nmero de tems. No obstante, en poblaciones especiales (nios,
discapacitados, mayores) se aconseja el uso de un menor nmero de categoras.
Tambin se ha planteado en tems de rendimiento tpico (principalmente en escalas de
actitudes o tests de personalidad donde no se pide el grado de frecuencia de un
comportamiento) si es correcto o no la inclusin de una categora central en las opciones de
respuesta (indiferente, neutral, dudo, no s). Podran generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo que se les
est preguntando, que el enunciado les resulta ambigo o simplemente que ignoran el
contenido del enunciado. En realidad, deberan ser seleccionadas por las personas
autnticamente indecisas. La investigacin en este sentido nos dice que los indicadores
psicomtricos de los tems no se alteran mucho con o sin categora central, cuando el nmero
de categoras es mayor de tres. En todo caso, se puede comprobar si las personas con nivel
medio en el total del test tienden a elegir ms frecuentemente las categoras centrales.
4.- CUANTIFICACIN DE LAS RESPUESTAS
Una vez establecido el formato de respuesta que se considera ms apropiado para el caso, y
de cara al estudio psicomtrico de la prueba, es preciso decidir la manera de cuantificar los
posibles resultados a las cuestiones. En general, para los tems de cuestionarios de
rendimiento ptimo se cuantificar con 1 el acierto y con 0 el error, de tal manera que la
puntuacin directa de un sujeto en un cuestionario determinado ser igual al nmero de tems
que ese sujeto acierta.
La cuantificacin de las respuestas a tems de pruebas de rendimiento tpico requiere ciertos
matices. Dado un formato de respuesta determinado (opcin binaria, categoras ordenadas o
adjetivos bipolares) es necesario cuantificar las posibles respuestas a un tem teniendo en
cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y
opinin.
Por ejemplo, para un tem con formato de respuesta de opcin binaria (acuerdo/desacuerdo)
puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
el tem est planteado para medir de manera directa o inversa el constructo de inters. Estos
pueden ser 2 tems de un cuestionario de actitud ante al aborto voluntario:
tem A: "Abortar es matar".
De acuerdo ( ) En desacuerdo( )
13
14
Bastante en desacuerdo
1
5
2
4
3
3
4
2
Sujeto n 3
.
.
.
.
.
.
Sujeto n N
Tambin se puede asignar el 0 a la categora central, valores negativos a las categoras que se
encuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha.
Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado
en que cada tem es un "buen medidor" del rasgo de inters es algo que se puede comprobar
estadsticamente de manera sencilla si obtenemos tres indicadores para cada tem:
a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de la
poblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos que
tems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x tems:
Sujeto n 2
5
1
3................... n
Sujeto n 1
Muy de acuerdo
En estos casos, la puntuacin directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; segn esto, convendra cuantificar las diversas alternativas con valores entre 1 y n
para evitar una puntuacin directa negativa.
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al tem
j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en el total
del test.
Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.
5.1.- NDICE DE DIFICULTAD
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por lo que
slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
El ndice de dificultad de un tem j se define como el cociente entre el n de sujetos que lo
han acertado (Aj) y el n total de sujetos que lo han intentado resolver (Nj)
Dj =
Aj
Nj
15
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10
personas a un test formado por 6 tems dicotmicos (1 indica acierto y 0 error):
16
5.2.- NDICE DE HOMOGENEIDAD
El ndice de homogeneidad, llamado a veces ndice de discriminacin, de un tem (Hj) se
define como la correlacin de Pearson entre las puntuaciones de los N sujetos en el tem j y
las puntuaciones X en el total del test:
tems
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
1
1
0
1
0
0
1
0
0
1
0
1
1
-
1
0
1
1
0
0
0
1
1
1
1
1
1
1
1
1
3
2
2
2
3
2
3
1
2
2
Aj
Nj
10
10
Dj
Hj= rjx
Sujetos
1
2
3
4
5
6
7
8
9
10
Segn la disposicin de la matriz de datos, para obtener los Hj de los tems, debemos calcular
la correlacin entre las columnas j y la columna X de puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categoras
ordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
tems
Sujetos
1
2
3
4
5
2
3
5
0
4
3
1
4
1
3
3
5
0
5
0
0
X
10
4
14
1
7
17
Cuando un test tiene un nmero pequeo de tems, resulta ms apropiado obtener el ndice
de homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un tem
con las puntuaciones en el total del test despus de restar de este total las puntuaciones del
tem cuyo ndice queremos obtener. En el ejemplo precedente, el ndice de homogeneidad
corregido para el tem 1 ser 0.49, resultado de correlacionar la 1 columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Anlogamente, los
ndices de homogeneidad corregidos para los tems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lgico suponer, el Hj corregido de un tem suele ser inferior a su Hj sin corregir.
5.3.- NDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un tem j pueden correlacionarse tambin con las que
estos sujetos obtienen en un criterio de validacin externo al test (Y); esta correlacin define
el ndice de validez del tem j:
18
que se pretende es seleccionar los tems que ms contribuyen a la validez del cuestionario,
de entre los tems de igual varianza, seran preferibles los que tienen alto Vj y bajo Hj.
6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los patrones de
respuesta que se han dado a las diferentes alternativas de cada tem. Para un tem concreto de
una prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en mayor
medida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin ser
seleccionada por un nmero de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de
tres tems de un determinado test:
Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estas
valoraciones como el criterio de validacin de un test de motivacin laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y:
5 3 6 0 6
tem
1
2
3
Opcin correcta
b
c
a
Porcentaje de respuesta
a
16
35
60
40
15
1
15
21
21
14
17
18
15
12
0
En los tests formados por tems de opcin mltiples de las que slo una es correcta, podemos
sobrestimar la puntuacin directa de una persona dado que alguno de sus aciertos ha podido
producirse por azar. El problema entonces consiste en establecer un procedimiento para
descontar del nmero total de aciertos (A) los que se han producido por azar (Aa).
19
Si asumimos que, cuando no se conoce la respuesta correcta a un tem, todas las
alternativas de respuesta son equiprobables, la probabilidad de acertar al azar ese tem se
puede establecer como:
P (Aa) = 1/n
siendo n el nmero de alternativas del tem.
20
cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay que
descontar 0,33 puntos por cada error; y as sucesivamente.
La puntuacin directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A - Aa
E = Ra
Persona
1
2
3
112
110
109
28
12
0
0
0
18
31
n 1
n
Ra =
Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5
opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
n
E
n 1
1
n
Si atendemos nicamente al nmero de aciertos obtenidos, parece claro que quien ms ingls
sabe es la persona 1, seguida de la 2 y en ltimo lugar la persona 3. Sin embargo, corrigiendo
los efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:
Xc1 = 112
28
= 105
4
Xc 2 = 110
12
= 107
4
Xc3 = 109
0
= 109
4
1
1
n
E =
E
n 1 n n 1
Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero de
alternativas que tienen los tems. Podemos observar que cada error se pondera por la
expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
21
22
EJERCICIOS
3.
1.
A continuacin se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchas
veces) o S (siempre).
a) A menudo me influyen ms las opiniones de los dems que las mas propias . . .
b) Evito vivir situaciones lmites
......................................
c) No me importara tomar estimulantes para disminuir la sensacin de fatiga
fsica o mental en el trabajo
........................................
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . .
e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
______
______
______
______
______
tem b
sujeto 1
PV
sujeto 2
PV
MV
sujeto 3
sujeto 4
MV
tem c
tem d
tem e
MV
AV
MV
AV
MV
AV
MV
PV
tem b
tem c
tem d
tem e
TOTAL
sujeto 1
sujeto 2
tem 1
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
2.
Diga si las siguientes afirmaciones referidas al ndice de dificultad (Dj) son
verdaderas o falsas.
a) Slo tiene sentido su clculo en pruebas de rendimiento ptimo.
b) Se deben seleccionar slo aquellos tems con Dj prximos a 1.
c) Si un tem tiene una alta varianza, su ndice de dificultad ser alto.
d) A un tem de baja varianza le corresponde necesariamente un ndice de dificultad bajo.
tem 3
1
1
1
1
1
1
0
1
0
0
0
1
item 4
1
1
0
0
1
0
tem 5
tem 6
1
0
0
0
0
0
0
0
4.
Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero o
falso. Justifique sus respuestas.
a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos tems que correlacionen poco con la puntuacin total en el test.
e) Un tem con un ndice de homogeneidad alto pero con un bajo ndice de validez no es
necesariamente un mal tem. Estos resultados pueden deberse a que el criterio
seleccionado sea poco adecuado.
5.
Un test tiene 3 tems dicotmicos y su media es 1.7. Sabemos que no se han
dejado tems sin responder y que
sujeto 3
sujeto 4
tem 2
1
1
0
1
1
0
tem 1
tem 2
tem 3
Dj
0.8
Sj2
0.25
Hj
0.6
0.4
0.2
Vj
0.4
0.3
0.5
a) Complete la tabla.
b) Atendiendo al ndice de dificultad, cul es el peor tem?
c) Atendiendo al ndice de homogeneidad, cul es el peor tem?
d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?
23
24
6.
Se ha construido una pequea prueba de 6 elementos de Verdadero-Falso, para
realizar una primera valoracin de la rapidez visomotora de las personas que desean
obtener el carnet de conducir. Un grupo de 10 personas respondi al test y a una prueba
de agilidad psicomotora, que se consider como un criterio adecuado de validacin. La
siguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuaciones
en el criterio.
8.
A continuacin se ofrecen ciertos datos de un tem dicotmico: su ndice de
dificultad, varianza, ndice de homogeneidad e ndice de homogeneidad corregido.
Identifquelos.
tem 1
tem 2
tem 3
tem 4
tem 5
tem 6
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
12
11
7
8
4
10
9.
En un test de rendimiento ptimo, un tem tiene 4 posibles respuestas y ha sido
respondido por 350 personas. 100 personas han elegido cada una de las alternativas
incorrectas y 50 personas, la correcta.
a) Es un tem adecuado o debera ser modificado?
b) Cunto vale su ndice de dificultad?
c) Cuanto vale su varianza?
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
1
1
1
1
0
1
1
1
0
0
1
1
0
1
0
1
0
0
1
0
1
1
0
0
1
1
0
1
0
1
1
1
1
0
0
1
sujeto 7
sujeto 8
10
sujeto 9
11
sujeto 10
12
7.
10.
Una persona completa un test de 50 tems. Acierta 30 y falla 4. Su puntuacin
corregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. Cuntas
alternativas tiene cada tem?
11.
Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como
0 o 1. A continuacin se ofrecen las puntuaciones sin corregir (X) y corregidas para
eliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Diga
razonadamente qu personas han dejado preguntas sin contestar.
Xc
tem 1
tem 2
tem 3
tem 4
sujeto 1
20
18
Dj
0,4
0,8
0,3
0,6
sujeto 2
15
Hj
0,1
0,5
0,8
0,4
Vj
0,2
0,1
0,6
0,3
sujeto 3
25
25
sujeto 4
17
12
sujeto 5
23
22
a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero
____ porque ______________________________________________.
b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____
porque _____________________________.
c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____
porque ____________________________________.
12.
Creamos un test para medir conocimientos sobre el cdigo de la
circulacin. Los tems son de opcin mltiple con 3 opciones de las que slo una es
correcta. Las medias de tres tems del test han sido las siguientes: 0.1 (tem 1), 0.6 (tem
2) y 1 (tem 3). Responda razonadamente.
a) Qu tem es ms difcil?
b) Es posible que la mitad de la muestra haya fallado simultneamente los dos primeros
tems?
25
c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianza
del tem de ms varianza de los tres?
d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una
puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido?
26
SOLUCIONES
1.
13.
Una muestra de 200 personas responde a un test de rendimiento ptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
tem, y cual es en cada uno la alternativa correcta.
tem 1
tem 2
tem 3
tem 4
tem 5
Alternativa
a
30
140
90
70
60
Alternativa
b
80
0
10
80
50
Alternativa
c
90
60
100
50
90
Alternativa
correcta
a
a
c
b
c
a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.
b) Cul es el tem ms difcil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado?
Razone su respuesta
tem 1
0.572
0.456
tem 2
0.454
0.281
tem 3
0.575
0.437
Tabla 2
H
HC
tem 1
0.562
0.237
tem 2
0.622
0.205
tem 3
0.611
0.233
Diga razonadamente qu tabla contiene los H y HC de los tres tems en relacin al test
completo.
item
b
item
c
tem
d
tem
e
TOTAL
sujeto 1
23
sujeto 2
12
sujeto 3
sujeto 4
16
2.
a) Verdadero
b) Falso
c) Falso
d) Falso
3.
14.
Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La
escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Las
siguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin a
la escala 1.
Tabla 1
H
HC
tem
a
4.
tem 1
tem 2
tem 3
Dj
0,67
0,33
0,25
Sj2
0,22
0,22
0,25
0,19
27
5.
6.
a) D1 = 0,5
D2 = 0,4
S22 = 0,24
S32 = 0,16
b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, es
algo peor.
c) El tem 3.
d) El tem 2.
a) El tem 1: D1 = 0,8
b) H2 = 0.305
c) La persona nmero 8: Xc = 2
d) V5 = 0.84
7.
8.
Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el ndice de homogeneidad corregido suele ser menor que el ndice de
homogeneidad sin corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidos
y sin corregir, respectivamente.
9.
10.
n=5
Xc = A E/(n-1). Luego, 29 = 30 4/(n-1)
11.
Sujeto
28
12
13.
a) 30/200 = 0.15
b) El 1, pues su ndice de dificultad (0.15) es el ms bajo. En los otros tems sus
ndices de dificultad son: 0.7 (tem 2), 0.5 (tem 3), 0.4 (tem 4) y 0.45 (tem 5)
c) El 1, pues las opciones incorrectas son ms elegidas que la correcta. El 2, pues una
alternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias
parecidas.
14.
HC produce resultados tanto ms diferentes de H cuanto menor sea el nmero de
tems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:
Tabla 1:
0.116
0.173
0.138
Tabla 2:
0.325
0.417
0.378
Luego el test largo, de 12 tems, es el que tiene diferencias menores: Tabla 1.
29
30
El problema es que E y V resultan en principio desconocidos, si bien podemos obtener
informacin sobre ellos si se plantean determinados supuestos adicionales:
(2) V = E[X]
Definimos la puntuacin verdadera de una persona como el valor esperado de las posibles
puntuaciones empricas que puede obtener en el test. Dicho de otro modo, sera el promedio
de las puntuaciones empricas que obtiene la persona en un nmero elevado de aplicaciones
del test.
Del supuesto anterior se desprende que:
E[E] = 0
Asumiendo que X y E son dos variables aleatorias, mientras que la puntuacin V de la
persona es constante, resulta fcil comprobar la igualdad anterior, puesto que:
Este tercer supuesto nos dice que si en una poblacin conociramos las puntuaciones V y E
de los individuos, la correlacin entre ambas variables sera nula. Se asume que puntuaciones
verdaderas elevadas (bajas) no tienen porqu tener asociados errores elevados (bajos).
(4)
VE = 0
E E = 0
j
El cuarto supuesto asume que si en una poblacin conociramos los errores de medida de
cada individuo en dos tests diferentes (j y k), dada su condicin de aleatoriedad, la
correlacin entre ambas variables tambin sera nula.
(5)
E V = 0
j k
El quinto supuesto nos indica que si en una poblacin conociramos las puntuaciones E en un
test j y las puntuaciones V en un test k, ambas variables correlacionaran cero.
Ejemplo: Supongamos una poblacin de 5 personas, para las que conocemos sus
puntuaciones V, E y X en dos tests diferentes, denominados con los subndices 1 y 2 (En
realidad, slo podemos conocer las puntuaciones X; las restantes puntuaciones se proponen
nicamente por razones didcticas):
31
32
con cierta probabilidad, si dos formas son o no paralelas.
V1
E1
X1
V2
E2
X2
12
11
11
12
4
-2
0
0
2
0
10
11
11
14
4
12
11
11
12
4
0
-2
2
0
0
12
9
13
12
4
El lector puede comprobar que se cumplen los supuestos planteados en la pgina anterior, en
la tabla de puntuaciones.
De cualquier forma, insistimos que en la aplicacin real de un test slo se conocen las
puntuaciones X de las personas, por lo que los supuestos planteados (por muy lgicos y
razonables que sean) no pueden someterse a contrastacin emprica, siendo sta una de las
principales limitaciones de la TCT.
T=
D N
, que sigue la distribucin t con N-1 grados de libertad,
SD
Cuando un psiclogo aplica un test a una persona, nicamente conoce su puntuacin directa
X en la prueba. Lo importante, como venimos indicando, es obtener informacin de las
relaciones entre las X y las V. Un procedimiento sera obtener la correlacin entre ambas
para un grupo de N personas, pero nos encontramos con el inconveniente de desconocer las
autnticas V de las N personas. S resulta factible, sin embargo, obtener la correlacin entre
las puntuaciones empricas que proporcionan dos formas paralelas de un test, diseadas
ambas para evaluar el mismo rasgo V de los individuos.
Segn el modelo clsico, dos formas paralelas de un test se definen mediante dos
condiciones:
a) Un individuo tiene la misma puntuacin V en ambas formas.
b) La varianza de los errores de medida en ambas formas es la misma.
El lector puede comprobar en la tabla de datos expuesta anteriormente que los tests 1 y 2
pueden considerarse formas paralelas, dado que se cumplen en los datos las dos condiciones
planteadas. Ahora bien, estamos asumiendo que los datos anteriores se refieren a una
poblacin determinada, en la que conocemos las V y los E de los individuos. En la prctica
desconocemos esas puntuaciones y, adems, disponemos generalmente de datos muestrales y
no poblacionales. Cmo determinar entonces si dos formas son o no paralelas? En la tabla
anterior podemos constatar que, si dos formas son paralelas, las medias poblacionales de X en
ambas son iguales, y tambin los son las varianzas poblacionales de las puntuaciones X.
Segn esto, y haciendo uso de los procedimientos empleados en estadstica inferencial, si
disponemos de datos muestrales podemos realizar los contrastes oportunos para determinar,
T=
( S12 S 22 ) N 2
2S1 S 2 1 r122
X2
15
15
20
10
15
Para el contraste de diferencia de medias, obtenemos un valor T = -0.46, lo que nos lleva a no
rechazar H0, mientras que para el contraste sobre diferencia de varianzas obtenemos un
estadstico T = -0.34, que tambin nos lleva a no rechazar H0 de igualdad de varianzas
34
33
poblacionales. Segn esto, podemos decir, con probabilidad 0.95, que ambos tests son formas
paralelas.
Los fundamentos de este tipo de contrastes pueden consultarse en el libro de Pardo y San
Martn (1998) "Anlisis de datos en Psicologa II".
4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que los
resultados empricos de ambas en una poblacin correlacionen de forma elevada. Si esto es
as, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar los diversos
niveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos fiarnos de que
reflejen fidedignamente los niveles de rasgo. Pues bien, definimos inicialmente el coeficiente
de fiabilidad como la correlacin entre los resultados que proporcionan dos formas paralelas.
Para datos poblacionales y puntuaciones diferenciales, la expresin de la correlacin de
Pearson es la siguiente:
12 =
x1 x2
N 1 2
Segn el primer supuesto del modelo clsico, que se cumple tambin para escala diferencial,
tenemos que x = v + e, con lo que la expresin anterior quedara como:
12 =
(v1 + e1 )(v2 + e2 )
N 1 2
12 =
v1v2
v1e2
e1v2
e1e2
+
+
+
N 1 2 N 1 2 N 1 2 N 1 2
Recordando los supuestos del modelo clsico, podemos comprobar que los tres ltimos
sumandos son iguales a cero, con lo que nos queda la siguiente expresin:
12 =
v1v 2
N 1 2
y dado que las puntuaciones v de un mismo individuo en dos formas paralelas las asumimos
idnticas, y tambin son iguales las varianzas poblacionales en ambas formas, la expresin
anterior queda como:
12 =
2
v 2
= v
N 1 2 x2
35
nxx =
Ejemplo: Un test de aptitud para la direccin empresarial est formado por dos formas
paralelas de 20 tems cada una. Aplicados a una poblacin de directivos, se obtiene una
correlacin de 0.6 entre ambas formas. Cul ser el coeficiente de fiabilidad del test
compuesto por la unin de las dos formas paralelas?
n xx
2(0.6)
=
= 0.75
1 + (n 1) xx 1 + (2 1)0.6
Comprobamos que el coeficiente de fiabilidad del test alargado (de 40 tems) es superior al
coeficiente de fiabilidad de cualquiera de las formas iniciales de 20 tems. Esto representa
una propiedad interesante del coeficiente de fiabilidad, dado que nos indica que si alargamos
un determinado test con formas paralelas, podemos incrementar su fiabilidad.
El razonamiento que hemos expuesto se puede generalizar al caso de que los k tems que
componen un test fueran formas paralelas. En una determinada poblacin, los k tems de un
test sern paralelos si todos tienen la misma media, la misma varianza y la misma fiabilidad.
Segn la frmula general de Spearman-Brown, el coeficiente de fiabilidad del test se puede
expresar como:
xx =
EJERCICIOS
nv2
n 2 v2
n xx
= 2 2
=
2
nx n x (1 + (n 1) xx ) 1 + (n 1) xx
xx =
36
k il
1 + (k 1) il
donde k es el nmero de tems del test y jl es la correlacin de Pearson entre cualquier par de
tems, que indica la fiabilidad de cada uno de los tems.
1.
Cuatro personas responden a dos tests. Sus puntuaciones en X (conocidas) y en V y E
(nunca conocidas, pero supuestamente conocidas en el ejemplo) son las siguientes:
persona 1
persona 2
persona 3
persona 4
X1
3
2
4
7
TEST 1
V1
2
3
5
6
E1
1
-1
-1
1
X2
0
5
7
4
TEST 2
V2
2
3
5
6
E2
-2
2
2
-2
X
persona 1
persona 2
persona 3
persona 4
MEDIA
V
5
7
E
0
1
0
3.
En la aplicacin de un test de aptitud numrica, el encargado de controlar el tiempo
prolonga 1 minuto el perodo establecido para resolver las diversas tareas. Cul es el
supuesto de la Teora Clsica que se vera afectado por tal error, y que por tanto sera difcil
de asumir racionalmente?
4.
Si dos tests son paralelos, una persona obtendr la misma puntuacin emprica en uno
y otro. V ( ) F ( ) Depende ( ). Razone su respuesta.
5.
Despus de aplicar a 5 personas dos formas de un test de razonamiento analgico, se
obtienen los siguientes datos (las desviaciones tpicas tienen denominador n-1):
SA = 3,79
SB = 2,83
SD = 1,41
rAB = 0,95
a) Cul es la diferencia mnima que deberamos haber obtenido para considerar, con
probabilidad 0.95, que las medias poblacionales son diferentes?
37
b) Suponiendo que las dos medias no alcanzan esa diferencia mnima, podemos afirmar, con
probabilidad 0.95, que ambas formas son paralelas?
6.
Si dos formas paralelas de un test se aplican en el mismo momento a un grupo
normativo, la correlacin entre los resultados de ambas aplicaciones debe ser igual a 1.
V ( ) F ( ). Razone su respuesta.
7.
Si la varianza verdadera de un test es el 64 % de su varianza emprica, cul es su
coeficiente de fiabilidad?
8.
Complete los valores omitidos en la siguiente tabla, siendo n el nmero de veces que
se alarga el test.
2x
2v
2e
xx
Test original
Test alargado
tems
25
112
16
9.
En un test A de 10 tems la varianza de las puntuaciones verdaderas es 3 y la varianza
error es 1. Elaboramos 4 formas paralelas del test A y formamos un nuevo test (test B),
resultado de aadir al test A las 4 formas paralelas anteriores. Justifique sus respuestas.
38
a) El ndice de homogeneidad de un tem depende de la relacin entre el tem y las
puntuaciones en el test.
V( ) F( )
b) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza error.
V( ) F( )
c) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza verdadera.
V( ) F( )
d) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza emprica.
V( ) F( )
e) Segn el modelo clsico, los errores de medida NO pueden ser negativos.
V( ) F( )
f) En el modelo clsico se asume que las puntuaciones verdaderas y empricas correlacionan
0 en la poblacin.
V( ) F( )
39
40
SOLUCIONES
1.
X = V + E. Se cumple.
La media de los errores es 0. Se cumple el segundo supuesto.
VE = 0. Se cumple el tercer supuesto.
Los errores correlacionan. No se cumple el supuesto 4.
Los errores no correlacionan con las puntuaciones verdaderas (E1 V2 = E2 V1 = 0). Se
cumple el supuesto 5.
9.
Test A
Test B
2.
3.
4.
Depende. El modelo supone que en dos formas paralelas, una misma persona tiene la
misma V, pero sus puntuaciones empricas en una y otra forma por lo general sern
diferentes.
5.
6.
Falso. No tiene por qu ser 1, ya que las puntuaciones empricas en una y otra forma
no tienen por qu ser las mismas. La correlacin entre ambas ser un indicador de la
fiabilidad de cualquiera de ellas.
7.
rxx = 0.64
8.
2x
2v
2e
xx
n tems
Test original
10
0,6
1 25
Test alargado
112
96
16
0,86
4 100
Items
S2v
S2e
10
10.
11.
a) V
b) V
c) V
d) V
e) F
f) F
41
42
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hbitos de
estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo
las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Persona
1
2
3
4
5
6
7
8
9
10
Test
Restest
16
14
12
11
10
8
8
6
4
1
10
14
8
12
10
8
7
5
4
2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
ltimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hbitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantas respecto a
la precisin con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Ms concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza emprica se debe a la variabilidad de las personas a nivel
de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable
(pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
contrario, no se podra discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medicin. Es aconsejable dejar periodos largos entre la evaluacin test y la retest
cuando los tems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
podran emitir pautas de respuesta similares en las dos aplicaciones del test nicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
incrementara debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlacin entre las puntuaciones del test y del retest.
43
44
La precisin o fiabilidad de un test se puede entender tambin como el grado en que diferentes
subconjuntos de items miden un rasgo o comportamiento homogneo; es decir, el grado en que
covaran, correlacionan o son consistentes entre s diferentes partes del cuestionario.
Sujeto
Lo ms usual es obtener la consistencia entre dos mitades del test (mtodo de dos mitades) o
entre tantas partes como elementos tenga la prueba (consistencia interna).
1
2
3
4
5
6
7
8
9
10
A partir de esta frmula podemos comprobar que el coeficiente de fiabilidad, entendido como la
expresin de la consistencia entre dos mitades, es mayor que la correlacin de Pearson entre
ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10
personas que responden a un cuestionario de 6 tems valorados de forma dicotmica:
Total
0
1
0
1
0
1
1
1
1
0
1
1
1
1
0
1
1
1
0
0
0
1
0
1
1
1
1
1
0
0
1
0
0
0
0
1
1
0
0
0
0
1
0
0
0
1
1
1
0
0
0
3
0
2
1
3
3
3
1
0
3
1
1
1
0
3
3
1
0
0
3
4
1
3
1
6
6
4
1
0
1.6
1.28
1.3
1.19
2.9
2.02
1
0
0
0
0
1
1
0
0
0
Media
Desviacin tpica
rxx =
1 2
2(0.34)
= 0.51
1 + 0.34
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre s. Unicamente un 51 % de la varianza de las puntuaciones
empricas se debe a la varianza de las puntuaciones verdaderas. No podramos afirmar con
suficiente certeza que ambas mitades miden con precisin el rasgo de inters.
La razn de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento ptimo suelen tener tems ordenados en dificultad, de tal forma que se comienza a
responder los tems ms fciles hasta llegar a los situados al final del test, que son los ms
difciles. Si realizsemos la particin en dos mitades atendiendo a su disposicin en la prueba (la
primera mitad formada por los primeros n/2 tems, la segunda por los n/2 tems ltimos)
difcilmente podra cumplirse que ambas tuvieran la misma media.
46
45
xx =
1 + (k 1) jl
siendo k el n de tems del test y jl la correlacin de Pearson entre cualquier par de tems.
Expresada la frmula anterior para datos muestrales, quedara como:
rxx =
kr jl
Esta frmula reproduce el coeficiente de fiabilidad del test si todos los tems son paralelos. En la
prctica, es muy difcil que esto se produzca pero, sin embargo, tiene sentido su aplicacin para
establecer el grado en que los diferentes tems estn midiendo una nica dimensin o rasgo.
Podemos observar en la ltima expresin que depende del grado de covariacin de los tems:
tendr un valor alto (cercano a 1) cuando los tems covaren fuertemente entre s; asumir
valores cercanos a cero si los tems son linealmente independientes (si covaran de forma
escasa). Matemticamente, puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como ocurre en la
prctica totalidad de los tests, los tems no son paralelos. Suele considerarse una "estimacin por
defecto" del coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si los tems son
paralelos) o menor (cuando no lo son). Debe interpretarse como un indicador del grado de
covariacin entre los tems, y es aconsejable complementarlo con otras tcnicas estadsticas (por
ejemplo Anlisis Factorial) antes de interpretarlo como una medida de unidimensionalidad.
Ejemplo:
1 + (k 1)r jl
Sujetos
1
2
3
4
5
6
2
k S j
1
2
k 1
S x
2
j
0
1
1
1
1
1
0
0
0
1
1
1
0
0
0
1
0
0
1
0
0
1
1
0
1
1
1
4
3
2
0.25
0.14
0.25
1.33
Varianzas 0.14
donde k es el n de tems
tems
1
Dado que las puntuaciones en el test son la suma de las puntuaciones en los tems, la varianza
del test puede expresarse como:
2
4 0.14 + 0.25 + 0.14 + 0.25
k S j
1
=
1
= 0.55
1.33
k 1
S x2 4 1
S x2 = S 2j + 2 cov( j , l )
j =1
j <l
k j <l
=
k 1
S x2
En este caso, el coeficiente obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariacin entre los tems. No podemos afirmar con rotundidad que este
test mide un rasgo unitario.
El coeficiente puede obtenerse tambin entre diferentes grupos de tems (subtests). En ese
caso, k ser el nmero de subtests y S2j la suma de las varianzas de los subtests. Un
coeficiente bajo indicar que los diferentes subtests miden rasgos o constructos diferentes.
47
48
5.- EL ERROR TPICO DE MEDIDA
A veces, por razones de ndole prctica o investigadora, se disea un test y una segunda versin
del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original
pero con diferentes tems. Como ya hemos explicado, dos versiones o formas se consideran
paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilsticamente similares.
La correlacin de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas
paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicar el grado en
que pueden considerarse equivalentes.
Ejemplo:
Sujetos
Forma 1
1
2
3
4
5
1
14
11
11
10
Medias
Varianzas
Varianzas (ins.)
9.4
19.44
24.3
Forma 2
4
12
13
9
12
10
10.8
13.5
A la desviacin tpica de los errores de medida (Se) se denomina error tpico de medida. En
cierta manera, el Se representa tambin una medida de precisin: cuanto ms cercano a cero sea
el error tpico de medida de un test, eso significar que dicho test proporciona a cada persona
una puntuacin X cercana a su nivel de rasgo V.
En trminos paramtricos, habamos demostrado en el tema anterior que:
xx =
v2
x2
rxx =
S v2
S2
= 1 e2
2
Sx
Sx
De donde se deduce que el error tpico de medida puede obtenerse a partir de la expresin:
S e = S x 1 rxx
49
50
Un test impreciso puede proporcionar a dos personas puntuaciones empricas diferentes aunque
sus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadstica inferencial,
podemos contrastar, con cierta probabilidad, si dos puntuaciones empricas diferentes suponen o
no niveles de rasgo distintos.
El conocimiento preciso y exhaustivo de los factores que determinan la cuanta del coeficiente
de fiabilidad puede ayudarnos en la tarea de disear pruebas adecuadas. El tema es relevante en
la fase de seleccin de tems, para saber cules deben seleccionarse dependiendo de los objetivos
que se pretenden conseguir. Tambin va a resultar til para conocer las propiedades y
limitaciones que asumimos cuando aplicamos un determinado cuestionario.
Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subndices i
y j) planteamos las siguientes hiptesis:
Ya hemos aclarado las diferentes versiones que pueden adquirir la fiabilidad de un cuestionario,
entendida sobre todo como consistencia o como estabilidad temporal.
H0: Vi = Vj
H1: Vi Vj
Puede comprobarse que el estadstico de contraste se expresa como:
Z=
Xi X j
Se 2
Z=
126 120
= 0.88
16 1 0.91 2
Con probabilidad 0.95, la zona de aceptacin queda establecida entre los lmites Z = -1.96 y Z
= 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.
51
1,0
Si las 3 formas aadidas fuesen autnticamente paralelas a la original al pasar de 25 a 100 tems
el coeficiente de fiabilidad pasa de 0.6 a 0.86.
,8
Imagnese ahora que el test de atencin de 25 tems tiene un rxx = 0,92. Si se aaden 75 tems
ms paralelos, el test alargado tendra de coeficiente de fiabilidad:
,6
R xx =
nrxx
(4)0.92
=
= 0.98
1 + (n 1)rxx 1 + (3)0.92
,4
0.7
,2
0.4
0.1
0,0
1
7
4
13
10
19
16
25
22
31
28
37
34
43
40
49
46
Queremos indicar con la grfica anterior que el incremento es ms significativo cuando el test
inicial tiene un nmero pequeo de tems y bajo coeficiente de fiabilidad, que cuando el test de
partida tiene ya un coeficiente de fiabilidad considerable.
La frmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra
concreta, permite estimar cul ser el coeficiente de fiabilidad (Rxx) de un test que se forma con
n versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
R xx =
52
nrxx
1 + (n 1)rxx
Las n-1 formas aadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario,
la frmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atencin de 25 tems obtiene en un grupo
normativo un rxx= 0,6. Si se aadieran 75 tems (tres formas paralelas) al test inicial, el test
alargado tendra 100 tems (4 veces el inicial), y su fiabilidad sera:
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de
atencin es de 0.26, mientras que en el segundo caso, el incremento es nicamente de 0.06. Esto
se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el
primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la frmula
se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el mtodo de
las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sera el coeficiente de
fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el
resultado de esa correlacin hay que corregirlo, haciendo n = 2 en la frmula de SpearmanBrown, para obtener el coeficiente de fiabilidad del test completo.
Estas relaciones entre fiabilidad y longitud de un test pueden ayudarnos a estimar el coeficiente
de fiabilidad alargando n veces o, planteado inversamente, el nmero de veces que debemos
multiplicar la longitud inicial de un test para alcanzar un Rxx determinado. En la prctica, puede
resultar eficaz disear un test inicial corto y estimar cul debera ser su longitud para alcanzar un
coeficiente de fiabilidad determinado, y as comprobar si merece la pena continuar con tems
paralelos o reformar los ya generados. Para ello, si despejamos n de la frmula general de
Sperman-Brown, obtenemos la siguiente expresin:
n=
R xx (1 rxx )
rxx (1 R xx )
Ejemplo: Supongamos que un test inicial de 25 tems obtiene un coeficiente de fiabilidad de 0.6,
considerado bajo para los objetivos que se pretenden conseguir con su aplicacin. Una manera
de incrementar su precisin es alargarlo con tems paralelos a los iniciales. Al constructor de la
prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0.86, y se pregunta
con cuntos tems lo conseguira.
Aplicando la frmula precedente, obtenemos:
R xx =
nrxx
(4)0.6
=
= 0.86
1 + (n 1)rxx 1 + (3)0.6
n=
0.86(1 0.60)
=4
0.60(1 0.86)
53
54
EJERCICIOS
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de 100
tems, conseguiremos la precisin deseada. Por tanto, a los 25 tems que tiene el test inicial
habra que aadir 75 tems paralelos (3 formas) para conseguir la fiabilidad de 0.86.
El lector puede comprobar que este planteamiento es el inverso al del ejemplo precedente, que
consideraba los mismos datos, y que por eso es lgico que el resultado de n sea 4.
1.
Seale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construccin de un cuestionario.
3.
Un psiclogo construye una escala de actitudes para evaluar el dogmatismo religioso.
La escala consta de 4 tems, y en cada uno se puede manifestar la opinin segn una escala de
7 puntos (del 1 al 7). A continuacin se detallan las respuestas de un grupo normativo de 5
personas:
Sujeto
tem 1
tem 2
tem 3
tem 4
55
56
3 puntos (0, 1 ,2). A continuacin se detallan las respuestas dadas por un grupo normativo de
8 personas:
b) Obtenga la diferencia mnima que debe producirse entre las puntuaciones de dos
conductores en el test para considerar, con probabilidad 0.99, que sus puntuaciones
verdaderas son distintas.
Sujetos
n 1
n 2
n 3
n 4
n 5
n 6
n 7
n 8
tem n 1
Conductor
tem n 2
1
2
tem n 3
tem n 4
Obtenga el coeficiente de fiabilidad de test por el mtodo de dos mitades. Aplique para ello
la frmula de Spearman-Brown .
7.
Se aplican dos formas paralelas de un test a un grupo normativo de 10 personas. Sus
puntuaciones empricas directas en ambas formas fueron las siguientes:
Sujetos
10
Forma A
Forma B
Sujeto: 1 2 3 4
Xi : 14 6 16 4
tems
3
4
10.
Un test de habilidad verbal de 30 tems tiene, segn el procedimiento de las dos
mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
Correlaciones
item1 e item2
item1 e item3
item2 e item3
Test A
0.5
0.7
0.6
Test B
0.3
0.4
0.4
a) En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) En cual de los tests cabe esperar que sea mayor el ndice de homogeneidad del tem 1?
Razone su respuesta.
9.
Un psiclogo que trabaja en un centro dedicado a evaluar la rapidez visomotora de los
conductores confecciona una pequea prueba para medir esta habilidad. La prueba consta de
6 elementos que se valoran de forma dicotmica. La tabla siguiente muestra las respuestas
que se obtuvieron en un grupo normativo formado por 4 aspirantes a conductores:
12.
Un test est formado por 4 tems dicotmicos que tienen igual media (0.6). La
correlacin entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
tems.
57
13.
Disponemos de un test inicial, A, de 20 tems, que tiene un coeficiente de fiabilidad
raa. Multiplicamos su longitud por 2, 3 y 4, siempre con elementos paralelos, y formamos los
tests B, C y D, de 40, 60 y 80 tems, respectivamente. Obtenemos sus coeficientes de
fiabilidad: rbb, rcc y rdd. Dado que el test B resulta de aadir 20 tems al test A; el C, de aadir
otros 20 al test B; y el D, de aadir otros 20 al C, cabe esperar que rbb raa = rcc rbb = rdd
rcc?
14.
Un cuestionario para evaluar el rendimiento en Aritmtica est formado por 4 tems,
que se valoran de forma dicotmica (1 el acierto y 0 el fallo). Se aplic a una muestra de 100
nios. A continuacin se detalla alguna informacin estadstica de la mitad par (P), impar (I)
y del total del test (X). Tambin aparecen las frecuencias de aciertos (F) de cada uno de los 4
tems, no habiendo omisiones en ninguno.
Correlaciones :
P
I
X
Medias
Sj
P
I
1
0,.45 1
0,79 0,74
1,50 1,10
0,67 0,83
tem
50
70
60
80
1
2,60
1,14
a) Cuntos tems se han de aadir al test para que su fiabilidad sea 0.95? Realice el clculo
necesario.
b) Puede el valor n de la frmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
58
17.
Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hiptesis
nula de igualdad de puntuaciones verdaderas.
a) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
las puntuaciones verdaderas de Carlos y Bernardo llegaramos a la misma decisin que antes
sobre sus puntuaciones verdaderas?
b) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
las puntuaciones verdaderas de Carlos y Antonio Mantendramos la hiptesis nula de
igualdad de puntuaciones verdaderas?
59
60
SOLUCIONES
1.
2.
3.
4.
5.
rxx = 0,66
6.
rxx = 0,83
7.
rxx = 0, 587
8.
a) Sv2 = 20,8
b) Se = 2,28
9.
a) rxx = 0,778
b) 2.58 ser la diferencia mnima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones
verdaderas son diferentes.
10.
12.
a) El test A. Cuando las correlaciones entre los tems son ms altas, lo sern las
covarianzas, y por tanto el coeficiente alfa.
b) El test A. Cuando las correlaciones entre los tems son altas, tambin lo sern las
correlaciones de cada tem con el test total (ndice de homogeneidad).
S12 = S22 = S32 = S42 = 0,24
cov(i,j) = ri j Si Sj = (1/6)(0.24)1/2(0.24)1/2 = (1/6) (0.24)
13.
14.
4
0.86
1
= 0.45.
3 1.142
15.
NO. En el primer caso, el test inicial se habr alargado 1.5 veces para llegar a los 150
tems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
los 60 tems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.
16.
a) rP I = 0,67
b) Si2 = 6
c) SP I = 4
d) S2n e = 10
11.
4
(4)0.24
= 0.44
1
1
3
+
(
4
)
0
.
24
2
(
6
)
0
.
24
17.
61
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestin de qu es lo que autnticamente est evaluando. En el mbito
psicosocial, los diferentes constructos resultan difcilmente operativizables de manera
indiscutible, y a veces se producen dudas razonables sobre qu mide un determinado test. Una
prueba de inteligencia general tendr un elevado grado de validez si asigna puntuaciones altas a
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendr un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.
La validacin es un proceso continuo, que incluye procedimientos diferentes para comprobar si
el cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo
de conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el
test. Las inferencias pueden ser de muy diverso tipo: qu rasgo estamos midiendo realmente?
Qu podemos predecir sobre el comportamiento de un sujeto que obtiene una determinada
puntuacin en el test? Qu consecuencias de diverso tipo tiene esa puntuacin, en contextos de
evaluacin o seleccin?
Aunque cada vez se tiende ms a concebir la validez como un proceso unitario que tiene como
objetivo aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente
se han diferenciado varios procedimientos de validacin, alguno de los cuales incluye varios
mtodos diferentes de comprobacin. Los fundamentales procedimientos son denominados
como validez de contenido, de constructo y referida al criterio.
2.- VALIDEZ DE CONTENIDO
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...)
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar
o en una especialidad temtica concreta), tiene sentido justificar que el conjunto de items que
forman el test conforman una muestra representativa del universo de contenidos que interesa
evaluar. Un test de conocimientos de Qumica en 8 de EGB, por ejemplo, debera incluir
cuestiones representativas de los diferentes ncleos de contenidos que oficialmente deben
impartirse en ese nivel de estudios. Sera una prueba poco vlida si incluye demasiadas
cuestiones de unos temas y muy pocas de otros.
Para justificar, aunque slo sea racionalmente, que un test posee validez de contenido, debe
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cules son los contenidos de Qumica que debe conocer un alumno de 4 de ESO, cules son los
componentes que interesa considerar en un cuestionario de cultura general, qu tipo de
conocimientos y destrezas son las pertinentes para medir el nivel bsico de ingls, etc. En
62
definitiva, nos referimos a explicitar claramente los objetivos de la evaluacin y la
importancia que se quiere dar a cada uno, lo que determinar la cantidad de cuestiones a incluir
referidas a cada uno de esos objetivos. En definitiva, la validez de contenido es un tema
particular del de muestreo: si deseamos realizar inferencias sobre el rendimiento de las personas
en una poblacin de contenidos determinada, el test debe incluir una muestra representativa de
dichos contenidos.
El proceso de validacin de contenido es eminentemente lgico, si bien pueden utilizarse jueces
expertos en el tema para valorar la congruencia entre los diversos items y los diversos objetivos.
Existen procedimientos cuantitativos diversos para que cada experto valore el grado en que un
tem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo ms
sencillo sera el siguiente:
- Especificar los diversos objetivos (v.gr. reas diferentes de contenidos) que se
pretenden evaluar.
- Elaborar varios tems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, segn su opinin, asignen cada tem al objetivo que pretende medir.
- Seleccionar los tems en los que los expertos manifiestan mayor acuerdo en sus
clasificaciones.
Muy en relacin con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente", que se refiere al grado en que un test da la impresin a los evaluandos de que mide lo
que se pretende. En situaciones aplicadas, es importante que las personas perciban que los tems
del test tienen que ver con la finalidad que se persigue con el procedo de evaluacin.
3.- VALIDEZ DE CONSTRUCTO
63
1.- Formular hiptesis relevantes (extradas de deducciones tericas o del sentido
comn) en las que aparezca el constructo que pretendemos evaluar con el test. En
definitiva, una hiptesis de trabajo consiste en poner en relacin dos o ms variables.
Pues bien, una de esas variables ha ser el constructo que pretendemos medir con el test.
2.- Efectuar en la prctica mediciones oportunas de las variables o constructos
involucrados en las hiptesis. La medicin del constructo de inters se realizar con la
prueba diseada a tal efecto, que es la que pretendemos validar.
3.- Determinar si se verifican o no las hiptesis planteadas. En el caso de que as sea,
queda confirmado mediante una investigacin que el test mide el constructo de inters ya
que, de lo contrario, no habra razones lgicas para que se cumplieran las hiptesis
formuladas. Si las hiptesis no se confirman no significa en principio que el test no es
vlido, ya que puede ser debido a que las hiptesis no estaban planteadas de manera
adecuada, lo cual exigira una revisin de la teora subyacente.
Imaginemos, por ejemplo, que un investigador est interesado en validar una prueba de
motivacin intrnseca-extrnseca que ha construido. Desde la teora motivacional de partida se
puede deducir que las personas motivadas intrnsecamente (por el mero placer que les supone la
ejecucin de determinadas tareas) deberan rendir mejor en actividades escolares que las
personas motivadas por razones extrnsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que demostrar empricamente que
mide autnticamente el constructo motivacional que se pretende, y podra proceder de la
siguiente manera:
a) Aplicar el test a un grupo amplio de alumnos del nivel escolar apropiado.
b) Recoger informacin de cada alumno sobre su nivel intelectual, su calificacin
acadmica media en el ltimo curso y las horas que dedica al estudio.
c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo
nivel intelectual medio y que ocupen un nmero similar de horas en el estudio, pero que
el grupo A tenga niveles altos de motivacin intrnseca y el B niveles altos de
motivacin extrnseca.
d) Comparar el rendimiento acadmico de los dos grupos. Si la hiptesis de partida fuera
cierta, el grupo A debera rendir significativamente ms que el grupo B, con lo cul se
aportara informacin sobre la validez del test. Desde luego, si el test no midiera
motivacin, sera improbable que se verificase la hiptesis de trabajo.
Pueden ser muy variados los mtodos a seguir que, cumpliendo el proceso de ejecucin
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En cada
caso habr que seguir el que ms convenga para contrastar las hiptesis de partida, pero algunos
mtodos suelen ser ms frecuentes. Entre ellos destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras variables que deberan
relacionarse con el constructo de inters. Si el modelo terico est bien fundamentado,
64
debe establecer relaciones entre el constructo de inters y otros diferentes, y por tanto
debe ser posible establecer diseos de investigacin para contrastar las previsiones
tericas. Por ejemplo, Molt (1988) predice (y comprueba) que la escala de
susceptibilidad al castigo (que mide el grado de evitacin de situaciones reales aversivas)
debe proporcionar puntuaciones relacionadas directamente con neuroticismo e
inversamente con estabilidad emocional.
- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
para comprobar si realmente es as. Resulta un enfoque eminentemente diferencial: si el
test es vlido, debera reflejar las diferencias entre grupos que se predicen desde la teora
psicolgica. Por ejemplo, si un test de inteligencia general para edades infantiles es
vlido, debera reflejar el mayor rendimiento de los nios de ms edad.
- Utilizar una estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulacin o seleccin de los niveles en
una o ms variables independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta estrategia.
- Aplicar la tcnica multivariada del Anlisis Factorial (exploratorio o confirmatorio)
sobre la matriz de correlaciones entre items, para descubrir estadsticamente las variables
o dimensiones subyacentes (factores) a la covariacin entre los elementos.
3.2.- VALIDEZ DE CONSTRUCTO FACTORIAL
Este ltimo mtodo, denominado validez de constructo factorial, requiere alguna precisin que
puede ser pertinente por fundamentarse en una tcnica estadstica relativamente sofisticada y,
sobre todo, porque su utilizacin prctica es muy extensa.
El anlisis factorial es una tcnica estadstica multivariante que sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
informacin final, proporciona una matriz de tamao n p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las p dimensiones
extradas, y que son las correlaciones de Pearson entre cada variable y cada dimensin.
El anlisis factorial se realiza con dos objetivos 1) determinar cual es el nmero de dimensiones
o factores que mide un test y descubrir cual es el significado de cada una; 2) obtener la
puntuacin de cada sujeto en cada dimensin. Normalmente, el nmero de dimensiones que
mide un test es mucho menor que el de tems. Para descubrir su significado y darles sentido es
necesario fijarse en las variables que saturan de forma elevada en cada dimensin. Cuando el
investigador se enfrenta con la tarea de dar significado a una dimensin, debe realizar un
proceso inferencial para encontrar el nexo de unin entre las variables que manifiestan
correlaciones elevadas en la dimensin. Adems, los diferentes factores (dimensiones) extrados
no tienen la misma importancia. Cada uno explica una determinada cantidad de la varianza total
de los tems, que se expresa porcentualmente, y que indica la importancia de esa dimensin para
dar cuenta de la covariacin entre las variables. Si un factor explica un porcentaje elevado de la
65
varianza total, eso es sntoma de que las saturaciones de las variables en dicho factor son altas,
lo que significa que es una dimensin importante a la hora de describir las relaciones entre las
variables originales.
66
En el factor II obtienen saturaciones elevadas (en valor absoluto) los tems 2 y 4, mientras que
el resto de saturaciones son cercanas a cero. El hecho de que el tem 2 tenga una saturacin
positiva y el 4 negativa significa que las personas con puntuacin alta en el factor II tienden a
estar de acuerdo con el tem 2 y en desacuerdo con el 4. Este segundo factor podra etiquetarse
Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologas.
Un psiclogo ha elaborado una prueba de cinco tems para evaluar la actitud hacia las nuevas
tecnologas por parte de las personas mayores. Los tems, que se responden en una escala de
siete categoras ordenadas (desde 1: muy en desacuerdo" hasta 7: muy de acuerdo"), son los
siguientes:
tem 1: El uso de telfonos mviles puede hacerme la vida ms fcil.
tem 2: Los aparatos modernos son demasiado caros.
tem 3: Me gustara tener una agenda electrnica.
tem 4: El coste de las llamadas desde un mvil es razonable.
tem 5: Gracias a internet podemos resolver muchos problemas.
Vemos, pues, que las relaciones de covariacin entre los tems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
no son tan evidentes en la realidad; el investigador debe decidir cuntos factores estn presentes
en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
tan sencillo como en este ejemplo. Lo cierto es que la aplicacin del anlisis factorial aporta
informacin sobre las dimensiones que estamos midiendo con un determinado cuestionario, es
decir, proporciona informacin sobre la validez de la prueba.
En las siguientes secciones se describe ms detalladamente como se obtiene e interpreta la
estructura factorial que subyace a las respuestas a los tems de un test.
3.2.2.- EL MODELO FACTORIAL
Los 5 tems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se someti a un anlisis factorial, obtenindose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlacin de cada tem con cada uno de los factores que mide el test:
tem
1
2
3
4
5
% de varianza
total explicada
Factor I
Factor II
0.845
-0.201
0.672
0.052
0.713
-0.126
0.803
0.012
-0.615
-0.143
34%
21%
Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que
se tipifican las puntuaciones en los tems; la varianza total sera cinco, que es la suma de la
varianza de cada tem. El factor I explica un 34% de la varianza total, el factor II explica un 21%
de la varianza total. Con los dos factores se explica el 55% de la varianza de los tems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologas pueden ser tiles para mejorar su calidad de vida. El tem 2 tiene una
saturacin negativa (aunque baja) porque posiblemente manifiesta una actitud contraria hacia las
nuevas tecnologas. Por tanto, el factor I puede denominarse Actitud positiva hacia las nuevas
tecnologas como medio para mejorar la calidad de vida.
El anlisis factorial se basa en un modelo que es una extensin del utilizado en teora clsica de
tests. A modo de ejemplo, consideremos los siguientes seis tems de una escala de Cordialidad
dirigida a poblacin infantil:
1.
2.
3.
4.
5.
6.
Estos tems se aplicaron a una muestra de 564 chicos y chicas de entre 11 y 14 aos. La matriz
de correlaciones obtenida en esta muestra fue:
1
r
21
r31
r41
r51
r61
1
r32
r42
r43
r52
r62
r53
r63
r54
r64
1
r65
1
0,459
0,313
=
0,246
0,171
1 0,150
0,384
1
0,285 0,240
1
Observe que unos tems correlacionan ms entre s que otros. En realidad, el patrn de
correlaciones nos informa de cuntas dimensiones subyacen a las respuestas en esos tems. A
continuacin se ver que, utilizando el anlisis factorial, seremos capaces de extraer muchsima
informacin sobre los tems a partir de esa matriz de correlaciones.
67
68
Lo que se simplifica a:
Puede plantearse que los seis tems miden una misma caracterstica, la cordialidad. Aplicando
el modelo de la teora clsica de tests a las puntuaciones de los tems, se obtienen las ecuaciones:
X 1 = V + E1
X 2 = V + E2
X 3 = V + E3
r12* =
Asumiendo que los errores no correlacionan entre s ni con la puntuacin en el factor (como
en la Teora Clsica), obtenemos que la correlacin esperada segn el modelo sera igual al
producto de los pesos de los 2 tems en el factor:
X 4 = V + E4
X 5 = V + E5
r12* =
X 6 = V + E6
Esto significa que todos los tems miden la misma caracterstica (la cordialidad), representada
por V en el modelo. Adems, hay un error de medida que puede ser distinto para cada tem (Ei).
Es posible plantearse que no todos miden igual de bien la cordialidad. Por esta razn se definen
los parmetros i, denominados saturaciones, que indican la relacin de cada tem con la
caracterstica o factor que miden todos ellos. Cuanto mayor sea i, mejor indicador de la
cordialidad ser la puntuacin en el tem. Si a la cordialidad se la denomina F en lugar de V, se
obtiene el modelo de un factor:
X 1 = 1 F + E1
X 2 = 2 F + E2
X 3 = 3 F + E 3
X 4 = 4 F + E4
X 5 = 5 F + E 5
X 6 = 6 F + E 6
Las saturaciones se calculan a partir de la matriz de correlaciones entre los tems. Los clculos
exigen la aplicacin de clculos de lgebra matricial y se realizan mediante ordenador. Sin
embargo, la lgica es fcil de ejemplificar. Asumamos que las variables X1, X2, X3, X4, X5, X6 y F
estn en puntuaciones tpicas. Si el modelo unidimensional fuera cierto, la correlacin esperada
entre X1 y X2 (que denominaremos r12* ) sera:
r12* =
X 1 X 2
N
(1 F + E1 )( 2 F + E 2 )
N
12 F 2
N
= 1 2
F 2
F 2 es la varianza de las
N
puntuaciones F; al estar las puntuaciones F en puntuaciones tpicas su varianza es 1. Por
tanto, sabiendo que F = 0 :
F 2
=1
N
Si calculramos cuales son los valores esperados de las correlaciones segn el modelo
unidimensional, a las que denominamos correlaciones reproducidas ( r * ), obtendramos la
siguiente matriz:
1
r *
21
r31*
*
r41
r51*
*
r61
1
r32*
*
42
*
52
*
62
*
43
*
53
*
63
r
r
r
r
1
r54*
r64*
r65*
1
2 1
3 1
=
4 1
5 1
1 6 1
3 2
4 2
5 2
6 2
4 3
1
5 3 5 4
6 3 6 4
6 5
2 , 3 , 4 , 5 y 6 ) que hacen que las correlaciones esperadas segn el modelo ( r21* , r31* ,
r41* , r51* , ) se parezcan lo ms posible a las correlaciones observadas (0,459, 0,313, 0,246,
0,171,). En el ejemplo, a partir de la matriz de correlaciones mencionada anteriormente, se
llega al siguiente modelo de un factor:
X 1 = 0,540F + E1
69
X 2 = 0,671F + E 2
X 3 = 0,542F + E3
X 4 = 0,529F + E 4
X 5 = 0,483F + E5
X 6 = 0,437 F + E 6
Lo cual significa que el factor tiene una relacin ms fuerte con el tem 2 que con los dems,
aunque todas las saturaciones son elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada tem con el factor. Pueden tomar valores positivos o
negativos. Si la saturacin es cero, o prxima a cero, no existe relacin entre el tem y el factor.
Saturaciones extremas, en cualquier direccin, significan que la relacin es fuerte.
Generalmente, en los programas informticos, las saturaciones se disponen en una matriz que se
denomina matriz factorial:
Matriz
x1
x2
x3
x4
x5
x6
factoriala
Factor
1
.540
.671
.542
.529
.483
.437
1
r32*
r42*
r52*
r62*
r43*
r53*
r63*
1
r54*
r64*
r65*
1
0,362
0,293
=
0,286
0,261
1 0,236
0,363
1
0,355 0,287
1
70
1
r r *
21 21
r31 r31*
*
r41 r41
r51 r51*
*
r61 r61
1
r32 r32*
r42 r42*
r52 r52*
r43 r43*
r53 r53*
1
r54 r54*
r62 r62*
r63 r63*
r64 r64*
r65 r65*
0,096
0,020
0,021
1
=
1
0,040 0,070 0,046
Por ejemplo, el residual para la correlacin entre los tems 1 y 3 ( r31 r31* ) es 0,020.
A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
lineales de variables, la varianza de un tem puede calcularse como una funcin de su saturacin
en el factor, de la varianza del factor y de la varianza del error. Por ejemplo, sabiendo que:
X 1 = 0,540F + E1
la varianza de X1 ( X2 1 ) puede calcularse como:
X2 = 0,540 2 F2 + 12
1
1 = 0,540 2 (1) + 12
Como se puede ver, una parte de la varianza del tem depende de su saturacin en el factor
comn. A esa parte se la denomina comunalidad y se la representa por el smbolo hi2 . El resto
de la varianza del tem depende de la varianza del error ( 12 ). A esa parte se la denomina
unicidad. Simblicamente,
1 = h12 + 12
La comunalidad de un tem indica la cantidad de su varianza explicada por el factor. En el
modelo de un factor, la comunalidad de un tem se obtienen elevando la saturacin de ese tem
en el factor al cuadrado. En el ejemplo, las comunalidades son h12 = 0,292 (que es 0.5402),
h22 = 0,450 (que es 0.6712), h32 = 0,294 , h42 = 0,280 , h52 = 0,234 y h62 = 0,191 .
Segn el modelo de un factor los dos tems que ms deberan correlacionar son los tems 2 y 3
puesto que son los que ms correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero no son iguales. La diferencia
entre una correlacin observada y una reproducida se llama residual:
72
71
conjunto. Las unicidades se calculan i2 = 1 hi2 . En el ejemplo, las unicidades son
rij* = ix jx
x =1
De nuevo, el programa busca aquellos valores de que hacen que las correlaciones
esperadas segn el modelo ( r21* , r31* , r41* , r51* , ) se parezcan lo ms posible a las
correlaciones observadas (0,459, 0,313, 0,246, 0,171,). Al estimar las saturaciones a partir
de la matriz de correlaciones se obtiene el resultado:
Es posible formular modelos factoriales en los que cada tem mida ms de una
caracterstica simultneamente. Supongamos que se hipotetiza que el cuestionario mide dos
factores, denominados F1 y F2. Entonces, las saturaciones se denominan ij (siendo i el tem y j
el factor), y el modelo de dos factores es:
X 1 = 0,576F1 + 0,151F2 + E1
X 2 = 0,729F1 + 0,222F2 + E 2
X 3 = 0,469F1 + 0,239F2 + E3
X 4 = 0,199F1 + 0,678F2 + E 4
X 5 = 0,174F1 + 0,606F2 + E5
X 1 = 11 F1 + 12 F2 + E1
X 6 = 0,270F1 + 0,340F2 + E6
X 2 = 21 F1 + 22 F2 + E 2
X 3 = 31 F1 + 32 F2 + E3
X 4 = 41 F1 + 42 F2 + E 4
Los programas nos informarn de esas saturaciones, mediante una matriz denominada
matriz de factores rotados:
X 5 = 51 F1 + 52 F2 + E5
X 6 = 61 F1 + 62 F2 + E6
Las correlaciones reproducidas segn el modelo de 2 factores independientes seran:
1
r *
21
r31*
*
r41
r51*
*
r61
1
r32*
r42*
r52*
r62*
1
r43*
r53*
r63*
+
22 12
21 11
3111 + 32 12
4111 + 42 12
5111 + 52 12
6111 + 62 12
1
r54*
r64*
1
r65*
1
31 21 + 32 22
41 21 + 42 22
51 21 + 52 22
6121 + 62 22
x1
x2
x3
x4
x5
x6
4131 + 42 32
5131 + 52 32
6131 + 62 32
1
51 41 + 52 42
61 41 + 62 42
6151 + 62 52
2
.576
.729
.469
.199
.174
.270
.151
.222
.239
.678
.606
.340
Puede verse que los tems 1, 2 y 3 tienen una correlacin ms fuerte con el factor I que
con el factor II, mientras que ocurre lo contrario para los tems 4, 5 y 6. Viendo las saturaciones
y el contenido de los tems, puede suponerse que el factor I significa Trato a los dems,
mientras que el factor II podra indicar Confianza en los dems.
Al haber dos factores independientes, las comunalidades se calculan mediante hi2 = i21 + i22 .
Las comunalidades de los 6 tems seran 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. Las
73
unicidades se calculan del mismo modo que en el modelo de un factor ( i2 = 1 hi2 ), y son
0,646, 0,419, 0,723, 0,500, 0,603 y 0,812. Las correlaciones reproducidas segn el modelo
seran:
1
r *
21
r31*
*
r41
r51*
*
r61
1
r32*
r42*
r52*
r62*
1
0,453
0,306
=
0,217
0,192
1 0,207
1
r43*
1
r54*
r64*
*
53
*
63
r
r
1
r65*
0,395
1
0,295 0,255
1
*
r41 r41
*
r51 r51
*
r61 r61
1
r32 r32*
r42 r42*
r52 r52*
r43 r43*
r53 r53*
1
r54 r54*
r62 r62*
r63 r63*
r64 r64*
r65 r65*
0,005
0,006 0,011
1
=
0
,
029
0
,
010
0
,
015
1
0,021 0,012
0,000 0,003
1
1 0,056 0,009
0,058 0,002 0,013 1
Indicando que con el modelo de dos factores las diferencias entre las correlaciones reproducidas
y las correlaciones observadas es muy pequea.
Adems, tambin es posible calcular la varianza explicada por cada factor. Esta varianza es la
suma de las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor x
es 12x + 22 x + 32 x + 24 x + 52 x + 26 x . Genricamente, siendo n el nmero de variables:
n
i =1
2
ix
En el ejemplo, la varianza explicada por cada factor es 1,226 y 1,072, que, al ser la varianza total
6, representa un porcentaje del 20 % y del 18 % respectivamente. Por tanto, el porcentaje de
varianza explicada por el modelo de dos factores es del 38 % aproximadamente.
3.2.3.- SELECCIN DEL NMERO DE FACTORES
Se ha aplicado el modelo de un factor y el modelo de dos factores a los mismos datos. Las
correlaciones reproducidas segn el modelo de un factor se parecan bastante a las correlaciones
observadas en la muestra. Al extraer dos factores, se parecan ms an. Por tanto, parece que las
correlaciones se ajustan un poco mejor al modelo de dos factores. Justifica eso extraer dos
factores? o deberamos analizar lo que ocurre cuando extraemos tres factores?
74
En primer lugar, al aadir un nuevo factor al modelo, aumenta la varianza explicada. En el
ejemplo, la varianza explicada ha pasado del 29% al 38% al aadir un segundo factor. Al extraer
un factor ms, el porcentaje de varianza se incrementara. Sin embargo, este incremento de la
varianza no siempre justifica que se aadan nuevos factores. Lo esperable, y deseable, es que el
nmero de dimensiones sea mucho menor que el de tems. Esto significara que una misma
caracterstica est siendo medida por muchos tems a la vez, lo que redundara en una mejor
precisin de la medida.
El nmero de factores no se decide de forma caprichosa y se han propuesto varios mtodos para
determinar cul es el nmero ptimo de factores que deben retenerse. Esta decisin es muy
importante, pues el primer objetivo del anlisis factorial es determinar cuantas dimensiones est
midiendo un test, es decir, cuantos factores deben incluirse en la solucin factorial.
El procedimiento ms riguroso estadsticamente se basa en la utilizacin de criterios de bondad
de ajuste, mediante el estadstico X2 de Pearson. En los apartados anteriores, obtuvimos los
residuales en el modelo de dos factores (diferencias entre las correlaciones reproducidas y las
observadas en la muestra). Se recordar que esos residuales eran distintos de cero. Parecera que
el modelo de dos factores no reproduca de forma perfecta las correlaciones observadas en la
muestra. Sin embargo, esto no supone un problema por s mismo. En realidad, lo correcto es
plantearse si podemos mantener que los residuales son cero en la poblacin. Sabemos que por
mera variacin muestral es improbable que los residuales sean cero en la muestra incluso si lo
son en la poblacin. As pues mediante el estadstico X2 contrastamos si podemos mantener la
Hiptesis nula de que todos los residuales son cero en la poblacin.
Veamos un ejemplo. Primero, estimamos varios modelos con distinto nmero de factores. El
modelo ms simple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para
interpretar los resultados y obtener conclusiones. La siguiente tabla muestra los valores del
estadstico X2 para los modelos de uno y dos factores, los grados de libertad (gl) y el nivel crtico
(p).
Factores
X2
gl
82,213
0,000
10,776
0,029
RMSEA
( intervalo de confianza del 90%)
0,121
(0,098-0,145)
0,055
(0,016-0,096)
75
basado en el estadstico X2 es excesivamente exigente y poco realista, pues ningn terico
espera que un modelo factorial ajuste de forma perfecta a los datos. Por el contrario, si la
muestra es pequea, residuales de valor elevado pueden no resultar estadsticamente
significativos y extraeremos un nmero de factores menor que el necesario.
Algunos autores han propuesto utilizar indicadores de ajuste que nos permitan evaluar el grado
de discrepancia entre las correlaciones reproducidas y las correlaciones observadas en la
muestra. El RMSEA (Root Mean Square Error of Approximation) es uno de esos indicadores.
Valores por debajo de 0,05 indican buen ajuste del modelo a los datos, valores entre 0,05 y 0,08
indican ajuste aceptable, valores entre 0,08 y 0,10 indican ajuste marginalmente aceptable y
valores por encima de 0,10 indican mal ajuste. Si bien no hay que tomar esa clasificacin como
las Tablas de la Ley, estas guas pueden servir de orientacin para tomar una decisin sobre el
nmero de factores a retener. En nuestro ejemplo, el modelo de un factor muestra mal ajuste.
Siguiendo este criterio podramos mantener el modelo de dos factores (RMSEA = 0,055) que
muestra un ajuste aceptable. Adems puede observarse que el modelo de un factor y el
modelo de dos factores difieren claramente en el RMSEA (ver los intervalos de confianza
para el RMSEA).
Para tomar una decisin sobre el nmero de factores a retener, ayuda observar los residuales.
En nuestro caso, se observa que los mayores residuales para el modelo de un factor se
encuentran para las correlaciones entre los tems 4 y 5 (0,192). Ese residual positivo nos indica
que esos dos tems correlacionan entre s ms de lo que se esperara si el modelo de un factor
fuera cierto. Naturalmente, cuando extraemos el segundo factor esos dos tems pesan en l. Su
contenido es muy similar (tem 4: Confo en los dems; tem 5: Pienso que otras personas son
buenas y honradas).
Existen otros procedimientos de extraccin ms sencillos pero tambin muy criticados como la
regla de Kaiser (regla K1) el Scree test. Una descripcin de los mtodos de extraccin y reglas
disponibles en el paquete SPSS puede encontrarse en Pardo y Ruiz2 (2002). Otros mtodos
como el mtodo de anlisis paralelo o la regla MAP de Vellicer tambin han sido
recomendados.
76
En nuestro ejemplo, inicialmente obtendramos la siguiente matriz factorial (no rotada) de
saturaciones:
Matriz factoriala
Factor
1
x1
x2
x3
x4
x5
x6
Segn est estructura, el primer factor sera un factor general en el que pesan todos los tems. En
el segundo factor, los pesos mayores son para los tems 4 y 5 (positivos) y para el tem 2
(negativo). En principio, esta estructura es difcil de interpretar.
Para facilitar la interpretacin se aplica a las saturaciones un proceso denominado rotacin, por
el cual se transforman las saturaciones en otras ms sencillas de interpretar. Con la rotacin se
intenta que la solucin factorial se aproxime a la denominada estructura simple. Una estructura
simple implica que: a.) en cada factor pesan alto un conjunto de variables (y pesan bajo o cero
las restantes variables). b.) los conjuntos de tems definiendo cada factor no deben solaparse
demasiado. c.) cada variable pesa solo en un conjunto pequeo de factores (y pesa bajo o cero en
el resto de los factores). Por ejemplo, si la solucin factorial hubiera sido:
X5
F1
0,9
0,0
0,8
0,0
0,7
X6
0,0 0,8
X1
3.2.4.- ROTACIONES
X2
X3
Cuando se estima un modelo factorial las saturaciones no siempre son fcilmente interpretables,
en el sentido de que pueden no indicar con claridad qu es lo que estn midiendo los factores.
Para interpretar la solucin, los tems se agrupan en factores, y el significado de stos se infiere
analizando qu tienen en comn los tems que se agrupan en un mismo factor. Esto no siempre
es fcil de descubrir, por ejemplo, si los tems agrupados en un mismo factor son muy
heterogneos y no tienen un contenido comn. Adems, hemos visto que los tems pueden tener
saturaciones relativamente altas en ms de un factor, lo que significa que miden ms de una
caracterstica y hace ms difcil descubrir su significado.
Pardo, A. y Ruz, M.A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid: Mc Graw Hill.
2
-.257
-.303
-.121
.388
.349
.084
.537
.700
.512
.591
.525
.425
X4
F2
0,0
0,7
0,0
0,6
0,0
Esta solucin sera ms fcilmente interpretable que la que hemos obtenido porque no hay tems
que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra una
estructura simple sino una solucin lo ms parecida posible a la estructura simple. Veremos a
continuacin, cul es la estructura ms simple que podemos obtener en nuestro ejemplo.
77
3.2.4.1. ROTACIN ORTOGONAL
78
Las posiciones relativas de las variables en el espacio factorial no cambian. Al cambiar los
ejes, por ejemplo, las nuevas saturaciones del tem 5 seran 0,174 y 0,606. La matriz factorial
rotada sera:
Grfico de factor
1,0
0,8
0,6
x5
Factor 2
0,4
0,2
x4
0,0
x3
x1 x2
-0,4
.151
.222
.239
.678
.606
.340
x6
-0,2
2
.576
.729
.469
.199
.174
.270
Observe que la matriz factorial rotada es ms fcil de interpretar que la matriz factorial no
rotada. Sin embargo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas segn el modelo. Por ejemplo:
-0,6
-0,8
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
h12
La rotacin ortogonal consiste en cambiar (girar) los ejes de referencia (los factores) un cierto
nmero de grados. Observa lo que ocurre cuando cambiamos los ejes de la siguiente forma:
ANTES DE LA ROTACIN
DESPUS DE LA ROTACIN
Grfico de factor
1,0
0,8
0,8
0,6
-0,4
Factor 2
Factor 2
x3
x1 x2
-0,2
x6 x3
0,2
x1
x2
0,0
-0,2
-0,4
-0,6
-0,6
-0,8
-0,8
-1,0
% de Varianza explicado por Matriz factorial (no rotada) Matriz de factores rotados
Factor 1
30,755
20,428
Factor 2
7,539
17,866
% Total
38,294
38,294
x5
0,4
x4
x6
0,0
0.537*0,700+(-0,257*-0,303)=0,453 0,576*0,729+0,151*0,222=0,453
S cambia el porcentaje de varianza explicada por cada factor (pero no el total de varianza
explicada por los dos factores en su conjunto):
x4
0,6
x5
0,2
Grfico de factor
1,0
0,4
r12*
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
Factor 1
Este es un resultado general de la rotacin ortogonal: la varianza explicada por cada factor
cambia despus de la rotacin, pero no la varianza explicada en total.
El tipo de rotacin que se ha utilizado en este apartado es la denominada VARIMAX. Consiste
en mover los ejes de referencia, mantenindolos ortogonales entre s, para que las saturaciones
sean lo ms diferentes posible entre si, con lo que se intenta que tomen valores extremos o
valores prximos a cero y se eviten los valores intermedios. Con la rotacin VARIMAX los
factores son independientes (correlacionan 0 entre s).
79
80
La rotacin oblicua es ms compleja que la ortogonal porque permite que cada factor se rote un
nmero de grados diferente. En el ejemplo, aplicando la denominada rotacin oblicua (el
mtodo OBLIMIN) se llega a la solucin:
De nuevo, al rotar no cambian las comunalidades (ni las unicidades) y tampoco las
correlaciones reproducidas segn el modelo (aunque con esta rotacin, el clculo de las
comunalidades y de las correlaciones reproducidas es ms complejo).
Matriz de configuracin.a
Factor
1
x1
x2
x3
x4
x5
x6
.620
.774
.462
-.021
-.022
.190
2
-.044
-.020
.100
.719
.643
.294
La solucin obtenida tras la rotacin oblicua tiene tres caractersticas especficas que deben
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los tems con los factores, 2)
no es posible determinar la varianza explicada por cada factor, y 3) los factores pueden estar
correlacionados. Estas caractersticas no se dan en la solucin inicial del anlisis factorial ni en
la obtenida tras la rotacin ortogonal.
La siguiente figura muestra las saturaciones obtenidas tras la rotacin oblicua. A diferencia de lo
que suceda en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares. Estadsticamente, esto significa que las puntuaciones en los dos factores estn
correlacionadas. En el ejemplo, la correlacin es de 0,586.
ANTES DE LA ROTACIN
Grfico de factor
0,8
0,8
0,6
0,6
x5
0,2
x6
0,0
x3
x1 x2
-0,2
-0,4
x6
x3
0,0
x1 x2
-0,2
-0,4
-0,6
-0,6
-0,8
-0,8
-1,0
x5
0,2
La siguiente tabla muestra las respuestas de los cinco primeros sujetos, sus puntuaciones
factoriales correspondientes a la rotacin factorial y la oblicua. Al haber concluido que el test
mide dos factores sera incorrecto utilizar la puntuacin en el test como el resultado de cada
sujeto. En su lugar, habra que utilizar las dos puntuaciones factoriales correspondientes a la
rotacin que finalmente se decida aplicar.
x4
0,4
x4
Factor 2
Factor 2
Grfico de factor
1,0
En resumen, en la prctica el anlisis factorial se aplica en dos pasos. En primer lugar se obtiene
la solucin inicial, lo que permite evaluar la bondad de ajuste del modelo y determinar el
nmero de factores. En segundo lugar se realiza una rotacin, ortogonal u oblicua, segn los
propsitos del investigador. La solucin rotada sirve para interpretar el sentido de los factores. Si
se realiza la rotacin ortogonal, es posible calcular las comunalidades, unicidades y la varianza
explicada por cada factor. Si se realiza la rotacin oblicua, se obtiene la correlacin entre
factores y unas saturaciones ms sencillas de interpretar.
Obtenida una solucin factorial definitiva, es posible calcular la puntuacin de los sujetos en
cada uno de los factores. De este modo, en lugar de obtener una puntuacin nica para cada
sujeto en el test, se obtiene la puntuacin en cada uno de los factores que se estn midiendo.
DESPUS DE LA ROTACIN
(Factor 1 y 2 correlacionados)
1,0
0,4
Al cambiar los ejes, por ejemplo, las nuevas saturaciones del tem 5 seran -0,022 y 0,643. Puede
verse que la solucin rotada es ms sencilla porque los tems tienen saturaciones altas en un
factor y bajas en el otro. Viendo las saturaciones y el contenido de los tems, puede suponerse
que el factor I significa Trato a los dems, mientras que el factor II podra indicar Confianza
en los dems. Como hay una correlacin positiva entre los dos factores, los sujetos que tienden
a ser cordiales y afectuosos en el trato tambin suelen confiar en los dems.
-1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Factor 1
Factor 1
Sujeto
1
2
3
4
5
X1
3
4
3
5
2
X2
2
3
2
3
4
X3
3
3
1
2
1
X4
5
3
1
2
4
X5
2
3
2
2
3
X6
1
3
4
2
1
Oblicua
F1
F2
-1,77 -0,34
-0,88 -0,47
-2,28 -1,94
-1,01 -1,40
-1,37 -0,43
Ortogonal
F1
F2
-1,95 0,27
-0,85 -0,22
-1,93 -1,42
-0,65 -1,26
-1,44 0,01
81
En la siguiente figura aparecen los diagramas de dispersin de las puntuaciones factoriales de los
564 sujetos del ejemplo. El diagrama izquierdo corresponde a la rotacin ortogonal y el derecho
a la oblicua. El diagrama derecho muestra que existe una relacin entre las puntuaciones en
ambos factores debida a la correlacin existente entre los factores. Esto no sucede as en el
izquierdo.
E1
E2
E4
E3
E5
E6
X1
X2
11
X3
21
F1
31
X4
X5
42
52
X6
62
F2
F2
F2
82
-1
-1
-2
-2
-3
-3
-4
-3
-2
-1
F1
-4
-3
-2
-1
F1
Cmo ya hemos mencionado anteriormente, el anlisis factorial sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. En realidad hay dos estrategias
distintos de anlisis factorial: exploratorio y confirmatorio. Hasta ahora hemos visto como se
realiza el primer tipo. En un anlisis factorial exploratorio, el investigador no tiene una idea
exacta de cuantos factores subyacen a las relaciones entre variables ni tampoco de qu variables
tienen un peso alto en cada factor. En el anlisis factorial confirmatorio, por el contrario, el
investigador plantea hiptesis definidas a priori sobre cul es el nmero de factores y cmo
pesan las variables en ellos. A medida que se acumulan estudios dentro de un campo de
conocimiento, los investigadores prefieren utilizar tcnicas confirmatorias frente a
exploratorias. An as, la teora que subyace a ambos tipos de anlisis factorial es la misma.
Imagnese que en la prueba de Cordialidad, basndose en estudios previos, establece que los
tems 1, 2 y 3 deben conformar un factor de trato a los dems mientras que los tems 4, 5 y
6 deben conformar un factor de confianza en los dems. Esto se podra representar de la
siguiente manera:
X 1 = 11 F1 + E1
X 2 = 21 F1 + E 2
X 3 = 31 F1 + E3
X 4 = 42 F2 + E4
X 5 = 52 F2 + E5
X 6 = 62 F2 + E6
Observa que no se contemplan efectos de F2 a X1 o X2, ni tampoco de F1 a X4 o X5. Esto es
importante. La principal diferencia entre el modelo de anlisis factorial exploratorio y el
modelo de anlisis factorial confirmatorio es que en el ltimo se han fijado algunos pesos al
valor cero (por ello no se representan en la figura). De esta manera, la solucin factorial
obtenida en el anlisis factorial confirmatorio es nica y la solucin que obtenemos es la que
debemos interpretar (no es necesaria la rotacin).
83
Para nuestro ejemplo, obtendramos la siguiente matriz factorial:
Factor 1 Factor 2
0,595
0
0,745
0
0,536
0
0
0,690
0
0,616
0
0,440
X1
X2
X3
X4
X5
X6
gl
22,874
0,004
RMSEA
( intervalo de confianza del 90%)
0,057
(0,031-0,086)
Muy en relacin con la validez factorial se encuentra tambin la validez convergentediscriminante, la cual se evala mediante las matrices multirrasgo-multimtodo. El sentido
de estas definiciones es el siguiente:
Validez convergente. Si dos tests miden un mismo rasgo, la correlacin entre ellos debe
ser alta.
Validez discriminante. Si dos tests miden rasgos diferentes, las correlacin entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo.
Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo.
Cada uno de los rasgos se evala mediante dos bateras de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-multimtodo,
denominada as porque se evalan varios rasgos utilizando varios mtodos.
84
A
A
Factor g
Factor g
0,87
Espacial
0,61
Neurocicismo 0,25
B
Factor g
0,65
Espacial
0,35
Neurocicismo -0,05
Espacial
B
Neuroticismo Factor g
0,81
0,31
0,73
0,41
0,50
0,08
0,09
0,11
0,62
0,81
0,33
0,19
Espacial
Neuroticismo
0,78
0,25
0,74
85
que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe
ser una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones
escolares, total de ventas producidas en un determinado perodo, estimaciones de un terapeuta de
las mejoras conseguidas por cada persona, etc. A la correlacin entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicar
el grado en el que el test sirve para pronosticar con precisin el rendimiento en el criterio.
Supongamos, por ejemplo, que la correlacin entre un test de conocimientos adquiridos en 1 de
BUP y la calificaciones obtenidas en COU es 0,95 en una muestra apropiada. Como la
correlacin es elevada, cometeramos errores de pronstico pequeos, haciendo uso de la
oportuna ecuacin de regresin, al predecir el rendimiento en COU de un alumno si conocemos
su rendimiento en el test. Podramos estimar con bastante exactitud el rendimiento que
manifestar en COU un determinado alumno que se encuentra todava en 1 de BUP.
86
S y2 y ' es la varianza de los errores de pronstico
Sy
Sx
X ) + rxy
Sy
Sx
Xi
Mediante esta expresin podemos estimar la puntuacin directa en el criterio de una determinada
persona pero, como es conocido, esa estimacin ser tanto ms precisa cuanto mayor sea la
correlacin entre test y criterio. Estadsticamente, resulta ms apropiada una estimacin por
intervalos realizada con cierta probabilidad, para lo cual aplicaremos la siguiente expresin:
Yi ' Z1 / 2 S y y '
El lector puede imaginar que no siempre es til medir un criterio directamente, debido a razones
de coste temporal y econmico. Por eso es preciso que los profesionales dispongan de tests con
elevada validez relativa al criterio en mbitos en los que de una u otra forma deben tomar
decisiones sobre el nivel de los sujetos en un criterio o sobre su admisin o no a un puesto de
trabajo o de estudio determinado.
rxy2 =
S y2'
S y2
=1
S y2 y '
S y2
Alumno
1
2
3
4
5
7
13
10
9
11
6
10
9
8
12
Media
Varianza
10
4
9
4
El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
capacidad de relacin interpersonal de sus alumnos.
Si queremos pronosticar puntualmente la puntuacin en el criterio del alumno n 5, aplicando la
oportuna ecuacin de regresin obtenemos:
Y5' = 9.8
87
Para realizar la estimacin por intervalo para este mismo alumno, con probabilidad 0.95,
fijamos el valor Z1-/2 = 1.96 y calculamos el error tpico de estimacin:
88
siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.
Demostracin:
y el intervalo ser:
12.152
rxy =
( x x )( y y )
NS x S y
Realizando las sustituciones oportunas que permiten los supuestos de la Teora Clsica:
rxy =
(V
+ E x V x )(V y + E y V y )
NS x S y
rxy =
Cov (Vx ,V y )
SxS y
Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo clsico,
son cero.
rxy
Dado que la correlacin entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.
Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85, mientras
que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73. Segn
90
89
estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar el
valor de 0.79, que es la raz cuadrada del producto entre los dos coeficientes de fiabilidad.
De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raz
cuadrada del coeficiente de fiabilidad del test; tambin es menor o igual que la raz cuadrada de
la fiabilidad del criterio:
rxy
Rxy =
rxy
Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con
lo cual aumentarn su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.
Segn las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para el
coeficiente de validez del test inicial y del test alargado:
rxx
nrxx
(1 + (n 1)rxx )
rxy
1 rxx
+ rxx
n
1 rxx
+ rxx
n
Demostracin:
rxx
Rxx
rxy
0,51
= 0,60
1-0,42
+ 0,42
2
R xy =
n=
donde
rxy
Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le aadiera una forma
paralela de 30 items, el coeficiente de validez pasara a valer:
Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lgico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y
en su caso, del criterio) influya tambin en rxy aunque de modo indirecto. La frmula que
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas
paralelas) es:
Rxy =
Rxy
1 rxx
rxy2
rxx
Rxy2
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.
En el caso hipottico de un test infinitamente largo o, lo que es lo mismo, de un test con mxima
precisin, en la siguiente frmula, Rxx valdra 1, y Rxy se podra interpretar como el mximo
coeficiente de validez obtenible como resultado de mejorar la fiabilidad del test todo lo posible.
Rxy =
rxy
rxx
Rxx
rxy
rxx
1
rxy
rxx
91
Ejemplo: Un determinado test de 10 items manifiesta en un grupo normativo un coeficiente de
fiabilidad de 0.4 y un coeficiente de validez de 0.35. Nos cuestionamos cuntos items paralelos
necesitara el test para conseguir:
a) Un coeficiente de validez de 0.5
b) Un coeficiente de validez de 0.9
a)
1 0.4
n=
= 6.7
0.352
0.4
0.52
b)
n=
1 0.4
= 2.4
0.352
0
.
4
0.9 2
92
5.- ALGUNOS EJEMPLOS EMPRICOS DEL PROCESO SEGUIDO PARA LA
VALIDACIN DE TESTS
En las siguientes pginas mostramos algunos trabajos desarrollados para la validacin de
varios tests psicolgicos, de contenido y objetivos bien diversos. Hemos intentado incluir
ejemplos que sigan estrategias de investigacin diferentes para obtener informacin sobre el
constructo que se mide o sobre el tipo de inferencias que se pueden hacer a partir de las
puntuaciones obtenidas en los tests.
5.1.- Barraca, J., Lpez-Yarto, L. & Olea, J. (2000). Psychometric properties of a
new Family Life Satisfaction Scale. European Journal of Psychological Assessment,
16, 2, 98-106.
Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfaccin familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
terico concreto, lo que ha dado lugar a instrumentos de evaluacin de la satisfaccin familiar
fundamentados en una pobre definicin del constructo. Los trabajos sobre instrumentos
previos de evaluacin han estudiado su relacin con otras variables (por ejemplo, con la
satisfaccin hacia la calidad de vida, con el constructo locus of control o con el nivel de
religiosidad) que al menos puede decirse que son cuestionables. Critican tambin que los
instrumentos hasta entonces disponibles no incluyen suficientemente los componentes
afectivos del constructo. Adems, algunos de los cuestionarios previos para evaluar la
satisfaccin familiar resultan poco amigables de responder: uno de ellos, por ejemplo,
consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situacin real de su
familia y otra sobre lo que sera su familia ideal.
Todo ello les lleva a la opcin de construir una nueva escala de satisfaccin familiar, para lo
cual siguieron el siguiente procedimiento:
Definicin del constructo: Se entiende la satisfaccin familiar como el conjunto de
sentimientos que cada persona experimenta en su propia familia, y que son el resultado de sus
continuas interacciones con los dems, as como de las consecuencias positivas o negativas
derivadas.
Instrumento inicial de evaluacin: Decidieron evaluar estas connotaciones afectivas mediante
una escala de adjetivos bipolares, tambin denominado diferencial semntico, que tena el
siguiente formato:
Infeliz
Acompaado
Cada tem se puntu desde uno hasta 7, dado que haba ese nmero de categoras ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unnime fueron considerados relevantes para evaluar el constructo.
93
Anlisis y seleccin de tems: Se aplic la escala inicial a una muestra de 274 personas.
Mediante el programa SPSS se obtuvieron varios indicadores psicomtricos para cada uno de
los 52 tems: a) correlacin tem-total, b) varianza, c) saturaciones factoriales (rotacin
varimax), y d) coeficiente de la escala cuando se elimina el tem. Se retuvieron finalmente
los 27 tems que cumplieron simultneamente los siguientes requerimientos: a) correlacin
tem-total mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor
rotado por encima de 0.30, y d) coeficiente de la escala (al eliminar el tem) igual o superior
al de la escala completa (=0.9808).
Estudio de la fiabilidad: Se obtuvo un coeficiente igual a 0.976. El coeficiente de fiabilidad
test-retest, obtenido tras un perodo de 4 semanas, result ser 0.758; an no siendo ptimo
este coeficiente, es bastante usual que la estabilidad temporal no sea mucho ms alta cuando
se emplea un diferencial semntico como instrumento de evaluacin.
Validez de constructo factorial: Se realiz un nuevo anlisis factorial sobre la matriz de
correlaciones entre los 27 tems. El primer factor explic el 62.3 % de la varianza total, lo que
se consider suficiente prueba de unidimensionalidad. Todos los tems obtuvieron
saturaciones por encima de 0.68 en el primer factor sin rotar.
Validez convergente: Se aplicaron a la misma muestra dos de los instrumentos previos de
evaluacin: el cuestionario Family Satisfaction (Olson y Wilson, 1982) y la Family
Satisfaction Scale (Carver y Jones, 1992). El nuevo cuestionario correlacion 0.646 con las
puntuaciones en el primero y 0.787 con las correspondientes en el segundo.
Datos adicionales sobre la validez de constructo: Se aplic el nuevo cuestionario a una
muestra de 16 personas (con la misma edad media de la muestra general) que asistan a una
terapia de familia. La media de esta muestra clnica en el cuestionario fue de 97.56, mientras
que la media de la muestra general fue 121.56. El contraste estadstico entre ambas medias
(prueba U de Mann Whitney) result significativo con un nivel de confianza del 95 %, con lo
que se concluy que la nueva escala era capaz de diferenciar el grado de satisfaccin familiar
de ambas muestras.
94
en su desarrollo cognitivo, pero que tienen sntomas claramente autistas en lo que se refiere
a problemas de interaccin social y de conductas estereotipadas.
Elaboracin del cuestionario: Varios especialistas clnicos ingleses y suecos elaboraron un
listado de sntomas caractersticos del sndrome en chicos de entre 7 y 16 aos. Ellos mismos
elaboraron 27 tems que recogieran esos sntomas y que fueran inteligibles para personas no
expertas (padres y profesores), ya que no intentaban tanto diagnosticar con precisin el
sndrome como que informantes no expertos (padres o profesores) identificaran a los chicos
que necesitaban un diagnstico diferencial en profundidad. La sintomatologa que pretendan
incluir era: interaccin social, problemas de comunicacin, conducta repetitiva y esterotipias
motoras. El formato de tems y respuesta que establecieron fue:
Este chico destaca como diferente de otros chicos de su edad en los siguientes
aspectos:
- Carece de sentido comn
No Algo S
- Carece de empata
No Algo S
- Tiene movimientos involuntarios en la cara o el cuerpo
No Algo S
Cada respuesta era cuantificada como 0, 1 2 puntos, con lo que el rango terico de
puntuaciones poda oscilar entre 0 y 54.
Muestras seleccionadas: En el estudio se describe la seleccin de dos muestras de chicos
diagnosticados previamente con determinados desrdenes conductuales por diversos
psiclogos y psiquiatras. La muestra principal estaba formada por 3 tipos de patologas: 21
casos de desrdenes de espectro autista (en el que se incluye el sndrome de Asperger), 58
casos con dficit atencional, hiperactividad y conducta disruptiva, y 31 con problemas de
aprendizaje (retraso en lectura y escritura). La muestra de validacin estaba formada por 34
chicos y chicas diagnosticados previamente en contextos clnicos como sndromes de
Asperger.
Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos aplicaciones,
fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los profesores.
5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141.
La correlacin entre las evaluaciones de los padres y de los profesores (fiabilidad interjueces)
se obtuvo en los tres grupos de la muestra principal. Considerando la evaluacin de la
muestra completa, esta correlacin fue 0.66, mientras que result 0.77 para los chicos con
espectro autista, 0.27 para los chicos con dficit atencional y 0.19 para los chicos con
trastornos de aprendizaje.
Validez convergente. Los padres y profesores respondieron tambin a dos escalas generales
de evaluacin de psicopatologas en nios, las escalas de Rutter y las de Conners, obteniendo
correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, as como valores de
0.77 y 0.70 en la muestra de profesores.
Descripcin del sndrome: No existiendo un acuerdo universal sobre los sntomas del
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni
Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
consista en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ serva
para diferenciar a los diversos grupos diagnsticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo
95
diagnstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos
con diagnstico de espectro autista obtuvieron siempre las medias ms elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas por
ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadsticamente similares en
la muestra de validacin (sndrome Asperger) que en la submuestra de espectro autista de la
muestra principal.
Establecimiento de puntos de corte. Antes de comprender lo que realmente se hizo en este
trabajo, conviene describir el procedimiento general y su sentido. En contextos de diagnstico
clnico interesa muchas veces estudiar el grado en que las puntuaciones en un cuestionario
sirven para clasificar de forma fiable, es decir, si sirve el cuestionario para clasificar
correctamente a una persona dentro o fuera del grupo clnico objeto de estudio. As,
podramos establecer una determinada puntuacin como punto de corte, de tal manera que si
la puntuacin de una persona supera dicho punto de corte la clasificaramos en el grupo con
trastornos, mientras que si se encuentra por debajo de dicho punto de corte concluiramos que
no tiene dicho trastorno. Para establecer un determinado punto de corte, debemos entender en
primer lugar dos conceptos esenciales:
-
Las dos proporciones anteriores variarn segn la puntuacin total en el cuestionario que
establezcamos como punto de corte (en el caso del ASSQ podramos establecer en teora
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiramos como punto de
corte la puntuacin 54, que es la mxima posible, obviamente la sensibilidad sera 0 (todos
los chicos con sndrome Asperger quedaran clasificados como no Asperger) y la
especificidad 1 (todos los chicos sin sndrome Asperger quedaran clasificados como tales); si
el punto de corte lo pusiramos en la puntuacin 0, la sensibilidad sera 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte ms apropiado tendramos que
intentar maximizar ambas proporciones simultneamente, lo cual depende del grado de
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnsticos
posibles. En la prctica, para cada puntuacin posible como punto de corte, suele
representarse en un cuadrado unitario la proporcin complementaria a la especificidad o
proporcin de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de ordenadas).
Esta representacin se conoce como curva ROC, y muchas veces interesa establecer como
punto de corte aquella puntuacin del cuestionario que queda representada ms cerca de la
esquina superior izquierda del cuadrado unitario. Esa puntuacin ser la que maximiza
simultneamente la especificidad y la sensibilidad.
96
En el presente estudio, se obtuvieron, por ejemplo, las siguientes proporciones de sensibilidad
y de falsos positivos, cuando los informantes eran los padres y el trastorno era el referido a
desordenes de espectro autista (subgrupo de la muestra principal):
Punto de corte
7
13
15
16
17
19
20
22
Sensibilidad
.95
.91
.76
.71
.67
.62
.48
.43
Falsos positivos
.44
.23
.19
.16
.13
.10
.08
.03
Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
errores con los chicos realmente diagnosticados como autistas, sera aconsejable establecer
como punto de corte la puntuacin X=13, a partir de la cual se detecta al 91 % de los chicos
con autismo de la muestra principal. El coste de esta clasificacin es que clasificaramos
como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
problemas de aprendizaje. Tal coste no sera muy elevado si el cuestionario representa slo
una primera deteccin, y es posible posteriormente profundizar en el diagnstico diferencial
mediante procedimientos alternativos.
Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que tienen
otros trastornos, los autores optan por establecer un punto de corte en la puntuacin X=19, lo
cual minimiza la proporcin de verdaderos positivos (0.62) pero tambin la de falsos
negativos (0.10). Teniendo en cuenta el tamao muestral, esta decisin equivale a emitir un
82 % de decisiones correctas.
5.3.- Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboracin de un banco de tems,
prediccin de la dificultad y diseo de anclaje. Metodologa de las Ciencias del
Comportamiento, Vol. Especial, 427-430.
Olea, J., Abad, F.J., Ponsoda, V. y Ximnez, M.C. (2004). Un test adaptativo
informatizado para evaluar el conocimiento del ingls escrito: Diseo y
comprobaciones psicomtricas. Psicothema 16, 519-525.
En ambos trabajos se recogen los estudios realizados para poner en funcionamiento un Test
Adaptativo Informatizado (TAI) de conocimientos del idioma ingls en su versin escrita.
Este tipo de tests requieren un amplio banco de tems, su estudio psicomtrico desde la Teora
de la Respuesta al tem, as como un conjunto de programas informticos para la presentacin
de los mejores tems a cada persona y para la estimacin de su nivel (normalmente entre un
rango de valores que oscila entre 4 y +4). Nos centraremos fundamentalmente en el proceso
de construccin del banco de tems, que conforma el contenido fundamental del TAI, y en el
anlisis de sus propiedades psicomtricas.
97
Criterios generales para la elaboracin del banco de tems. Varias especialistas en Filologa
Inglesa, junto a varios profesionales de la Psicometra, elaboraron el banco de tems. Los
psicmetras indicaron a las fillogas algunos criterios a considerar en la elaboracin del
banco de tems: a) deba tener aproximadamente 600 tems, b) su dificultad previsible deba
ser heterognea, ya que el TAI pretende evaluar cualquier nivel de dominio del ingls escrito,
d) los tems deban ser de opcin mltiple, siendo el enunciado una frase donde faltaran
ciertas palabras, y 4 opciones de respuesta de las que slo una es correcta, e) las 3 opciones
incorrectas de un tem deban cumplir los requisitos de redaccin que son aconsejables (ver
tema 1 de estos materiales), f) las fillogas deberan partir de un modelo terico (ellas diran
cual) explicativo de lo que representa el conocimiento del ingls escrito.
Validez de contenido del banco de tems. Las especialistas en Filologa establecieron un
modelo de dominio del ingls escrito funcional-cognitivo, en el que adems de la
competencia gramatical (aspectos fundamentalmente sintcticos) se incluyeran contenidos
para evaluar la competencia en el discurso (componentes pragmticos y lxicos), de tipo ms
instrumental para contextos comunicativos concretos. Finalmente establecieron 7 categoras
gramaticales generales, denominadas como: aspectos formales, componentes morfolgicos,
sintcticos, morfosintcticos, pragmticos, lxicos y una categora mixta. Estas categoras se
dividan a su vez en otras subcategoras: por ejemplo, en los componentes morfolgicos (222
tems en total) se especificaron 17 subcategoras diferentes. De esta forma se redactaron un
total de 635 tems, cada uno perteneciente a una categora y subcategora especficas. Un
ejemplo de un tem de morfologa (subcategora de tiempos verbales) es:
98
Estudio piloto de uno de los subtests. El primero de los subtests se aplic a una muestra de
435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicologa, y
estudiantes de Filologa Inglesa. Se les pidi alguna informacin adicional, como su
autoevaluacin del dominio del ingls y el procedimiento seguido para el aprendizaje del
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
estudio psicomtrico fueron:
a) Se eliminaron 9 tems por ser demasiado fciles o correlacionar de forma escasa con
el total del subtest.
b) De los 52 tems retenidos, la media de las correlaciones tem-total fue 0.556. El
coeficiente de Cronbach result ser de 0.91
c) El anlisis factorial sobre la matriz de correlaciones tetracricas entre los 52 tems dio
lugar a un factor con varianza explicada de 15.78 (30.35 % de la varianza total), lo
que se consider como prueba suficiente de unidimensionalidad. Esto es un requisito
para la aplicacin del modelo de TRI seleccionado por los investigadores.
d) Se realiz un anlisis de regresin mltiple, donde las variables independientes fueron
la informacin adicional recogida y la variable dependiente el nivel de conocimientos
estimado desde la TRI. El coeficiente de correlacin mltiple entre las variables
adicionales (autoevaluacin y formacin en el idioma) y las puntuaciones estimadas
en el subtest result ser 0.747.
Estudio psicomtrico simultneo de 5 subtests. Se aplicaron 5 de los subtests restantes a una
muestra de 3224 estudiantes de primer curso de la Pontificia Universidad Catlica de Chile.
Cada grupo de algo ms de 600 estudiantes respondi a uno de los subtests y a una serie de
preguntas adicionales de un cuestionario, donde se recab informacin sobre el tipo de
colegio donde estudiaron la enseanza media (bilinge-ingls u otros), su nivel autopercibido
en el idioma (en escritura, lectura y conversacin) y sobre su formacin complementaria en el
idioma (en casa, en estancias prolongadas en pases anglfonos, en escuelas oficiales de
idiomas, etc). Adems de obtener de nuevo informacin sobre la consistencia interna y
unidimensionalidad de los subtests (resultados satisfactorios para ambos objetivos) se estudi
la validez predictiva de las puntuaciones. Ms concretamente, se realizaron dos estudios:
a) Las primeras pruebas de validez se realizaron a partir de los datos obtenidos en el
cuestionario. Se realizaron 5 ANOVAs, uno por cada variable independiente incluida en el
cuestionario, siendo en todos ellos la variable dependiente el nivel de rasgo estimado (en una
escala de -4 a 4) para cada estudiante a partir de sus respuestas al subtest correspondiente (los
cinco valores F resultaron significativos, p < 0.001): a) con la variable independiente tipo de
colegio, los niveles de rasgo medios () fueron 0.50 (colegio bilinge-ingls) y -0.24 (otros
colegios). El tamao del efecto (2) fue 0.10. b) con la variable independiente formacin, los
niveles de rasgo medio fueron -0.16 (slo colegio), 0.24 (colegio+academia), 0.57
(colegio+familia) y 1.18 (colegio+extranjero). El tamao del efecto fue 0.09. c) con la
variable independiente autoevaluacin de la lectura, los niveles de rasgo medio fueron -1.16
(nada), -0.86 (sencillo), -0.13 (con esfuerzo), 0.94 (bien) y 1.64 (bilinge). El tamao del
efecto fue 0.46. d) con la variable independiente autoevaluacin de la escritura, los niveles
de rasgo medio fueron -1.30 (nada), -0.64 (sencillo), 0.03 (con esfuerzo), 0.90 (bien) y 1.77
(bilinge). El tamao del efecto fue 0.49. e) con la variable independiente autoevaluacin de
la conversacin, los niveles de rasgo medio fueron -1.23 (nada), -0.66 (sencillo), 0.25 (con
esfuerzo), 1.01 (bien) y 1.76 (bilinge). El tamao del efecto fue 0.53. En los cinco anlisis se
99
observa que los niveles de rasgo medios se incrementan a medida que lo hacen los niveles
de cada una de las variables independientes. Todas las comparaciones mltiples post hoc
(estadstico DHS de Tukey) resultaron significativas (p<0.05). En los valores de los tamaos
del efecto (2) puede observarse un mayor poder predictivo de las autoevaluaciones del nivel
de ingls que de las variables relacionadas con la formacin en el idioma.
b) Adicionalmente se puso a prueba mediante el programa AMOS (versin 4.01) un
modelo estructural para obtener la capacidad predictiva de las estimaciones de los niveles de
conocimiento con relacin a una variable latente de nivel informado de ingls, donde tuvieran
saturaciones positivas las 5 variables evaluadas en el cuestionario. Este tipo de anlisis
estadstico, denominado como ecuaciones estructurales o tambin como modelos
confirmatorios (vase Ruiz3, 2000), sirve para estudiar el grado de ajuste entre un modelo
terico (donde se plantean ciertas relaciones entre variables empricas y tericas) y los datos
reales. En nuestro caso, el modelo terico consiste en plantear una variable latente o factor
(nivel informado de ingls) en la que obtuvieran saturaciones positivas las 5 variables
incluidas en el cuestionario; adems, planteamos una relacin positiva entre esta variable
latente y las puntuaciones estimadas a partir del rendimiento manifestado en los subtests de
ingls escrito.
Algunas medidas de ajuste del modelo fueron: gl = 4.599, AGFI = 0.992, RMSEA =
0.037, que son indicadores de un buen ajuste del modelo terico a los datos empricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlacin entre las estimaciones de nivel de ingls y el factor latente de nivel informado de
ingls es 0.81.
2
Ruiz, M.A. (2000). Introduccin a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.
100
Enseanza
media
0.39
0.35
estimada
0.81
Nivel informado
de ingls
0.82
Formacin
Lectura
0.86
Escritura
0.89
Conversacin
e
e
101
102
b) Correlacionando las puntuaciones del test con otro criterio distinto, podramos
obtener un coeficiente de validez mayor de 0.60? Razone su respuesta.
1.
Seale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construccin de un cuestionario.
7.
Un pequeo test de aptitudes intelectuales consta de dos tems de aptitud verbal (el 1 y
el 4) y de dos tems de aptitud numrica (el 2 y el 3). Despus de aplicarse a un grupo
normativo, la matriz de correlaciones se someti a un anlisis factorial, cuya matriz F rotada
se presenta en la tabla que aparece a continuacin.
EJERCICIOS
3.
Sabemos que aumentando la longitud de un test, podemos aumentar tambin su
fiabilidad, y que la fiabilidad del test es un factor que permite incrementar la validez del test.
Queremos obtener un coeficiente de validez de 0,8 (Rxy) y sabemos que la fiabilidad del test
es 0,8 (rxx) y la del criterio es 0,6 (ryy). Lograremos nuestro objetivo aumentando la
fiabilidad del test?
4.
Un psiclogo social disea un test con 5 tems y obtiene los coeficientes de fiabilidad,
rxx= 0,4, y validez, rxy= 0,36. En vista de estos valores tan bajos, decide rechazar el test.
Valore esta actuacin del psiclogo.
5.
A continuacin se detallan las puntuaciones que 10 personas obtuvieron en un test de
rendimiento escolar (X) y las calificaciones medias del curso (Y), que se consideran como un
criterio de aprovechamiento acadmico.
tem
Factor I
Factor II
0,247
0,883
0,906
0,083
0,937
0,024
-0,108
0,925
8.
Estamos intentando elaborar una escala que mida la calidad de ciertos productos.
Cada tem consiste en un adjetivo y la persona ha de evaluar de 1 (totalmente en
desacuerdo) a 5 (totalmente de acuerdo) en qu medida el adjetivo se aplica al producto.
Tras un anlisis factorial, la matriz rotada resultante ha sido:
Factor I
Factor II
Factor III
Barato
-0,1
0,8
0,2
Agradable
0,2
0,2
0,7
Sujetos
10
til
0,9
-0,1
-0,2
Test
18
15
12
11
Cmodo
0,6
-0,2
-0,1
Calificacin
Precio justo
0,1
0,9
0,2
Bonito
-0,2
-0,1
0,6
Necesario
0,7
0,2
0,0
Atractivo
-0,2
-0,1
0,5
Prctico
0,8
0,1
0,2
Manejable
0,8
0,2
-0,1
103
9.
En la seleccin de aspirantes a un curso de formacin, los sujetos han sido
examinados con un cuestionario que obtuvo una media de 5 y una desviacin tpica de 2. Una
vez terminado el curso, los mismos sujetos fueron valorados por sus formadores segn una
escala de 0 a 20, con media 10 y desviacin tpica 3. La correlacin entre los resultados en el
cuestionario y las valoraciones de los formadores fue de 0.35.
a) Realice una estimacin puntual de la valoracin que recibira una persona que obtuvo 4
puntos en el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrar la
valoracin para esta misma persona.
10.
Un test de 5 tems tiene un coeficiente de fiabilidad de 0.4 y un coeficiente de validez
de 0.5.
rxx
rxy
tems
T1
0,3
0,27
20
T2
0,7
0,59
40
T3
0,9
0,60
40
104
a)
b)
c)
d)
e)
f)
14.
Un test tiene un coeficiente de fiabilidad de 0.6 y de validez de 0.42. Duplicamos el
test y conseguimos un coeficiente de validez superior a 0.42. Volvemos a duplicarlo y
conseguimos un coeficiente de validez an mayor.
Si los tres tests tuviesen la misma longitud, cul sera ms fiable? cul, ms vlido?
12.
SUJETOS
1
2
3
4
5
1
4
4
4
1
2
2
2
2
3
2
1
ITEM
3
4
3
3
2
5
2
2
1
4
2
1
6
4
4
6
4
2
15
10
18
9
13
a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 tems.
b) Cul ser la validez de este cuestionario si tomamos las valoraciones realizadas por los
sujetos como un criterio adecuado? Interprtelo.
105
c) Cuntos elementos tendramos que aadirle al cuestionario para que su nuevo
coeficiente de validez alcanzase un valor de 0,60?
17. Del estudio psicomtrico de un test de 4 items, hemos obtenido:
Estadsticos de fiabilidad
Alfa de
Cronbach
.433
Alfa de
Cronbach
basada en
los
elementos
tipificados
.414
IT1
IT2
IT3
IT4
N de
elementos
4
Desviacin
tpica
1.295
1.242
1.225
1.158
Matriz
IT1
IT2
IT3
IT4
106
N
156
156
156
156
factoriala
Factor
1
.671
.508
.774
-.196
IT1
IT2
IT3
IT4
IT2
.347
1.000
.393
-.060
IT3
.517
.393
1.000
-.165
Chi-cuadrado
.415
IT4
-.133
-.060
-.165
1.000
Estadsticos total-elemento
IT1
IT2
IT3
IT4
Varianza de
la escala si
se elimina el
elemento
4.942
5.295
5.106
8.672
Correlacin
elemento-tot
al corregida
.410
.374
.428
-.152
Correlacin
mltiple al
cuadrado
.294
.183
.328
.030
Alfa de
Cronbach si
se eleimina
el elemento
.169
.220
.160
.684
Estadsticos de la escala
Media
11.65
Varianza
8.976
Desviacin
tpica
2.996
Sig.
.813
Media de la
escala si se
elimina el
elemento
9.01
9.38
8.21
8.37
gl
N de
elementos
4
Factor
1
2
3
4
Autovalores iniciales
% de la
varianza
Total
% acumulado
1.892
47.302
47.302
.963
24.064
71.366
.668
16.707
88.072
.477
11.928
100.000
19.
Si el coeficiente de validez del test es 0.7, la correlacin entre las puntuaciones
verdaderas entre dicho test y el criterio ser: a) 0,7; b) mayor que 0,7; c) menor que 0,7.
Razone su respuesta.
20.
107
108
Estadsticos de fiabilidad
Alfa de Cronbach
Parte 1
Parte 2
21. Hemos analizado mediante SPSS un test de 9 tems y 5 opciones de respuesta cuyos
tems son los siguientes:
ITEM01
ITEM02
ITEM03
ITEM04
ITEM05
ITEM06
ITEM07
ITEM08
ITEM09
Varianza de
la escala si
se elimina el
elemento
21.711
22.300
22.761
22.537
21.576
22.629
24.387
25.381
21.871
Correlacin
elemento-tot
al corregida
.281
.482
.240
.385
.408
.267
.336
.165
.536
Correlacin
mltiple al
cuadrado
.139
.477
.097
.331
.208
.306
.268
.232
.528
Factor
1
2
3
4
5
6
7
8
9
Alfa de
Cronbach si
se eleimina
el elemento
.645
.597
.652
.615
.607
.644
.630
.657
.586
Alfa de
Cronbach
.654
Varianzas de los
elementos
Correlaciones
inter-elementos
Media
3.149
3.864
3.467
1.504
1.016
1.287
.193
.154
.187
Mnimo
2.646
3.263
2.646
.939
.631
.631
.087
-.143
-.143
Mximo
3.586
4.404
4.404
2.128
1.706
2.128
.394
.467
.633
Rango
.939
1.141
1.758
1.189
1.075
1.497
.308
.609
.776
Factor
Factor
1
ITEM01
ITEM02
ITEM03
ITEM04
ITEM05
ITEM06
ITEM07
ITEM08
ITEM09
N de
elementos
9
Parte 1
Parte 2
Ambas partes
Parte 1
Parte 2
Ambas partes
Parte 1
Parte 2
Ambas partes
2
.255
.744
.222
.379
.469
.512
.396
.080
.807
ITEM01
ITEM02
ITEM03
ITEM04
ITEM05
ITEM06
ITEM07
ITEM08
ITEM09
.290
-.217
.054
.684
.058
-.356
.348
.575
-.146
Matriz factoriala
Medias de los
elementos
Autovalores iniciales
% de la
Total
% acumulado
varianza
2.641
29.349
29.349
1.755
19.498
48.847
1.059
11.772
60.619
.840
9.339
69.958
.738
8.203
78.160
.605
6.724
84.884
.569
6.320
91.204
.484
5.379
96.583
.307
3.417
100.000
Estadsticos de fiabilidad
Alfa de
Cronbach
basada en
los
elementos
tipificados
.674
Longitud igual
Longitud desigual
Estadsticos total-elemento
Media de la
escala si se
elimina el
elemento
28.32
27.62
28.12
27.65
28.56
27.94
26.80
26.81
27.81
.531
5a
.403
4b
9
.502
.669
.671
.634
N total de elementos
Correlacin entre formas
Coeficiente de
Spearman-Brown
Valor
N de elementos
Valor
N de elementos
Varianza
.172
.385
.372
.229
.227
.266
.008
.052
.027
N de
elementos
5a
4b
9
5a
4b
9
5a
4b
9
.128
.771
.185
.094
.413
.608
.237
-.142
.803
.364
.079
.133
.776
.230
-.138
.471
.563
.168
gl
19
Sig.
.764
109
110
gl
27
Sig.
.000
Item 1
Item 2
Item 3
Item 4
X
Y
Varianza
Item 1
1,00
0,70
0,00
-0,44
0,71
0,75
0,30
a) Una persona obtiene en el test de responsabilidad una puntuacin que se encuentra dos
desviaciones tpicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qu
valores estimamos que se encontrar su puntuacin directa en el criterio.
b) Obtenga e interprete la proporcin de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le aadimos dos formas paralelas.
24.
A continuacin aparecen distintas partes de una salida de SPSS para el anlisis de la
fiabilidad de 6 de los 36 tems del test de matrices progresivas de Raven en una muestra de
1800 sujetos. En concreto, se analizaron los tems que ocupaban las posiciones 10, 15, 20,
25, 30 y 35 del test.
Matriz factoriala
Factor
1
.484
.245
.260
.358
.308
.245
raven10
raven15
raven20
raven25
raven30
raven35
Chi-cuadrado
15.869
gl
9
Sig.
.070
Y
RMSEA Intervalo de confianza 90%
.021
.000-.037
1,00
-,31
0,5
-0,08
0,27
1,00
-0,15
0,14
0,17
100.0
1,00
0,76 1,00
1,06 25,9
90.0
80.0
70.0
60.0
a) Diga cules son: 1) el tem que ms contribuye a la consistencia interna del test, 2) el tem
que ms contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad,
realice los clculos oportunos.
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendra el intervalo para estimar la puntuacin en el criterio de
cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de
significacin de 0.05.
d) Sabiendo que el coeficiente de fiabilidad del test de 4 tems es 0.80, obtenga e interprete el
coeficiente de validez que tendra el test si le aadimos 12 tems paralelos a los que ya tiene.
50.0
40.0
37
37
30.0
20.0
10.0
0.0
15
1
5
6
111
112
Estadsticos de la escala
Estadsticos de fiabilidad
Alfa de Cronbach
Parte 1
Valor
N de elementos
Valor
N de elementos
Parte 2
.258
3a
.255
3b
6
.229
.373
.373
.370
N total de elementos
Correlacin entre formas
Coeficiente de
Spearman-Brown
Longitud igual
Longitud desigual
Parte 1
Parte 2
Ambas partes
N
1800
1800
1800
1800
1800
1800
Medias de los
elementos
Varianzas de los
elementos
Correlaciones
inter-elementos
Parte 1
Parte 2
Ambas partes
Parte 1
Parte 2
Ambas partes
Parte 1
Parte 2
Ambas partes
Media
.769
.519
.644
.176
.239
.207
.108
.102
.098
N de
elementos
3a
3b
6
Desviacin
tpica
.797
.929
1.356
Media
.82
.78
.70
.61
.58
.37
Varianza
.636
.864
1.840
raven10
raven15
raven20
raven25
raven30
raven35
Media
2.31
1.56
3.86
Mnimo
.704
.373
.373
.145
.234
.145
.056
.080
.036
Mximo
.824
.608
.824
.208
.244
.244
.156
.115
.174
Rango
.120
.235
.451
.064
.010
.099
.100
.035
.138
Mximo/
mnimo
1.170
1.629
2.208
1.439
1.043
1.687
2.777
1.429
4.830
Varianza
.004
.016
.027
.001
.000
.002
.002
.000
.002
N de
elementos
3a
3b
6
3a
3b
6
3a
3b
6
Estadsticos total-elemento
raven10
raven15
raven20
raven25
raven30
raven35
Media de la
escala si se
elimina el
elemento
3.04
3.09
3.16
3.26
3.29
3.49
Varianza de
la escala si
se elimina el
elemento
1.449
1.529
1.456
1.365
1.369
1.434
Correlacin
elemento-tot
al corregida
.269
.133
.159
.207
.196
.148
Correlacin
mltiple al
cuadrado
.076
.029
.030
.052
.040
.028
Alfa de
Cronbach si
se eleimina
el elemento
.302
.376
.361
.330
.338
.370
Estadsticos de fiabilidad
Alfa de
Cronbach
.592
Alfa de
Cronbach
basada en
los
elementos
tipificados
.598
N de
elementos
8
item1
item2
item3
item4
item5
item6
item7
item8
Media
1.66
1.98
1.54
1.68
1.72
2.60
2.22
2.65
Desviacin
tpica
1.278
1.134
1.224
1.055
1.093
1.065
1.059
1.157
N
102
102
102
102
102
102
102
102
113
Prueba de Bondad de ajuste modelo de dos factores:
Estadsticos total-elemento
item1
item2
item3
item4
item5
item6
item7
item8
Media de la
escala si se
elimina el
elemento
14.37
14.05
14.49
14.35
14.31
13.43
13.81
13.38
Varianza de
la escala si
se elimina el
elemento
17.444
16.918
17.401
18.627
16.811
17.456
16.470
17.684
Correlacin
elemento-tot
al corregida
.219
.344
.246
.184
.380
.318
.445
.246
Correlacin
mltiple al
cuadrado
.368
.167
.188
.095
.303
.132
.338
.336
Alfa de
Cronbach si
se eleimina
el elemento
.586
.544
.575
.590
.533
.553
.515
.574
Parte 1
Valor
N de elementos
Valor
N de elementos
Parte 2
Longitud igual
Longitud desigual
13
Sig.
.866
.216
4a
.448
4b
8
.550
.710
.710
.710
N total de elementos
Correlacin entre formas
Coeficiente de
Spearman-Brown
gl
Estadsticos de fiabilidad
Alfa de Cronbach
114
gl
20
Sig.
.000
Factor
1
2
3
4
5
6
7
8
Autovalores iniciales
% de la
Total
% acumulado
varianza
2.199
27.490
27.490
1.670
20.873
48.363
1.000
12.500
60.862
.867
10.834
71.696
.784
9.805
81.501
.586
7.322
88.823
.498
6.220
95.043
.397
4.957
100.000
Matriz factoriala
Factor
1
item1
item2
item3
item4
item5
item6
item7
item8
.973
.194
-.052
-.003
-.048
.188
-.029
.589
2
-.004
.385
.447
.328
.658
.306
.745
.066
item1
item2
item3
item4
item5
item6
item7
item8
Factor
1
-.045
.376
.449
.327
.660
.298
.746
.041
2
.972
.210
-.034
.010
-.021
.201
.003
.591
Responda razonadamente a las siguientes preguntas:a) Asumiendo que las dos mitades son
formas paralelas, obtenga e interprete el coeficiente de fiabilidad del
a.1) test completo de 8 tems
a.2) subtest formado por los tems 5, 6,7 y 8
b) Para maximizar la varianza del test habra que eliminar el tem _____, ya que
c) El ndice de homogeneidad corregido del tem 2 es ______. Con un nivel de confianza del
95%, considera que la relacin entre ese tem y la puntuacin en el resto del test es
significativamente distinta de cero?
d) Para maximizar la consistencia interna del test habra que eliminar el tem _____, ya que
115
116
Si los tres tests tuviesen la misma longitud el ms fiable sera el tercero, ya que si
alargsemos el Test 1 hasta que tuviese 40 tems su coeficiente de fiabilidad valdra
0,46. El ms vlido sera tambin el Test 3, ya que al alargar el Test 1 su coeficiente de
validez toma el valor de 0,33.
11.
SOLUCIONES
1.
a) Obtener su coeficiente de validez.
b) Aportar informacin sobre su validez de contenido.
c) Aportar datos sobre su validez factorial. Cabe pensar que si el test es vlido, sature en el
mismo factor que los otros tests que miden constructos relacionados.
2.
El coeficiente de validez viene determinado por varios factores:
- La fiabilidad del test y del criterio.
- La longitud de ambos.
- La variabilidad del grupo normativo en ambos.
- La autntica relacin entre el test y el criterio.
3.
No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En
este caso, la validez mxima que puede alcanzar este test completamente fiable sera la raz
cuadrada del coeficiente de fiabilidad del criterio, que sera igual a 0.77.
12.
rx y2 = 0.25; Sy2 = 2
Coeficiente de validez: 0.5
Varianza de los errores de pronstico: 1.5
Amplitud del intervalo: 4.80
13.
a) Indice de homogeneidad
b) ndice de validez
c) varianza explicada por un factor
d) Saturacin
e) Coeficiente de fiabilidad
f) Coeficiente de determinacin
4.
No estara totalmente justificada la desestimacin del cuestionario, dado que, por
tener tan pocos tems, obtendramos un incremento apreciable en sus cualidades
psicomtricas al incrementar su longitud.
14.
a) 0.8 es mayor que el tope mximo alcanzable (0.54 = 0.42/0.6) alargando el test,
luego NO se puede alcanzar el valor 0.8.
b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.
5.
a) rxy = 0.98
b) Sy-y' = 0.45
15.
a) Y = (30 + 24)/ 2 = 27.
b) Menor. Con probabilidad 0.99, A= (2)2.57S. Con probabilidad 0.95, A = (2)1.96S.
6.
a) S. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida.
b) No, ya que rxy 0.25 = 0.5 .
16.
a) Las varianzas de los tems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 (7.36/17.67)) = 0.70. Alta consistencia, pues el test es corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
c) La correlacin par e impar es 0.33. El coeficiente de fiabilidad del test (dos mitades) es
0.50. El nmero de formas paralelas necesarias para alcanzar la validez 0.6 es 36.73. El test
deber tener 36.73x6= 220.38 tems, por lo que deberemos aadir 220.38 6 = 214.38 215
tems.
7.
a) Parece que s, dado que los dos tems de aptitud verbal obtienen saturaciones altas
en el Factor II, mientras que los dos tems de aptitud numrica obtienen saturaciones altas en
el Factor I.
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4 = 44.
8.
El Factor I podra definirse como un producto bueno.El
producto barato y el Factor III como un producto bonito.
Factor II como un
9.
a) Y' = 9.475
b) Li = 3.97 Ls = 14.98
10.
a) n = 2.04 2, debera estar formado por 2 formas paralelas del test inicial; es decir,
por 10 tems.
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la longitud del
test.
c) El mximo valor del coeficiente de validez obtenible por alargamiento del test es
Rxy rxy / rxx = 0.5 / 0.4 = 0.79.
17.
a) No, pues las medias son mayores que 1.
b) Eliminaramos el tem 4. La varianza del test resultante sera 8.672. Su coeficiente alfa
sera 0.684.
c) Hay que quitar los tems 2 y 4. El test formado por los tems 1 y 3 tendra un coeficiente de
fiabilidad de 0.682 (dos mitades), pues la correlacin entre la mitad par e impar es 0.517 y
aplicando Spearman-Brown, el coeficiente de fiabilidad es 0.682.
d) 0.508
e) 33.63%
f) Claramente no. Aunque el RMSEA indica un buen ajuste del modelo de un factor, el peso
del tem 4 es negativo.
18.
Sera mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado la
selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar un mayor
coeficiente de validez.
117
19.
La correlacin entre las puntaciones verdaderas del test y criterio es mayor o igual que
el coeficiente de validez (vase apartado 4.3).
20.
a) F
b) V
c) F
21.
a) Tpico (las medias de los tems son mayores de 1).
b) 1.398 (el % de varianza explicada sera 15.536).
c) No. Hemos retenido dos factores. El modelo de un factor no ajusta bien a los datos. El
estadstico de contraste muestra que con un nivel de confianza del 95%, podemos decir que
algn residual es distinto de cero. Adems el RMSEA es mayor que 0.08. Por el contrario,
para el modelo de dos factores, los indicadores de ajuste muestran valores aceptables (el
RMSEA nos indica que el modelo muestra buen ajuste a los datos ya que su valor es menor
que 0.05).
d) Para el factor 1, se utilizaran los tems 2, 5, 6 y 9. Podramos ponerle la etiqueta de
Percepcin de la propia capacidad. Para el factor 2, se utilizaran los tems 1, 4, 7 y 8. La
etiqueta, atendiendo al contenido comn de esos tems, podra ser Curiosidad intelectual.
e) Primera mitad: tems 1 a 5. Su alfa es 0.531.
f) El coeficiente de fiabilidad del test de 10 tems es 0.671 = 2r/(1+r), siendo r la correlacin
entre las dos partes y el coeficiente de fiabilidad de cada una. Despejando, r = 0.505.
g) El tem 8 que tiene el menor ndice de homogeneidad corregida (HC = 0.165). Adems, al
eliminarlo aumenta alfa desde 0.654 a 0.657
h) Los dos que tengan menores valores en esa columna: tems 2 y 9.
22.
El tem 2, pues tiene la mayor correlacin con el test (0.87). El tem 4, pues tiene la
mayor diferencia V-H (0.29).
b) El coeficiente alfa vale 0.06. El test no tiene consistencia.
c) 12.97
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de validez
es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del criterio puede
explicarse por las puntuaciones en el test
a) (38.27, 54.43).
b) El coeficiente de validez del test alargado es 0.43. La proporcin pedida es 0.18. Es
un coeficiente de validez medio.
23.
24.
a) 0.59, pues 0.37/(1-0.37) = 0.587. Lo omiten 666 = (0.37)1800.
b) Las alternativas no son igualmente elegidas.
c) Las diferencias entre puntuaciones y puntuaciones corregidas sern pequeas, pues el
nmero de errores en los tems es bajo y el nmero de opciones en cada tem es alto.
d) El coeficiente de fiabilidad por el mtodo de las dos mitades es 0.373. Alargando el test 6
veces, resulta un test con coeficiente de fiabilidad dos mitades de 0.781. El 78% de la
118
varianza observada se debe a la varianza de los niveles de rasgo. Es una fiabilidad aceptable
para un test de esa longitud.
e) La mitad ms consistente es la parte 1 (tems 10, 15 y 20). Su alfa es 0.258.
f) No, pues el ajuste del modelo de un factor es bueno segn ambos indicadores de ajuste.
Podemos mantener que el modelo se ajusta a los datos con un nivel de confianza del 95% y
adems el RMSEA indica un buen ajuste (RMSEA < 0.05).
g) tem 10, pues la correlacin es 0.484.
h) 10.756 (suma de saturaciones al cuadrado dividido por 6 y multiplicado por 100).
i) Claramente no, las dos mitades difieren en media puesto que los tems estn ordenados por
dificultad.
25.
a1) El coeficiente de fiabilidad del test es 0.71. El 71% de la varianza de las puntuaciones
observadas corresponde a variabilidad de las puntuaciones verdaderas (y el 29% al error de
medida).
a2) 0.550, pues es la correlacin entre las dos partes.
b) Para maximizar la varianza del test habra que eliminar el tem 4, ya que al eliminarlo la
varianza del test de 7 tems alcanza el valor ms alto (18.627).
c) El ndice de homogeneidad corregido del tem 2 es 0.344. Si sera significativo, pues
.344 102 = 3.474 > 1.96.
d) Para maximizar la consistencia interna del test habra que eliminar el tem 4, ya que, al
eliminarlo, se conseguira que el test de 7 tems tenga el mayor alfa (0.590).
e) El tem 4, por que prcticamente no cambia el coeficiente alfa del test al eliminar ese tem.
Adems, la puntuacin en ese tem no correlacina significativamente con la puntuacin en el
resto del test ( .184 102 = 1.858 < 1.96)
f) La comunalidad del tem 1 es (-0.045)2+(0.972)2 = 0.947. El 95% de la varianza del tem 1
est explicado por los dos factores.
g) Deberan extraerse 2 factores, ya que los indicadores de ajuste muestran que el modelo de
un factor no se ajusta a los datos, mientras que el modelo de dos factores s.
h) Para interpretar el significado del factor 2 utilizara los tems 1 y 8, ya que son los que
tienen saturaciones ms altas en ese factor, en la matriz rotada.
i) La proporcin de varianza total explicada por el factor I no rotado es 1.534/8 = 0.19, y por
el factor II rotado es 1.381/8 = 0.17.
119
120
Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
permitir obtener la EM de cualquier nio al que apliquemos el test. Por ejemplo, si un nio
obtiene el test una puntuacin directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin es la media que obtienen
los nios de 9 aos.
El Cociente Intelectual (CI) se denomina as (y no coeficiente, como es usual escuchar en
determinados mbitos) porque es el resultado de dividir la edad mental (EM) entre la edad
cronolgica (EC) del sujeto; para evitar decimales el resultado se multiplica por 100, de tal
manera que se puede obtener a partir de la frmula:
CU =
EM
100
EC
Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una puntuacin directa de 18
puntos, diremos que su EM es de 11 aos, y que su CI es:
- Centiles o percentiles.
- Puntuaciones tpicas: estndares, normalizadas, escalas T y D, estaninos o eneatipos.
Lo ms usual en las pruebas comercializadas es encontrarse baremos realizados en escala de
centiles estaninos.
2.- BAREMOS CRONOLGICOS
Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene
sentido comparar la puntuacin de un sujeto con las que obtienen los de su misma edad y los de
edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a diferentes
grupos de edad (nios entre 5 y 14 aos), y que obtenemos las puntuaciones medias de cada
grupo de edad en la prueba, siendo las que siguen:
Edad:
10
11
12
13
14
Media: 6
11 14
15
18
22
24
27
CU =
11
100 = 110
10
121
122
As, si un sujeto obtiene una puntuacin directa de 20 puntos en el cuestionario, diremos que
supera en conocimientos informticos al 9,5% de los sujetos universitarios, mientras que ms del
90% de los alumnos universitarios tienen mayor conocimiento en el manejo de ordenadores que
la persona evaluada.
El modo de clculo del centil asociado a una puntuacin se resume en los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a mayor, las
posibles puntuaciones directas (Xi) que se puedan obtener en el test.
2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos del grupo
normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas (Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a la
puntuacin directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el nmero
total de sujetos que forman el grupo normativo.
En Anlisis de Datos se vio el significado y proceso de clculo de las puntuaciones tpicas (Zx)
asociadas a unas puntuaciones directas determinadas. En este apartado vamos a encontrar una
clara aplicacin de estas puntuaciones, y de otras que se derivan de stas, para baremar un
cuestionario; vamos a diferenciar adems entre baremos tpicos estndares y baremos
normalizados.
4.1.- PUNTUACIONES TPICAS ESTNDARES
Ejemplo:
Supongamos que aplicamos un cuestionario de conocimientos en el manejo de ordenadores a un
grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos que
obtuvieron cada una de ellas (f) son las siguientes:
X: 28 27 26 25 24 23 22 21 20 19 18
f: 2
4 21 32 45 37 22 18
Zi =
Xi - X
SX
puede ser positiva o negativa, e indica el n de desviaciones tpicas que se aleja de la media una
determinada puntuacin directa.
12 6 1
A partir de estos datos, los centiles correspondientes a cada puntuacin directa, se obtienen de la
siguiente forma:
X
Centiles
C = (100)F/200
28
27
26
25
24
23
22
21
20
19
18
2
4
21
32
45
37
22
18
12
6
1
200
198
194
173
141
96
59
37
19
7
1
100
99
97
865
705
48
295
185
95
35
05
123
124
4.3.- PUNTUACIONES TPICAS DERIVADAS
Las puntuaciones tpicas (estndares y normalizadas) tienen dos dificultades formales para su
interpretacin: la posibilidad de asumir valores no enteros y negativos. Con objeto de superar
estas pequeas dificultades, se han propuesto otros baremos, que no son ms que una
transformacin lineal de las puntuaciones tpicas, con lo que no se alteran las propiedades de la
escala tpica. Estas puntuaciones se denominan escalas tpicas derivadas (si el objeto de la
transformacin lineal es una puntuacin tpica estndar) o escalas tpicas derivadas
normalizadas (si suponen la transformacin lineal de una puntuacin tpica normalizada),
siendo las principales las denominadas como escala T, escala D y estaninos (o eneatipos):
,5
C2
,4
,3
,2
C1
,1
C3
0,0
-5,0
-3,8
-4,4
-2,6
-3,2
-1,4
-2,0
-,2
-,8
1,0
,4
2,2
1,6
3,4
2,8
4,6
4,0
Pues bien, conociendo la proporcin que queda por debajo de un punto dado de la distribucin,
podemos utilizar la tabla de la curva normal para obtener sin clculos la puntuacin tpica
asociada (Zn), que se denominar puntuacin tpica normalizada. Indicar el nmero de
desviaciones tpicas que una puntuacin se encuentra por encima (si es positiva) o por debajo (si
es negativa) de la media en una distribucin normal.
Por ejemplo, las puntuaciones tpicas normalizadas asociadas a los centiles 1, 26, 57 y 97 son:
Centil Centil/100 Zn
1
26
57
97
0,01
0,26
0,57
0,97
-2,33
-0,64
0,18
1,88
Si no se puede asumir racionalmente o no se puede comprobar que las puntuaciones siguen una
distribucin normal, no se puede hacer uso de las tablas de la curva normal para obtener las Zn.
S podran calcularse las puntuaciones tpicas estndares Zx, ya que no asumimos ningn
supuesto sobre la distribucin de los datos. Si los datos de una muestra se ajustan a la normal,
entonces cada Zx de una persona es similar a su Zn.
Escala
Derivada
Derivada y normalizada
Escala T
Escala D
Estaninos
Ti= 50+(10)Zi
Di= 50+(20)Zi
Tni= 50+(10)Zni
Dni= 50+(20)Zni
Eni= 5 + 2 Zni
En definitiva, las puntuaciones T representan una escala con media 50 y desviacin tpica 10.
As, una puntuacin T = 78 significa que la persona obtiene una puntuacin Zi = 2.8, es decir,
2.8 desviaciones tpicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviacin tpica 20. Por ejemplo, una
puntuacin D = 35 indica que la persona obtuvo una puntuacin Zi = -.75, o lo que es lo mismo,
una puntuacin que se encuentra .75 desviaciones tpicas por debajo de la media del grupo
normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviacin tpica 2. Una persona que
obtenga el estanino 8 en un test de aptitud espacial indicar que se encuentra 1.5 desviaciones
tpicas por encima de la media del grupo normativo.
Consideremos un caso de baremacin de una misma puntuacin en diferentes escalas. Por
ejemplo, a un sujeto que obtiene una puntuacin directa de 30 puntos en un test de aptitud
mecnica con media de 38 puntos y desviacin tpica 4, le podemos asignar puntuaciones en los
siguientes baremos:
Puntuacin tpica: -2
Escala T: 30
Escala D: 10
Estanino: 1
Todas estas puntuaciones en escalas o baremos diferentes indican lo mismo: que es un sujeto
que se encuentra dos desviaciones tpicas por debajo de la media de grupo normativo en aptitud
mecnica.
La interpretacin de cada una de las escalas tpicas derivadas normalizadas sigue la misma
lgica que su correspondiente escala tpica derivada sin normalizar, haciendo siempre la
salvedad de que la interpretacin hay que referirla a una distribucin normal.
125
EJERCICIOS
1.
2.
Un grupo de 200 personas obtuvo en un test de inteligencia una media de 14.78
puntos y una desviacin tpica de 3.34. La siguiente tabla recoge la distribucin de
frecuencias de las puntuaciones obtenidas por los sujetos en el test:
X
f
7
2
8
3
9
4
10 11 12 13 14 15
11 17 15 23 20 19
16
23
17
22
18
15
19
8
20
8
21
4
22
5
8.
Algunas de las puntuaciones de Juan y Antonio en un examen han sido las siguientes:
23
1
a) Centil.
b) Tpica normalizada (Zn).
c) Escala D no normalizada.
d) Estanino.
4.
En un test distribudo normalmente, el sujeto A ocupa el centil 20, el B el centil 40 y
el C el centil 60. Por lo tanto, la diferencia entre las puntuaciones directas de A y B ser la
misma que para los sujetos B y C. V ( )
F ( ) Depende ( ). Razone su respuesta:
5.
Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70 y 80. Diga
razonadamente qu puntuacin corresponde a cada escala:
126
7.
La puntuacin de una persona en un test de inteligencia se encuentra 0,5
desviaciones tpicas por encima de la media del grupo normativo. Obtenga sus puntuaciones
en los baremos Z, T y D.
Juan
En
Centil
Zn
93
1,5
Dn
Antonio
Tn
65
1) Dn = 50
2) Tn = 20
3) En = 5
4) Zn = -3
5) Centil = 90
X 45
44
43
42
41
40
39
38
15
45
85
90
56
44
10
127
12.
Una persona obtiene una puntuacin Tn = 80 en el baremo de una escala de
autoritarismo realizado en una muestra A. La misma persona obtiene una Tn = 70 en la
misma escala baremada en una muestra B. Cul de las dos muestras manifiesta mayor nivel
de autoritarismo? Razone su respuesta.
128
SOLUCIONES
1.
La construccin de baremos tiene por objeto poder interpretar puntuaciones directas
de los tests en funcin de la posicin relativa que esas puntuaciones directas tienen en el
conjunto de las puntuaciones obtenidas.
2.
X
f
F
C
Zx
17
22
159
80
18
15
174
87
10
-1,43
35,7
21,4
21
1,86
68,6
87,2
19
8
182
91
20
8
190
95
21
4
194
97
22
5
199
100
23
1
200
100
c)
X
3.
Zn
Tn
Dn
10
-1,28
37,2
24,4
2,44
21
1,88
68,8
87,6
8,76
a) C21= 40
b) Zn = -0,8
c) D = 40
d) E = 3
4.
Falso. La escala de centiles tiene propiedades ordinales. Si, como se dice, la
distribucin es normal, la diferencia de 20 en la escala de centiles extremos indicar una
mayor diferencia de puntuaciones que la diferencia de 20 en centiles centrales. La diferencia
entre A y B ser mayor que la diferencia entre B y C.
5.
T = 60
D = 70
C80
6.
La alternativa correcta es la c), ya que ambos baremos resultan de una transformacin
lineal de las puntuaciones tpicas normalizadas.
7.
8.
130
129
10.
45
44
43
42
41
40
39
38
15
45
85
90
56
44
10
350
345
330
285
200
110
54
10
100
98,57
94,28
81,43
57,14
31,43
15,42
2,85
Zn = 0,89
a) C81 = 42, Z= 0,54,
b) Slo si ZA = ZB = 0. En ese caso, TA = DB = 50
11.
a) La segunda persona tendr 15 errores y 5 aciertos (15 = (20)3/4 y 5 = (20)/4). Su
puntuacin corregida ser 30.
b) El estanino ser 2.
12.
La persona tiene una puntuacin mayor en la muestra A que en la muestra B, eso
indica que la primera muestra es menos autoritaria que la muestra B.
131
Frente a la TC, una de las propiedades de la TRI es su invarianza, en un doble
sentido: invarianza de los tems respecto a posibles diferentes distribuciones de la
habilidad o del rasgo (en lo sucesivo nivel de habilidad y de rasgo sern sinnimos), e
invarianza de la habilidad medida a partir de diferentes conjuntos de tems. Haremos
un breve comentario sobre cada tipo de invarianza. Si las condiciones de aplicacin de
la TRI se cumplen, ha de ocurrir lo siguiente:
132
calculamos la proporcin (5/132 = 0.04). Hacemos lo mismo con los que obtuvieron en el
test 51 puntos (y obtenemos la proporcin, supongamos que 0.15),... con las que obtuvieron
en el test 100 (la proporcin fue 0.45),... con las que obtuvieron 150 (la proporcin fue 0.99).
La siguiente grfica muestra la proporcin de aciertos en el grupo de personas que obtuvo en
el test 50 puntos, 51, .. 150.
Grfica 1
La curva caracterstica de un tem (CCI) indica la probabilidad que tienen de acertarlo las
personas que se enfrentan a l. Esta probabilidad depende, naturalmente, de cual sea el nivel
de la persona en la variable medida.
Podemos ver esto con ms claridad mediante un ejemplo. Supongamos que tenemos un test
que mide inteligencia y que ha sido aplicado a muchsimas personas (100.000, por ejemplo).
Supongamos que la menor y mayor puntuacin obtenidas en el test son 50 y 150. Vamos a
representar el rendimiento en un tem concreto de la siguiente forma: Nos fijamos en todas
las personas que han obtenido la puntuacin 50 (supongamos que son 132). Vemos cuantas
personas de las anteriores han acertado el tem (supongamos que han sido slo 5) y
1,0
,8
- Sea cual sea la distribucin de los niveles de rasgo obtendremos las mismas
estimaciones de los parmetros de los tems. Esta propiedad se cumple tambin en
otros mbitos. Por ejemplo, en Estadstica, si se cumplen los supuestos de la regresin
lineal, se llega a los mismos parmetros cuando se ajusta la recta de regresin a toda
la poblacin o slo a parte de ella. Anlogamente, los parmetros de los tems debern
ser los mismos si stos se han aplicado a un grupo de personas con alto nivel de rasgo,
o a un grupo con niveles bajos. Es decir, los parmetros de los tems sern los mismos
sea cual sea la distribucin de los niveles de habilidad de la muestra en los que se han
aplicado.
,6
,4
,2
0,0
40
60
80
100
120
140
160
Inteligencia
En este ejemplo podemos ver que cuanto mayor es el cociente intelectual de las personas,
mayor es la proporcin de aciertos en el tem. A una puntuacin de 100 le corresponde una
proporcin de 0.45; mientras que a una de 150 le corresponde una proporcin de 0.99.
En la grfica 1 tenemos una CCI emprica, pero la TRI necesita resumir la informacin que
contiene cada CCI emprica en una frmula o modelo en el que uno, dos o tres valores
resuman la informacin contenida en la CCI emprica. En la aplicacin de de la TRI, un paso
inexcusable es optar por un modelo (o frmula) que sea una buena descripcin del
rendimiento en los tems. Vamos a ver a continuacin que son varios los modelos que podran
dar cuenta de una distribucin como la mostrada en la grfica 1. Los modelos de CCI ms
utilizados en la prctica son los logsticos de uno, dos y tres parmetros.
133
134
Grfica 2
,8
D( - b)
e
1 + e D(
- b)
1
1+e
D( - b)
Donde
P(): Probabilidad de acertar el tem si el nivel de rasgo es .
: Nivel de habilidad del sujeto.
b : Indice de dificultad del tem.
e : Base de los logaritmos neperianos (2.718)
D : Constante (D = 1.7 1)
El nivel de habilidad del sujeto () puede definirse en cualquier escala (en la grfica 1 se ha
utilizado la escala de cociente intelectual). No obstante, en la prctica, suele utilizarse una
escala tpica, con media cero, varianza uno y un rango de valores entre -3.0 y 3.0.
El ndice de dificultad (b) es aquel valor de para el cual P()= 0.5. Por tanto, cuanto mayor
sea "b" ms difcil es el tem. En la grfica 2, se han representado dos CCIs. En la primera, la
que est ms a la izquierda, el valor de al que corresponde P()= 0.5 es aproximadamente 0.95. Por lo tanto, la dificultad del primer item es b1= -0.95. En el segundo tem, el valor de
al que corresponde P()= 0.5 es aproximadamente 0.6. Por lo tanto, la dificultad del segundo
tem es b2= 0.6. La grfica muestra que la probabilidad de acertar el tem es sistemticamente
menor en el tem 2 que en el tem 1. El tem 2 es ms difcil que el uno, y sus ndices de
dificultad as lo muestran (b2 > b1).
,4
Probabilidad
P( ) =
,2
P1
P2
0,0
-5
-4
-3
-2
-1
Nivel de rasgo
Este modelo aade al anterior un segundo parmetro que indica la capacidad discriminativa
del tem:
P( ) =
Da( - b)
e
1 + e Da(
- b)
1
1 + e Da(
- b)
135
probabilidad prxima a cero de acertarlo (y casi ninguna lo acertar). Por lo tanto, el tem
2 discrimina entre los que tienen > 0.75 y los que tienen < 0.75.
136
En la grfica 4 podemos ver la CCI de varios tems con los mismos valores de a (1) y b
(0), pero distintos valores de parmetro c (c1= 0, c2= 0.15 y c3= 0.30).
Por su parte, el tem 1 tiene muy poca pendiente cuando = 0.75. En consecuencia, aunque
la mayora de las personas con > 0.75 lo acertarn, muchas lo fallarn (pues la probabilidad
de acierto es claramente inferior a uno). Igualmente, aunque la mayora de las personas con
< 0.75 fallarn el tem, muchas lo acertarn, pues la probabilidad de acierto es claramente
superior a cero. En el tem 1 la probabilidad crece muy suavemente a medida que aumenta
por lo que no es buen discriminador entre las personas con > 0.75 y las que tienen < 0.75.
Grfica 4
1,0
,8
Grfica 3
1,0
,8
,8
1,0
,6
,4
,2
0,0
-5
-4
-3
-2
-1
,6
,4
,2
0,0
-5
Nivel de rasgo
-4
-3
-2
-1
Nivel de rasgo
Este modelo aade a los dos parmetros "a" y "b" un tercero, "c", que representa la
probabilidad de acertar el tem al azar. Exactamente "c" es el valor de P() para valores
extremadamente bajos de . La expresin matemtica es la siguiente:
P( ) = c +
= c +
Da( - b)
(1 c ) e
1 + e Da(
- b)
1 c
1 + e Da(
- b)
,6
,4
tem 1
,2
tem 2
0,0
tem 3
-5
-4
-3
-2
-1
Nivel de rasgo
Tal y como hemos visto en el apartado anterior, en todos los modelos de CCIs, la
probabilidad de acertar un tem depende nicamente de sus parmetros y de . En un tem
que mida el nivel de vocabulario de ingls, la probabilidad de acertarlo depende de los
valores "a", "b" y "c" del tem y del nivel de vocabulario ingls de la persona (su ). La CCI
excluye que el rendimiento en el tem dependa de los niveles de la persona en otros rasgos
ms o menos relacionados con el de vocabulario de ingls (como el nivel de ingls hablado,
el nivel de gramtica inglesa, ....). De tener en consideracin otros rasgos, en la frmula
apareceran los elementos 2, 3, etc.. , es decir, los niveles de la persona en esos otros rasgos.
En otras palabras, el rendimiento en un tem depende del nivel de la persona en un slo rasgo
o dimensin.
Un test consta de un conjunto de tems. La TRI supone adems que todos los tems que
forman el test han de medir un mismo y nico rasgo. El supuesto de unidimensionalidad
exige que todos y cada uno de los tems del test midan una nica dimensin.
137
138
Este supuesto nunca se cumple totalmente porque el rendimiento en un test est influido por
variables cognitivas y de personalidad, como la motivacin, ansiedad, etc. Por lo que, en la
prctica, es una cuestin de grado, y no puede afirmarse categricamente si un conjunto de
tems son o no unidimensionales. Hay, no obstante, varios mtodos para comprobar la
unidimensionalidad. El propuesto por Reckase (1979) se basa en el anlisis factorial y
consiste en estudiar la varianza explicada por el primer factor extrado de la matriz de
correlaciones entre tems. En la prctica, cuando el primer factor explica ms de un 25% de la
varianza total, tras haber eliminado los tems con saturaciones inferiores a 0.10, se considera
que se cumple el supuesto de unidimensionalidad.
Si correlacionamos las cien respuestas al primer item con las cien respuestas al segundo, la
correlacin de Pearson es cero. Lo visto sugiere un procedimiento para contrastar si el
supuesto de independencia local se cumple. Consiste en obtener la matriz de correlaciones
entre los tems, pero no en la muestra completa, sino en submuestras que sean lo ms
homogneas posible en cuanto al nivel de habilidad de sus miembros. En tales submuestras
tiene que ocurrir que ningn tem correlacione con ningn otro, si se cumple el supuesto.
(Hambleton y otros, 1991, pag. 56).
4.- ESTIMACIN DE PARMETROS
Matemticamente puede expresarse diciendo que la probabilidad de que un sujeto acierte "n"
tems es igual al producto de las probabilidades de que acierte cada uno de ellos por separado.
Seleccionado un modelo de TRI, hay que aplicar el test a una muestra amplia y estimar los
parmetros de cada tem y la de cada sujeto, a partir de la matriz de respuestas obtenidas. Si
tenemos, por ejemplo, diez tems que miden un mismo rasgo, los podemos aplicar a una
muestra de 300 personas. La matriz de datos tendr 300 filas, siendo cada fila la secuencia de
unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el modelo
logstico de tres parmetros, tendremos que estimar los 30 parmetros de los tems (es decir,
"a", "b" y "c" de cada tem) y 300 parmetros de las personas (los 300 valores de "", uno por
persona). La estimacin de parmetros es el paso que nos permite llegar de las respuestas
conocidas de las personas a los tems a los valores desconocidos de los parmetros de los
tems y de los niveles de rasgo.
Por ejemplo, un test consta de dos tems y la probabilidad de que Juan acierte el primero es P1
= 0.4 y la de que acierte el segundo P2 = 0.8. El principio de independencia local establece
que la probabilidad de que acierte los dos viene dada por: (P1)(P2) = (0.4)(0.8) = 0.32.
Si lanzamos una moneda diez veces y obtenemos siete caras, el estimador mximo-verosmil
del parmetro "p" (probabilidad de cara de la moneda) es 7/10= 0.7, como se demuestra en
los libros de Estadstica (vase Amn (1984), pag. 249 y ss). El resultado "siete caras en diez
lanzamientos" es poco compatible con que la probabilidad de cara sea 0.1, 0.2, ... . De
hecho, la probabilidad de obtener siete caras y tres cruces es prcticamente cero si p= 0.1 o si
p= 0.2. Dicha probabilidad pasa a ser 0.117 si p= 0.5, y alcanza el mximo valor (0.267)
cuando p= 0.7. El estimador mximo-verosmil proporciona el valor de "p" bajo el que tiene
mxima probabilidad el suceso que hemos encontrado.
Existe independencia local entre los tems de un test si la respuesta que una persona da a uno
de ellos no depende de las respuestas que da a los otros.
La independencia local se deriva de la unidimensionalidad porque, simplemente, significa
que la respuesta a un tem slo depende de sus parmetros y de , y no est influida por el
orden de presentacin de los tems, las respuestas que ya se hayan dado, etc..
140
139
Como el sujeto ha acertado el primer tem, podemos calcular, mediante su CCI
(recurdese que los parmetros del tem son conocidos), la probabilidad de que esto ocurra
para cada nivel de . Grficamente, para un tem cuyo nico parmetro es b1 = -0.7:
Grfica 6
1,0
,8
Grfica 5
1,0
,6
,4
,2
0,0
-5
-4
-3
-2
-1
,4
Nivel de rasgo
,2
0,0
-5
-4
-3
-2
-1
Nivel de rasgo
Si slo hubiera respondido a ese tem, a partir de la grfica anterior podemos ver que no
existe un nico valor de para el que la probabilidad del suceso encontrado (acierto en el
primer tem) sea mxima. Por el contrario, son infinitos los valores de que para los que la
CCI alcanza el valor mximo 1.
Como el sujeto ha fallado el segundo tem, a partir de su CCI podemos calcular la
probabilidad de que esto ocurra para cada uno de los valores de . En concreto, como la
probabilidad de fallar (Q) se puede obtener a partir de la probabilidad de acertar (Q = 1-P),
podremos representar la probabilidad de error en el segundo tem como se muestra en la
siguiente grfica. Ntese que la siguiente grfica no es la CCI del tem 2, pues para cada
valor de se ha representado la probabilidad de error y no la de acierto, como exige la CCI.
Supongamos que el nico parmetro del tem 2 es b2 = 1.
Esta grfica nos indica que es ms probable que fallen el tem los sujetos con niveles bajos de
habilidad que los sujetos con niveles altos (cosa bastante lgica). Por lo tanto, si el sujeto slo
hubiese respondido a este tem, de nuevo son infinitos los valores de que maximizan la
probabilidad del suceso encontrado (error en el segundo tem).
Como hecho ha respondido a dos tems, el valor estimado de para este sujeto sera aquel
que haga ms probable el resultado obtenido (acertar el primer tem y fallar el segundo).
Segn el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto,
la probabilidad de que ocurran ambos conjuntamente es igual al producto de las
probabilidades de acertar el primero (P1) por la de fallar el segundo (Q2). Si representamos
grficamente la funcin L = (P1)(Q2) para cada valor de , correspondiente al ejemplo que
venimos comentando, obtendramos una curva parecida a la siguiente:
Grfica 7
,6
,5
,4
,3
Verosimilitud (L)
,8
,6
,2
,1
0,0
-5
-4
-3
-2
Nivel de rasgo
-1
141
En este caso vemos que la que hace ms probable el resultado obtenido (acierto en el
primer tem y fallo en el segundo) es algo mayor que cero. De hecho, 0.15 ser la estimada
para este sujeto.
En general, una persona responder a un nmero de tems mayor de dos y producir una
particular secuencia de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y
errores se puede escribir como:
L = P R Q1- R
Donde:
R: Resultado en cada tem (1, acierto; 0, fallo)
P: Probabilidad de acierto en cada tem
Q: Probabilidad de error en cada tem (Q= 1-P).
La estimada por el mtodo de mxima verosimilitud ser el valor de para el que la
anterior expresin alcanza su mximo valor.
Apliquemos lo anterior al siguiente ejemplo. Un test consta de 4 tems, cuyos parmetros,
segn el modelo de Rasch, son -1, 0, 1 y 2. Una persona completa el test y acierta los tres
primeros tems y falla el cuarto. Obtenga el valor de la funcin de verosimilitud, L, para los
siguientes valores de : -3, -2, -1, 0, 1 y 2. Cul de los anteriores valores maximiza L?
Aplicando la frmula del modelo de Rasch (o de un parmetro), se obtiene la probabilidad de
acierto para cada tem y cada uno de los valores de :
tems b
1 -1
2
0
3
1
4
2
P()
--------------------------------------------------3 -2 -1
0
1
2
3
0.03 0.15 0.50 0.85 0.97 0.99 0.99
0.01 0.03 0.15 0.50 0.85 0.97 0.99
0.01 0.01 0.03 0.15 0.50 0.85 0.97
0.01 0.01 0.01 0.03 0.15 0.50 0.85
142
L(3) = (0.99)(0.99)(0.97)(1-0.85) = 0.14
L(2) = (0.99)(0.97)(0.85)(1-0.50) = 0.41
.
.
.
Los restantes valores de L son L(1)= 0.35, L(0)= 0.06, L(-1) = L(-2) = L(-3) = 0.0. Por lo
tanto, de los siete valores de considerados, el valor que maximiza L es = 2.
Cuando se trata de estimar en una situacin real el nivel de rasgo, no se hace una bsqueda
restringida a unos cuantos valores, se necesita hallar el valor de que maximiza L de entre
todos los posibles valores, no slo de entre unos pocos.
En el caso de la TRI no existen frmulas que permitan obtener las estimaciones de manera
directa. En el ejemplo de las monedas se sabe que el estimador mximo-verosmil de la
proporcin poblacional es la proporcin muestral. En la TRI, al no existir tales frmulas, las
estimaciones se obtienen por mtodos numricos, mediante programas de ordenador. En el
caso ms general se establece una funcin L que depende de los parmetros de los tems y de
los niveles de rasgo. Los programas de ordenador contienen algoritmos que encuentran el
conjunto de estimaciones para el que la funcin L alcanza el valor mximo. Los parmetros
de los tems y los niveles de rasgo de las personas sern los valores dados por el programa de
ordenador para una matriz de respuestas particular.
En la Teora Clsica, una vez aplicados unos tems a un conjunto de personas, se puede
obtener la puntuacin de cada persona en el test combinando las puntuaciones en los tems
del test. En la TRI, una vez que se han aplicado los tems, se genera la matriz de respuestas
que contiene los aciertos y fallos de cada persona en cada tem del test. A continuacin, se ha
de aplicar un programa de ordenador (ASCAL, BILOG,..) que nos dar los niveles de rasgo y
los parmetros de los tems. Segn hemos visto, por tratarse de estimaciones por el mtodo de
mxima verosimilitud, los valores que nos da el programa son los que hacen ms plausible la
matriz de datos original, son los ms compatibles con la matriz de datos original.
5.- FUNCIN DE INFORMACIN
Una vez aplicado un conjunto de tems y estimado el nivel de habilidad de un sujeto, la TRI
nos permite calcular el error tpico de estimacin (Se) de esa persona en el test aplicado.
Esto es una diferencia fundamental con la TC, que asume que el error es el mismo para todos
los sujetos.
El error tpico de estimacin nos dice la precisin con que hemos estimado . A mayor error,
menos precisin. Su tamao depende de varios factores:
1- Nmero de tems aplicado: En general, al aumentar la longitud del test disminuye
Se.
143
2- La capacidad discriminativa de los tems: Al aumentar el parmetro "a"
disminuye Se.
144
Cuanto mayor sea I() menor ser Se y, por tanto, mayor la precisin de la estimacin de .
Si se calcula I() para todos los niveles de y se representa grficamente se obtiene una
curva como la que muestra la siguiente grfica:
Grfica 8
,4
1
(P )2
PQ
Se = Se
I( ) =
1
2
Se
Por lo tanto,
I( ) =
(P )2
PQ
,3
Var( ) = S e2 =
,2
,1
0,0
-5
-4
-3
-2
-1
Nivel de rasgo
Vemos que este test (compuesto por dos tems, cuyos parmetros son a1= 1.5 , b1 = -0.7 a2= 1
y b2 = 2 ) aporta ms informacin para valores de en torno a -0.5.
La FI tiene una gran importancia en la utilizacin de los tests, ya que nos permite elegir aquel
que aporte ms informacin en el intervalo de que estemos interesados en medir.
Tambin es muy til en la construccin del test. A partir de un banco de tems calibrados (es
decir, de los que hemos estimado sus parmetros) podemos seleccionar aquellos que permitan
que la FI se ajuste a unos objetivos determinados.
Todos los conceptos anteriores referidos a la funcin de informacin del test son aplicables
tambin a cada uno de los tems por separado. De hecho la FI del test no es ms que la suma
de las FFII de cada uno de los tems que lo componen. En concreto la FI de un tem sera:
I( ) =
(P )2
PQ
145
Vemos que la nica diferencia con la FI del test es que ha desaparecido el signo de sumatorio.
Al igual que con el test completo, podemos representar grficamente la FI de los tems y ver a
que nivel de proporcionan ms informacin. La siguiente grfica muestra la funcin de
informacin de los dos tems que forman el test y la funcin de informacin del test.
Grfica 9
Un TAI difiere muchsimo de un test de lpiz y papel. Una primera diferencia es que es
administrado por un ordenador y una segunda es que cada persona es evaluada con items
distintos. Sin embargo, lo fundamental de los TAIs es que los tems son elegidos con el
criterio de estimar el nivel de habilidad de la persona con la mxima precisin y menor
nmero de tems. Ms en concreto, un TAI procede como se expone a continuacin:
a) Presentacin del primer tem.
b) Estimacin del nivel de rasgo de la persona.
c) Bsqueda del tem del banco ms informativo para el nivel de estimado en el paso
precedente.
d) Aplicacin del tem elegido.
e) Estimacin del nivel de rasgo correspondiente a la secuencia de respuestas dada a
los tems presentados.
f) De nuevo paso "c", y as sucesivamente hasta que se haya conseguido un error
tpico de estimacin menor que un tope preestablecido o se haya administrado un
predeterminado nmero de tems.
,4
,3
,2
Informacin
146
difieren sustancialmente de los tests al uso. Un TAI consta de un banco de tems bien
calibrado y de un programa de ordenador encargado de decidir qu tem del banco presentar a
la persona, de presentrselo, de analizar la respuesta emitida por la persona, de elegir un
nuevo tem del banco, etc..
,1
test
tem 1
0,0
tem 2
-5
-4
-3
-2
-1
Nivel de rasgo
Esto nos permite elegir los tems ms adecuados en cada momento en funcin de nuestras
necesidades. Por ejemplo, si queremos llevar a cabo una seleccin de personal en la que slo
vamos a elegir unos pocos sujetos muy competentes, a partir de un banco de tems
previamente calibrado, podramos elegir aquellos tems que proporcionan ms informacin
para niveles altos de . Esto nos permite reducir enormemente el nmero de tems de un test
sin perder precisin al estimar .
El principal logro de los TAIs es que con muy pocos tems (veinte, ms o menos) se pueden
conseguir precisiones en la medicin comparables o mejores que las obtenidas en tests no
adaptativos mucho ms largos. Esto es as porque en los TAIs slo se administran tems
autnticamente informativos para determinar el nivel de rasgo de la persona y se evitan los
tems demasiados fciles o difciles, que apenas informan sobre el nivel de rasgo. Hemos
construido un TAI de vocabulario ingls (Ponsoda, Olea y Revuelta, 1994) y hemos obtenido
que, en ocasiones, con slo diez tems se obtiene una excelente precisin (un error tpico de
estimacin equivalente a un coeficiente de fiabilidad de 0.9).
7.- REFERENCIAS (de este tema)
6.- APLICACIONES
Lpez Pina, Jos Antonio (1995). Teora de la respuesta al tem: fundamentos. Barcelona:
PPU. Barcelona.
147
148
EJERCICIOS
1.
Dos tems han sido calibrados con el modelo logstico de dos parmetros. Sus
parmetros son a1=1 y b1= 0.5, y a2= 0.5 y b2= 2.5.
Persona
1
2
3
4
5
149
b) Obtenga la estimada y el error tpico de estimacin de Antonio, sabiendo que su
est entre 1.12 y 2.10, con probabilidad 0.95.
150
SOLUCIONES
1.
2.
F, V, F.
8.
El nivel de rasgo de una persona es 1 (es decir, = 1). Aplicando el modelo logstico
de dos parmetros obtenemos las CCIs de dos items. La probabilidad de acierto en el item 1
(a1= 1 y b1= 0.5) coincide con su probabilidad de acierto en el item 2 (a2= 2, b2 no conocido).
Obtenga cuanto vale b2.
3.
(1+c)/2.
4.
a) P(0) = 0.226.
b) Es imposible, pues P() c = 0.20.
9.
Tenemos tres tems. La probabilidad de acierto, en cada uno de ellos,
corresponde a cada uno de los siguientes valores de se ofrece a continuacin:
5.
No. La independencia local supone que la probabilidad de acertar ambos items ser
(80/100)(40/100) = 0.32.
6.
7.
8.
9.
10.
a) En tem 1, I(-3)= 0.017, I(-2)= 0.091, I(-1)=0.376, I(0)= 0.72, I(1)= 0.376,
I(2)=0.091 e I(3)=0.017.
En tem 2, I(-3)= 0.014, I(-2)= 0.364, I(-1)=2.89, I(0)= 0.364, I(1)= 0.014, I(2)=0.000
e I(3)=0.000.
En el test, I(-3)= 0.031, I(-2)= 0.455, I(-1)=3.266, I(0)= 1.084, I(1)= 0.390, I(2)=0.091
e I(3)=0.017.
b) De los niveles de rasgo considerados, el que se estimara con mayor precisin es
= -1. Es decir, el test resulta mximamente informativo para = -1.
c) S2e = 1/3.266 = 0.306. Se = 0.55.
7.
Pasados varios tems, un TAI estima a una persona una de 0.5. Los parmetros de
dos tems que todava no han sido aplicados son los siguientes: a1= 1, b1= 0.5, a2= 2 y b2= 1.
Si el TAI ha de suministrar un tem de estos dos Cual suministrara? (La derivada P'
correspondiente al modelo logstico de dos parmetros es P'= DaPQ).
que
P()
---------------------------------------------3 -2
-1
0
1
2 3
tem 1 0.1 0.15 0.2 0.35 0.5 0.65 0.8
tem 2 0.0 0.0 0.0 0.10 0.5 0.90 1.0
tem 3 0.0 0.10 0.5 0.90 1.0 1.0 1.0
a) Dibuje las tres CCIs.
b) Compare la dificultad y poder discriminativo de los tems 1 y 2. Cual es ms difcil?
Cual es ms discriminativo?
c) Compare la dificultad y poder discriminativo de los tems 2 y 3. Cual es ms difcil?
Cual es ms discriminativo?
10.
a) Obtenga la funcin de informacin del test para los valores de = -3, -2, -1, 0, 1, 2 y 3. (Se
recuerda que en el modelo logstico de dos parmetros P'= DaPQ).
b) Para qu valor de (de los expuestos anteriormente) el test proporciona la mxima
informacin?
c) Obtenga el error tpico de estimacin con el que el test estimara la de una persona cuya
real fuese -1.