Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion A La Psicometria
Introduccion A La Psicometria
Introduccin a la Psicometra
Teora Clsica de los Tests
y Teora de la Respuesta al tem
(Febrero 2004)
Francisco J. Abad
Carmen Garca
Beatriz Gil
Julio Olea
Vicente Ponsoda
Javier Revuelta
2
INDICE
INTRODUCCIN ........................................................................................................... 4
TEMA I: REDACCIN Y ANLISIS DE TEMS ...........................................................7
1. Introduccin .....7
2. Definicin del constructo ....7
3. Construccin provisional del cuestionario ....8
4. Cuantificacin de las respuestas ....12
5. Anlisis de tems ....13
6. Anlisis de las opciones incorrectas de respuesta ....18
7. Correccin de los efectos del azar ....18
Ejercicios ....21
TEMA II: MODELO CLSICO Y CONCEPTO DE FIABILIDAD ..............................29
1. Supuestos fundamentales ....29
2. Concepto de formas paralelas ....31
3. Significado del coeficiente de fiabilidad ....33
4. Fiabilidad de un test formado por n formas paralelas ....34
Ejercicios ....37
TEMA III: FIABILIDAD DEL TEST ............................................................................42
1. Fiabilidad como estabilidad temporal ....42
2. Fiabilidad como consistencia interna ....44
3. Fiabilidad como correlacin entre formas paralelas ....48
4. El error tpico de medida ....48
5. Factores que afectan a la fiabilidad ....50
Ejercicios ....54
TEMA IV: VALIDEZ DEL TEST ..................................................................................61
1. Concepto de validez ....61
2. Validez de contenido ....61
3. Validez de constructo ....62
4. Validez referida al criterio ....75
5. Algunos ejemplos empricos del proceso seguido para la validacin de tests... 82
Ejercicios ....91
3
TEMA V: BAREMACIN DE UN TEST ................................................................... 104
1 Baremos cronolgicos .... 104
2 Centiles o percentiles .... 105
3 Puntuaciones tpicas .... 107
Ejercicios .... 110
TEMA VI: INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM ...........115
1 Introduccin. 115
2 Curva caracterstica del tem. 116
3 Supuestos .... 121
4 Estimacin de parmetros .... 122
5 Funcin de informacin .... 126
6 Aplicaciones .... 129
7 Referencias (de este tema) .... 130
Ejercicios ....132
ANEXOS
Prctica 1:
Anlisis de tems de un test de rendimiento ptimo
Prctica 2:
Construccin de un test de rendimiento tpico: Anlisis de sus
propiedades psicomtricas
4
INTRODUCCIN
La Psicometra se ocupa de los problemas de medicin en Psicologa, utilizando la
Estadstica como pilar bsico para la elaboracin de teoras y para el desarrollo de mtodos y
tcnicas especficas de medicin. Usualmente, suelen diferenciarse varios ncleos temticos
diferentes propios de la Psicometra:
a) Teoras de la medicin. Tienen como objetivo establecer las condiciones y propiedades de
las asignaciones numricas que pueden realizarse. El establecimiento de diferentes escalas de
medida, tal como lo hizo Stevens, es un ejemplo de este primer ncleo de inters.
b) Escalamiento. En el terreno de la Psicofsica, e histricamente desde los trabajos de
Fechner en el siglo XIX, se plantea el problema de la medicin de las sensaciones que
generan diferentes niveles de estimulacin fsica. Thurstone ser el responsable del trnsito
del escalamiento psicofsico al escalamiento psicolgico, donde se proponen modelos y
tcnicas para la medicin de atributos estrictamente psicolgicos.
c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacin
matemtica para estudiar las propiedades mtricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicolgicas superiores. La principal
preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medida
que se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica
de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin
y Escalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyos
desarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica para
analizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que
pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.
La actividad profesional del psiclogo requiere en muchos momentos la utilizacin
y/o construccin de tests que pretenden evaluar determinados constructos psicolgicos no
susceptibles a un proceso de medicin directa. Resulta usual, por ejemplo, en el mbito de la
Psicologa Educativa, la aplicacin de tests de inteligencia, de hbitos de estudio, de
motivacin, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapia
individual, un psiclogo aplica determinadas pruebas para diagnosticar los problemas
depresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o su
nivel de asertividad. Los psiclogos que se ocupan de la seleccin de personal en grandes
organizaciones tambin utilizan tests para determinar, al menos inicialmente, cules son las
personas del grupo de aspirantes que mejor pueden desempear el puesto de trabajo.
5
Cada vez es mayor el nmero de tests disponibles en el mercado para su utilizacin.
Basta con ojear los catlogos de empresas consultoras especializadas (TEA, MEPSA,
COSPA,...) para percatarnos de la gran extensin de atributos psicolgicos que podemos ya
medir mediante tests. El psiclogo necesita conocer las posibilidades de cada uno de estos
tests: la informacin que aporta, cmo se interpretan las puntuaciones que proporciona, en
qu grado podemos fiarnos de estas puntuaciones, para qu tipo de personas resulta apropiada
su aplicacin, etc. El manual de estos tests suele incluir datos empricos sobre todos estos
aspectos, que determinarn en gran parte las garantas que nos ofrece la prueba que vamos a
aplicar.
Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicologa, los
profesionales no se encuentran con todos los tests que pueden necesitar para su actividad
laboral cotidiana. No resulta extrao, por ejemplo, que un psiclogo social tenga que
construir un test concreto para evaluar la actitud que tiene la poblacin de estudiantes
universitarios hacia grupos marginados, que un orientador escolar necesite elaborar un test
para conocer la opinin de los profesores hacia la LOGSE o que un psiclogo clnico precise
de una prueba concreta para evaluar determinados aspectos de las relaciones de los
adolescentes con sus padres.
Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las
destrezas necesarias para valorar la informacin psicomtrica que incluyen los tests
comercializados y, adems, que conozca los mtodos y tcnicas fundamentales para disear
una prueba concreta con fines especficos. Trataremos de ayudarle a ello en las siguientes
pginas.
En la exposicin que vamos a realizar en los primeros 5 captulos, tratamos de
describir el proceso natural que se sigue en la construccin de un test, y que bsicamente se
resume en las siguientes fases:
1. Definicin del constructo.
2. Construccin del test provisional.
3. Aplicacin a una muestra.
4. Anlisis de tems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremacin.
Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con cierto
fundamento estadstico) que nos conducen a seleccionar la forma y contenidos ms
apropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a la
comprobacin emprica de las garantas psicomtricas que la prueba manifiesta como
instrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) y
a la comprobacin prctica del contenido autntico que estamos evaluando (validez). La
denominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas
pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de la
versin definitiva del test, aplicada a una muestra representativa de la poblacin de personas
a la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una
puntuacin concreta en relacin con las que obtiene la muestra seleccionada.
6
El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos
de la Teora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripcin de los principales contenidos tericos
de la asignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la
asignatura, los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test
de rendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.
7
TEMA I: REDACCIN Y ANLISIS DE TEMS
1.- INTRODUCCIN
Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
tericas que no son accesibles a la medicin directa y para los que no existen "metros" o
"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudara
de que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuacin que debera
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a
evaluar.
2.- DEFINICIN DEL CONSTRUCTO
El primer paso consiste en proporcionar una definicin operacional del constructo o
rasgo que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer
los diversos componentes o manifestaciones del mismo: dogmatismo ante la poltica, ante la
educacin de los hijos, ante la religin, en las relaciones familiares,... Muy relacionada con
esta definicin operativa es la cuestin del establecimiento de los objetivos que se pretenden
conseguir con el cuestionario.
Tambin es necesario especificar el tipo de poblacin al que va a aplicarse la prueba y las
decisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muy
diferente, y determinar su contenido, que un test de inteligencia se vaya a aplicar a personas
de la poblacin general o a personas con problemas intelectuales. Un cuestionario de
depresin puede utilizarse con fines cientficos en una investigacin o para decidir el ingreso
en un centro psiquitrico de personas con problemas depresivos.
8
3.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO
De la definicin operacional del constructo y de la delimitacin de sus componentes
debemos llegar a establecer un conjunto de elementos o tems (frases, preguntas, situaciones
anlogas, tareas, etc.) que representen estos componentes, o mejor, las conductas mediante
las que se manifiestan los diversos componentes del constructo.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un
tem podra ser el siguiente:
Deberamos facilitar la integracin de los gitanos en nuestro pas
Parece razonable suponer que una persona tolerable estara de acuerdo con esta
afirmacin, mientras que otra intolerable estara en desacuerdo.
En relacin con la construccin de los tems existen dos temas importantes a tener en
cuenta: el formato de respuesta y las normas de redaccin de los tems.
3.1.- FORMATO DE RESPUESTA
En tests de rendimiento ptimo (pruebas de rendimiento y de inteligencia) se
pretende medir el rendimiento mximo al que llega cada persona ante una serie de preguntas
o tareas. Usualmente, el formato de respuesta de estos tems se ajusta a uno de los siguientes
tres formatos:
a) Eleccin binaria: De dos alternativas, se elige la que se considera correcta (S o
No; verdadero-falso).
Por ejemplo, un tem de un test de rendimiento en Historia Moderna puede ser:
"Pi y Margall fue uno de los presidentes de la 1 Repblica Espaola" V F
b) Eleccin mltiple: Entre ms de dos alternativas se elige la que se considera
correcta. Es sin duda el formato de respuesta ms utilizado, entre otras por razones de
objetividad y otras de tipo operativo.
Por ejemplo, un tem de un test de aptitud verbal puede ser:
"Automvil es a volante como bicicleta es a ....
a) Pedal
b) Silln
c) Manillar
d) Parrilla
c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de
conceptos. Por ejemplo, un tem de un cuestionario sobre conocimientos de polticos
espaoles contemporneos puede ser:
9
"Enlace mediante una lnea el nombre del poltico con el partido poltico al que
pertenece"
J. A. Durn i Lleida
Carlos Solchaga
Iaki Anasagasti
Rodrigo Rato
PSOE
CIU
PNV
PP
____
____
____
____
____
MA
10
c) Adjetivos bipolares: Este formato es tpico de lo que se denomina "diferencial
semntico", un instrumento formado por pares de adjetivos opuestos, cada uno de los
cuales representa un continuo bipolar con varias categoras, y que permite estudiar el
significado semntico que se atribuye a determinados constructos, personas o
instituciones.
Por ejemplo:
Alegre
________ ________ ________ Triste
________ ________ ________ Tonto
Listo
Simptico ________ ________ ________ Antiptico
Feliz
________ ________ ________ Infeliz
Social ________ ________ ________ Asocial
11
En las pruebas de rendimiento ptimo es muy importante tener en cuenta la
dificultad existente en crear las alternativas incorrectas, dado que no deben ser posibilidades
absurdas de respuesta que se puedan eliminar con cierto grado de sentido comn. Bien al
contrario, esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que
usualmente tienen las personas que no conocen la respuesta correcta de la pregunta en
cuestin. Deben estar escritas en lenguaje tcnico y ser plausibles para quien no conoce la
respuesta, evitando en todo momento alternativas graciosas u otras que no seran elegidas
por nadie. Otra buena recomendacin en este sentido sera el uso de alternativas de respuesta
que son verdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el
establecimiento de alternativas mltiples exige un claro conocimiento tanto del contenido a
evaluar como de las personas a las que va dirigida la prueba.
Otras recomendaciones a tener presente en las pruebas de rendimiento ptimo son:
-
12
El nmero de categoras que se suelen incluir en este tipo de tems es usualmente de
cinco ya que, a partir de ese nmero de categoras no mejoran las propiedades psicomtricas
de los tems. Adems, un nmero muy elevado de categoras (siete u ocho) lleva a
inconsistencias en las respuestas, que es una fuente de error. Un nmero muy reducido (dos
tres) lleva a poca discriminacin (menor variabilidad) y a reducir la fiabilidad, aunque
siempre puede compensarse con un mayor nmero de tems. No obstante, en poblaciones
especiales (nios, discapacitados, mayores) se aconseja el uso de un menor nmero de
categoras.
Tambin se ha planteado en tems de rendimiento tpico (principalmente en escalas de
actitudes o tests de personalidad donde no se pide el grado de frecuencia de un
comportamiento) si es correcto o no la inclusin de una categora central en las opciones de
respuesta (indiferente, neutral, dudo, no s). Podran generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo que se les
est preguntando, que el enunciado les resulta ambigo o simplemente que ignoran el
contenido del enunciado. En realidad, deberan ser seleccionadas por las personas
autnticamente indecisas. La investigacin en este sentido nos dice que los indicadores
psicomtricos de los tems no se alteran mucho con o sin categora central, cuando el nmero
de categoras es mayor de tres. En todo caso, se puede comprobar si las personas con nivel
medio en el total del test tienden a elegir ms frecuentemente las categoras centrales.
13
En el tem A, el acuerdo se puntuara con 1 y el desacuerdo con 2, ya que estar en
desacuerdo con esa afirmacin indica una actitud ms positiva hacia el aborto voluntario. En
el tem B, sin embargo, el acuerdo se puntuara con 2 y el desacuerdo con 1, ya que estar de
acuerdo con esa afirmacin indica una actitud ms positiva hacia el aborto.
Si el formato de respuesta es de n categoras ordenadas, las diversas categoras se
cuantificarn normalmente desde 1 hasta n, teniendo en consideracin (como en el caso
anterior) la direccin de la afirmacin o cuestin. Por ejemplo, para 5 categoras, las dos
posibles cuantificaciones sern:
Muy en desacuerdo
Bastante en desacuerdo
1
5
2
4
3
3
4
2
5
1
14
tems
1
3................... n
Sujeto n 1
Sujeto n 2
Sujeto n 3
.
.
.
.
.
.
Sujeto n N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i
al tem j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en
el total del test.
Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.
5.1.- NDICE DE DIFICULTAD
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin,
por lo que slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
El ndice de dificultad de un tem j se define como el cociente entre el n de sujetos que lo
han acertado (Aj) y el n total de sujetos que lo han intentado resolver (Nj)
Dj =
Aj
Nj
15
tems
Sujetos
1
2
3
4
5
6
7
8
9
10
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
1
1
0
1
0
0
1
0
0
1
0
1
1
-
1
0
1
1
0
0
0
1
1
1
1
1
1
1
1
1
3
2
2
2
3
2
3
1
2
2
Aj
Nj
10
10
Dj
0.5
0.29
0.75 0.43 1
16
5.2.- NDICE DE HOMOGENEIDAD
El ndice de homogeneidad, llamado a veces ndice de discriminacin, de un tem
(Hj) se define como la correlacin de Pearson entre las puntuaciones de los N sujetos en el
tem j y las puntuaciones X en el total del test:
Hj= rjx
Segn la disposicin de la matriz de datos, para obtener los Hj de los tems, debemos
calcular la correlacin entre las columnas j y la columna X de puntuaciones directas en la
prueba.
Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categoras
ordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
tems
Sujetos
1
2
3
4
5
2
3
5
0
4
3
1
4
1
3
5
0
5
0
0
10
4
14
1
7
17
Cuando un test tiene un nmero pequeo de tems, resulta ms apropiado obtener el
ndice de homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un
tem con las puntuaciones en el total del test despus de restar de este total las puntuaciones
del tem cuyo ndice queremos obtener. En el ejemplo precedente, el ndice de homogeneidad
corregido para el tem 1 ser 0.49, resultado de correlacionar la 1 columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Anlogamente, los
ndices de homogeneidad corregidos para los tems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lgico suponer, el Hj corregido de un tem suele ser inferior a su Hj sin corregir.
5.3.- NDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un tem j pueden correlacionarse tambin con
las que estos sujetos obtienen en un criterio de validacin externo al test (Y); esta correlacin
define el ndice de validez del tem j:
Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo
rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estas
valoraciones como el criterio de validacin de un test de motivacin laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y:
5 3 6 0 6
18
6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los
patrones de respuesta que se han dado a las diferentes alternativas de cada tem. Para un tem
concreto de una prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en
mayor medida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin
ser seleccionada por un nmero de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de
tres tems de un determinado test:
tem
Opcin correcta
1
2
3
b
c
a
Porcentaje de respuesta
a
16
35
60
40
15
1
15
21
21
14
17
18
15
12
0
19
De la misma forma, la probabilidad de errar el tem ser:
P(E) = 1 - (1/n) = (n-1) / n
Llamemos Ra el n de respuestas aleatorias que proporciona (es decir, el nmero de tems
que ha contestado sin saber la solucin). De las Ra, algunas sern aciertos aleatorios (Aa) y
otras sern errores (E). Nuestro objetivo es estimar los Aa para descontarlos del nmero total
de aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:
El n total de errores se puede establecer como el producto del valor Ra por la probabilidad
de cometer un error:
E = Ra
n 1
n
Ra =
n
E
n 1
1
n
n
1 1
E = E
n 1 n n
Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero de
alternativas que tienen los tems. Podemos observar que cada error se pondera por la
expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0.5 por cada error; en tests de 4 alternativas, hay que
descontar 0.33 puntos por cada error; y as sucesivamente.
La puntuacin directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A - Aa
20
Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5
opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona
1
2
3
112
110
109
28
12
0
0
0
18
31
Xc1 = 112
28
= 105
4
Xc 2 = 110
12
= 107
4
Xc3 = 109
0
= 109
4
21
EJERCICIOS
1.
A continuacin se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchas
veces) o S (siempre).
a) A menudo me influyen ms las opiniones de los dems que las mas propias . . .
b) Evito vivir situaciones lmites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c) No me importara tomar estimulantes para disminuir la sensacin de fatiga
fsica o mental en el trabajo
........................................
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . .
e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
______
______
______
______
______
tem b
sujeto 1
PV
sujeto 2
PV
MV
sujeto 3
sujeto 4
MV
tem c
tem d
tem e
MV
AV
MV
AV
MV
AV
MV
PV
tem b
tem c
tem d
tem e
TOTAL
sujeto 1
sujeto 2
sujeto 3
sujeto 4
2.
Diga si las siguientes afirmaciones referidas al ndice de dificultad (Dj) son
verdaderas o falsas.
22
3.
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
tem 1
1
1
0
1
1
0
tem 2
1
1
1
1
1
1
tem 3
0
1
0
0
0
1
item 4
1
1
0
0
1
0
tem 5
tem 6
1
0
0
0
0
0
0
0
4.
Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero o
falso. Justifique sus respuestas.
a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos tems que correlacionen poco con la puntuacin total en el test.
e) Un tem homogneo, pero con un bajo ndice de validez, no indica necesariamente que
est mal construido, sino que puede deberse a que el criterio seleccionado sea poco
adecuado.
5.
Un test tiene 3 tems dicotmicos y su media es 1.7. Sabemos que no se han
dejado tems sin responder y que
Dj
Sj2
Hj
Vj
tem 1
?
0.25
0.6
0.4
tem 2
?
?
0.4
0.3
tem 3
0.8
?
0.2
0.5
a) Complete la tabla.
b) Atendiendo al ndice de dificultad, cul es el peor tem?
c) Atendiendo al ndice de homogeneidad, cul es el peor tem?
d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?
23
6.
Se ha construido una pequea prueba de 6 elementos de Verdadero-Falso, para
realizar una primera valoracin de la rapidez visomotora de las personas que desean
obtener el carnet de conducir. Un grupo de 10 personas respondi al test y a una prueba
de agilidad psicomotora, que se consider como un criterio adecuado de validacin. La
siguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuaciones
en el criterio.
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
sujeto 7
sujeto 8
sujeto 9
sujeto 10
tem 1
1
1
1
1
0
1
1
0
1
1
tem 2
1
1
0
0
1
1
0
0
1
1
tem 3
0
1
0
1
0
0
1
1
0
1
tem 4
1
0
1
1
0
0
1
1
1
1
tem 5
1
1
0
1
0
1
0
1
1
1
tem 6
1
1
1
0
0
1
0
1
1
1
Y
12
11
7
8
4
10
7
10
11
12
Dj
Hj
Vj
tem 2
0,8
0,5
0,1
tem 3
0,3
0,8
0,6
tem 4
0,6
0,4
0,3
a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero
____ porque ______________________________________________.
b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____
porque _____________________________.
c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____
porque ____________________________________.
24
8.
A continuacin se ofrecen ciertos datos de un tem dicotmico: su ndice de
dificultad, varianza, ndice de homogeneidad e ndice de homogeneidad corregido.
Identifquelos.
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
9.
En un test de rendimiento ptimo, un tem tiene 4 posibles respuestas y ha sido
respondido por 350 personas. 100 personas han elegido cada una de las alternativas
incorrectas y 50 personas, la correcta.
a) Es un tem adecuado o debera ser modificado?
b) Cunto vale su ndice de dificultad?
c) Cuanto vale su varianza?
10.
Una persona completa un test de 50 tems. Acierta 30 y falla 4. Su puntuacin
corregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. Cuntas
alternativas tiene cada tem?
11.
Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como
0 o 1. A continuacin se ofrecen las puntuaciones sin corregir (X) y corregidas para
eliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Diga
razonadamente qu personas han dejado preguntas sin contestar.
Xc
sujeto 1
20
18
sujeto 2
15
sujeto 3
25
25
sujeto 4
17
12
sujeto 5
23
22
12.
Creamos un test para medir conocimientos sobre el cdigo de la
circulacin. Los tems son de opcin mltiple con 3 opciones de las que slo una es
correcta. Las medias de tres tems del test han sido las siguientes: 0.1 (tem 1), 0.6 (tem
2) y 1 (tem 3). Responda razonadamente.
a) Qu tem es ms difcil?
b) Es posible que la mitad de la muestra haya fallado simultneamente los dos primeros
tems?
25
c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianza
del tem de ms varianza de los tres?
d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una
puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido?
13.
Una muestra de 200 personas responde a un test de rendimiento ptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
tem, y cual es en cada uno la alternativa correcta.
tem 1
tem 2
tem 3
tem 4
tem 5
Alternativa
a
30
140
90
70
60
Alternativa
b
80
0
10
80
50
Alternativa
c
90
60
100
50
90
Alternativa
correcta
a
a
c
b
c
a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.
b) Cul es el tem ms difcil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado?
Razone su respuesta
14.
Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La
escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Las
siguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin a
la escala 1.
Tabla 1
H
HC
tem 1
0.572
0.456
tem 2
0.454
0.281
tem 3
0.575
0.437
Tabla 2
H
HC
tem 1
0.562
0.237
tem 2
0.622
0.205
tem 3
0.611
0.233
Diga razonadamente qu tabla contiene los H y HC de los tres tems en relacin al test
completo.
26
SOLUCIONES
1.
item
b
4
item
c
4
tem
d
5
tem
e
5
TOTAL
sujeto 1
tem
a
5
sujeto 2
12
sujeto 3
sujeto 4
16
23
2.
a) Verdadero
b) Falso
c) Falso
d) Falso
3.
Dj
Sj2
4.
tem 1
0,67
0,22
tem 2
1
0
tem 3
0,33
0,22
27
5.
a) D1 = 0,5
D2 = 0,4
S22 = 0,24
S32 = 0,16
b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, es
algo peor.
c) El tem 3.
d) El tem 2.
6.
a) El tem 1: D1 = 0,8
b) H2 = 0.305
c) La persona nmero 8: Xc = 2
d) V5 = 0.84
7.
8.
Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el ndice de homogeneidad corregido suele ser menor que el ndice de
homogeneidad son corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidos
y sin corregir, respectivamente.
9.
10.
n=5
Xc = A E/(n-1). Luego, 29 = 30 4/(n-1)
11.
Sujeto
12
13.
a) 30/200 = 0.15
b) El 1, pues su ndice de dificultad (0.15) es el ms bajo. En los otros tems sus
ndices de dificultad son: 0.7 (tem 2), 0.5 (tem 3), 0.4 (tem 4) y 0.45 (tem 5)
c) El 1, pues las opciones incorrectas son ms elegidas que la correcta. El 2, pues una
alternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias
parecidas
14.