Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Temario 4º Curso Instrumentos de Medición
Temario 4º Curso Instrumentos de Medición
Fundamentos de la investigación en
ciencias de la salud: Instrumentos de
medición
https://campusformacion.net/nuevocampus/impresioncurso.php 1/137
1/1/22 18:37 Campus Virtual
Índice
INDICE
2.1. Definición
2.3. Clasificación
https://campusformacion.net/nuevocampus/impresioncurso.php 2/137
1/1/22 18:37 Campus Virtual
Tema 8. “Concepto y
8.2. Evidencias de validez: evidencias basadas en el
evidencias de validez”
contenido del test, en la estructura interna del test y
en las relaciones con otras variables.
https://campusformacion.net/nuevocampus/impresioncurso.php 3/137
1/1/22 18:37 Campus Virtual
Tema 10. “El coeficiente de 10.2. Predicción del criterio a partir del test: Análisis
validez” de correlación y regresión.
https://campusformacion.net/nuevocampus/impresioncurso.php 4/137
1/1/22 18:37 Campus Virtual
Objetivos
OBJETIVOS GENERALES
https://campusformacion.net/nuevocampus/impresioncurso.php 5/137
1/1/22 18:37 Campus Virtual
Presentación
PRESENTACIÓN:
El objetivo general del curso es que el alumno conozca las estrategias fundamentales de
la teoría de los test. Pueda entender la información que proporciona un test, así como, ser
capaz de diseñar un test y comprobar la información psicométrica que aporta.
https://campusformacion.net/nuevocampus/impresioncurso.php 6/137
1/1/22 18:37 Campus Virtual
Existen una serie de suposiciones básicas que resultan particularmente útiles para
comprender una serie de controversias y polarizaciones que se harán presentes al
avanzar en el estudio de los tests y la evaluación. A continuación las detallamos:
3. Pueden ser útiles diversos enfoques para medir aspectos del mismo objeto de
estudio. Pueden existir varias pruebas y técnicas de medición diferentes para medir
el mismo fenómeno. Algunas pruebas son mejores que otras, en general, deberá
demostrarse la utilidad de las pruebas para los escenarios en los que deberán ser
aplicadas según su diseño original y luego demostrarse de nuevo para otros
escenarios adicionales en los que no se contemple su uso.
6. Diversas fuentes de error son parte del proceso de evaluación. Error en el contexto
de las pruebas y la evaluación se refiere a algo que se considera un componente del
proceso de medición. En este contexto “error” se refiere a la suposición de que
factores distintos al que pretende medir la prueba influirán en el desempeño de
ésta. Debido a que el error es una variable en cualquier proceso de evaluación
psicológica, a menudo hablamos de varianza de error. Por ejemplo, el puntaje que
obtiene una persona en una prueba de inteligencia puede estar sujeto a debate
respecto al grado en que la puntuación obtenida refleja en verdad el CI del
evaluado y el grado en que refleja la varianza de error. Las fuentes potenciales de
error son muy variadas, como por ejemplo que el evaluado tenga gripe cuando
responde la prueba. Tanto el evaluado como el evaluador son fuentes de varianza
de error si tenemos en cuenta por ejemplo el grado de experticia que demuestran
en la administración de una prueba. También las pruebas mismas son fuentes de
varianza de error por ser unas mejores que otras para medir lo que pretenden
medir.
https://campusformacion.net/nuevocampus/impresioncurso.php 8/137
1/1/22 18:37 Campus Virtual
Construir medidas en salud significa buscar medidas que reflejen con el mayor grado de
validez y confiabilidad posible aquellas condiciones y percepciones subjetivas de los
pacientes, reconociendo que ninguna medida de este tipo es libre de error.
Los principios éticos deben involucrar al que construye la prueba, al que aplica la prueba
y al que cubre la prueba.
https://campusformacion.net/nuevocampus/impresioncurso.php 9/137
1/1/22 18:37 Campus Virtual
2. El que usa la prueba. Si bien las pruebas son usadas por una variedad de
profesionales, todos deberán cumplir los principios éticos correspondientes. La
prueba debe guardarse para que su contenido específico no sea dado a conocer con
anticipación. Descripciones previas a la administración de la prueba, de los
materiales que contiene la misma, en el caso de pruebas de inteligencia, no son
aconsejables pues podrían comprometer los resultados. El que administra la prueba
debe estar familiarizado con los materiales y procedimientos de la prueba y tener
todos los materiales necesarios para administrarla en forma apropiada. También
debe asegurarse de que la habitación en la que se realice la prueba sea el adecuado,
evitando condiciones distractoras como ruido excesivo, calor, frío, interrupciones,
luz solar deslumbrante, hacinamiento, ventilación inadecuada, etc. Es fundamental
la empatía entre el evaluador y el evaluado. La empatía puede definirse como una
relación de trabajo entre evaluador y evaluado. Lograr la empatía con el evaluado
no debe alterar las condiciones de administración de la prueba. Existen otros
factores que pueden influir en el desempeño en pruebas de inteligencia como por
ejemplo que el evaluador sea familiar o no, que esté presente o ausente, y sus
modales en general. Otro factor importante ha sido el género.
https://campusformacion.net/nuevocampus/impresioncurso.php 10/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 11/137
1/1/22 18:37 Campus Virtual
2.1. Definición
En general podemos considerar los test como una prueba que, aplicado a un sujeto, revela
el grado o tipo de su aptitud, de su forma de ser o el grado de instrucción que posee. Estos
test constan de preguntas, tareas, estímulos, situaciones, etc. que intentar manifestar
una representación o muestra de las conductas del sujeto, reflejo de las características
que se quiere medir.
Definiciones de test
https://campusformacion.net/nuevocampus/impresioncurso.php 12/137
1/1/22 18:37 Campus Virtual
2.2. Historia
Los test surgen en el contexto de los estudios experimentales a finales del siglo XIX
gracias a Francis Galton (1822-1911), considerado padre del estudio de las diferencias
individuales de la conducta, siempre desde una perspectiva adaptativa y biológica. Fue
también pionero de las “escalas de calificación” y del uso de la Técnica de Asociación Libre
(método descrito por Sigmund Freud como regla fundamental del Psicoanálisis).
En 1980, James McKeen Cattell (1860-1944) introdujo el término test mental y se dedicó
al diseño y aplicación de diversas pruebas de tiempos de reacción, discriminación
sensorial, presión dinamométrica y memoria de las letras.
https://campusformacion.net/nuevocampus/impresioncurso.php 13/137
1/1/22 18:37 Campus Virtual
En 1904, Edward Thorndike (1874-1949) publica un libro que es el primero sobre teoría
de los test. Sus contenidos conforma el cuerpo de conocimiento de la Teoría Clásica de
los Test, que ha proporcionado los fundamentos teóricos para el desarrollo de la mayor
parte de los test de aptitudes, personalidad y rendimiento.
A finales del siglo XIX la preocupación por el tratamiento de los sujetos con retrasos
mentales hizo necesario algún criterio de clasificación, en primer lugar, para diferenciar
los sujetos deficientes y aquellos sufrían otro tipo de patologías [Jean-Étienne-
Dominique Esquirol (1772-1840) y Édouard Séguin (1812-1880)].
Estos primeros test se caracterizaban por ser de carácter individual, los test colectivos no
fueron aplicaron hasta la I Guerra Mundial. El éxito de mostrado en el uso de estos test en
la asignación de personal militar llevó a la implantación de estos test en la escuela y en las
empresas.
https://campusformacion.net/nuevocampus/impresioncurso.php 14/137
1/1/22 18:37 Campus Virtual
Como conclusión, el uso creciente de los test se ha debido a tres factores fundamentales:
Exámenes escolares
2.3. Clasificación
No existe una clasificación única ni completa para clasificar los test, pero existen
unos criterios que podemos tener en cuenta para realizar una clasificación que nos
permita discriminarlos. Los criterios que se tienen en cuenta para la clasificación se
describen a continuación:
Test psicométricos:
Se evalúan las respuestas según normas cuantitativas
Todos sus elementos se valoran de forma numérica e
independientemente.
El resultado final es una puntuación cuantitativa
Suelen referirse a características concebidas como
unidades más o menos independientes, es decir, suelen
medir rasgos diferenciados del sujeto.
Test proyectivos:
Siguen normas o criterios globales y cualitativos para la
evaluación, es decir, las diferentes respuestas suelen
valorarse con relación al resto.
Se refieren a características generales y globales de la
personalidad.
b) La finalidad:
https://campusformacion.net/nuevocampus/impresioncurso.php 15/137
1/1/22 18:37 Campus Virtual
Rendimiento
Inteligencia y aptitudes
Personalidad, actitudes e intereses
Orales. Las instrucciones y las respuestas son siempre orales. Son típicos
de niños muy pequeños, analfabetos y personas de otras culturas.
Papel y lápiz. Admiten una gran variedad de formatos de presentación,
todo el sistema de instrucciones y realización se especifica en protocolos,
cuadernillos y hojas de respuesta de forma escrita.
Manipulativos o de ejecución. El sujeto ha de realizar algo con el material
en el que se le presenta el problema a resolver. Test psicomotrices, cubos,
visualización.
Simulaciones. Se somete a los sujetos a situaciones artificiales, por
ejemplo los juegos de rol.
Computerizados. La presentación de los ítems y el registro de las
respuestas se realizan digitalmente.
Objetivos. Pruebas fisiológicas, Tiempo de reacción.
https://campusformacion.net/nuevocampus/impresioncurso.php 16/137
1/1/22 18:37 Campus Virtual
i) Sujetos a los que va dirigido el test. Se suelen clasificar por edades y dirigidos a
grupos especiales (disminuidos).
https://campusformacion.net/nuevocampus/impresioncurso.php 17/137
1/1/22 18:37 Campus Virtual
Mientras que la mayoría de los atributos físicos (altura, peso, etc. ...) resultan
directamente medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa y para los que
no existen "metros" o "balanzas" diseñados para medirlos de manera precisa. La actitud
hacia el aborto, el nivel de cohesión grupal, el grado de extroversión, el cociente
intelectual, la postura hacia el consumo de drogas, el grado de liderazgo,...., todos ellos
son constructos que deben medirse mediante instrumentos específicamente diseñados:
los tests, tests o inventarios. Nadie dudaría de que un metro bien diseñado mide longitud
y que lo hace de manera precisa, pero la bondad y la precisión de un test no se puede
presuponer; más bien son una cuestión de grado y siempre susceptibles de mejora.
Un test está formado por una serie de elementos o ítems (elementos, reactivos,
preguntas, cuestiones, situaciones análogas,...) a los que cada individuo debe responder.
Después de cuantificar las respuestas de una persona a los elementos del test, se
pretende asignar una puntuación (a veces varias) a esa persona respecto al constructo o
atributo que se pretende medir con el test, una puntuación que debería indicar el grado
en que la persona participa del atributo, constructo o rasgo a evaluar.
https://campusformacion.net/nuevocampus/impresioncurso.php 18/137
1/1/22 18:37 Campus Virtual
Simplicidad en el enunciado.
https://campusformacion.net/nuevocampus/impresioncurso.php 19/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 20/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 21/137
1/1/22 18:37 Campus Virtual
número muy reducido (dos ó tres) lleva a poca discriminación (menor variabilidad) y
a reducir la fiabilidad, aunque siempre puede compensarse con un mayor número
de ítems. No obstante, en poblaciones especiales (niños, discapacitados, mayores…)
se aconseja el uso de un menor número de categorías. También se ha planteado en
ítems de ejecución mínima (principalmente en escalas de actitudes o tests de
personalidad donde no se pide el grado de frecuencia de un comportamiento) si es
correcto o no la inclusión de una categoría central en las opciones de respuesta
(“indiferente”, “neutral”, “dudo”, “no sé”…). Podrían generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo
que se les está preguntando, que el enunciado les resulta ambiguo o simplemente
que ignoran el contenido del enunciado. En realidad, deberían ser seleccionadas
por las personas auténticamente indecisas. La investigación en este sentido nos
dice que los indicadores psicométricos de los ítems no se alteran mucho con o sin
categoría central, cuando el número de categorías es mayor de tres. En todo caso,
se puede comprobar si las personas con nivel medio en el total del test tienden a
elegir más frecuentemente las categorías centrales.
a) Dedo
b) Mano
c) Muñeca
d) Codo
https://campusformacion.net/nuevocampus/impresioncurso.php 22/137
1/1/22 18:37 Campus Virtual
"En realidad, los profesores en el colegio hacen poco más que cuidar a
nuestros hijos cuando nosotros trabajamos"
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
https://campusformacion.net/nuevocampus/impresioncurso.php 23/137
1/1/22 18:37 Campus Virtual
Una vez establecido el formato de respuesta que se considera más apropiado para el caso
es preciso decidir la manera de cuantificar los posibles resultados a las cuestiones. En
general, para los ítems de tests de ejecución máxima se cuantificará con 1 el acierto y con
0 el error, de tal manera que la puntuación directa de un sujeto en un test determinado
será igual al número de ítems que ese sujeto acierta. En los test de ejecución mínima o
típica, sin embargo, donde no hay respuesta correcta o errónea, lo que tenemos que
pretender es dar la puntuación más alta a aquella alternativa de respuesta que implique
una aptitud, aspecto o acuerdo más favorable. Por ejemplo, queremos valorar la actitud
que tenemos hacia el aborto. El ítem que se presenta es:
https://campusformacion.net/nuevocampus/impresioncurso.php 24/137
1/1/22 18:37 Campus Virtual
De acuerdo ( ) En desacuerdo( )
El acuerdo se puntuaría con 2 y el desacuerdo con 1, ya que estar de acuerdo con esa
afirmación indica una actitud más positiva hacia el aborto.
1 2 3 4 5
Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan
bien) el constructo, variable, o rasgo que interesa evaluar con el test. Ahora bien, el grado
en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede
comprobar estadísticamente de manera sencilla si obtenemos tres indicadores para cada
ítem:
El índice de dificultad.
El índice de homogeneidad.
El índice de validez.
Para ello, tras aplicar el test provisional a una muestra de sujetos representativa de la
población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de
datos de sujetos x ítems (Tabla I):
https://campusformacion.net/nuevocampus/impresioncurso.php 25/137
1/1/22 18:37 Campus Virtual
Ítems
1 2 3 ……. n X
Sujeto 1
Sujeto 2
Sujeto 3
……….
Sujeto N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al
ítem j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en
el total del test.
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión,
por lo que sólo tiene sentido su cálculo para ítems de tests de ejecución máxima. El
índice de dificultad de un ítem j se define como el cociente entre el nº de sujetos que
han acertado (Aj) y el nº total de sujetos que lo han intentado resolver (Nj).
Atendiendo a la disposición de datos en la matriz expuesta más arriba, el índice de
dificultad de un ítem (columna) j será el cociente entre el nº de unos y el total de
unos y ceros que tiene la columna. Los sujetos que han omitido el ítem (no han
contestado) no se contabilizan en Nj.
Ejemplo 1
https://campusformacion.net/nuevocampus/impresioncurso.php 26/137
1/1/22 18:37 Campus Virtual
Al diseñar un test de rendimiento óptimo, al inicio se sitúan los ítems más fáciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al
final, los más difíciles (con menor Dj). El número de ítems de cada categoría de
dificultad que deben incluirse en el test depende de los objetivos que quiera
conseguir la persona que diseña el test. En general, la mayor parte de los ítems
deben ser de dificultad media.
https://campusformacion.net/nuevocampus/impresioncurso.php 27/137
1/1/22 18:37 Campus Virtual
Hj= rjx
ÍTEMS
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Tabla II. Datos de 5 pacientes de un test formado por 3 ítem con formato de respuesta de
categorías ordenadas que se valoran entre 0 y 5
Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener
el índice de homogeneidad corregido (rj,x-j). Consiste en correlacionar las
puntuaciones en un ítem con las puntuaciones en el total del test después de restar
de este total las puntuaciones del ítem cuyo índice queremos obtener. En el ejemplo
precedente, el índice de homogeneidad corregido para el ítem 1 será 0.49,
resultado de correlacionar la 1ª columna de la tabla (2, 3, 5, 0, 4) con la columna (10-
2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Análogamente, los índices de
homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin
corregir.
Vj= rjy
https://campusformacion.net/nuevocampus/impresioncurso.php 29/137
1/1/22 18:37 Campus Virtual
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo
rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende,
debería correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para
validar un test de inteligencia verbal puede ser otro test que incluye cuestiones
verbales; los supervisores de unos trabajadores podrían valorar el grado de
motivación de cada uno y utilizar estas valoraciones como el criterio de validación
de un test de motivación laboral; el total de ventas en pesetas que realizan los
vendedores puede ser un buen criterio para validar un test de aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos
las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y:53606
Los elementos que tengan una correlación con el criterio próxima a cero deberían
eliminarse de la prueba, en la medida que no contribuyen a evaluar el rasgo que se
pretende medir. Si lo que se pretende es seleccionar los ítems que más contribuyen
a la validez del test, de entre los ítems de igual varianza, serían preferibles los que
tienen alto Vj y bajo Hj.
Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones
de respuesta que se han dado a las diferentes alternativas de cada ítem. Para un ítem
concreto de una prueba de rendimiento óptimo, lo ideal es que la alternativa
seleccionada en mayor medida sea la correcta; cada una de las alternativas incorrectas
https://campusformacion.net/nuevocampus/impresioncurso.php 30/137
1/1/22 18:37 Campus Virtual
del ítem debe también ser seleccionada por un número de personas que, aun siendo
inferior al que selecciona la alternativa correcta, ratifique como adecuadas (como bien
planteadas) dichas alternativas incorrectas.
a b c d e
1 a 16 40 15 14 15
2 b 35 15 21 17 12
3 c 60 1 21 18 0
Tabla III. Porcentaje de respuesta obtenido en las diferetes opciones de tres íntems de un
determinado test.
En los tests formados por ítems de opción múltiples de las que sólo una es correcta,
podemos sobrestimar la puntuación directa de una persona dado que alguno de sus
aciertos ha podido producirse por azar. El problema entonces consiste en establecer un
procedimiento para descontar del número total de aciertos (A) los que se han producido
por azar (Aa).
P (Aa) = 1/n
https://campusformacion.net/nuevocampus/impresioncurso.php 31/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 32/137
1/1/22 18:37 Campus Virtual
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos y del número
de alternativas que tienen los ítems. Podemos observar que cada error se pondera por la
expresión 1/(n-1), lo que significa que por cada error hay que descontar el resultado de
ese cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada
error; en tests de 3 alternativas, hay que descontar 0.5 por cada error; en tests de 4
alternativas, hay que descontar 0.33 puntos por cada error; y así sucesivamente.
Xc = A – Aa
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5
opciones de respuesta cada uno. A continuación se detallan el nº de aciertos (A), errores
(E) y omisiones (O) que obtuvieron 3 personas (Tabla IV):
Persona A E 0
1 112 28 0
2 119 12 18
3 109 0 31
Tabla IV. Número de aciertos (A), errores (E) y omisiones (O) que obtuvieron 3 personas
en un test de conocimientos del idioma inglés formado por 140 ítems con 5 opciones de
respuesta cada uno
https://campusformacion.net/nuevocampus/impresioncurso.php 33/137
1/1/22 18:37 Campus Virtual
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más
inglés sabe es la persona 1, seguida de la 2 y en último lugar la persona 3. Sin embargo,
corrigiendo los efectos del azar, obtenemos las puntuaciones directas corregidas
siguientes:
https://campusformacion.net/nuevocampus/impresioncurso.php 34/137
1/1/22 18:37 Campus Virtual
El Modelo Lineal Clásico, también conocido como Teoría Clásica de los Tests, fue
formulada en 1904 por Charles Spearman. Este Modelo admite que el test, como
instrumento de medida que es, no es totalmente preciso. Las puntuaciones obtenidas al
aplicar un test, X, tienen dos componentes, un componente de verdad (V) y un
componente de error (E).
X=V+E
Con esto se quiere decir que la puntación observada en una medición (X), es igual a la
puntuación verdadera (V), más el error (E).
La puntuación observada (X) en un test puede considerarse una variable aleatoria, es decir,
una variable que puede asumir distintos valores de acuerdo a un conjunto de
probabilidades. Para una persona concreta, la puntuación observada en el test podrá
oscilar entre un conjunto de valores, y cada uno de ellos llevará asociada una cierta
probabilidad de ocurrencia. Por ejemplo, pasamos el test en infinitas ocasiones a una
persona de forma que cada una de ellas fuera independiente de las demás. La puntuación
de la persona no sería siempre la misma, sino que se distribuiría en torno a un cierto valor
que tendería a repetirse con mayor frecuencia. El modelo clásico supone que esta
distribución adopta la forma de la curva normal. Para cada persona, existe una
distribución normal independiente.
Como cualquier distribución, ésta tiene una media que coincide con el valor más probable
o valor esperado de la variable. Pues bien, este valor se considera la puntuación verdadera
del sujeto.
https://campusformacion.net/nuevocampus/impresioncurso.php 35/137
1/1/22 18:37 Campus Virtual
Vj = ? (Xj) = ?Xj
Donde Vj sería la puntuación verdadera del sujeto j , Xj la puntuación observada del
sujeto j, representa el valor esperado de la variable y ? la media poblacional de la
variable.
Puede decirse que para cada sujeto la puntuación verdadera sería la media de las
puntuaciones observadas obtenidas a través de infinitas administraciones del mismo test.
En primer lugar, la puntuación verdadera es un concepto estadístico, hace referencia a un
estadístico, la media, que parte del análisis del proceso de respuesta a un test. En
segundo lugar, la puntuación verdadera es dependiente del test utilizado. Por tanto, a
pesar del nombre, la puntuación verdadera no es algo etéreo que está “dentro de la
cabeza del sujeto” y que hay que descubrir. Es una definición estadística. En diferentes
tests, un mismo sujeto poseerá diferentes puntuaciones verdaderas, aunque ambos tests
midan el mismo constructo.
De este modo, el modelo clásico debe ofrecer las vías para poder estimar el componente
de verdad, cómo llegar a saber que parte de la puntuación que un sujeto obtienen en el
test es la que le corresponde relamente. Es decir, cómo podemos eliminar el componente
de error.
https://campusformacion.net/nuevocampus/impresioncurso.php 36/137
1/1/22 18:37 Campus Virtual
De manera intuitiva, dos tests son paralelos si proporcionan medidas equivalentes de las
personas, es decir, para el usuario debe resultar indiferente utilizar uno u otro a la hora
de tomar decisiones a partir de sus puntuaciones. El modelo de tests paralelos fija las
condiciones formales que deben cumplir dos tests para ser considerados "paralelos":
Por tanto, ambos tests tendrán la misma media y las mismas varianzas observadas.
Imaginemos que pasamos el test en dos ocasiones, o administramos dos formas paralelas
del test cada una en una ocasión. En ambos casos tendremos dos conjuntos de
puntuaciones observadas de los sujetos. El coeficiente de fiabilidad puede definirse como
la correlación entre las puntuaciones entre dos formas paralelas de un test (o dos
administraciones del mismo test). Si se cumplen las condiciones del modelo de tests
paralelos puede establecerse el puente matemático entre el coeficiente y el índice de
fiabilidad, como se muestra a continuación:
La ecuación final nos dice que la correlación entre las puntuaciones observadas en dos
tests paralelos, es igual al cociente de la varianza de las puntuaciones verdaderas sobre la
varianza de las puntuaciones observadas. Y esto es igual al cuadrado de la correlación
entre las puntuaciones observadas y las verdaderas.
Por ejemplo: si la correlación entre dos tests paralelos es rxx´ = 0'80, significa que el 80%
de la varianza del test se debe a la auténtica medida, y el resto, es decir, el 20% de la
varianza del test se debe al error.
https://campusformacion.net/nuevocampus/impresioncurso.php 37/137
1/1/22 18:37 Campus Virtual
Cuando un sujeto responde a un test obtiene una puntuación empírica, que está afectada
por un error. Si no hubiera error alguno, el sujeto obtendría su puntuación verdadera.
El error típico de medida indica la precisión absoluta del test, ya que permite estimar la
diferencia entre la medida obtenida y la que se obtendría si no hubiera error.
La longitud del test se refiere al número de sus elementos. Si un test consta de tres
elementos, un sujeto puede obtener en una ocasión una puntuación de 1 y en otra, o en
una forma paralela, una puntuación de 2. De una ocasión a otra, la puntuación ha variado
un punto; un punto sobre tres es una variación del 33%, una variación elevada. Si los
sujetos obtienen variaciones casuales de este tipo, la correlación del test consigo mismo
o la de las dos formas paralelas del test, será rebajada enormemente y no podrá ser alta.
Si el test es mucho más largo, si tiene, por ejemplo, 100 elementos, un sujeto puede
obtener 70 puntos en una ocasión y 67 en una forma paralela. De una a otra vez ha
variado 3 puntos; es una varianza relativamente pequeña en relación con el test total,
concretamente el 3%. Estas pequeñas alteraciones casuales de esta magnitud, que se
https://campusformacion.net/nuevocampus/impresioncurso.php 38/137
1/1/22 18:37 Campus Virtual
producen en las puntuaciones de los sujetos, al pasar de una forma a la paralela, son
relativamente poco importantes y no disminuirán tanto como antes la correlación entre
ambas. El coeficiente de fiabilidad será mucho mayor que en el caso anterior.
Este coeficiente alfa indica la precisión con que algunos items miden el constructo que
nos interesa
Si los items del test son dicotómicos, (si o no, 1 o 0, acuerdo o desacuerdo, etc), la
ecuación del coeficiente alfa se simplifica, dando lugar a las ecuaciones de Kuder-
Richardson (KR20 y KR21).
https://campusformacion.net/nuevocampus/impresioncurso.php 39/137
1/1/22 18:37 Campus Virtual
Dado un cierto número de items, un test será tanto más fiable, cuando más homogéneo
sea. El coeficiente alfa nos indica la fiabilidad en cuanto ésta representa homogeneidad y
coherencia o consistencia interna de los elementos de un test
https://campusformacion.net/nuevocampus/impresioncurso.php 40/137
1/1/22 18:37 Campus Virtual
Ej = Xj – Vj
Donde Ej es el componente error para el sujeto j, Xj la puntuación observada en el test
para el sujeto j y Vj su puntuación verdadera.
Ej es una variable aleatoria, ya que es la diferencia entre otra variable aleatoria Xj, y una
constante Vj (que sólo posee un valor para cada sujeto). La media de la distribución de los
errores es:
μ Ej = μ Ej = μ (Xj - Vj )= μ Xj - μ Vj = Vj - Vj = 0
μ Ej = 0
De las definiciones anteriores pueden derivarse varios principios del modelo clásico que
se consideran supuestos del modelo. Estos principios son:
https://campusformacion.net/nuevocampus/impresioncurso.php 41/137
1/1/22 18:37 Campus Virtual
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda
versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que
el test original pero con diferentes ítems. Como hemos explicado en el tema 4, dos
versiones o formas se consideran paralelas si, aplicadas a una misma muestra de
personas, obtienen medias y varianzas probabilísticamente similares. La correlación de
Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas paralelas
se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en que
pueden considerarse equivalentes.
1. Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos tests
paralelos.
Hay dos tipos de criterios que dos tests han de cumplir para que los consideremos
paralelos:
https://campusformacion.net/nuevocampus/impresioncurso.php 42/137
1/1/22 18:37 Campus Virtual
2. Aplicar una forma del test a la muestra de interés, y tras un lapso de tiempo que
no sea relevante para la aparición de cambios en los sujetos, aplicar la segunda
forma del test a la muestra.
Las dos formas deben ser administradas bajo las mismas condiciones, o, al menos,
bajos los mínimos cambios posibles en las condiciones. Se trata de no introducir
factores que puedan provocar cambios en los resultados.
Es adecuado para tests de potencia y para tests de velocidad en todas las áreas de
medición psicológica con instrumentos de lápiz y papel y también, con ciertos tests
manipulativos.
Una vez se han administrado las dos formas paralelas se dispondrá de una tabla de
datos con N sujetos por 2 variables, la puntuación en la forma A y en la forma B para
cada sujeto. Se procede entonces a calcular el coeficiente de correlación de
Pearson. El resultado obtenido puede estar entre –1 y +1, pasando por 0 (ausencia
de relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido
esperar correlaciones negativas debiendo estar el resultado entre 0 y +1, incluso
cabría esperar valores positivos alejados de 0. Si A y B son formas paralelas
entonces la correlación es el coeficiente de fiabilidad. Para considerar el test fiable,
el coeficiente de correlación obtenido deber ser alto, de modo que una gran
proporción de la varianza de las puntuaciones se deba a varianza verdadera. Es
decir, si obtenemos un coeficiente de fiabilidad de 0’75 diremos que tres cuartas
partes de la varianza empírica del test se deben a varianza verdadera, o lo que es lo
mismo, que un 25% de la varianza empírica es varianza de error.
https://campusformacion.net/nuevocampus/impresioncurso.php 43/137
1/1/22 18:37 Campus Virtual
Dado que las varianzas siempre tienen valor positivo y dado que sabemos que:
Podemos concluir que el valor de este cociente sólo puede oscilar entre 0 y 1
(ya que S2x siempre será mayor o igual que S2 v) de modo que, cuanto más
cerca de 1 esté rxx, más parecidas serán S2 v y S2 x y, por tanto, mayor será la
precisión, la estabilidad, la fiabilidad relativa del test analizado.
Es decir, cuanto más alto sea el valor de rxx mayor será el porcentaje de
variabilidad de las puntuaciones empíricas debido a las puntuaciones
verdaderas y menor el debido al error de medida. Ejemplo: Si obtenemos un
coeficiente de fiabilidad de 0.90, querrá decir que el 90 % de la varianza de las
puntuaciones observadas se debe a los niveles del rasgo de los sujetos y tan
sólo el 10 % de varianza restante al error de medida cometido al aplicar dicho
test.
rxx = (rxv)2
https://campusformacion.net/nuevocampus/impresioncurso.php 44/137
1/1/22 18:37 Campus Virtual
Si entonces
alguno.
Si entonces
x=v+e
https://campusformacion.net/nuevocampus/impresioncurso.php 45/137
1/1/22 18:37 Campus Virtual
Supuestos:
https://campusformacion.net/nuevocampus/impresioncurso.php 46/137
1/1/22 18:37 Campus Virtual
Derivaciones:
2. Dado que el e(ei)=0, y que los errores son independientes de las puntuaciones
verdaderas, la covariación entre las puntuaciones verdaderas y los errores es cero.
4. Dado que la COV entre los e y v es cero, la covarianza (COV) entre las x y las v es
la VAR de las puntuaciones v.
https://campusformacion.net/nuevocampus/impresioncurso.php 47/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 48/137
1/1/22 18:37 Campus Virtual
Ejemplos
1. ¿Cuál sería el coeficiente de fiabilidad de un test en el que Sv2 es el 75% de Sx2?
https://campusformacion.net/nuevocampus/impresioncurso.php 49/137
1/1/22 18:37 Campus Virtual
S2x=S2v+S2e
https://campusformacion.net/nuevocampus/impresioncurso.php 50/137
1/1/22 18:37 Campus Virtual
Esta es la expresión formal del error típico de medida. El error típico de medida
proporciona un índice del grado de desviación de las puntuaciones observadas respecto
de las puntuaciones verdaderas. Cuanto menor sea el error típico de medida con
respecto a la desviación de las puntuaciones observadas, menor será su varianza y, por
tanto, menor será la proporción de la varianza observada debido al error (y mayor la
debida a la varianza de las puntuaciones verdaderas).
Supongamos que Se = 3.5. ¿Qué podemos concluir acerca de este error típico de medida?
¿Es lo suficientemente importante como para comprometer la fiabilidad del test? Para
contestar a esta cuestión es necesario comparar ese valor con SX. Cuanto menor sea Se
con respecto a SX, menor impacto tendrá sobre la fiabilidad del test. Supongamos que en
un grupo Se = 12 y Sx = 60, mientras que en otro Se = 3 y Sx = 9. ¿En cuál de los dos grupos
el error típico de medida será más perjudicial?. En el segundo, ya que supone 1/3 de la
desviación típica de las puntuaciones observadas y en el primer caso sólo representa 1/5.
https://campusformacion.net/nuevocampus/impresioncurso.php 51/137
1/1/22 18:37 Campus Virtual
Tras obtener un valor del coeficiente de fiabilidad, la siguiente pregunta relevante que
nos podemos hacer es: ¿Cómo hacer estimaciones acerca del valor de la puntuación
verdadera de un sujeto?
https://campusformacion.net/nuevocampus/impresioncurso.php 52/137
1/1/22 18:37 Campus Virtual
Y dado que la razón entre las Sv y la Sx, es el índice de fiabilidad; y que la media de x y v
son iguales, la ecuación se simplifica:
La puntuación verdadera estimada con este método no es más que puntuación predicha
por un modelo de regresión a partir de la puntuación observada.
Li = v - Z (Se)
Lj = v + Z (Se)
https://campusformacion.net/nuevocampus/impresioncurso.php 53/137
1/1/22 18:37 Campus Virtual
Emax = Zc * Svx
IC = v ± Emax
EJEMPLO:
https://campusformacion.net/nuevocampus/impresioncurso.php 54/137
1/1/22 18:37 Campus Virtual
1. NC 95% Zc = ± 1.96
2. Se = = 1,58
La precisión o fiabilidad de un test varía en función de los errores aleatorios que son
debidos a la variabilidad de la muestra, del contexto o del material experimental. Suelen
afectar al valor de las variables, unas veces en exceso y otras en defecto, por lo que, al
aumentar el tamaño de la muestra se disminuye su efecto.
Como podemos ver ene l ejemplo, la puntuación empírica, observada, es 26. Y cuando
calculamos la puntuación verdadera por intervalos utilizamos este valor x=26. En este
caso estaríamos estimando las puntuaciones sin tener en cuenta el error de la puntuación
observada.
IC = x ± Emax =26 ± 3.1 . La puntuación verdadera del sujeto podría estar entre 29.1 y
22.1.
IC = v ± Emax =25.4 ± 3.1 . La puntuación verdadera del sujeto podría estar entre 28.5
y 22.3.
Z<1.96, por tanto, se acepta la H0 . Existen diferencias entre las puntuaciones pero
estas no son significativas.
https://campusformacion.net/nuevocampus/impresioncurso.php 56/137
1/1/22 18:37 Campus Virtual
Z>1.96, por tanto, se rechaza la H0 . Si existen diferencias entre las puntuaciones y
estas son significativas.
https://campusformacion.net/nuevocampus/impresioncurso.php 57/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 58/137
1/1/22 18:37 Campus Virtual
Desde la Teoría Clásica de los Tests se han propuesto diferentes procedimientos para
calcular la fiabilidad. En el Tema 4 comentamos que existían tres grandes métodos para
calcular el coeficiente de fiabilidad: Método Test-retest, Método de las formas paralelas y
Método de las dos mitades.
El método de formas paralelas es un indicador del grado de equivalencia entre las dos
formas paralelas de un test.
El método test-retest es un indicador de hasta qué punto son estables las mediciones
realizadas durante la primera aplicación del test.
El tercer método, el método de las dos mitades, a diferencia de los anteriores, requiere
una aplicación del test. Tras obtener las puntuaciones obtenidas por los sujetos en cada
una de las dos mitades en que se habrá dividido, se procede a calcular la correlación entre
las dos puntuaciones. El resultado obtenido será un indicador de la covariación entre
ambas mitades, es decir, de la consistencia interna del test.
Junto con el método de dos mitades, otros métodos basados en la consistencia interna,
que también requieren una sola aplicación son:
en que los ítems del test sean dicotómicos, y KR21, en el caso de que
además de ser dicotómicos, tengan la misma dificultad.
Método de Rulon (1939): Una estimación de la fiabilidad de un test a
partir de las puntuaciones obtenidas en sus dos mitades. Considera que
la diferencia entre las dos mitades se debe sólo al error aleatorio.
Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la
consistencia interna, equivalente a la de Rulon.
Alfa representa la consistencia interna del test, el grado que todos los ítems del test
covarían entre sí. Salvo que tengamos un interés expreso en conocer la consistencia
entre dos o más partes de un test (ej. primera mitad y segunda mitad; ítems pares e
impares) será preferible calcular el coeficiente α, a aplicar métodos de dos mitades. Éstos
únicamente ofrecen información sobre la consistencia entre las partes, mientras que alfa
tiene en cuenta la covariación entre cualquier par de ítems.
Donde:
n = número de ítems
El coeficiente α oscila entre 0 y 1. Cuanto más próximo esté a 1, los ítems serán más
consistentes entre sí. Hay que tener en cuenta que a mayor longitud del test, mayor será
alfa. Matemáticamente, α puede asumir valores negativos.
En la práctica, es muy difícil que todos los ítems de un test sean paralelos, como indica α,
pero, sin embargo, tiene sentido su aplicación para establecer el grado en que los
diferentes ítems están midiendo una única dimensión o rasgo.
Ejemplo
https://campusformacion.net/nuevocampus/impresioncurso.php 60/137
1/1/22 18:37 Campus Virtual
Ítems
Sujetos X
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
Varianzas0.140.250.140.251.33
En este caso, el coeficiente α obtenido representa un valor medio, que nos indica que no
existe un elevado grado de covariación entre los ítems. No podemos afirmar con
rotundidad que este test mide un rasgo unitario. El coeficiente α puede obtenerse
también entre diferentes grupos de ítems (subtests). En ese caso, n será el número de
subtests y ΣS2j la suma de las varianzas de los subtests. Un coeficiente α bajo indicará
que los diferentes subtests miden rasgos o constructos diferentes.
Se llama test complejo a aquel que está formado por muchos subtest. La fiabilidad de este
tipo de test está en función de la varianza y fiabilidad de cada uno de los subtest que lo
componen.
La fiabilidad del test total del test complejo rtt se puede calcular aplicando la siguiente
formula:
https://campusformacion.net/nuevocampus/impresioncurso.php 61/137
1/1/22 18:37 Campus Virtual
Donde:
https://campusformacion.net/nuevocampus/impresioncurso.php 62/137
1/1/22 18:37 Campus Virtual
Donde:
Sp2 y Si2 son las varianzas de las puntuaciones pares e impares respectivamente es
la varianza de la otra parte del instrumento
4. Longitud del test: es decir, el número de ítems que presenta el test. Cuanto más
largo es un test, mayor es su fiabilidad.
Factores que pueden introducir cambios en los Factores que pueden introducir cambios en las
sujetos condiciones de administración
https://campusformacion.net/nuevocampus/impresioncurso.php 63/137
1/1/22 18:37 Campus Virtual
Maduración
Aprendizaje e influencia
general debida al medio
social
Actividad anterior a la
administración de la prueba.
Aprendizaje debido a la
primera prueba.
Conocimiento de los
resultados de la primera
prueba.
Además, hay otros efectos que son importantes pero que no pueden agruparse
fácilmente en estas dos categorías:
https://campusformacion.net/nuevocampus/impresioncurso.php 64/137
1/1/22 18:37 Campus Virtual
Bloque IV - Validez
La validez de un test indica el grado de exactitud con el que mide el constructo teórico
que pretende medir y si se puede utilizar con el fin previsto. Es decir, un test es válido si
"mide lo que dice medir". Un test puede ser fiable pero no por ello válido. El test puede
proporcionar puntuaciones estables pero no estar midiendo el constructo para el cuál fue
creado. El test puede medir mejor o peor el constructo, pero tiene que contar con una
fiabilidad para alcanzar la validez, es decir, puede ser fiable pero no válido; pero si es
válido ha de ser también fiable.
Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene
como objetivo aportar pruebas sobre las inferencias que podemos realizar con un test,
tradicionalmente se han diferenciado varios procedimientos de validación, alguno de los
cuales incluye varios métodos diferentes de comprobación. Los fundamentales
procedimientos son denominados como validez de contenido, de constructo y referida al
criterio.
a) Validez de Contenido
Se refiere al grado en que el test presenta una muestra adecuada de los contenidos a los
que se refiere, sin omisiones y sin desequilibrios de contenido.
https://campusformacion.net/nuevocampus/impresioncurso.php 65/137
1/1/22 18:37 Campus Virtual
Este tipo de validez expresa la relación entre el test y el criterio interno formado por la
materia a que se refiere el test. La relación será más alta a medida que esté mejor
representada toda la materia por el test, el grado en que los ítems que componen el test
representen el contenido que el test trata de evaluar. Esta validez se consigue a medida
que hay garantías de que se han definido claramente los diversos aspectos de un cierto
campo de conocimientos o destrezas que el test intenta medir. Por tanto, la validez de
contenido se basa en la definición precisa del dominio y en el juicio sobre el grado de
suficiencia con que ese dominio se evalúa. Por ejemplo, un test de ortografía es válido si
su contenido es apropiado. Para comprobar esta validez se examinará el campo de la
ortografía y se constatará que los ítems que componen el test son una muestra imparcial
y suficiente de este campo.
https://campusformacion.net/nuevocampus/impresioncurso.php 66/137
1/1/22 18:37 Campus Virtual
b) Validez de Constructo
Se puede considerar un concepto general que abarcaría los otros tipos de validez.
https://campusformacion.net/nuevocampus/impresioncurso.php 67/137
1/1/22 18:37 Campus Virtual
c) Validez de Criterio
Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios) con lo
que se espera por hipótesis que debe correlacionar de determinado modo.
Un criterio es una variable distinta del test que se toma como referencia, que se sabe que
es un indicador de aquello que el test pretende medir o que se sabe que debe presentar
una relación determinada con lo que el test pretende medir.
Este criterio externo debe ser una medida fiable del constructo que queremos
pronosticar con el test: calificaciones escolares, total de ventas producidas en un
determinado período, estimaciones de un terapeuta de las mejoras conseguidas por cada
persona, etc.
https://campusformacion.net/nuevocampus/impresioncurso.php 68/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 69/137
1/1/22 18:37 Campus Virtual
El AFE tuvo sus orígenes a comienzos del siglo XX, y es conocido como una técnica
estadística de interdependencia (es decir, es un conjunto de variables en las cuales no
existe una variable respuesta ni variables independientes, como en la mayoría de
modelos de regresión, sino que todas las variables son analizadas en conjunto), que se
caracteriza por su versatilidad. Su propósito principal es tratar de establecer una
estructura subyacente entre las variables del análisis, a partir de estructuras de
correlación entre ellas; o, en otras palabras: busca definir grupos de variables (más
conocidos como factores) que estén altamente correlacionados entre sí. Adicionalmente,
se usa para reducir la complejidad de un gran número de variables en un número más
reducido; por lo tanto, tiene como objetivo explicar un fenómeno de forma más
minuciosa.
El AFC, por otro lado, permite evaluar hasta qué punto un conjunto de factores
organizados teóricamente se ajusta a los datos. En este tipo de análisis, el investigador
desempeña un papel mucho más importante, pues, a mayor conocimiento del problema,
https://campusformacion.net/nuevocampus/impresioncurso.php 70/137
1/1/22 18:37 Campus Virtual
tiene mayor capacidad para formular y probar hipótesis mucho más concretas y
específicas. En este tipo de análisis se debe establecer un nivel de confianza para poder
evaluar si se rechazan o no las hipótesis planteadas. Se debe utilizar cuando el objetivo
es llegar a una estructura específica
Aún así, la AFE sigue siendo una técnica cuestionada, especialmente por la manipulación
que muchas veces se hace de los datos hasta encontrar resultados similares a lo
esperado. Para evitar suspicacias, lo recomendable es definir claramente los pasos y las
pruebas estadísticas que se van a utilizar antes de comenzar el análisis.
https://campusformacion.net/nuevocampus/impresioncurso.php 71/137
1/1/22 18:37 Campus Virtual
b) Diseño
https://campusformacion.net/nuevocampus/impresioncurso.php 72/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 73/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 74/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 75/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 76/137
1/1/22 18:37 Campus Virtual
Para lograr una adecuada interpretación de los resultados se recomienda seguir los
siguientes pasos:
Una vez rotados los factores, es necesario evaluar cómo fueron las ponderaciones
en cada uno de ellos, de manera que sea más fácil identificar el grado de aporte de
cada una de las variables en los nuevos factores. En esta etapa es importante hacer
una evaluación tanto en términos estadísticos como prácticos, con el fin de
determinar cuáles variables son las más importantes y, de la misma forma,
identificar aquellas que definitivamente no aportan y pueden ser eliminadas del
análisis. Para hacer esta evaluación desde el punto de vista estadístico se recurre a
la significancia de las ponderaciones, así: valores menores a | .3| se consideran no
significativos; entre | .3| y | .5|, de aporte mínimo; entre | .5| y | .7|, de aporte
significativo, y valores mayores a |.7| son consideradas relevantes y, generalmente,
son el objetivo del análisis. Sin embargo, es frecuente que en ocasiones valores
mayores a | .3| también sean considerados para los análisis.
Este sería el proceso final del análisis si los objetivos trazados fueran reducir o
identificar combinaciones lógicas de variables, entender mejor las interrelaciones o
seleccionar variables útiles para una aplicación subsecuente con otras técnicas
estadísticas. No obstante, si el objetivo es generar nuevos factores, es necesario dar
unos pasos adicionales, como nombrar o bautizar a los nuevos factores y evaluar
cada uno de ellos en términos de la pregunta de investigación. Este es uno de los
aspectos más difíciles e importantes del análisis, pues, según lo encontrado, en
algunos casos puede ser lógico y fácil de interpretar, mientras en otros, los
resultados encontrados no presentan un comportamiento lógico y su
interpretación se torna compleja.
https://campusformacion.net/nuevocampus/impresioncurso.php 78/137
1/1/22 18:37 Campus Virtual
Thurstone (1947) sugirió que los factores fueran rotados en un espacio multidimensional
para conseguir la solución con la mejor estructura simple. La rotación factorial puede ser
ortogonal u oblicua. El método de rotación ortogonal asume la independencia de los
factores (los dos factores en análisis se giran a la vez, lo cual mantiene siempre su
independencia (es decir, siempre se tendrá un ángulo de 90° entre ellos), mientras que el
método de rotación oblicua permite la correlación entre factores.
Dentro de los métodos de rotación ortogonal existe una gran variedad de posibilidades;
sin embargo, solo nos vamos a referir a los tres más utilizados: varimax, quartimax y
equamax. En el método de rotación varimax se busca maximizar las ponderaciones a nivel
del factor; es decir, se espera que cada ítem o variable sea representativo en solo uno de
ellos, con el fin de minimizar al máximo el número de variables dentro de cada factor. En
el caso de la rotación quartimax, la maximización de las ponderaciones se realiza a nivel
de la variable, lo que busca minimizar el número de factores que ayude a explicar cada
una de ellas. Finalmente, con la rotación equamax se hace una combinación de las dos
técnicas anteriores; por consiguiente, la maximización de las ponderaciones se hace
tanto a nivel del factor como a nivel de la variable.
En el caso de las rotaciones oblicuas, se parte del supuesto de correlación entre los
nuevos factores, que en la vida real es el escenario más común, lo que conduce a que las
ponderaciones calculadas no coincidan con las correlaciones entre el factor y la variable.
Dentro de los métodos de rotación oblicua más utilizados se encuentran el oblimin y el
promax. La rotación oblimin permite establecer relaciones jerárquicas entre los factores,
para lo cual debe establecer el grado de inclinación (δ) entre ellos. Un valor δ de cero da
las rotaciones más oblicuas. En cuanto a la rotación promax, modifica los resultados de
una rotación ortogonal hasta crear una solución con cargas factoriales lo más próximas
posible a la “estructura ideal”. Para ello, eleva las cargas factoriales obtenidas en una
rotación ortogonal a una determinada potencia (conocida como κ). En general, los valores
de κ se encuentran entre 2 y 4, pero, a mayor potencia, mayor oblicuidad en la solución (el
valor de κ más común es de 4). Para decidir qué tipo de rotación utilizar, es necesario
tener conocimiento previo del problema, pues identificar de antemano correlación entre
los nuevos factores significa que tiene más sentido una rotación oblicua, mientras un
supuesto de independencia hace preferible una rotación ortogonal.
En las últimas dos décadas, los estudios de revisión del uso del AFE han puesto de
manifiesto una evolución donde se ha pasado de un uso mayoritario de la rotación
ortogonal (concretamente el criterio Varimax), a utilizar cada vez más la rotación oblicua.
https://campusformacion.net/nuevocampus/impresioncurso.php 79/137
1/1/22 18:37 Campus Virtual
1) Casi todos los fenómenos que se estudian en las ciencias sociales y de la salud
están más o menos interrelacionados entre sí, por lo que encontrar relaciones de
ortogonalidad perfecta es difícil. De ello se deduce, que imponer una solución
factorial ortogonal puede ser muy probable-mente alejarse de la realidad
En cuanto al criterio de asignación de los ítems a los factores, otro aspecto que puede
hacer variar enormemente la interpretación de la solución obtenida, la práctica más
común es retener saturaciones que estén por encima de .30 ó .40, que equivale
aproximadamente al 10% de la varianza explicada.
Los ítems que no superen el criterio o conjunto de criterios establecidos, deben ser
revisados en sus dos aspectos: sustantivo y metodológico, para identificar en lo posible el
origen de su mal funcionamiento. Con ello se puede valorar si es necesario o aconsejable
que se eliminen del test, que se modifiquen de algún modo para incluirlos en una nueva
versión del test, o si lo que sucede es que hay que añadir nuevos ítems de contenido
semejante para muestrear adecuadamente el contenido del factor que pretendemos
https://campusformacion.net/nuevocampus/impresioncurso.php 80/137
1/1/22 18:37 Campus Virtual
medir con ese ítem, lo que nos lleva a reexaminar la validez de contenido.
Independientemente de ello, se realizará un nuevo análisis factorial con la escala
reducida tras eliminar esos ítems. Idealmente el análisis se repetirá tras eliminar uno de
los ítems inadecuados cada vez. En ocasiones variaciones pequeñas como eliminar un par
de ítems pueden modificar sustancialmente el resultado final del análisis.
https://campusformacion.net/nuevocampus/impresioncurso.php 81/137
1/1/22 18:37 Campus Virtual
El coeficiente de validez es la correlación entre las puntuaciones del test con un criterio
externo. Un criterio externo que será cualquier variable distinta del test que se toma
como referencia, que se sabe que es un indicador de aquello que el test pretende medir o
que se sabe que debe presentar una relación determinada con lo que el test pretende
medir.
A mayor correlación, mayor capacidad predictiva del test. Existen distintos diseños
experimentales que permiten determinar esta correlación. La elección de un diseño u
otro dependerá de las necesidades y circunstancias específicas de cada caso:
Para conocer hasta qué punto podemos predecir las puntuaciones en el criterio de un
participante, dada su puntuación en el test, aplicamos la siguiente fómula, que nos dirá
que correlación existe entre el test y el criterio:
X Y
12 9
14 7
1510
7 8
9 5
4 4
X Y XY X2 Y2
12 9 108 144 81
https://campusformacion.net/nuevocampus/impresioncurso.php 83/137
1/1/22 18:37 Campus Virtual
14 7 98 196 49
7 8 56 49 64
9 5 45 81 25
4 4 16 16 16
Obtenemos un valor de 0,73. Dado que el valor máximo del coeficiente de validez es 1, se
puede decir que el test tiene una buena capacidad predictiva. Obtenemos un valor de
0,73. Dado que el valor máximo del coeficiente de validez es 1, se puede decir que el test
tiene una buena capacidad predictiva.
En este caso, como sólo tenemos un predictor y un criterio aplicaremos la regresión lineal
para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones en el test (X).
Regresión Lineal
https://campusformacion.net/nuevocampus/impresioncurso.php 84/137
1/1/22 18:37 Campus Virtual
a = valor esperado de Y cuando X=0 (ordenada en el origen). Punto donde la línea corta al
eje Y, o valor esperado de Y cuando X vale 0.
Para cada Xi, tenemos dos puntos (XY), y (X, Y’) pronosticado. Es decir, dicha función
predice un valor de Y que no se corresponde con el real.
La diferencia entre (XY) y (XY´) determina el error de predicción, distancia vertical entre
ambos puntos.
En puntuaciones di ferenciales la ordenada en el origen pasa por el punto (0,0) (Figura 2):
https://campusformacion.net/nuevocampus/impresioncurso.php 85/137
1/1/22 18:37 Campus Virtual
Puntuaciones directas:
Puntuaciones diferenciales:
Puntuaciones típicas
Con los datos de la Tabla I que mostramos anteriormente podemos calcular la ecuación
de regresión en puntuaciones directas, diferenciales y típicas (Tabla I):
Puntuaciones directas:
Puntuaciones diferenciales:
https://campusformacion.net/nuevocampus/impresioncurso.php 86/137
1/1/22 18:37 Campus Virtual
Puntuaciones típicas:
(Tabla III)
X Y Y’ =a+BX e =Y-Y’
12 9 Yx=12=3,15+0,395*12=7,89 9-7,89=1,11
14 7 Yx=14=3,15+0,395*14=8,68 7-8,68=-1,68
15 10 Yx=15=3,15+0,395*15=9,08 10-9,08=0,92
7 8 Yx=7=3,15+0,395*7=5,91 8-5,91=2,09
9 5 Yx=9=3,15+0,395*9=6,71 5-6,71=-1,71
4 4 Yx=4=3,15+0,395*4=4,73 4-4,73=-0,73
Se asume que cuanto más fiable es un test más válido será, lo que se verá reflejado en su
coeficiente de validez. Si un constructor de un test es capaz de mejorar, por el
procedimiento que sea, la fiabilidad de las medidas utilizadas (tanto la del test como la del
criterio de validación) en cierto grado mejora también la validez de ese test para
pronosticar ese criterio y eso se refleja en su coeficiente de validez.
https://campusformacion.net/nuevocampus/impresioncurso.php 87/137
1/1/22 18:37 Campus Virtual
Además, la longitud de un test afecta al coeficiente de fiabilidad del mismo y, dado que
esa fiabilidad afecta al coeficiente de validez, podemos poner en relación directamente la
longitud del test con el coeficiente de validez mediante la siguiente ecuación:
Y, también, podemos despejando “n” para tratar de averiguar el número de ítems que
debería tener un test con el fin de lograr un coeficiente de validez deseado.
El coeficiente de validez también se ve afectado por la variabilidad de los datos con los
que se está calculando. Si establecemos un coeficiente de validez con una muestra de
sujetos más homogénea (es decir con poca variabilidad) y, posteriormente, se lo
aplicamos a otro grupo de sujetos más heterogéneo (con mayor variabilidad) la cuantía
del coeficiente aumenta. Es lo mismo que ocurre con el coeficiente de fiabilidad, ambos
son índices correlacionales.
https://campusformacion.net/nuevocampus/impresioncurso.php 88/137
1/1/22 18:37 Campus Virtual
Donde Sx1 es la desviación típica del grupo 1 Sx2 es la desviación típica del grupo 2 rx1y
es el coeficiente de validez obtenida en el grupo 1 Rx2y es el coeficiente de validez que se
obtendría en el grupo 2.
Por ejemplo construimos un test de Orientación Espacial formado por 20 items (rxx =
0,91). Con el fin de analizar su eficiencia predictora del Rendimiento en Vuelo y se lo
pasamos a 200 aspirantes a entrar en una determinada Escuela Aeronáutica, con los que
obtenemos: Media de 14 y una desviación típica de 3,48.
a) Ante estos datos, ¿qué validez tiene el test para los fines propuestos?
b) ¿Cuál sería la nueva validez si redujésemos la fiabilidad del test hasta 0,85?.
https://campusformacion.net/nuevocampus/impresioncurso.php 89/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 90/137
1/1/22 18:37 Campus Virtual
obtienen las personas que integran el grupo normativo donde se bareman las pruebas. De
este modo, los percentiles, las puntuaciones típicas y las puntuaciones típicas derivadas
en los grupos de referencia, se denominan normas.
El grupo normativo debe representar una población bien definida descrita con suficiente
detalle en el manual del test. Deberá indicarse su composición en los diferentes aspectos
sociodemográficos: sexo, edad, raza, región geográfica, nivel socioeconómico, nivel
educativo.
Para características que evolucionan con la edad (sobre todo de tipo intelectual)
tiene sentido comparar la puntuación de un sujeto con las que obtienen los de su
misma edad y los de edades diferentes. Esto se puede realizar mediante dos tipos
diferentes de escalas: las Edades Mentales (EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a
diferentes grupos de edad (niños entre 5 y 14 años), y que obtenemos las
puntuaciones medias de cada grupo de edad en la prueba, siendo las que siguen:
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27
https://campusformacion.net/nuevocampus/impresioncurso.php 91/137
1/1/22 18:37 Campus Virtual
b) Percentiles.
Consisten en asignar a cada posible puntuación directa un valor (en una escala de 1
a 100) que se denomina percentil y que indican el porcentaje de sujetos del grupo
normativo que obtienen puntuaciones iguales o inferiores a las correspondientes
directas.
https://campusformacion.net/nuevocampus/impresioncurso.php 92/137
1/1/22 18:37 Campus Virtual
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil
asignado a la puntuación directa Xi, Fi la frecuencia acumulada
correspondiente a Xi y N el número total de sujetos que forman el grupo
normativo.
EJEMPLO:
Xi: 28 27 26 25 24 23 22 21 20 19 18
fi: 2 4 21 32 45 37 22 18 12 6 1
https://campusformacion.net/nuevocampus/impresioncurso.php 93/137
1/1/22 18:37 Campus Virtual
Un sujeto que obtiene una puntuación directa de 20 puntos en el test, diremos que
supera en conocimientos informáticos al 9.5% de los sujetos universitarios, mientras que
más del 90% de los alumnos universitarios tienen mayor conocimiento en el manejo de
ordenadores que la persona evaluada.
Las ganancias o pérdidas en puntuaciones individuales, así como las comparaciones entre
sujetos de diferentes puntos de la distribución, no pueden analizarse en percentiles.
Cuáles serían las puntuaciones típicas normalizadas asociadas a los centiles 1, 26,
57 y 97 :
https://campusformacion.net/nuevocampus/impresioncurso.php 95/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 96/137
1/1/22 18:37 Campus Virtual
Las puntuaciones T representan una escala con media 50 y desviación típica 10. Así,
una puntuación T = 78 significa que la persona obtiene una puntuación Zi = 2.8, es
decir, 2.8 desviaciones típicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviación típica 20. Por
ejemplo, una puntuación D = 35 indica que la persona obtuvo una puntuación Zi =
-.75, o lo que es lo mismo, una puntuación que se encuentra .75 desviaciones típicas
por debajo de la media del grupo normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviación típica 2. Una
persona que obtenga el estanino 8 en un test de aptitud espacial indicará que se
encuentra 1.5 desviaciones típicas por encima de la media del grupo normativo.
Puntuación típica: -2
Escala T: 30
Escala D: 10
https://campusformacion.net/nuevocampus/impresioncurso.php 97/137
1/1/22 18:37 Campus Virtual
Estanino: 1
El estudio de las cualidades psicométricas del test requiere dos fases: una de análisis de
ítems y otra de estudio de las propiedades del test definitivo.
Media y varianza
Índice de homogeneidad
Para llevar a cabo el análisis inicial de los ítems en el SPSS se selecciona el menú Analizar -
> Escalas -> Análisis de fiabilidad y aparece el siguiente cuadro de diálogo (Figura 2):
https://campusformacion.net/nuevocampus/impresioncurso.php 98/137
1/1/22 18:37 Campus Virtual
A continuación, se seleccionan los ítems para los que se desea llevar a cabo los análisis.
Este cuadro de diálogo ofrece por defecto el valor del coeficiente alpha de Cronbach para
las variables seleccionadas. Para el análisis de ítems se pulsa el botón Estadísticos y
aparece el siguiente cuadro de diálogo (Figura 3):
https://campusformacion.net/nuevocampus/impresioncurso.php 99/137
1/1/22 18:37 Campus Virtual
1. Una primera tabla de estadísticos descriptivos para cada ítem que contiene: la
media, la desviación típica y el número de personas que han respondido a cada
ítem. Nos indica cual es el ítem con mayor media, cual con menor media, y cual
posee mayor desviación típica (Figura 4).
https://campusformacion.net/nuevocampus/impresioncurso.php 100/137
1/1/22 18:37 Campus Virtual
4. Una tabla con la relación entre cada ítem y el test (Figura 6).
5. Una tabla con el coeficiente α de Cronbach del test inicial. En nuestro ejemplo
alcanza un valor de 0.4284 (Figura 7).
Para obtener el test definitivo se debe depurar el test inicial, eliminando los ítems
que no resulten apropiados a partir de los datos de las Tablas I, II y III. Para eliminar
estos ítems tenemos que:
El programa SPSS ofrece una tabla para Estadísticos para la escala dividida en dos
mitades (Figura 8) y una tabla con el coeficiente de fiabilidad obtenido por el
procedimiento de dos mitades (Figura 9)
https://campusformacion.net/nuevocampus/impresioncurso.php 102/137
1/1/22 18:37 Campus Virtual
La correlación entre las dos mitades del test vale .3239. El coeficiente de fiabilidad
de nuestro test vale 0.4894.
2. Su coeficiente α de Cronbach.
Analizar -> Escalas -> Análisis de fiabilidad (ver Figura 2) para obtener los
estadísticos para el test definitivo (seleccionaremos sólo los ítems 1, 2, 3, 5, 6,
7, 8, 9, 12, 13, 14 y 15). Y sólo solicitaremos los descriptivos para ‘Escala’ (ver
Figura 3), desactivando las opciones restantes).
Obtenemos una tabla (Figura 10: Media, varianza y coeficiente α de Cronbach del test
final.) que contiene la media, varianza y el coeficiente α del test final. Siguiendo con
el ejemplo, en el test inicial el coeficiente α era de .4284. En el test final, a pesar de
ser más corto, el coeficiente α alcanza un valor de .5437. Por lo tanto, al eliminar
estos ítems hemos mejorado la consistencia interna del test.
https://campusformacion.net/nuevocampus/impresioncurso.php 103/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 104/137
1/1/22 18:37 Campus Virtual
El análisis factorial por el método del Componente Principal, da lugar a las siguientes
tablas en el SPSS (Figura 14, 15 y 16)
https://campusformacion.net/nuevocampus/impresioncurso.php 105/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 106/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 107/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 108/137
1/1/22 18:37 Campus Virtual
Los resultados obtenidos con esta selección aparecen en la Figura 19: Centiles y
distribución de frecuencias de nuestro test. La última columna contiene los
porcentajes acumulados que nos permiten conocer los centiles. Por ejemplo,
ennuestro test C73 = 44.
https://campusformacion.net/nuevocampus/impresioncurso.php 109/137
1/1/22 18:37 Campus Virtual
Una vez realizados todos los análisis, ya tenemos toda la información necesaria para
poder redactar el informe en que se describa el proceso seguido, comentando los
resultados más importantes.
En la segunda hoja debe constar el título del test e incluir los siguientes apartados:
1. Objetivos de la prueba.
En este apartado debe especificarse el rasgo que se pretende medir, con una
definición lo más operativa posible del mismo y de sus componentes.
2. Redacción de ítems.
Se deben especificar los ítems que miden cada componente y, en su caso, si lo hacen
de modo directo o inverso. Aclarar el formato de respuesta y el modo de
cuantificación de las respuestas.
3. Análisis de ítems.
Para cada ítem hay que especificar su varianza, media y su índice de homogeneidad.
Comentar los resultados indicando los ítems eliminados y los motivos por los que se
eliminan.
https://campusformacion.net/nuevocampus/impresioncurso.php 110/137
1/1/22 18:37 Campus Virtual
Comentar los resultados del análisis factorial para establecer qué dimensiones
mide el test. Se conveniente presentar una tabla con las saturaciones y las
varianzas de los factores retenidos. También es adecuado que proponer algún
procedimiento para estudiar la validez de constructo del test. El procedimiento
propuesto NO DEBE SER UNA DEFINICIÓN de la validez de constructo. Se deben
concretar las hipótesis, indicando qué resultados aportarían información a favor de
la validez de constructo del test. Por ejemplo, si la característica que midiese
nuestro test fuese el autocontrol, sería de esperar que, según lo que apunta la
teoría, éste fuese mayor en la población normal que en otras poblaciones
psicopatológicas. Si no se encontrasen tales diferencias la validez de las
puntuaciones de nuestro test se vería seriamente amenazada.
6. Baremos.
Incluir una tabla que muestre los baremos por centiles obtenidos.
7. Apéndice.
https://campusformacion.net/nuevocampus/impresioncurso.php 111/137
1/1/22 18:37 Campus Virtual
12.1. Introducción
La mayoría de los instrumentos que se han desarrollado lo han sido a partir de la TCT, más
popular en su uso, sin embargo, no podemos obviar que hemos sufrido un cambio
importante y se ha pasado a la utilización de modelos matemáticos de medida que
imponen duras restricciones a los datos para justificar que el instrumento construido y
los ítems que forman parte del mismo miden de manera apropiada el constructo o
variable de interés. El análisis usando TRI, a través de modelos matemáticos, nos
proporciona una visión de la relación entre el nivel en el rasgo de un individuo (por
ejemplo, nivel de depresión) y las características de los ítems.
La TRI proporciona una amplia gama de modelos que permite trabajar con tests tanto
unidimensionales como multidimensionales y con distintos formatos de respuesta
(dicotómico, politómico, continuo,...).
https://campusformacion.net/nuevocampus/impresioncurso.php 112/137
1/1/22 18:37 Campus Virtual
Todos los modelos especifican una relación entre las puntuaciones empíricas de los
sujetos y una característica rasgo latente no observable. Los modelos describen cuánta
influencia tiene el rasgo en el hecho de que se obtengan unas puntuaciones u otras en el
test, o en cada uno de los ítems.
En cualquier modelo de TRI tenemos que considerar los parámetros referidos a los
sujetos, es decir, los parámetros de habilidad o rasgo latente (θ). Se considera que cada
individuo lleva asociado un parámetro individual, al que se denominó puntuación
verdadera V en la TCT. El objetivo último de todos los modelos es el de poder estimar el
verdadero valor de θ a través de los valores que sus manifestaciones observables toman
sobre las variables aleatorias X1 , X2,…………...Xn cuya distribución depende, en cada caso,
de ese valor, θ.
La TRI proporciona modelos en los que, tanto los ítems como los individuos, se pueden
describir separadamente mediante sus propios parámetros, de tal manera que se puede
predecir probabilísticamente la respuesta de cualquier individuo a cualquier ítem, aún
cuando no existan datos acerca de cómo individuos similares a él hubieran resuelto ítems
análogos.
12.2. Supuestos
La TRI depende de algunos supuestos clave. Los supuestos de estos modelos son:
https://campusformacion.net/nuevocampus/impresioncurso.php 113/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 114/137
1/1/22 18:37 Campus Virtual
Se utiliza con ítems de respuesta dicotómica. Estos ítems son los típicos
en un examen de rendimiento académico donde cada ítem se formula
con dos opciones de respuesta, donde hay una respuesta que es la
correcta y otra que es incorrecta.
https://campusformacion.net/nuevocampus/impresioncurso.php 115/137
1/1/22 18:37 Campus Virtual
Este gráfico ayuda a explicar la relación entre la habilidad latente que está siendo
evaluada (por ejemplo, conocimiento en matemáticas) y la probabilidad de un estudiante
de responder correctamente al ítem.
La discriminación (1) representa la capacidad del ítem para discriminar entre individuos
con diferentes niveles de habilidad, y es proporcional a la pendiente de la CCI en el valor
de dificultad del ítem.
La dificultad del ítem (2) representa el nivel de dificultad del ítem y se define como el nivel
de habilidad (θ) en la que un individuo tiene una probabilidad del 50% de responder
correctamente al ítem. Las CCIs del ejemplo, representan ítems con diferentes valores de
discriminación, lo que indica que se puede diferenciar bastante bien a aquellos sujetos
con niveles de habilidad cercanos a la dificultad del ítem tanto por encima de su valor
como por debajo. Cuanto más pronunciada es la pendiente de la curva mayor es la
discriminación del ítem.
Por otro lado, cuando la curva para una respuesta de 1 (es decir, una respuesta correcta)
se encuentra más desplaza a la derecha en la escala de habilidad, más difícil es el ítem, es
decir, es necesario un nivel en el rasgo más alto para que el individuo acierte el ítem. Por
ejemplo, el tercer ítem de la fila superior, más a la derecha, es el ítem más fácil, mientras
que el ítem de la fila inferior de la derecha es el más difícil. A través de una
transformación de las CCIs podemos obtener funciones de información del ítem. En la
Figura 1 las FFIs están representadas por las líneas de puntos. Tal y como se puede
observar, el segundo ítem de la fila superior es el que proporciona la mayor información
(es decir, el pico más alto), mientras que el tercer ítem de la fila superior proporciona
https://campusformacion.net/nuevocampus/impresioncurso.php 116/137
1/1/22 18:37 Campus Virtual
menor cantidad de información (es decir, la curva con el pico más bajo). Estas funciones
representan la cantidad de información que proporciona un ítem en cada nivel del
continuo de habilidad.
Sumando las FFIs de los ítems, obtenemos una función de información para el test de 5
ítems (Figura 1, imagen inferior derecha), que nos informa en qué nivel de habilidad la
evaluación es más precisa. Esta función de información en TRI está relaciona con la
fiabilidad de la medida. Cuanta más información tiene un ítem o un test, más precisa es la
estimación de la habilidad para un sujeto. En TRI cuanto más precisa sea la estimación
mayor será la fiabilidad.
Por último, la Figura 2 indica que este conjunto de ítems es más preciso cuando θ = -.5, y
menos preciso en valores de habilidad por debajo de θ = -3 o por encima de θ = 3.
Esta información, en combinación con las CCIs se puede utilizar para llevar a cabo un
análisis empírico de los ítems y ayudar al desarrollo y depuración del instrumento de
evaluación. Es decir, podemos utilizar esta información gráfica para señalar un lugar en la
distribución de habilidad donde necesitamos más precisión y seleccionar ítems que
permitan alcanzar ese objetivo en esa zona. Esto es muy útil cuando tenemos que ser
precisos en un cierto nivel de habilidad para tomar decisiones que implicarán graves
consecuencias sobre los individuos. Por ejemplo, si estamos seleccionando estudiantes
para un programa de altas capacidades, necesitaremos una evaluación muy precisa en el
nivel de habilidad. Aquí es donde queremos que la curva de información alcance un valor
https://campusformacion.net/nuevocampus/impresioncurso.php 117/137
1/1/22 18:37 Campus Virtual
más alto y, por tanto, el error típico sea el más bajo. Por lo tanto, nos gustaría buscar
ítems que tengan FFIs con máximos cercanos a esta zona para asegurar que construimos
un criterio preciso focalizando la evaluación en este nivel de habilidad. Esta situación
también es la típica que se produce cuando tenemos que realizar un diagnóstico clínico
usando un punto de corte en un test.
Junto con los modelos de TRI para test con formatos de respuesta dicotómico,
encontramos modelos de TRI más complicados que subyacen a la mayoría de las escalas y
cuestionarios de personalidad que pueden ser utilizados con adultos, adolescentes y
niños en contextos de evaluación psicológica. Muchas de las medidas de personalidad
utilizan ítems que se puntúan en una escala ordinal o de valoración (por ejemplo,
Totalmente de acuerdo a Totalmente en desacuerdo), denominados ítems politómicos. Al
igual que con los ítems puntuados de forma dicotómica, encontramos varios modelos de
TRI que pueden ser seleccionados en función del tipo de datos, es decir, de los supuestos
de esos datos. Los tres elementos claves para identificar el modelo de TRI más apropiado
para tales tipo de datos son: (a) atractivo teórico, (b) tamaño apropiado de la muestra, y
(c) ajuste del modelo. Tales modelos incluyen el Modelo de Respuesta Graduada, el
Modelo de Crédito Parcial, y el Modelo Nominal, por nombrar algunos. El MRG es un
modelo comúnmente usado, ya que se puede aplicar a escalas que utilizan varias
opciones de respuesta. Este modelo implica que las puntuaciones en un ítem (por
ejemplo, 0, 1, 2, 3) están ordenadas, y una puntuación o respuesta más alta, de un sujeto
indica un nivel más alto en la característica o habilidad que está siendo evaluada. En el
MRG, que es una extensión del modelo de 2PL que se ha descrito anteriormente, la
capacidad del ítem para discriminar entre los niveles del rasgo latente se mantiene
constante mientras que la dificultad del ítem se establece en cada “paso del ítem”, o
cuando una respuesta pasa de una categoría de respuesta a otra. Es decir, si tenemos una
escala de respuesta de 4 puntos (p.e., 1, 2, 3, 4) tendríamos k-1 pasos (parámetros b)
puesto que la respuesta del sujeto pasa de (a) 1 a 2; (b) 2 a 3, o (c) 3 a 4. Siendo k el
número de opciones de respuesta al ítem. De este modo, en el modelo tendríamos 3
parámetros b. El modelo se formula en términos de probabilidades acumulativas, de
diferencias entre probabilidades acumuladas.
La TRI dispone de numerosas ventajas sobre la Teoría Clásica de los Test (TCT):
1. La TRI ofrece la posibilidad de contar con modelos cuyos supuestos pueden ser
juzgados empíricamente, lo que supone mayor validez de las estimaciones
obtenidas. La TCT incorpora una serie de supuestos no posibles de poner a prueba.
https://campusformacion.net/nuevocampus/impresioncurso.php 118/137
1/1/22 18:37 Campus Virtual
2. En la TRI las estimaciones son invariantes, no dependen del grupo concreto al que
se ha aplicado el test, en la TCT las estimaciones de parámetros, tanto de los
individuos como de las estimaciones, dependen del grupo al que se ha aplicado el
instrumento.
4. En la TRI las estimaciones, tanto de las características de los ítems como de los
individuos, se obtienen en la misma escala de medición, lo que facilita su
comparación, mientras que en la TCT las estimaciones se obtienen en diversas
escalas.
https://campusformacion.net/nuevocampus/impresioncurso.php 119/137
1/1/22 18:37 Campus Virtual
1. Identificar los propósitos primarios para los que van a ser utilizadas las puntuaciones
del test.
https://campusformacion.net/nuevocampus/impresioncurso.php 120/137
1/1/22 18:37 Campus Virtual
9. Diseñar y efectuar estudios de fiabilidad y validez sobre la forma final del test
Tablas de normas.
Si se pretende un objetivo de diagnóstico o predicción habrá que
facilitarlo mediante una ecuación de regresión.
https://campusformacion.net/nuevocampus/impresioncurso.php 121/137
1/1/22 18:37 Campus Virtual
De todo este proceso, existen dos puntos que son especialmente críticos: la construcción
de los ítems y el proceso de evaluación de la escala.
Estar bien informado sobre el tema, con información tan diversa y rica
como sea posible.
El instrumento de medida debe muestrear adecuadamente el contenido
de la dimensión a medir.
Es recomendable apuntar todos los ítems que se sea capaz de generar,
sin crítica previa, para después pasar a un análisis racional y a una
elaboración de lo aprovechable de los mismos.
Utilizar un lenguaje tan sencillo, claro y directo
Los ítems deben estar redactados en forma de frases simples, evitando
las oraciones compuestas o complejas.
Cada ítem debe expresar un solo pensamiento completo.
Evitar palabras de contenido absoluto, como “nada”, “siempre”, “nunca”,
“todo”
Evitar palabras imprecisas tales como “meramente”, “precisamente”,
“ocasionalmente”.
Evitar que los ítems puedan interpretarse de más de un modo.
Evitar ítems que sean irrelevantes al objeto psicológico bajo estudio.
Seleccionar ítems que cubran todo el rango afectivo bajo estudio (es
decir, de extremo rechazo hasta aceptación absoluta).
Evitar los ítems que probablemente sean afirmados o negados por casi
todos. Los ítems que quizás más pueden discriminar son aquellos que
matizan dentro de las opiniones más comunes.
Evitar los ítems cuyo contenido se refiera al pasado en lugar de al
presente.
Evitar los ítems que se refieran o que puedan interpretarse como
referidos a cuestiones de hecho, cuya respuesta se base en el
conocimiento de datos reales. Si un ítem contiene una afirmación tenida
como un hecho difícilmente su respuesta dependerá de la actitud del
sujeto.
Un aspecto muy importante a tener en cuenta, además de los ítems en sí, es cómo
presentar los ítems y cómo preguntar acerca de ellos a los sujetos para obtener sus
opiniones. Existen dos tipos de captación de información:
https://campusformacion.net/nuevocampus/impresioncurso.php 123/137
1/1/22 18:37 Campus Virtual
Una vez tenemos recogidas las respuestas de los sujetos debemos utilizarlas para llegar a
asignar un valor de escala a cada ítem. A la función que atribuye valores de escala a los
objetos de un modo sistemático se le denomina función de escalamiento. Algunos
métodos de elaboración del valor de escala de los estímulos serían la media y mediana de
las valoraciones hechas por los sujetos, escalas de puntuaciones típicas.
Los procesos de evaluación de la escala a veces pueden realizarse con datos obtenidos en
el proceso de escalamiento de los ítems, pero otras requieren utilizar datos obtenidos en
el proceso de medición de los sujetos. El proceso de evaluación de la escala incluye cuatro
grandes apartados:
Muchos instrumentos, cuando ya están listos para medir sujetos, todavía necesitan un
proceso de trabajo más: se trata de la fase de baremación u obtención de normas de
grupo. Se trata de conocer la distribución de las puntuaciones en la muestra de interés y
establecer equivalencias entre las puntuaciones en la prueba y las posiciones relativas en
esa muestra. El procedimiento más simple y más utilizado de baremación es calcular los
percentiles, permitiendo después interpretar las puntuaciones de los sujetos en relación
a un grupo.
https://campusformacion.net/nuevocampus/impresioncurso.php 125/137
1/1/22 18:37 Campus Virtual
El objetivo de las directrices es que el producto final del proceso de adaptación consiga
con respecto a la prueba original el máximo nivel de equivalencia lingüística, cultural,
conceptual y métrica posible, y para ello son concebidas como un patrón que guía a los
investigadores y profesionales en las pautas a seguir. El proceso es global en naturaleza y
abarca la totalidad de fases y cuestiones a considerar durante el proceso de traducción,
desde cuestiones legales relacionadas con los derechos de la propiedad intelectual del
test a adaptar, hasta aspectos formales que atañen a la redacción del manual que
documenta los cambios introducidos. Todos ellos son importantes, y a todos ellos se
habrá de prestar atención.
1. Directrices previas
DP1. Antes de comenzar con la adaptación hay que obtener los permisos
pertinentes de quien ostente los derechos de propiedad intelectual del test.
DP2. Cumplir con las leyes y prácticas profesionales relativas al uso de tests que
estén vigentes en el país o países implicados.
https://campusformacion.net/nuevocampus/impresioncurso.php 126/137
1/1/22 18:37 Campus Virtual
DP4. Evaluar la relevancia del constructo o constructos medidos por el test en las
poblaciones de interés.
2. Directrices de desarrollo
DD3. Ofrecer información y evidencias que garanticen que las instrucciones del
test y el contenido de los ítems tienen un significado similar en todas las
poblaciones a las que va dirigido el test.
DD4. Ofrecer información y evidencias que garanticen que el formato de los ítems,
las escalas de respuesta, las reglas de corrección, las convenciones utilizadas, las
formas de aplicación y demás aspectos son adecuados para todas las poblaciones
de interés.
DD5. Recoger datos mediante estudios piloto sobre el test adaptado, y efectuar
análisis de ítems y estudios de fiabilidad y validación que sirvan de base para llevar
a cabo las revisiones necesarias y adoptar decisiones sobre la validez del test
adaptado.
3. Directrices de confirmación
DC1. Definir las características de la muestra que sean pertinentes para el uso del
test, y seleccionar un tamaño de muestra suficiente que sea adecuado para las
exigencias de los análisis empíricos.
https://campusformacion.net/nuevocampus/impresioncurso.php 127/137
1/1/22 18:37 Campus Virtual
DA1. Preparar los materiales y las instrucciones para la aplicación de modo que
minimicen cualquier diferencia cultural y lingüística que pueda ser debida a los
procedimientos de aplicación a los formatos de respuesta, y que puedan afectar a la
validez de las inferencias derivadas de las puntuaciones.
DA2. Especificar las condiciones de aplicación del test que deben seguirse en todas
las poblaciones a las que va dirigido.
DPI1. Interpretar las diferencias de las puntuaciones entre los grupos teniendo en
cuenta la información demográfica pertinente.
Las personas implicadas en el uso de los tests con fines de investigación deben de tener
en cuenta diferentes aspectos regulados por estándares legales, éticos y de buenas
prácticas.
autor o autores del test son titulares del copyright salvo que éste sea transferido
por un acuerdo escrito a otra persona o entidad, por ejemplo una editorial. Los
autores de tests cuyas publicaciones en revistas incluyan el test completo (lo cual
es poco frecuente), o algunos ítems, ceden el copyright de esos materiales
publicados a la revista, salvo que se establezca en un acuerdo escrito que el autor
mantiene el copyright.
https://campusformacion.net/nuevocampus/impresioncurso.php 129/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 130/137
1/1/22 18:37 Campus Virtual
International Test Commission (2010). Guidelines for Translating and Adapting Tests.
Retrieved from http://www.intestcom.org (http://www.intestcom.org)
https://campusformacion.net/nuevocampus/impresioncurso.php 131/137
1/1/22 18:37 Campus Virtual
Bibliografía
Bibliografía
Muñiz, J. (1996) Teoría Clásica de los Tests, 2ª. ed. Madrid: Ediciones
Pirámide
Pérez Juste, R., García Llamas, J. L., Gil Pascual, J. A. y Galán González, A.
(2009). Estadística aplicada a la educación. Madrid, España:
UNED/Pearson-Prentice Hall
https://campusformacion.net/nuevocampus/impresioncurso.php 132/137
1/1/22 18:37 Campus Virtual
Ejercicios
Ejercicio 1 - Módulos 1 y 2
Ítems
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.
https://campusformacion.net/nuevocampus/impresioncurso.php 133/137
1/1/22 18:37 Campus Virtual
Ejercicio 2 - Módulos 3 y 4
Items
Sujetos 1 2 3 4 5
A 01111
B 10011
C 11100
D 11110
E 11000
F 11111
G 11010
H 01111
I 11111
J 10000
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.
Ejercicio 3 - Módulos 3 y 4
En una escala formada por 10 ítems, el índice de homogeneidad (Hj) del ítem
4 vale -0, 83 ¿Qué significa esto?
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.
https://campusformacion.net/nuevocampus/impresioncurso.php 135/137
1/1/22 18:37 Campus Virtual
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.
https://campusformacion.net/nuevocampus/impresioncurso.php 136/137
1/1/22 18:37 Campus Virtual
https://campusformacion.net/nuevocampus/impresioncurso.php 137/137