Temario 4º Curso Instrumentos de Medición

1/1/22 18:37 Campus Virtual
Fundamentos de la investigación en
ciencias de la salud: Instrumentos de
medición
https://campusformacion.net/nuevocampus/impresioncurso.php 1/137
Índice
INDICE
Bloque Tema Apartados
1.1. Supuestos básicos de la medición en salud.
Tema 1. “La evaluación en 1.2. La naturaleza, uso y valor de los instrumentos de

ciencias de la salud” medición.
Bloque I.-Introducción
1.3. Tipos de instrumentos de medición.
1.4. Los principios éticos de la evaluación.
2.1. Definición
Tema 2. “Los test” 2.2. Historia
2.3. Clasificación
3.1. Elaboración de ítems
3.1.1. Redacción de los ítems
3.1.2. Formato de respuesta.

Bloque II.- Teoría
clásica de los test 3.1.3. Cuantificación de las respuestas.
Tema 3. “Diseño y análisis 3.2. Análisis de ítems

de ítems”
3.3. Índices de dificultad
3.3.1. Índice de homogeneidad
3.3.2. Índice de validez.
3.4. Relación entre las puntuaciones totales en el test

y la proporción de aciertos al ítem.
4.1. Métodos para obtener la fiabilidad de un Test.
4.2. Fiabilidad absoluta y relativa.

Tema 4. “El modelo lineal
clásico” 4.3. Métodos para obtener la fiabilidad relativa.
4.4. Error de medida: concepto, tipos, definición

estadística.
5.1. Definición de tests paralelos. RXX como

proporción de varianza verdadera.
Tema 5. “Fiabilidad y tests 5.2. Límites de la fiabilidad de un test.

paralelos”
5.3. Índice de fiabilidad.
5.4. Error típico de medida.

Bloque III. Fiabilidad
6.1. Estimación puntual de V.
6.2. Estimación por intervalos de V.

Tema 6. “Estimación de las
puntuaciones verdaderas”
6.3. Sesgo de las puntuaciones empíricas.
6.4. Fiabilidad y diferencias.
7.1. Coeficiente alpha de Cronbach.
7.2. Fiabilidad de un test complejo.

Tema 7. “Fiabilidad y
consistencia interna” 7.3. Otras formas de obtener la fiabilidad como
consistencia interna (Rulon, Flanagan-Guttman).
7.4. Factores que afectan a la fiabilidad de los tests.
Bloque IV. Validez 8.1. Concepto de validez.
Tema 8. “Concepto y
8.2. Evidencias de validez: evidencias basadas en el
evidencias de validez”
contenido del test, en la estructura interna del test y
en las relaciones con otras variables.
9.1. Visión general del AFE.
Tema 9. “Análisis factorial 9.2. Pasos del AFE.

exploratorio”
9.3. Matriz de correlaciones: extracción de factores,
rotación de factores y puntuaciones factoriales.
10.1. Coeficiente de validez y su interpretación.
Tema 10. “El coeficiente de 10.2. Predicción del criterio a partir del test: Análisis
validez” de correlación y regresión.
10.3. Factores que afectan a la validez.
11.1. Transformaciones de las puntuaciones directas

de un test: Percentiles, puntuaciones típicas Z y
Bloque V. Baremación Tema 11. “Interpretación puntuaciones típicas derivadas.
e informe de las puntuaciones”
11.2. Informe de las propiedades psicométricas de un
test.
Bloque VI. 12.1. Introducción
Introducción a la Tema 12. “Ventajas frente

12.2. Supuestos
teoría de Respuesta a al modelo clásico”
los ítems 12.3. Ventajas frente al Modelo Clásico
13.1. Proceso general de construcción y evaluación de

un test.
Bloque VII. Aplicación Tema 13. “Directrices para
de instrumentos de la aplicación de test y 13.2. Directrices para la adaptación y traducción.
medición técnicas de evaluación”
13.3. Directrices internacionales para el uso de los
instrumentos de medición.
Objetivos
OBJETIVOS GENERALES
1. Conocer las características de los distintos modelos de medida y sus aportaciones

de medición
2. Ser capaz de evaluar la calidad de los instrumentos de medición
3. Ser capaz de elegir, aplicar y valorar los procedimientos de análisis de la validez de

las inferencias derivadas de las puntuaciones de un test.
4. Ser capaz de elaborar un informe psicométrico.
Presentación
PRESENTACIÓN:
El curso de instrumentos de la investigación en salud es una asignatura dentro de la

investigación en ciencias de la salud.
Se trata de un curso de carácter teórico práctico en el que se presentan los modelos

matemáticos más relevantes que subyacen a la construcción de los test.
El objetivo general del curso es que el alumno conozca las estrategias fundamentales de
la teoría de los test. Pueda entender la información que proporciona un test, así como, ser
capaz de diseñar un test y comprobar la información psicométrica que aporta.
Bloque I - La investigación científica
Tema 1 - Introducción: La evaluación en ciencias de la salud
Tema 1. “La evaluación en ciencias de la salud”
1.1. Supuestos básicos de la medición en salud

El proceso de medición forma parte de la práctica diaria de todos los profesionales de

salud; está presente por ejemplo, en la evaluación de la capacidad funcional de los
adultos mayores, en la detección de actitudes hacia el abuso de sustancias, o en la
valoración del dolor subjetivo de un paciente. La aplicación de cuestionarios o escalas
generan mediciones que muchas veces determinan importantes decisiones pronósticas y
terapéuticas; sin embargo, en la mayoría de los casos se desconoce el origen y capacidad
real del instrumento para evaluar la condición bajo estudio.
Medición es simplemente el proceso de asignar valores a ciertos eventos de la realidad.
La dificultad del proceso radica al menos en dos aspectos:
Que el valor represente realmente el evento que se quiere medir
Que el evento sea expresado en toda su complejidad.
En medicina, los instrumentos para determinar la condición biológica de un paciente han

experimentado tal desarrollo tecnológico, que han logrado disminuir la incertidumbre de
los resultados de una medición. No obstante, es la medición de salud como fenómeno
psicosocial la que requiere refinar la precisión de sus instrumentos, dado que el objetivo
principal en este campo de la salud es recoger, en forma válida y confiable, la percepción
subjetiva de los pacientes.
Existen una serie de suposiciones básicas que resultan particularmente útiles para
comprender una serie de controversias y polarizaciones que se harán presentes al
avanzar en el estudio de los tests y la evaluación. A continuación las detallamos:
1. Los rasgos y estados de la salud existen: Un rasgo se ha definido como “cualquier

forma distinguible, relativamente perdurable, en la que un individuo varía de otro”
(Guilford, 1959). Los estados también distinguen a una persona de otra pero son
relativamente menos perdurables (Chaplin et al., 1988). Por ejemplo, un

comportamiento puede tomarse de una manera en un contexto (una persona que
habla con Dios en la iglesia) y de otra manera (desviado) si realiza el mismo
comportamiento en un contexto inadecuado (baño público). También la forma
exacta en que se manifiesta un rasgo particular depende de la situación por ejemplo
un delincuente puede comportarse de manera sumisa ante un oficial y más violenta
ante un familiar.
2. Los rasgos y estados pueden cuantificarse y medirse.
3. Pueden ser útiles diversos enfoques para medir aspectos del mismo objeto de
estudio. Pueden existir varias pruebas y técnicas de medición diferentes para medir
el mismo fenómeno. Algunas pruebas son mejores que otras, en general, deberá
demostrarse la utilidad de las pruebas para los escenarios en los que deberán ser
aplicadas según su diseño original y luego demostrarse de nuevo para otros
escenarios adicionales en los que no se contemple su uso.
4. La evaluación puede señalar fenómenos que requieren una mayor atención o

estudio: una suposición en la medición es que las herramientas de evaluación
pueden usarse con propósitos de diagnóstico. Puede definirse diagnóstico en forma
amplia como una conclusión alcanzada con base en la evidencia y opinión por medio
de un proceso de distinción de la naturaleza de algo y descartar conclusiones
alternativas. Diagnóstico se usa en un sentido amplio con la identificación de
fenómenos psicológicos o conductuales para un mayor estudio.
5. Diversas fuentes de información enriquecen y son parte del proceso de evaluación.

Los datos de una prueba de inteligencia pueden ser útiles para entender a un
estudiante, un preso, un empleado o un paciente en terapia o cualquier persona que
demande una evaluación pero para el proceso de toma de decisiones se requerirá
información adicional como por ejemplo sobre su historia familiar.
6. Diversas fuentes de error son parte del proceso de evaluación. Error en el contexto
de las pruebas y la evaluación se refiere a algo que se considera un componente del
proceso de medición. En este contexto “error” se refiere a la suposición de que
factores distintos al que pretende medir la prueba influirán en el desempeño de
ésta. Debido a que el error es una variable en cualquier proceso de evaluación
psicológica, a menudo hablamos de varianza de error. Por ejemplo, el puntaje que
obtiene una persona en una prueba de inteligencia puede estar sujeto a debate
respecto al grado en que la puntuación obtenida refleja en verdad el CI del
evaluado y el grado en que refleja la varianza de error. Las fuentes potenciales de
error son muy variadas, como por ejemplo que el evaluado tenga gripe cuando
responde la prueba. Tanto el evaluado como el evaluador son fuentes de varianza
de error si tenemos en cuenta por ejemplo el grado de experticia que demuestran
en la administración de una prueba. También las pruebas mismas son fuentes de
varianza de error por ser unas mejores que otras para medir lo que pretenden
medir.
7. Las pruebas y otras técnicas de medición tienen ventajas y desventajas. Si se

quieren usar pruebas adecuadas se deberá tener en cuenta: cómo se elaboró la
prueba, las condiciones para su aplicación, cómo y a quién se debe administrar,
cómo deberían interpretarse los resultados de la prueba y a quienes, y cuál es el
significado de la puntuación. Ello implica conocer las limitaciones de las pruebas y
compensarlas con datos de otras fuentes.
1.2. La naturaleza, uso y valor de los instrumentos de medición

El diseño y construcción de un instrumento de medición en salud constituye un proceso

complejo en el que confluyen múltiples disciplinas y metodologías, en particular si el
propósito es construir escalas de medida. En su fase inicial el aporte de los métodos
cualitativos de investigación es fundamental para obtener un mayor acercamiento a los
atributos del objeto de estudio; es así como entrevistas y grupos focales con la población
objetivo, incrementan el universo de ítems al construir un instrumento de medición. Por
otra parte, las herramientas estadísticas evidencian la validez y consistencia del
constructo y sus propiedades a través del análisis tanto de los ítems, como de su
interacción en el conjunto del instrumento. Sin embargo, el uso de técnicas cualitativas y
estadísticas debe ser apropiado al tipo de medición que el clínico desea realizar, y a la
naturaleza del constructo que desea conocer.
Construir medidas en salud significa buscar medidas que reflejen con el mayor grado de
validez y confiabilidad posible aquellas condiciones y percepciones subjetivas de los
pacientes, reconociendo que ninguna medida de este tipo es libre de error.
1.3. Los principios éticos de la evaluación

Los principios éticos deben involucrar al que construye la prueba, al que aplica la prueba
y al que cubre la prueba.
1. El que elabora la prueba. Quienes se dedican a elaborar pruebas, brindan una

amplia variedad de antecedentes y detalles respecto del proceso de elaboración.
Sin embargo, la APA (American Psychological Association) estima que más de
20.000 pruebas nuevas se elaboran cada año y abarcan pruebas elaboradas para un
estudio de investigación específico, revisiones de anteriores publicadas , etc.
Reconociendo que las pruebas y las decisiones tomadas como resultado de su
administración pueden tener un impacto significativo en las vidas de las personas

que responden las pruebas, varias organizaciones publicaron normas de
comportamiento ético referidas a la elaboración y uso responsable de pruebas. Las
más conocidas son las Normas o Standards for Educational and Psychological
Testing elaboradas por la Asociación Estadounidense de Investigación Educativa, la
Asociación Psicológica Estadounidense y el Consejo Nacional sobre Medición en
Educación.
2. El que usa la prueba. Si bien las pruebas son usadas por una variedad de
profesionales, todos deberán cumplir los principios éticos correspondientes. La
prueba debe guardarse para que su contenido específico no sea dado a conocer con
anticipación. Descripciones previas a la administración de la prueba, de los
materiales que contiene la misma, en el caso de pruebas de inteligencia, no son
aconsejables pues podrían comprometer los resultados. El que administra la prueba
debe estar familiarizado con los materiales y procedimientos de la prueba y tener
todos los materiales necesarios para administrarla en forma apropiada. También
debe asegurarse de que la habitación en la que se realice la prueba sea el adecuado,
evitando condiciones distractoras como ruido excesivo, calor, frío, interrupciones,
luz solar deslumbrante, hacinamiento, ventilación inadecuada, etc. Es fundamental
la empatía entre el evaluador y el evaluado. La empatía puede definirse como una
relación de trabajo entre evaluador y evaluado. Lograr la empatía con el evaluado
no debe alterar las condiciones de administración de la prueba. Existen otros
factores que pueden influir en el desempeño en pruebas de inteligencia como por
ejemplo que el evaluador sea familiar o no, que esté presente o ausente, y sus
modales en general. Otro factor importante ha sido el género.
3. El que responde la prueba. Las personas evaluadas enfocan una situación de

evaluación de diferentes formas y los administradores deben ser sensibles a la
diversidad de respuestas posibles ante una situación de prueba. El evaluado en
situación de diagnóstico o evaluación puede variar en:
a) Ansiedad experimentada y grado en que ésta podría afectar los resultados
b) Capacidad y disposición para cooperar con el evaluador o comprender las

instrucciones escritas.
c) El dolor físico o la angustia emocional que esté sufriendo el evaluado.
d) Malestar e incomodidad derivado de no haber comido suficiente o por

otras condiciones físicas.
e) Grado en que está alerta y despierto y no somnoliento
f) Grado en que estén predispuestos a estar de acuerdo o en desacuerdo

cuando se les presenten los reactivos
g) Grado en que han recibido preparación previa.
h) Importancia que atribuyan a describirse a sí mismos en forma buena o mala
i) Grado de “suerte” que tiene el evaluado al responder sin conocer de lo que

responde.
También el evaluado tiene derechos en situaciones de evaluación como por ejemplo

a dar su consentimiento para ser evaluado, a que los resultados sean confidenciales
y a ser informado de los resultados.
Bloque II - Teoría clásica de los test
Tema 2 - Los test
Tema 2. “Los test”
2.1. Definición

La palabra inglesa “test” tiene su origen en la palabra del latín “testis”.
Tiene varios significados: prueba, reactivo o ensayo.
En general podemos considerar los test como una prueba que, aplicado a un sujeto, revela
el grado o tipo de su aptitud, de su forma de ser o el grado de instrucción que posee. Estos
test constan de preguntas, tareas, estímulos, situaciones, etc. que intentar manifestar
una representación o muestra de las conductas del sujeto, reflejo de las características
que se quiere medir.
Definiciones de test
Cronbach (1971): “Un test es un procedimiento sistemático para

observar la conducta y describirla con ayuda de escalas numéricas o
categorías establecidas”.
Anastasi (1982): “Un test es una medida objetiva y estandarizada de una

muestra de conducta”
Graham y Lilly (1984): “Un test es una muestra estandarizada de

conductas de la que pueden inferirse o predecirse otras conductas
importantes”
Martorell (1985): “Un test hace referencia a un procedimiento mecánico,

tipificado, cuantitativo y objetivo”
Las características que definen un test son:
Medida Objetiva, que implica la idea de seguridad y precisión de la

medida.
Formados a partir de una Muestra de Conductas. Dada una característica

del sujeto que se pretende medir, se elegirán para formar el test
elementos que constituyanuna muestra representativa del conjunto de
aspectos de dicha conducta o rasgo.
Técnica Sistemática: situación problemática previamente dispuesta y

estudiada a la que ha de responder siguiendo ciertas instrucciones
fijadas de antemano.
Compara conductas. La respuesta del sujeto se estima por comparación

con ungrupo normativo, que determina la calidad o grado del rasgo o
aspecto a medir.
Predicción o inferencia. Un test implica normalmente predicción acerca

de las conductas más importantes que las observadas durante la
ejecución del test.
2.2. Historia

Los test surgen en el contexto de los estudios experimentales a finales del siglo XIX
gracias a Francis Galton (1822-1911), considerado padre del estudio de las diferencias
individuales de la conducta, siempre desde una perspectiva adaptativa y biológica. Fue
también pionero de las “escalas de calificación” y del uso de la Técnica de Asociación Libre
(método descrito por Sigmund Freud como regla fundamental del Psicoanálisis).
Su discípulo, Karl Pearson (1857-1936), continuó su labor y es considerado el fundador

de la estadística moderna, su contribución fue decisiva en el desarrollo de los métodos
estadísticos para el análisis relativo a los datos de las diferencias individuales. Pearson
diseñó un gran número de técnicas estadísticas que constituyeron la base de la Teoría de
los Test.
Posteriormente, Charles Spearman (1863-1945) desarrollaría la Teoría de la Fiabilidad

de los test, el modelo estadístico conocido como Teoría Clásica de los Test y el Análisis
Factorial.
En 1980, James McKeen Cattell (1860-1944) introdujo el término test mental y se dedicó
al diseño y aplicación de diversas pruebas de tiempos de reacción, discriminación
sensorial, presión dinamométrica y memoria de las letras.
En 1904, Edward Thorndike (1874-1949) publica un libro que es el primero sobre teoría
de los test. Sus contenidos conforma el cuerpo de conocimiento de la Teoría Clásica de
los Test, que ha proporcionado los fundamentos teóricos para el desarrollo de la mayor
parte de los test de aptitudes, personalidad y rendimiento.
A finales del siglo XIX la preocupación por el tratamiento de los sujetos con retrasos
mentales hizo necesario algún criterio de clasificación, en primer lugar, para diferenciar
los sujetos deficientes y aquellos sufrían otro tipo de patologías [Jean-Étienne-
Dominique Esquirol (1772-1840) y Édouard Séguin (1812-1880)].
También, en 1904, Alfred Binet (1857-1911) junto a Théodore Simon (1872-1961)

desarrollaron la Escala Simon-Binet de inteligencia. Escala revisada por Lewis Terman
(1877-1956) que introduciría el término de Cociente Intelectual (C.I.). Finalmente, David
Weschler (1896-1981) propuso una alternativa de la Escala Simon-Binet, concebida
como test de de inteligencia individual que proporcionaba dos componentes
diferenciados, el C.I. verbal y el C.I. manipulativo.
Estos primeros test se caracterizaban por ser de carácter individual, los test colectivos no
fueron aplicaron hasta la I Guerra Mundial. El éxito de mostrado en el uso de estos test en
la asignación de personal militar llevó a la implantación de estos test en la escuela y en las
empresas.
Otros desarrollos importantes en la Teoría de los Test fueron:
Culture-free-test. Test centrados en eliminar los aspectos ligados a la

cultura. Estos tuvieron poco éxito, tanto por razones éticas como
empíricas.
Test referidos al criterio. Evalúa a los sujetos en relación a dominios de

conducta muy definidos, centrándose en lo que los sujetos son capaces
de hacer, en lugar de hacer referencia a lo que los sujetos son capaces de
hacer en relación con el grupo normativo.
Desarrollo del paradigma cognitivo en la investigación sobre la

inteligencia o las aptitudes. El paradigma cognitivo interesado por el
estudio del procesamiento y representación mental de la información,
incluye como dominios de estudio la percepción, la memoria, la solución
de problemas, la atención.
Test Adaptativos Computerizados. Test que se adaptan al desempeño del

sujeto conforme avanza en la prueba. El test al comenzar la prueba
asume que el sujeto posee un rendimiento del 50% y ofrece una
pregunta de dificultad media. Si el sujeto va respondiendo
correctamente las preguntas irán incrementando en dificultad. Si las
respuestas son erróneas de manera consecutivas, el programa interpreta

que tu capacidad es más baja y disminuye la complejidad de las
preguntas.
Como conclusión, el uso creciente de los test se ha debido a tres factores fundamentales:
Interés por las diferencias individuales
Exámenes de administraciones públicas o servicios civiles.
Exámenes escolares
2.3. Clasificación
No existe una clasificación única ni completa para clasificar los test, pero existen
unos criterios que podemos tener en cuenta para realizar una clasificación que nos
permita discriminarlos. Los criterios que se tienen en cuenta para la clasificación se
describen a continuación:
a) El método. En función del método los test se clasifican en psicométricos y

proyectivos. Sus características son las siguientes:
Test psicométricos:
Se evalúan las respuestas según normas cuantitativas
Todos sus elementos se valoran de forma numérica e
independientemente.
El resultado final es una puntuación cuantitativa
Suelen referirse a características concebidas como
unidades más o menos independientes, es decir, suelen
medir rasgos diferenciados del sujeto.
Test proyectivos:
Siguen normas o criterios globales y cualitativos para la
evaluación, es decir, las diferentes respuestas suelen
valorarse con relación al resto.
Se refieren a características generales y globales de la
personalidad.
b) La finalidad:
De investigación. La finalidad que se persigue con la palicación del test

suele ser obtener medidas, analizar diferencias individuales, calcular
estadísticos y estimadores, comprobar hipótesis, etc.
De diagnóstico. Pretenden evaluar la calidad o grado de algún rasgo o de
la conducta del individuo concreto.
c) El planteamiento del problema. Los test están construidos en una muestra de

consuctas que exige una determinada forma de planteamiento del problema o
situación, cuya respuesta se inteerpreta como:
De ejecución máxima. La situación presenta al sujeto una serie de

elementos con los que el sujeto debe resolver el problema poniendo en
funcionamiento su capacidad máxima. Test de rendimiento, aptitudes,
inteligencia.
De ejecución típica. Los elementos que componen la prueba plantean
situaciones habituales de la vida corriente. La respuesta es una
representación de la conducta más frecuente o cotidiana. Test de
intereses, de actitudes.
d) El área de comportamiento acotada. Es frecuente distinguir entre:
Rendimiento
Inteligencia y aptitudes
Personalidad, actitudes e intereses
e) Por modalidad de aplicación:
f) Por demandas exigidas al sujeto:
Orales. Las instrucciones y las respuestas son siempre orales. Son típicos
de niños muy pequeños, analfabetos y personas de otras culturas.
Papel y lápiz. Admiten una gran variedad de formatos de presentación,
todo el sistema de instrucciones y realización se especifica en protocolos,
cuadernillos y hojas de respuesta de forma escrita.
Manipulativos o de ejecución. El sujeto ha de realizar algo con el material
en el que se le presenta el problema a resolver. Test psicomotrices, cubos,
visualización.
Simulaciones. Se somete a los sujetos a situaciones artificiales, por
ejemplo los juegos de rol.
Computerizados. La presentación de los ítems y el registro de las
respuestas se realizan digitalmente.
Objetivos. Pruebas fisiológicas, Tiempo de reacción.
g) Por demandas exigidas al sujeto:
Velocidad. El tiempo de ejecución está rigurosamente controlado y las

preguntas no suelen tener dificultad objetiva para los sujetos. Tiempo de
reacción.
Potencia o dificultad. El tiempo, aunque normalmente es controlado, no
es una variable determinante en el resultado. Las diferencias individuales
son reflejo de la calidad de la ejecución, de la exactitud.
Por demandas exigidas al sujeto.
h) Grado de aculturación del test.
i) Sujetos a los que va dirigido el test. Se suelen clasificar por edades y dirigidos a
grupos especiales (disminuidos).
j) Por el modelo estadístico en que se basan:
Teoría Clásica de los Test. Test basados en el modelo de Regresión Lineal.

Teoría de la Generabilidad. Test basados en el Modelo Experimental
lineal
Teoría de la Respuesta al Ítem. Test basados en un modelo de respuestas
correctas a cada ítem según las funciones de distribución normal y
logística.
Tema 3 - Diseño y análisis de ítems
Tema 3. “Diseño y análisis de ítems”
3.1. Elaboración de ítems

Mientras que la mayoría de los atributos físicos (altura, peso, etc. ...) resultan
directamente medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa y para los que
no existen "metros" o "balanzas" diseñados para medirlos de manera precisa. La actitud
hacia el aborto, el nivel de cohesión grupal, el grado de extroversión, el cociente
intelectual, la postura hacia el consumo de drogas, el grado de liderazgo,...., todos ellos
son constructos que deben medirse mediante instrumentos específicamente diseñados:
los tests, tests o inventarios. Nadie dudaría de que un metro bien diseñado mide longitud
y que lo hace de manera precisa, pero la bondad y la precisión de un test no se puede
presuponer; más bien son una cuestión de grado y siempre susceptibles de mejora.
Un test o prueba psicométrica se puede analizar en conjunto, pero también se puede

analizar cada una de las partes que lo constituyen. El proceso de construcción de un test
comienza por elaborar un elevado número de ítems, aplicarlo a una muestra de sujetos y
descartar aquellos ítems que no sean adecuados. El saber que ítems son adecuados o no
es el objetivo central de análisis de los ítems.
Un test está formado por una serie de elementos o ítems (elementos, reactivos,
preguntas, cuestiones, situaciones análogas,...) a los que cada individuo debe responder.
Después de cuantificar las respuestas de una persona a los elementos del test, se
pretende asignar una puntuación (a veces varias) a esa persona respecto al constructo o
atributo que se pretende medir con el test, una puntuación que debería indicar el grado
en que la persona participa del atributo, constructo o rasgo a evaluar.
Un ítem es una pregunta, problema o tarea que se incluye en un test. Se formulan de

manera oral o escrita. En todo ítem se distingue un enunciado y el formato de respuesta.
Cuando se plantea el proceso de construcción de un test los pasos a seguir son:
Definir el rasgo o característica que se pretende medir con el test. Esto

es, proporcionar una definición operacional del constructo o rasgo que
pretendemos medir.
Determinar las características que tienen la población a la que va

destinada la prueba. Resulta muy diferente, y determinará su contenido,
que un test de inteligencia se vaya a aplicar a personas de la población
general o a personas con problemas intelectuales. Un test de depresión
puede utilizarse con fines científicos en una investigación o para decidir
el ingreso en un centro psiquiátrico de personas con problemas
depresivos.
Determinar la finalidad del test. Por ejemplo, calcular el nivel de

rendimiento de un sujeto en una prueba o medir el nivel de gravedad de
una enfermedad.
Delimitar las condiciones de aplicación idóneas para el test. Por ejemplo,

definir bien las instrucciones para cubrir el test o decidir si el test será
individual o colectivo.
Determinar el númerode ítems. Se deben construir el doble o triple de

ítems de los que va a estar formado el test finalmente. Una vez
elaborados los ítems, estos se analizan en el grupo normativo. Un grupo
normativo es toda muestra representativa de la población a la que va
dirigido el test. En el proceso de construcción del test es habitual que se
lleven a cabo varios ensayos.
Obtener y valorar las características fundamentales del test: fiabilidad y

validez. Entendiendo por fiabilidad la estabilidad de las puntuaciones que
el test proporciona en sucesivas aplicaciones al mismo grupo de sujetos.
Y validez, que hace referencia a la medida que el test mide realmente la
variable que se pretende medir con él, y no otra relacionada.
Todo este proceso de construcción lo vamos a explicar bajo los supuestos

teóricos de un modelo de test. Existen dos grandes modelos de test en el
ámbito psicométrico: modelo clásico de la teoría del test y el modelo de
respuesta al ítem.
3.1.1. Redacción de los ítems.
En los tests de ejecución máxima o rendimiento óptimo (pruebas de rendimiento y

de inteligencia), en los que se pretende medir el rendimiento máximo al que llega
cada persona ante una serie de preguntas o tareas, las recomendaciones generales
en la redacción de ítems son las siguientes:
La idea principal del ítem debe estar en el enunciado.
Simplicidad en el enunciado.
Evitar los conocimientos excesivamente triviales o excesivamente

“rebuscados”.
Evitar dar información irrelevante en el enunciado.
Evitar dar indicios sobre la solución.
Evitar cuestiones sobre opiniones.
No encadenar unos ítems con otros.
Anticipar la dificultad e incluir preguntas de todo rango de dificultad (casi

siempre conviene más preguntas de dificultad media).
La dificultad no debe estar en la comprensión del ítem.
Minimizar el tiempo de lectura.
Evitar el uso de negaciones (si se incluyen, subrayarlas), errores

gramaticales y ortográficos.
El número de preguntas debe ser proporcional a la importancia dada a

cada tema.
Corregir los aciertos obtenidos por azar.
Cuantos más ítems, mejor.
En cuanto al número de opciones, con dos opciones de respuesta es suficiente; pero

si la prueba es corta, es necesario un mayor número de alternativas para evitar los
efectos de los aciertos aleatorios. Todos las opciones de respuesta deber ser de
longitud y lenguaje parecidos y también se deben evitar los solapamientos entre
ellos. Por supuesto, se deben evitar los llamados “ítems defectuosos” que son
aquellos ítems con más de una respuesta correcta; aunque parezca absurdo son
errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, se deben
evitar las opciones del tipo “no lo sé”, “todas las anteriores son correctas” o
“ninguna de las anteriores es correcta”; así como balancear la posición de la opción
correcta en las diferentes preguntas para que no se sitúe siempre en la misma
opción.
Además, es muy importante tener en cuenta la dificultad existente en crear las

alternativas incorrectas, dado que no deben ser posibilidades absurdas de
respuesta que se puedan eliminar con cierto grado de sentido común. En contra,
esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que
usualmente tienen las personas que no conocen la respuesta correcta de la
pregunta en cuestión. Deben estar escritas en lenguaje técnico y ser plausibles para
quien no conoce la respuesta, evitando en todo momento alternativas “graciosas” u
otras que no serían elegidas por nadie. Otra buena recomendación en este sentido
sería el uso de alternativas de respuesta que son verdaderas para otras preguntas
incluidas en el test. Desde luego, el establecimiento de alternativas múltiples exige

un claro conocimiento tanto del contenido a evaluar como de las personas a las que
va dirigida la prueba.
Respecto a la manera de formular las cuestiones en tests de ejecución mínima o

rendimiento típico (declaraciones o afirmaciones ante las cuales se debe opinar),
que quiere reflejar el comportamiento ordinario de las personas, no teniendo
sentido el concepto de rendimiento máximo dado que el objeto de la evaluación es
algún tipo de opinión, actitud o rasgo de personalidad las directrices son:
Utilizar el tiempo presente.
Deben ser “relevantes”, en el sentido de que su contenido debe

relacionarse claramente con el rasgo.
Contenido claro, evitando excesiva generalidad. Frases cortas, simples e

inteligibles. Evitar incluir dos contenidos en un ítem.
Tener en cuenta que lo que se dice en la declaración pueda ser asumido

por alguien, y no por todos.
En escalas de actitudes, no plantear la existencia o no de hechos, sino el

posicionamiento personal sobre la afirmación. Redactar ítems que
discriminen entre los de actitud positiva y los de actitud negativa.
Para minimizar la aquiescencia (tendencia a responder afirmativamente,

independientemente del contenido por el que se pregunta) conviene
redactar ítems de modo directo e inverso (declaraciones tanto en sentido
positivo como en sentido negativo). A posteriori, se puede comprobar
cómo una persona ha respondido a los ítems directos e inversos. También
puede comprobarse que la correlación entre ambos tipos de ítems es
alta.
Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de universales

(todo, siempre, nada,...).
En lo posible, aunque no es fácil, se debe minimizar la posibilidad de

deseabilidad social (emitir respuestas socialmente aceptables para
transmitir una imagen positiva). Puede deberse a varias cosas: desajuste
psicológico, insinceridad consciente,... El grado de deseabilidad social
que manifiestan los ítems puede evaluarse mediante jueces, y comparar
las respuestas de una persona con estas valoraciones. En tests de
personalidad puede incluirse una escala de sinceridad.
El número de categorías que se suelen incluir en este tipo de ítems es usualmente

de cinco ya que, a partir de ese número de categorías no mejoran las propiedades
psicométricas de los ítems. Además, un número muy elevado de categorías (siete u
ocho) lleva a inconsistencias en las respuestas, que es una fuente de error. Un
número muy reducido (dos ó tres) lleva a poca discriminación (menor variabilidad) y
a reducir la fiabilidad, aunque siempre puede compensarse con un mayor número
de ítems. No obstante, en poblaciones especiales (niños, discapacitados, mayores…)
se aconseja el uso de un menor número de categorías. También se ha planteado en
ítems de ejecución mínima (principalmente en escalas de actitudes o tests de
personalidad donde no se pide el grado de frecuencia de un comportamiento) si es
correcto o no la inclusión de una categoría central en las opciones de respuesta
(“indiferente”, “neutral”, “dudo”, “no sé”…). Podrían generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo
que se les está preguntando, que el enunciado les resulta ambiguo o simplemente
que ignoran el contenido del enunciado. En realidad, deberían ser seleccionadas
por las personas auténticamente indecisas. La investigación en este sentido nos
dice que los indicadores psicométricos de los ítems no se alteran mucho con o sin
categoría central, cuando el número de categorías es mayor de tres. En todo caso,
se puede comprobar si las personas con nivel medio en el total del test tienden a
elegir más frecuentemente las categorías centrales.
3.1.2. Formato de respuestas
Podemos hablar de dos tipos de formatos de respuesta: a) Formato de selección de

respuesta y b) Formato de elaboración de respuesta.
Atendiendo al tipo de test, en tests de ejecución máxima el formato de respuesta de

estos ítems se ajusta a uno de los siguientes tres formatos:
Elección binaria: De dos alternativas, se elige la que se considera

correcta (Sí o No; verdadero-falso).
Elección múltiple: Entre más de dos alternativas se elige la que se
considera correcta. Es sin duda el formato de respuesta más utilizado,
entre otras por razones de objetividad y otras de tipo operativo.
Por ejemplo, un ítem de un test de aptitud verbal puede ser:
"Zapato es a pie como guante es a ....”
a) Dedo
b) Mano
c) Muñeca
d) Codo
Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos

de conceptos. Por ejemplo, un ítem de un test sobre conocimientos del
sistema hormonal puede ser:
"Enlace mediante una línea el nombre de la hormona con la clase a la que

pertenece"
Tiroxina H. Derivadas de

aminoácidos
Hormona del crecimiento H.peptídicas
Testosterona H.Lipídicas
El formato de respuesta de los tests de ejecución mínima se ajusta a alguno de los

siguientes:
Opción binaria: La persona debe manifestar si está de acuerdo o en

desacuerdo con una afirmación. Por ejemplo, un ítem de un test sobre la
actitud de los padres hacia los profesores de sus hijos puede ser:
"En realidad, los profesores en el colegio hacen poco más que cuidar a
nuestros hijos cuando nosotros trabajamos"
Acuerdo ( ) Desacuerdo ( )
Categorías ordenadas: El formato establece un continuo ordinal de más

de dos categorías, que permite a la persona matizar mejor su respuesta.
Normalmente, este continuo está formado por 5 ó 7 categorías
ordenadas, con una categoría central para indicar la valencia neutra y a
partir de la cual posicionarse en uno u otro sentido. Por ejemplo, un ítem
sobre la actitud de los adolescentes hacia el consumo de drogas, podría
ser el que sigue:
"Las drogas pueden realmente resolver problemas de uno

mismo"
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
A veces, se establecen nominalmente los dos extremos del continuo, dejando

señaladas las restantes categorías del mismo:
MD ____ ____ ____ ____ ____ MA
O se ordenan numéricamente las categorías sucesivas: 1 2 3 4 5 6 7
Adjetivos bipolares: Este formato es típico de lo que se denomina

"diferencial semántico", un instrumento formado por pares de adjetivos
opuestos, cada uno de los cuales representa un continuo bipolar con
varias categorías, y que permite estudiar el significado semántico que se
atribuye a determinados constructos, personas o instituciones. Por
ejemplo:
Alegre ________ ________ _______Triste
Listo ________ ________ ________Tonto
Simpático ________ ________ ___ Antipático
Feliz ________ ________ ________Infeliz
Social ________ ________ _______Asocial
3.2. Cuantificaicón de las respuestas

Una vez establecido el formato de respuesta que se considera más apropiado para el caso
es preciso decidir la manera de cuantificar los posibles resultados a las cuestiones. En
general, para los ítems de tests de ejecución máxima se cuantificará con 1 el acierto y con
0 el error, de tal manera que la puntuación directa de un sujeto en un test determinado
será igual al número de ítems que ese sujeto acierta. En los test de ejecución mínima o
típica, sin embargo, donde no hay respuesta correcta o errónea, lo que tenemos que
pretender es dar la puntuación más alta a aquella alternativa de respuesta que implique
una aptitud, aspecto o acuerdo más favorable. Por ejemplo, queremos valorar la actitud
que tenemos hacia el aborto. El ítem que se presenta es:
“Debemos dejar que la mujer decida libremente sobre la irrupción de su embarazo”
De acuerdo ( ) En desacuerdo( )
El acuerdo se puntuaría con 2 y el desacuerdo con 1, ya que estar de acuerdo con esa
afirmación indica una actitud más positiva hacia el aborto.
Si el formato de respuesta es de “n” categorías ordenadas, las diversas categorías se

cuantificarán normalmente desde 1 hasta n, teniendo en consideración (como en el caso
anterior) la dirección de la afirmación o cuestión. Por ejemplo, para 5 categorías, las dos
posibles cuantificaciones serán:
Muy en desacuerdo Bastante en desacuerdo Neutral Bastante de acuerdo Muy de acuerdo
1 2 3 4 5
3.3. Análisis de los ítems

Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan
bien) el constructo, variable, o rasgo que interesa evaluar con el test. Ahora bien, el grado
en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede
comprobar estadísticamente de manera sencilla si obtenemos tres indicadores para cada
ítem:
El índice de dificultad.
El índice de homogeneidad.
El índice de validez.
Para ello, tras aplicar el test provisional a una muestra de sujetos representativa de la
población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de
datos de sujetos x ítems (Tabla I):
Ítems
1 2 3 ……. n X
Sujeto 1
Sujeto 2
Sujeto 3
……….
Sujeto N
Tabla I. Matriz de datos de sujetos x ítems
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i al
ítem j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en
el total del test.
3.3.1. Índice de dificultad
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión,
por lo que sólo tiene sentido su cálculo para ítems de tests de ejecución máxima. El
índice de dificultad de un ítem j se define como el cociente entre el nº de sujetos que
han acertado (Aj) y el nº total de sujetos que lo han intentado resolver (Nj).
Atendiendo a la disposición de datos en la matriz expuesta más arriba, el índice de
dificultad de un ítem (columna) j será el cociente entre el nº de unos y el total de
unos y ceros que tiene la columna. Los sujetos que han omitido el ítem (no han
contestado) no se contabilizan en Nj.
Ejemplo 1
Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10

personas a un test formado por 6 ítems dicotómicos (1 indica acierto y 0 error)
(Figura 1):
Figura 1. Respuestas de una muestra de 10 personas a un test formando por 6 ítems

dicotómicos (1 indica acierto y 0 error)
Con estos resultados podemos comprobar varios aspectos de la interpretación de

Dj:
El valor mínimo que puede asumir Dj es 0 (ningún sujeto acierta el ítem) y

el valor máximo 1 (todos los sujetos que lo intentan lo aciertan).
A medida que Dj se acerca a 0 indica que el ítem ha resultado muy difícil;
si se acerca a 1, que ha resultado muy fácil; y si se acerca a 0,5, que no ha
resultado ni fácil ni difícil.
Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza
es igual a cero; a medida que Dj se acerca a 0,5, la varianza del ítem
aumenta. De nada sirve un ítem con Dj = 0 o Dj = 1, ya que no
discriminaría entre los diferentes sujetos (todos aciertan o todos fallan).
Al diseñar un test de rendimiento óptimo, al inicio se sitúan los ítems más fáciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al
final, los más difíciles (con menor Dj). El número de ítems de cada categoría de
dificultad que deben incluirse en el test depende de los objetivos que quiera
conseguir la persona que diseña el test. En general, la mayor parte de los ítems
deben ser de dificultad media.
3.3.2. Índice de homogeneidad
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem

(Hj) se define como la correlación de Pearson entre las puntuaciones de los N
sujetos en el ítem j y las puntuaciones X en el total del test:
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems,

debemos calcular la correlación entre las columnas j y la columna X de
puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta de

categorías ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un grupo
de 5 sujetos se obtienen los siguientes datos (Tabla II):
ÍTEMS
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7

Tabla II. Datos de 5 pacientes de un test formado por 3 ítem con formato de respuesta de
categorías ordenadas que se valoran entre 0 y 5

Puede comprobarse que los índices de homogeneidad de los 3 elementos son:
H1= r1x= 0,75

H2= r2x= 0,94
H3= r3x= 0,86
El índice de homogeneidad de un ítem nos va a informar del grado en que dicho

ítem está midiendo lo mismo que la prueba globalmente; es decir, del grado en que
contribuye a la homogeneidad o consistencia interna del test. Los ítems con bajos
índices de homogeneidad miden algo diferente a lo que refleja la prueba en su
conjunto. Si con el test se pretende evaluar un rasgo o constructo unitario, deberían
eliminarse los que tienen un Hj próximo a cero.
En ocasiones, un test está formado por diferentes subtests con contenidos

distintos. En este caso, los Hj deben obtenerse con relación a las puntuaciones
directas del subtest concreto. Cuando un Hj es negativo y alto, debemos cuestionar
el sistema de cuantificación de las respuestas que se ha seguido en ese ítem. Si un
ítem obtiene una correlación negativa y alta con el total de la prueba, seguramente
es debido a que se ha cuantificado erróneamente el ítem (se ha tomado como
directo siendo inverso, o viceversa).
Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener
el índice de homogeneidad corregido (rj,x-j). Consiste en correlacionar las
puntuaciones en un ítem con las puntuaciones en el total del test después de restar
de este total las puntuaciones del ítem cuyo índice queremos obtener. En el ejemplo
precedente, el índice de homogeneidad corregido para el ítem 1 será 0.49,
resultado de correlacionar la 1ª columna de la tabla (2, 3, 5, 0, 4) con la columna (10-
2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Análogamente, los índices de
homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin
corregir.
3.3.3. Índice de validez
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con

las que estos sujetos obtienen en un criterio de validación externo al test (Y); esta
correlación define el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo
rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende,
debería correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para
validar un test de inteligencia verbal puede ser otro test que incluye cuestiones
verbales; los supervisores de unos trabajadores podrían valorar el grado de
motivación de cada uno y utilizar estas valoraciones como el criterio de validación
de un test de motivación laboral; el total de ventas en pesetas que realizan los
vendedores puede ser un buen criterio para validar un test de aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos
las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y:53606
Los índices de validez de los tres ítems serán:
V1= r1Y = 0,87
V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlación con el criterio próxima a cero deberían
eliminarse de la prueba, en la medida que no contribuyen a evaluar el rasgo que se
pretende medir. Si lo que se pretende es seleccionar los ítems que más contribuyen
a la validez del test, de entre los ítems de igual varianza, serían preferibles los que
tienen alto Vj y bajo Hj.
3.4. Relación entre las puntuaciones totales del test y la

proporción al ítem.

Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones
de respuesta que se han dado a las diferentes alternativas de cada ítem. Para un ítem
concreto de una prueba de rendimiento óptimo, lo ideal es que la alternativa
seleccionada en mayor medida sea la correcta; cada una de las alternativas incorrectas
del ítem debe también ser seleccionada por un número de personas que, aun siendo
inferior al que selecciona la alternativa correcta, ratifique como adecuadas (como bien
planteadas) dichas alternativas incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes

opciones de tres ítems de un determinado test (Tabla III):
Ítem Opción Correcta Porcentaje de respuesta
a b c d e
1 a 16 40 15 14 15
2 b 35 15 21 17 12
3 c 60 1 21 18 0

Tabla III. Porcentaje de respuesta obtenido en las diferetes opciones de tres íntems de un
determinado test.
El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la mayor parte de la

muestra selecciona la alternativa correcta, mientras que las incorrectas son
seleccionadas por un porcentaje parecido de personas. El ítem 2 seguramente no es muy
adecuado, pues la muestra selecciona en mayor grado una alternativa incorrecta como la
buena; al menos, habría que reformular esa alternativa incorrecta. Para el ítem 3, los
problemas se refieren a dos alternativas incorrectas que apenas si son seleccionadas por
la muestra; también habría que reformular esas dos opciones de respuesta.
En los tests formados por ítems de opción múltiples de las que sólo una es correcta,
podemos sobrestimar la puntuación directa de una persona dado que alguno de sus
aciertos ha podido producirse por azar. El problema entonces consiste en establecer un
procedimiento para descontar del número total de aciertos (A) los que se han producido
por azar (Aa).
Si asumimos que, cuando no se conoce la respuesta correcta a un ítem, todas las

alternativas de respuesta son equiprobables, la probabilidad de acertar al azar ese ítem
se puede establecer como:
P (Aa) = 1/n
Siendo n el número de alternativas del ítem.
De la misma forma, la probabilidad de errar el ítem será:
P(E) = 1 - (1/n) = (n-1) / n
Llamemos Ra el nº de respuestas aleatorias que proporciona (es decir, el número de ítems

que ha contestado sin saber la solución). De las Ra, algunas serán aciertos aleatorios (Aa)
y otras serán errores (E). Nuestro objetivo es estimar los Aa para descontarlos del
número total de aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente
forma:
El nº total de errores se puede establecer como el producto del valor Ra por la

probabilidad de cometer un error:
Si despejamos Ra de esta expresión, podremos estimarla a partir de datos conocidos (E y

n):
Siguiendo el mismo razonamiento, el número de aciertos aleatorios se puede estimar

multiplicando el valor Ra por la probabilidad de cometer un acierto por azar (Aa):
Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos y del número
de alternativas que tienen los ítems. Podemos observar que cada error se pondera por la
expresión 1/(n-1), lo que significa que por cada error hay que descontar el resultado de
ese cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada
error; en tests de 3 alternativas, hay que descontar 0.5 por cada error; en tests de 4
alternativas, hay que descontar 0.33 puntos por cada error; y así sucesivamente.
La puntuación directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A – Aa
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5
opciones de respuesta cada uno. A continuación se detallan el nº de aciertos (A), errores
(E) y omisiones (O) que obtuvieron 3 personas (Tabla IV):
Persona A E 0
1 112 28 0
2 119 12 18
3 109 0 31
Tabla IV. Número de aciertos (A), errores (E) y omisiones (O) que obtuvieron 3 personas
en un test de conocimientos del idioma inglés formado por 140 ítems con 5 opciones de
respuesta cada uno
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más
inglés sabe es la persona 1, seguida de la 2 y en último lugar la persona 3. Sin embargo,
corrigiendo los efectos del azar, obtenemos las puntuaciones directas corregidas
siguientes:
Podemos comprobar que la corrección afecta sensiblemente al orden que establecemos

respecto al dominio del idioma inglés. Además, si nos fijamos en la corrección hecha para
la persona 3, vemos que no se le ha descontado nada; esto es debido a que no cometió
ningún error.
Bloque III - Fiabilidad
Tema 4 - El modelo lineal clásico
Tema 4. “El modelo lineal clásico”
4.1. Métodos para obtener la fiabilidad de un test

El Modelo Lineal Clásico, también conocido como Teoría Clásica de los Tests, fue
formulada en 1904 por Charles Spearman. Este Modelo admite que el test, como
instrumento de medida que es, no es totalmente preciso. Las puntuaciones obtenidas al
aplicar un test, X, tienen dos componentes, un componente de verdad (V) y un
componente de error (E).
X=V+E
Con esto se quiere decir que la puntación observada en una medición (X), es igual a la
puntuación verdadera (V), más el error (E).
La puntuación observada (X) en un test puede considerarse una variable aleatoria, es decir,
una variable que puede asumir distintos valores de acuerdo a un conjunto de
probabilidades. Para una persona concreta, la puntuación observada en el test podrá
oscilar entre un conjunto de valores, y cada uno de ellos llevará asociada una cierta
probabilidad de ocurrencia. Por ejemplo, pasamos el test en infinitas ocasiones a una
persona de forma que cada una de ellas fuera independiente de las demás. La puntuación
de la persona no sería siempre la misma, sino que se distribuiría en torno a un cierto valor
que tendería a repetirse con mayor frecuencia. El modelo clásico supone que esta
distribución adopta la forma de la curva normal. Para cada persona, existe una
distribución normal independiente.
Como cualquier distribución, ésta tiene una media que coincide con el valor más probable
o valor esperado de la variable. Pues bien, este valor se considera la puntuación verdadera
del sujeto.
Vj = ? (Xj) = ?Xj

Donde Vj sería la puntuación verdadera del sujeto j , Xj la puntuación observada del
sujeto j, representa el valor esperado de la variable y ? la media poblacional de la
variable.
Puede decirse que para cada sujeto la puntuación verdadera sería la media de las
puntuaciones observadas obtenidas a través de infinitas administraciones del mismo test.
En primer lugar, la puntuación verdadera es un concepto estadístico, hace referencia a un
estadístico, la media, que parte del análisis del proceso de respuesta a un test. En
segundo lugar, la puntuación verdadera es dependiente del test utilizado. Por tanto, a
pesar del nombre, la puntuación verdadera no es algo etéreo que está “dentro de la
cabeza del sujeto” y que hay que descubrir. Es una definición estadística. En diferentes
tests, un mismo sujeto poseerá diferentes puntuaciones verdaderas, aunque ambos tests
midan el mismo constructo.
De este modo, el modelo clásico debe ofrecer las vías para poder estimar el componente
de verdad, cómo llegar a saber que parte de la puntuación que un sujeto obtienen en el
test es la que le corresponde relamente. Es decir, cómo podemos eliminar el componente
de error.
4.2. Fiabilidad absoluta y relativa.

La fiabilidad de un test se puede abordar desde una doble perspectiva. La podemos

entender como la estabilidad de las medidas o como la exactitud-inexactitud de la
medida.
Si tomamos la fiabilidad desde una perspectiva de estabilidad de las mediciones entre

repetidas administraciones del mismo instrumento de medida a un mismo grupo de
personas, nos referiremos a la Fiabilidad Relativa. Un test será más fiable cuanto más
constantes o estables se mantengan los resultados que proporciona cuando se repite.
Cuanto más estables sean los resultados en dos ocasiones, mayor será la correlación
entre ellos. A esta correlación se le denomina Coeficiente de Fiabilidad. Éste nos expresa,
no la cuantía del error, sino la coherencia del test consigo mismo y la constancia de la
información que ofrece.
El coeficiente de fiabilidad se basa en el concepto de medidas repetidas, es decir, de

medición en más de una ocasión que se consideran "mediciones paralelas". Si repetimos la
administración del test, y suponemos que la naturaleza de la variable es estable,
mediciones semejantes indican estabilidad y, por tanto, fiabilidad.
De manera intuitiva, dos tests son paralelos si proporcionan medidas equivalentes de las
personas, es decir, para el usuario debe resultar indiferente utilizar uno u otro a la hora
de tomar decisiones a partir de sus puntuaciones. El modelo de tests paralelos fija las
condiciones formales que deben cumplir dos tests para ser considerados "paralelos":
Cada sujeto tiene la misma puntuación verdadera en cada test.
Las varianzas de las puntuaciones error es la misma para ambos tests.
Por tanto, ambos tests tendrán la misma media y las mismas varianzas observadas.
Imaginemos que pasamos el test en dos ocasiones, o administramos dos formas paralelas
del test cada una en una ocasión. En ambos casos tendremos dos conjuntos de
puntuaciones observadas de los sujetos. El coeficiente de fiabilidad puede definirse como
la correlación entre las puntuaciones entre dos formas paralelas de un test (o dos
administraciones del mismo test). Si se cumplen las condiciones del modelo de tests
paralelos puede establecerse el puente matemático entre el coeficiente y el índice de
fiabilidad, como se muestra a continuación:
El coeficiente de fiabilidad se calcula a partir de las puntuaciones observadas

diferenciales en dos supuestos tests paralelos, puntuaciones notadas como x1 y x2
respectivamente. La notación matemática para el coeficiente de correlación entre las dos
distribuciones de puntuaciones es rx1x2, también representado como rxx.
La ecuación final nos dice que la correlación entre las puntuaciones observadas en dos
tests paralelos, es igual al cociente de la varianza de las puntuaciones verdaderas sobre la
varianza de las puntuaciones observadas. Y esto es igual al cuadrado de la correlación
entre las puntuaciones observadas y las verdaderas.
El coeficiente de fiabilidad de un test varía entre 0 y 1 .
Por ejemplo: si la correlación entre dos tests paralelos es rxx´ = 0'80, significa que el 80%
de la varianza del test se debe a la auténtica medida, y el resto, es decir, el 20% de la
varianza del test se debe al error.
Si tomamos la fiablidad desde una perspectiva de exactitud-inexactitud de sus medidas

nos referiremos a la Fiabilidad Absoluta. La precisión absoluta de un test se pone de
manifiesto a través de un coeficiente de correlación también, pero ahora entre las
puntuaciones de cada sujeto en un test y el componente de verdad de esas puntuaciones
Cuando un sujeto responde a un test obtiene una puntuación empírica, que está afectada
por un error. Si no hubiera error alguno, el sujeto obtendría su puntuación verdadera.
El test es impreciso porque la puntuación empírica no coincide con la auténtica

puntuación verdadera. Esta diferencia entre ambas puntuaciones es el error muestral, el
error de medida.
El error típico de medida será la desviación típica de los errores de medida.
El error típico de medida indica la precisión absoluta del test, ya que permite estimar la
diferencia entre la medida obtenida y la que se obtendría si no hubiera error.
En conclusión, el Índice de Fiabilidad es la correlación entre las puntuaciones observadas

y las puntuaciones verdaderas. Su cuadrado es igual al cociente entre la varianza de las
puntuaciones verdaderas y las puntuaciones observadas, y se denomina Coeficiente de
Fiabilidad.
La fiabilidad de un test va a depender de su longitud y de la consistencia de sus ítems.
La longitud del test se refiere al número de sus elementos. Si un test consta de tres
elementos, un sujeto puede obtener en una ocasión una puntuación de 1 y en otra, o en
una forma paralela, una puntuación de 2. De una ocasión a otra, la puntuación ha variado
un punto; un punto sobre tres es una variación del 33%, una variación elevada. Si los
sujetos obtienen variaciones casuales de este tipo, la correlación del test consigo mismo
o la de las dos formas paralelas del test, será rebajada enormemente y no podrá ser alta.
Si el test es mucho más largo, si tiene, por ejemplo, 100 elementos, un sujeto puede
obtener 70 puntos en una ocasión y 67 en una forma paralela. De una a otra vez ha
variado 3 puntos; es una varianza relativamente pequeña en relación con el test total,
concretamente el 3%. Estas pequeñas alteraciones casuales de esta magnitud, que se
producen en las puntuaciones de los sujetos, al pasar de una forma a la paralela, son
relativamente poco importantes y no disminuirán tanto como antes la correlación entre
ambas. El coeficiente de fiabilidad será mucho mayor que en el caso anterior.
La relación entre la fiabilidad y la longitud del test se expresa mediante la ecuación de

Spearman-Brown . La precisión de un test es nula cuando la longitud es 0, y va aumentando
a medida que aumenta la longitud. Aunque el aumento es relativamente menor a medida
que la longitud de que se parte es mayor. Esto significa que la precisión crece mucho al
principio y relativamente menos después. Cuando la longitud tiende a infinito, el
coeficiente de fiabilidad tiende a 1. Al aumentar la longitud de un test, se incrementa su
precisión porque aumenta la varianza verdadera a un ritmo más alto que la varianza
error. Esto supone que la precisión del test aumenta porque disminuye la proporción de
varianza que se debe al error.
El coeficiente de fiabilidad se puede hallar también de otra forma, es el denominado

coeficiente alfa o coeficiente de generalizabilidad o de representatividad (Cronbach).
Este coeficiente alfa indica la precisión con que algunos items miden el constructo que
nos interesa
Puede interpretarse como :
Una estimación de la correlación media de todos los items posibles

en cierto aspecto.
Una medida de la precisión del test en función de su coherencia o

consistencia interna (interrelación entre sus elementos; hasta qué
punto los elementos del test están midiendo todos lo mismo) y de su
longitud.
Indicando la representatividad del test, es decir, la cuantía en que la

muestra de items que lo compone es representativa de la población
de items posibles del mismo tipo y contenido psicológico.
El coeficiente alfa refleja principalmente, dos conceptos básicos en la precisión de un test

:
La interrelación existente entre sus elementos: la medida en que

todos miden bien una misma cosa.
La longitud del test : al aumentar el número de casos de una muestra,

y si se eliminan los errores sistemáticos, la muestra representa mejor
a la población de que se extrae y es más improbable que intervenga
el error casual.
Si los items del test son dicotómicos, (si o no, 1 o 0, acuerdo o desacuerdo, etc), la
ecuación del coeficiente alfa se simplifica, dando lugar a las ecuaciones de Kuder-
Richardson (KR20 y KR21).
Dado un cierto número de items, un test será tanto más fiable, cuando más homogéneo
sea. El coeficiente alfa nos indica la fiabilidad en cuanto ésta representa homogeneidad y
coherencia o consistencia interna de los elementos de un test
4.3. Métodos para obtener la fiabilidad relativa.

Método Test-retest. Consiste en aplicar el mismo test al mismo grupo en

dos ocasiones y se calcula la correlación entre las dos series de
puntuaciones. Dicha correlación es el coeficiente de fiabilidad. Este
método suele dar un coeficiente de fiabilidad más alto que los obtenidos
por otros procedimientos, y puede estar contaminado por los factores
perturbadores. El principal problema de este método es el de determinar
la cantidad óptima de tiempo que debe transcurrir entre la primera y la
segunda aplicación ya que si el período intermedio es muy breve, las
puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las
respuestas a los ítems) y/o de la fatiga de los sujetos, alterando con ello la
fiabilidad real del test. Por el contrario, si el período entre aplicaciones es
muy largo, las puntuaciones empíricas pueden variar porque el rasgo que
estamos midiendo no sea estable en el tiempo, es decir, que evolucione,
cambie, se modifique, por lo que este método sólo debe emplearse con
rasgos teóricamente estables, es decir, que no varíen con el paso del
tiempo como pueden ser el CI o la personalidad.
Método de las formas paralelas. Se preparan dos formas paralelas del

mismo test, es decir, dos formas equivalentes que den la misma
información, y se aplican al mismo grupo de sujetos. La correlación entre
las dos formas es el coeficiente de fiabilidad. Con este método, al no
repetirse el mismo test, se evitan las fuentes perturbadoras de la
fiabilidad del re-test.
Método de las dos mitades. Se divide el test en dos mitades equivalentes

y se halla la correlación entre éstas. Es el más utilizado porque sólo se
necesita aplicar una vez el test y calcular la correlación obtenida por los
sujetos en cada una de las dos mitades en que se puede dividir dicho test.
Como un test puede tener múltiples “dos mitades”, habitualmente
escogeremos las puntuaciones de los ítems pares y las
correlacionaremos con las de los ítems impares. La fórmula de Rulon, así
como la fórmula de Flanagan y Guttman, son especialmente aplicables
cuando se calcula el coeficiente de fiabilidad por el método de las dos
mitades. Se trata de fórmulas que se utilizan para el cálculo del
coeficiente de fiabilidad.
4.4. Error de medida: concepto, tipos, definición estadística.

El componente error en el Modelo Clásico recoge únicamente errores aleatorios de

medida. El error puede ser definido como:
Ej = Xj – Vj
Donde Ej es el componente error para el sujeto j, Xj la puntuación observada en el test
para el sujeto j y Vj su puntuación verdadera.
Ej es una variable aleatoria, ya que es la diferencia entre otra variable aleatoria Xj, y una
constante Vj (que sólo posee un valor para cada sujeto). La media de la distribución de los
errores es:
μ Ej = μ Ej = μ (Xj - Vj )= μ Xj - μ Vj = Vj - Vj = 0
μ Ej = 0
Es decir, la media de los errores de medida para un sujeto j, a través de repetidas

administraciones del test es cero.
De las definiciones anteriores pueden derivarse varios principios del modelo clásico que
se consideran supuestos del modelo. Estos principios son:
V = E(X): el puntaje verdadero es igual a la esperanza matemática o valor

esperado de las puntuaciones observadas.
La media de los errores de medida para una población de sujetos es cero (
μ E = 0).
r(V,E) = 0: la correlación entre el puntaje verdadero en un test y el error
en ese test es igual a cero. Es decir, no existe relación entre ambos.
r(Ej, Ek) = 0: la correlación entre los errores dados en dos tests diferentes
es igual a 0. es decir, los errores son independientes.
Tema 5 - Fiabilidad y test paralelo
Tema 5. “Fiabilidad y test paralelos”
5.1. Definición de tests paralelos. rxx como proporción de

varianza verdadera.

A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda
versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que
el test original pero con diferentes ítems. Como hemos explicado en el tema 4, dos
versiones o formas se consideran paralelas si, aplicadas a una misma muestra de
personas, obtienen medias y varianzas probabilísticamente similares. La correlación de
Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas paralelas
se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el grado en que
pueden considerarse equivalentes.
Para determinar la fiabilidad de test paralelos debemos:
1. Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos tests
paralelos.
Hay dos tipos de criterios que dos tests han de cumplir para que los consideremos
paralelos:
a) Criterio estadístico: Las dos formas presentan medias iguales y varianzas

iguales tanto en sus puntuaciones empíricas, como verdaderas y errores
(mediciones paralelas) u obtienen las mismas puntuaciones verdaderas, pero
no se requiere igual varianza de error (tau-equivalentes).
b) Criterios de formato y contenido: En la práctica dos tests paralelos

consisten en dos conjuntos distintos de ítems referidos a una misma variable
o constructo psicológico, habitualmente con las mismas instrucciones y el
mismo formato de prueba y de ítems. Las formas paralelas pretenden
muestrear el mismo contenido con cuestiones formuladas de manera distinta.
No puede considerarse formas paralelas aquéllas en las que la diferencia consiste

en que se ha variado el orden de los ítems o el orden de las alternativas.
2. Aplicar una forma del test a la muestra de interés, y tras un lapso de tiempo que
no sea relevante para la aparición de cambios en los sujetos, aplicar la segunda
forma del test a la muestra.
Las dos formas deben ser administradas bajo las mismas condiciones, o, al menos,
bajos los mínimos cambios posibles en las condiciones. Se trata de no introducir
factores que puedan provocar cambios en los resultados.
Respecto al tiempo, debe utilizarse un lapso entre ambas formas lo suficientemente

corto como para que los sujetos no hayan cambiado en la variable de interés y lo
suficientemente largo para que factores de memoria, fatiga, o entrenamiento
tengan el mínimo efecto.
Es adecuado para tests de potencia y para tests de velocidad en todas las áreas de
medición psicológica con instrumentos de lápiz y papel y también, con ciertos tests
manipulativos.
3. Calcular el coeficiente de correlación entre las puntuaciones empíricas obtenidas

por los sujetos en las dos ocasiones. Si las formas son paralelas esa correlación es el
coeficiente de fiabilidad del test.
Una vez se han administrado las dos formas paralelas se dispondrá de una tabla de
datos con N sujetos por 2 variables, la puntuación en la forma A y en la forma B para
cada sujeto. Se procede entonces a calcular el coeficiente de correlación de
Pearson. El resultado obtenido puede estar entre –1 y +1, pasando por 0 (ausencia
de relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido
esperar correlaciones negativas debiendo estar el resultado entre 0 y +1, incluso
cabría esperar valores positivos alejados de 0. Si A y B son formas paralelas
entonces la correlación es el coeficiente de fiabilidad. Para considerar el test fiable,
el coeficiente de correlación obtenido deber ser alto, de modo que una gran
proporción de la varianza de las puntuaciones se deba a varianza verdadera. Es
decir, si obtenemos un coeficiente de fiabilidad de 0’75 diremos que tres cuartas
partes de la varianza empírica del test se deben a varianza verdadera, o lo que es lo
mismo, que un 25% de la varianza empírica es varianza de error.
El desarrollo teórico de este tercer método de aproximación al estudio de la

fiabilidad relativa de un test resulta muy útil para comprender mejor el significado y
modo de interpretación del coeficiente de fiabilidad de un test.
Supongamos que disponemos de dos formas paralelas de un test: la forma j y la

forma k. El coeficiente de fiabilidad relativa de dicho test (rjk) vendrá dado por el
cociente entre la varianza de las puntuaciones verdaderas y la varianza de las
puntuaciones empíricas y se representará entonces como:
Dado que las varianzas siempre tienen valor positivo y dado que sabemos que:
Podemos concluir que el valor de este cociente sólo puede oscilar entre 0 y 1
(ya que S2x siempre será mayor o igual que S2 v) de modo que, cuanto más
cerca de 1 esté rxx, más parecidas serán S2 v y S2 x y, por tanto, mayor será la
precisión, la estabilidad, la fiabilidad relativa del test analizado.
Pero además, el coeficiente de fiabilidad puede ser interpretado del mismo

modo que un coeficiente de determinación, es decir, puede interpretarse como
una correlación al cuadrado; esto es, como la proporción de varianza de las
puntuaciones observadas (X) que es explicada por las puntuaciones
verdaderas (V) o nivel del rasgo de los sujetos.
Es decir, cuanto más alto sea el valor de rxx mayor será el porcentaje de
variabilidad de las puntuaciones empíricas debido a las puntuaciones
verdaderas y menor el debido al error de medida. Ejemplo: Si obtenemos un
coeficiente de fiabilidad de 0.90, querrá decir que el 90 % de la varianza de las
puntuaciones observadas se debe a los niveles del rasgo de los sujetos y tan
sólo el 10 % de varianza restante al error de medida cometido al aplicar dicho
test.
Por ejemplo: Si obtenemos un coeficiente de fiabilidad de 0.90, querrá decir

que el 90 % de la varianza de las puntuaciones observadas se debe a los
niveles del rasgo de los sujetos y tan sólo el 10 % de varianza restante al error
de medida cometido al aplicar dicho test.
Aclarar que podemos interpretar el coeficiente de fiabilidad de un test como

si se tratara de una correlación al cuadrado porque el índice de fiabilidad
relativa o correlación existente entre las puntuaciones verdaderas y las
empíricas de un test (rvx) es:
rxx = (rxv)2

5.2. Límites de la fiabilidad de un test.

El Coeficiente de Fiabilidad es un índice que oscila entre 0 y 1. Un test se considera fiable

cuando el coeficiente es superior a 0.85. (hay autores que lo consideran a partir de 0.70).
Este índice es sensible (a variaciones) a la longitud de la escala y la variabilidad de la
muestra (según homogeneidad de la muestra). Este índice aumenta si aumentamos los
ítems de la escala y la variabilidad de la muestra.
Si entonces
. La Fiabilidad es máxima, 1, no hay error
alguno.
Si entonces
La Fiabilidad es 0, no hay verdad.
5.3. Índice de fiabilidad

Como mencionamos en el Tema 4, la puntuación observada por un participante en un test

es igual a la suma de dos componentes: su verdadero valor en el rasgo medido más el
error de medida cometido
x=v+e
Supuestos:
1. El valor esperado de la variable aleatoria “error de medida”, es igual a cero, para

una población medida con el mismo test, o para una repetición infinita de medidas
sobre la misma persona
2. Las puntuaciones verdaderas y los errores de medida no están correlacionados

(supuesto importante para posteriores derivaciones), no existe un patrón
sistemático de errores positivos o negativos.
3. Los errores de medida de dos tests distintos no están correlacionados. Este

supuesto no parece razonable en puntuaciones que se vean afectadas por factores
tales como la fatiga o práctica.
4. Los “e” de un test no están correlacionados con las puntuaciones “v” de un

segundo test.
Por tanto, el error de medida se considera como una desviación aleatoria, no

sistemática, de la puntuación verdadera.
Derivaciones:
1. Dado que el e(ei)=0, el valor esperado de las x, es igual al de las puntuaciones v,

las medias poblacionales son iguales.
2. Dado que el e(ei)=0, y que los errores son independientes de las puntuaciones
verdaderas, la covariación entre las puntuaciones verdaderas y los errores es cero.
3. Dado que las v y los e son independientes, la VAR de x es igual a la suma de la

VAR de v más la VAR de e.
4. Dado que la COV entre los e y v es cero, la covarianza (COV) entre las x y las v es
la VAR de las puntuaciones v.
5. Dado que la COV entre x y v es igual a la VAR de v, la correlación entre las x y v

puede expresarse como la proporción de variabilidad de v sobre la de x. Es el índice
de fiabilidad.
Si elevamos al cuadrado el índice de fiabilidad, obtenemos el coeficiente de

fiabilidad. Representa la proporción de VAR de x, explicada por su relación lineal
con v.
6. La correlación al cuadrado entre los e y x es igual a la VAR de las x, no explicada

por su relación con v, sino a partir de su relación lineal con e.
7. A partir de la formulación anterior, también se puede expresar el coeficiente de

fiabilidad como 1 menos la correlación al cuadrado entre x y e. Cuando la VAR de
los errores sea pequeña, el coeficiente de fiabilidad será elevado
Ejemplos
1. ¿Cuál sería el coeficiente de fiabilidad de un test en el que Sv2 es el 75% de Sx2?
2. ¿Cuál es el valor del coeficiente de fiabilidad si la proporción de la VAR verdadera

que hay en la VAR empírica de un test es 0.9?
3. ¿Si la Se2 es el 10% de la Sx2 cuál es el coeficiente de fiabilidad?
5.4. Error típico de medida

El coeficiente de fiabilidad permite describir la proporción de varianza de las

puntuaciones observadas que se debe a la varianza de las puntuaciones verdaderas. Sin
embargo, el usuario del test puede estar más interesado en conocer la cantidad de error
que afecta a las mediciones individuales. Aunque no es posible determinar la cantidad
exacta de error que afecta a una puntuación dada, el modelo clásico proporciona un
método para describir la desviación esperada de la puntuación observada de un individuo
respecto de su puntuación verdadera. Dado que cada sujeto puede generar una
distribución teórica de sus puntuaciones observadas en repetidas administraciones del
test en torno a su puntuación verdadera. Para cada xj existirá una distancia a vj: la
puntuación error cometida en ocasión, o sea, ej. Esas puntuaciones error también se
distribuyen normalmente con media 0 y una determinada desviación típica sej. Esa
desviación es un índice del error de medida. Si se promedia esa desviación error en la
población de sujetos, se obtiene el error típico de medida del test. Veamos cuál es su
expresión formal:
S2x=S2v+S2e

Si se divide la expresión anterior por , se obtiene:
La primera fracción es la expresión del coeficiente de fiabilidad, de manera que podemos

ordenar la expresión anterior de la siguiente forma:

La expresión anterior aún se debe simplificar para dejarla en términos de la desviación

típica de los errores de medida:
Esta es la expresión formal del error típico de medida. El error típico de medida
proporciona un índice del grado de desviación de las puntuaciones observadas respecto
de las puntuaciones verdaderas. Cuanto menor sea el error típico de medida con
respecto a la desviación de las puntuaciones observadas, menor será su varianza y, por
tanto, menor será la proporción de la varianza observada debido al error (y mayor la
debida a la varianza de las puntuaciones verdaderas).
Supongamos que Se = 3.5. ¿Qué podemos concluir acerca de este error típico de medida?
¿Es lo suficientemente importante como para comprometer la fiabilidad del test? Para
contestar a esta cuestión es necesario comparar ese valor con SX. Cuanto menor sea Se
con respecto a SX, menor impacto tendrá sobre la fiabilidad del test. Supongamos que en
un grupo Se = 12 y Sx = 60, mientras que en otro Se = 3 y Sx = 9. ¿En cuál de los dos grupos
el error típico de medida será más perjudicial?. En el segundo, ya que supone 1/3 de la
desviación típica de las puntuaciones observadas y en el primer caso sólo representa 1/5.
El error típico de medida será necesario a la hora de estimar la puntuación verdadera de

los sujetos. Ésta no puede ser determinada exactamente, sino que se estimará un
intervalo en el cual estará incluida la puntuación verdadera, siempre con una cierta
probabilidad de que así sea.

Tema 6 - Estimación de las puntuaciones verdaderas
Tema 6. “Fiabilidad y test paralelos”
6.1. Estimación puntual de V

Tras obtener un valor del coeficiente de fiabilidad, la siguiente pregunta relevante que
nos podemos hacer es: ¿Cómo hacer estimaciones acerca del valor de la puntuación
verdadera de un sujeto?
La estimación de v la podemos plantear de dos maneras distintas:
a) Estimación puntual de la v. Si un sujeto obtiene una puntuación empírica en un

test su puntuación verdadera será esa misma.
b) Estimación por intervalos de la v. Si un sujeto obtiene una puntuación empírica

en un test su puntuación verdadera estará situada entre unos posibles valores.
Para obtener la puntuación verdadera nos basaremos en el modelo de regresión:
Permite obtener una estimación puntual de la puntuación verdadera y además construir

un intervalo de confianza en torno a ella.
Para estimar la puntuación verdadera es necesario conocer la fiabilidad y el promedio

alcanzado en el test por el grupo de referencia en el cual se calculó la fiabilidad de las
puntuaciones observadas y con la desviación estándar de las puntuaciones observadas.
En la práctica, la puntuación verdadera v es predicha a partir de una puntuación

observada x, conociendo la fiabilidad de la prueba y la media de las puntuaciones de la
muestra normativa, mediante la ecuación:
Y dado que la razón entre las Sv y la Sx, es el índice de fiabilidad; y que la media de x y v
son iguales, la ecuación se simplifica:
La puntuación verdadera estimada con este método no es más que puntuación predicha
por un modelo de regresión a partir de la puntuación observada.
6.2. Estimación por intervalos de V.

Probablemente esa puntuación predicha por el modelo de regresión a partir de la

puntuación observada no coincida con el valor real del sujeto. Como toda predicción, ésta
tiene un error estándar, que en este contexto se denomina Error Estándar de Estimación
(Se) y que puede determinarse aplicando la ecuación:
El Se posibilita la construcción de un intervalo de confianza para la puntuación verdadera

estimada con el Método de Regresión. Los límites inferior y superior de este intervalo
están acotados por las ecuaciones:
Li = v - Z (Se)
Lj = v + Z (Se)
Los pasos para la estimación por intervalos son:
1. Primero tendríamos que fijar el nivel de confianza (NC), y determinar la Z

asociada. En este caso para un NC del 95%, la Z, asociada es de 1.96
2. A continuación calcular el error típico de estimación
3. Calculamos el Emax, que es resultado del producto de los anteriores.
Emax = Zc * Svx

4. Finalmente el intervalo de v será:
IC = v ± Emax

EJEMPLO:
Con los siguientes datos, calcular la estimación puntual y de intervalo de la puntuación

verdadera.
= 20; Sx = 5; rxx = 0.9; x= 26
Estimación puntual: v = 0.9 (26) + (20-0.9 (20)) = 25.4

Estimación de intervalos
1. NC 95% Zc = ± 1.96
2. Se = = 1,58
3. Emax = 1.96 * 1.58 =3.1
4. IC = x ± Emax =26 ± 3.1 . La puntuación verdadera del sujeto podría estar

entre 29.1 y 22.1.
6.3. Sesgo de las puntuaciones empíricas.

La precisión o fiabilidad de un test varía en función de los errores aleatorios que son
debidos a la variabilidad de la muestra, del contexto o del material experimental. Suelen
afectar al valor de las variables, unas veces en exceso y otras en defecto, por lo que, al
aumentar el tamaño de la muestra se disminuye su efecto.
Si en nuestro estudio no podemos acceder a un mayor número de sujetos para aumentar

la precisión de nuestras medidas podemos optar por estimar la puntuación verdadera
teniendo en cuenta el sesgo propio de la puntuación empírica.
Como podemos ver ene l ejemplo, la puntuación empírica, observada, es 26. Y cuando
calculamos la puntuación verdadera por intervalos utilizamos este valor x=26. En este
caso estaríamos estimando las puntuaciones sin tener en cuenta el error de la puntuación
observada.
IC = x ± Emax =26 ± 3.1 . La puntuación verdadera del sujeto podría estar entre 29.1 y
22.1.
Sin embargo, si tenemos en cuenta el sesgo inherente a la puntuación empírica, podemos

optar por emplear la puntuación verdadera (v) para realizar la estimación por intervalos,
de tal modo que, la puntuación verdadera del sujeto se encontraría entre:
IC = v ± Emax =25.4 ± 3.1 . La puntuación verdadera del sujeto podría estar entre 28.5
y 22.3.
Siempre es más adecuado, cuando estimemos la puntuación verdadera, que tengamos en

cuenta este sesgo.
6.4. Fiabilidad y diferencias interindividuales e

intraindividuales
6.4.1. Diferencias interindividuales
Dos sujetos han obtenido en el Test Terman de Inteligencia unas puntuaciones

empíricas (x) de 126 y 120 respectivamente. ¿Es esa diferenica entre puntuaciones
estadísticamente significativa?
= 100; Sx = 16; rxx = 0.91; NC=95%
La hipótesis nula H0 es que no existen diferencias estadísticamente significativas

entre las puntuaciones de ambos sujetos
La hipótesis alternativa H1 afirma que si existen diferencias estadísticamente

significativas.
Para comprobarlo, debemos conocer cuál es el valor de Z.
Las puntuaciones Z son el resultado de dividir las puntuaciones diferenciales entre

la desviación típica
Z<1.96, por tanto, se acepta la H0 . Existen diferencias entre las puntuaciones pero
estas no son significativas.
4.4.2. Diferencias intraindividuales en test paralelos
Un sujeto tiene un nivel bajo en lectura y se le somete a un tratamiento de

recuperación. La puntuación que obtiene antes d ella terapia es de 40 y una vez
aplicada la terpia es de 50. El test utilizado para evaluar la lectura tiene = 100; Sx =
15; rxx = 0.96; NC=95%. ¿La terapia es eficaz? ¿La segunda puntuación es
estadísticamente superior a la primera?
Z>1.96, por tanto, se rechaza la H0 . Si existen diferencias entre las puntuaciones y
estas son significativas.
4.4.3. Diferencias intraindividuales en test diferentes
Un sujeto ha obtenido una puntuación empírica de 2.4 en un test de razonamiento y

una puntuación típica de 1.4 en un test de comprensión verbal. ¿Existen diferencias
significativas?
r11= 0.94 r12 = 0.97
Tema 7 - Fiabilidad y consistencia interna
Tema 7. “Fiabilidad y consistencia interna”
7.1. Coeficiente alpha de Cronbach.

Desde la Teoría Clásica de los Tests se han propuesto diferentes procedimientos para
calcular la fiabilidad. En el Tema 4 comentamos que existían tres grandes métodos para
calcular el coeficiente de fiabilidad: Método Test-retest, Método de las formas paralelas y
Método de las dos mitades.
El método de formas paralelas es un indicador del grado de equivalencia entre las dos
formas paralelas de un test.
El método test-retest es un indicador de hasta qué punto son estables las mediciones
realizadas durante la primera aplicación del test.
Ambos métodos permiten evaluar la estabilidad de las mediciones, el grado en que un

instrumento de medida arrojará el mismo resultado en diversas mediciones concretas
midiendo un objeto o sujeto que ha permanecido invariable. Estos métodos requieren de
dos aplicaciones.
El tercer método, el método de las dos mitades, a diferencia de los anteriores, requiere
una aplicación del test. Tras obtener las puntuaciones obtenidas por los sujetos en cada
una de las dos mitades en que se habrá dividido, se procede a calcular la correlación entre
las dos puntuaciones. El resultado obtenido será un indicador de la covariación entre
ambas mitades, es decir, de la consistencia interna del test.
La consistencia interna es el grado de homogeneidad de los items que forman parte de un

test. Se refiere al grado en que los distintos ítems, partes o piezas de un test miden la
misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo
psicológico de un modo análogo.
Junto con el método de dos mitades, otros métodos basados en la consistencia interna,
que también requieren una sola aplicación son:
Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la

fiabilidad de un test basado en su grado de consistencia interna. Indica el
grado en que los ítems de un test covarían.
Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas
aplicables a sendos casos particulares de alfa. KR20 se aplica en el caso
en que los ítems del test sean dicotómicos, y KR21, en el caso de que
además de ser dicotómicos, tengan la misma dificultad.
Método de Rulon (1939): Una estimación de la fiabilidad de un test a
partir de las puntuaciones obtenidas en sus dos mitades. Considera que
la diferencia entre las dos mitades se debe sólo al error aleatorio.
Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la
consistencia interna, equivalente a la de Rulon.
Alfa representa la consistencia interna del test, el grado que todos los ítems del test
covarían entre sí. Salvo que tengamos un interés expreso en conocer la consistencia
entre dos o más partes de un test (ej. primera mitad y segunda mitad; ítems pares e
impares) será preferible calcular el coeficiente α, a aplicar métodos de dos mitades. Éstos
únicamente ofrecen información sobre la consistencia entre las partes, mientras que alfa
tiene en cuenta la covariación entre cualquier par de ítems.
Donde:
n = número de ítems
Si2 = varianza de cada ítem
ST2 = varianza del test total
El coeficiente α oscila entre 0 y 1. Cuanto más próximo esté a 1, los ítems serán más
consistentes entre sí. Hay que tener en cuenta que a mayor longitud del test, mayor será
alfa. Matemáticamente, α puede asumir valores negativos.
En la práctica, es muy difícil que todos los ítems de un test sean paralelos, como indica α,
pero, sin embargo, tiene sentido su aplicación para establecer el grado en que los
diferentes ítems están midiendo una única dimensión o rasgo.
Ejemplo
Ítems
Sujetos X
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
Varianzas0.140.250.140.251.33
En este caso, el coeficiente α obtenido representa un valor medio, que nos indica que no
existe un elevado grado de covariación entre los ítems. No podemos afirmar con
rotundidad que este test mide un rasgo unitario. El coeficiente α puede obtenerse
también entre diferentes grupos de ítems (subtests). En ese caso, n será el número de
subtests y ΣS2j la suma de las varianzas de los subtests. Un coeficiente α bajo indicará
que los diferentes subtests miden rasgos o constructos diferentes.
7.2. Fiabilidad de un test complejo.

Se llama test complejo a aquel que está formado por muchos subtest. La fiabilidad de este
tipo de test está en función de la varianza y fiabilidad de cada uno de los subtest que lo
componen.
La fiabilidad del test total del test complejo rtt se puede calcular aplicando la siguiente
formula:
7.3. Otras formas de obtener la fiabilidad como consistencia

interna (Rulon, Flanagan-Guttman).

El Método de Rulon (1939) permite obtener una estimación de la confiabilidad de un

instrumento de evaluación fragmentando el instrumento (podría ser en mitades que no
suponen varianzas iguales). La fiabilidad se basa en el cálculo de la varianza de error:
Donde:
rtt es el coeficiente de confiabilidad del instrumento de evaluación
Sd2 es la varianza de una parte del instrumento
St2 es la varianza de la otra parte del instrumento
El Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la consistencia

interna, equivalente a la de Rulon.
Donde:
rtt es el coeficiente de confiabilidad del instrumento de evaluación
Sp2 y Si2 son las varianzas de las puntuaciones pares e impares respectivamente es
la varianza de la otra parte del instrumento
Sx2 varianzas de las puntuaciones empíricas de los sujetos.
7.4. Factores que afectan a la fiabilidad de los tests.

1. El método de estimación de la fiabilidad que utilicemos.
2. Las condiciones concretas seleccionadas para aplicar el método. La fiabilidad

variará en función del lapso de tiempo elegido o del número de formas paralelas
que apliquemos sobre una muestra.
3. Características y tamaño de la muestra: cuanto más homogéneas sean las

muestras habrá menos variabilidad y, por tanto, la fiabilidad será menor. En cambio,
si las muestras son más heterogéneas, la fiabilidad será mayor.
4. Longitud del test: es decir, el número de ítems que presenta el test. Cuanto más
largo es un test, mayor es su fiabilidad.
5. Cómo realicemos la segunda medición
La segunda medición ha de realizarse en condiciones constantes respecto a las de la

primera. Esas condiciones constantes implican ausencia de cambio en los sujetos y
ausencia de cambio en las condiciones de administración:
Factores que pueden introducir cambios en los Factores que pueden introducir cambios en las
sujetos condiciones de administración
Maduración
Aprendizaje e influencia
general debida al medio
social
Actividad anterior a la
administración de la prueba.
Factores que influencian el

El administrador de la prueba.
estado de ánimo de los
sujetos. El local y sus condiciones ambientales.
Cansancio debido a otras La hora del día.

actividades.
El día de la semana.
Estado de salud de los
Sucesos no previstos durante la
sujetos.
administración de la pruebas.
Fatiga debida a la primera
Pequeños errores o variaciones en las
prueba
instrucciones o en los tiempos límite.
Memoria de la primera
prueba.
Aprendizaje debido a la
primera prueba.
Conocimiento de los
resultados de la primera
prueba.
Además, hay otros efectos que son importantes pero que no pueden agruparse
fácilmente en estas dos categorías:
Mortalidad experimental o pérdida de sujetos entre la primera y la

segunda medición por las razones que sean.
El fenómeno de regresión a la media: una persona con una puntuación
extrema en la primera medición tenderá a presentar su puntuación en la
segunda medición más próxima a la media del grupo.
Bloque IV - Validez
Tema 8 - Concepto y evidencias de validez
Tema 8. “Fiabilidad y consistencia interna”
8.1. Concepto de validez

La validez de un test indica el grado de exactitud con el que mide el constructo teórico
que pretende medir y si se puede utilizar con el fin previsto. Es decir, un test es válido si
"mide lo que dice medir". Un test puede ser fiable pero no por ello válido. El test puede
proporcionar puntuaciones estables pero no estar midiendo el constructo para el cuál fue
creado. El test puede medir mejor o peor el constructo, pero tiene que contar con una
fiabilidad para alcanzar la validez, es decir, puede ser fiable pero no válido; pero si es
válido ha de ser también fiable.
8.2. Evidencias de validez: evidencias basadas en el contenido

del test, en la estructura interna del test y en las relaciones con
otras variables.

Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene
como objetivo aportar pruebas sobre las inferencias que podemos realizar con un test,
tradicionalmente se han diferenciado varios procedimientos de validación, alguno de los
cuales incluye varios métodos diferentes de comprobación. Los fundamentales
procedimientos son denominados como validez de contenido, de constructo y referida al
criterio.
a) Validez de Contenido
Se refiere al grado en que el test presenta una muestra adecuada de los contenidos a los
que se refiere, sin omisiones y sin desequilibrios de contenido.
La validez de contenido se utiliza principalmente con tests de rendimiento,

conocimientos o competencia profesional, y especialmente con los tests educativos.
Este tipo de validez expresa la relación entre el test y el criterio interno formado por la
materia a que se refiere el test. La relación será más alta a medida que esté mejor
representada toda la materia por el test, el grado en que los ítems que componen el test
representen el contenido que el test trata de evaluar. Esta validez se consigue a medida
que hay garantías de que se han definido claramente los diversos aspectos de un cierto
campo de conocimientos o destrezas que el test intenta medir. Por tanto, la validez de
contenido se basa en la definición precisa del dominio y en el juicio sobre el grado de
suficiencia con que ese dominio se evalúa. Por ejemplo, un test de ortografía es válido si
su contenido es apropiado. Para comprobar esta validez se examinará el campo de la
ortografía y se constatará que los ítems que componen el test son una muestra imparcial
y suficiente de este campo.
La validez de contenido no puede concretarse en ningún tipo de correlación, una

correlación entre el test y un criterio que determine un coeficiente de validez. En este
caso la validez viene dada por el juicio de expertos.
La validez de contenido no será adecuada cuando el test no represente adecuadamente

el campo a que se refiere.
A pesar de que no se utiliza un índice de correlación para expresar la validez de

contenido, existen procedimientos para cuantificarlo. Algunos de estos procedimientos
son:
Cálculo de descriptivos. Consiste en calcular la media y la desviación

típica de todos los ítems. Establecer una puntuación de corte (o índice de
validez de contenido) que refleje, en base a la evaluación de los expertos
(método de juicio), que la puntuación del ítem es demasiado baja en
relevancia como para ser incluido en la escala. Es importante justificar la
decisión sobre la puntuación corte, usar la misma puntuación de corte
para todos los ítems de la escala y no poner una puntuación de corte
demasiado alta que implique eliminar muchos ítems.
Índice de validez de contenido (IVC). Índice de validez basado en la
valoración de un grupo de expertos de cada uno de los ítems del test
como innecesario, útil y esencial. El índice se calcula a través de la
siguiente fórmula:
Donde ne es el número de expertos que han valorado el ítem como esencial y N es el

número total de expertos que han evaluado el ítem. El IVC oscila entre +1 y -1, siendo las
puntuaciones positivas las que indican una mejor validez de contenido. Un índice IVC = 0
indica que la mitad de los expertos han evaluado el ítems como esencial. Los ítems con
una bajo IVC serán eliminados. Un IVC = .29 será adecuado cuando se hayan utilizado 40
expertos aproximadamente, un IVC = .51 será suficiente con 14 expertos, pero un IVC de,
al menos, .99 será necesario cuando el número de expertos sea 7 o inferior.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar

"validez aparente", que se refiere al grado en que un test da la impresión a los evaluados de
que mide lo que se pretende. En situaciones aplicadas, es importante que las personas
perciban que los ítems del test tienen que ver con la finalidad que se persigue con el
procedo de evaluación.
b) Validez de Constructo
Es un concepto más complejo. Se refiere al grado en que el instrumento de medida

cumple con las hipótesis que cabría esperar para un instrumento de medida diseñado
para medir precisamente aquello que deseaba medir.
Se puede considerar un concepto general que abarcaría los otros tipos de validez.
El término constructo hace referencia a un concepto teórico inobservable como la

inteligencia, las actitudes. Definir operacionalmente estos constructos resulta muy
complicado en la práctica, ya que no son directamente observables. Debido a esto, la
validación de un constructo es un proceso laborioso y difícil. Para la estimación de la
validez de constructo se utiliza una metodología variada. Algunos de los métodos más
utilizados son:
Obtener las relaciones entre las puntuaciones en el test y en otras

variables que deberían relacionarse o no relacionarse con el constructo
de interés. Si el modelo teórico está bien fundamentado, debe establecer
relaciones entre el constructo de interés y otros diferentes (validez
convergente), y mostrar correlaciones nulas con test o variables que
miden aspectos diferentes (validez discriminante).
Análisis de las diferencias individuales que pone de manifiesto un test.
Evaluar mediante el test a grupos que se supone deben ser diferentes en
el constructo, para comprobar si realmente es así. Resulta un enfoque
eminentemente diferencial: si el test es válido, debería reflejar las
diferencias entre grupos que se predicen desde la teoría psicológica. Por
ejemplo, si un test de inteligencia general para edades infantiles es
válido, debería reflejar el mayor rendimiento de los niños de más edad.
Se refiere al análisis de la distribución de las puntuaciones de test y a
comparaciones de estos aspectos en distintas muestras. Diferentes
edades, sexos, niveles profesionales, etc. Estas comparaciones no son

arbitrarias, sino que se derivan de hipótesis que se hacen en función de
los conocimientos que se tiene del constructo.
Análisis de los cambios en las diferencias individuales. Utilizar una
estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulación o selección de
los niveles en una o más variables independientes. Por ejemplo, si
utilizamos un fármaco que mejorar la sintomatología de los pacientes, el
test debe ser sensible al cambio, mostrar diferencias en las puntuaciones
antes y después del tratamiento.
Análisis lógico de los elementos del test. Se refiere al análisis de ítems del
test en relación con el constructo. Aquellos ítems que correlacionan
positivamente entre sí, pertenecen al mismo constructo. Esto significa
que el análisis de consistencia interna de un test no sólo aporta datos
respecto a su fiabilidad, sino a su validez. Si se obtiene un coeficiente de
consistencia interna bajo, significa que el test no mide un único
constructo.
Análisis factorial del test. Consiste en aplicar la técnica multivariada del
Análisis Factorial (exploratorio o confirmatorio) sobre la matriz de
correlaciones entre items, para descubrir estadísticamente las variables
o dimensiones subyacentes (factores) a la covariación entre los
elementos. El análisis factorial permite ordenar los datos y facilitar la
interpretación de las correlaciones. Se espera un factor explicativo del
constructo con saturaciones altas del test y los tests que miden aspectos
parecidos, y con saturaciones bajas de aquellos tests que miden aspectos
diferentes. Con frecuencia se habla de la estructura factorial de un test
como validez estructural o validez factorial
c) Validez de Criterio
Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios) con lo
que se espera por hipótesis que debe correlacionar de determinado modo.
Un criterio es una variable distinta del test que se toma como referencia, que se sabe que
es un indicador de aquello que el test pretende medir o que se sabe que debe presentar
una relación determinada con lo que el test pretende medir.
Este criterio externo debe ser una medida fiable del constructo que queremos
pronosticar con el test: calificaciones escolares, total de ventas producidas en un
determinado período, estimaciones de un terapeuta de las mejoras conseguidas por cada
persona, etc.
A la correlación entre las puntuaciones en el test (X) y en el criterio (Y) se le denomina

coeficiente de validez, lo designamos como rxy e indicará el grado en el que el test sirve
para pronosticar con precisión el constructo en el criterio.
La elección del criterio es el aspecto crítico en este procedimiento de determinación de la

validez, ya que es muy difícil obtener buenos criterios. Un mismo test puede tener más de
un tipo de validez, es decir puede estar validado con respecto a varios criterios y los
diferentes coeficientes de validez que resultan pueden tener valores diferentes. En
muchas ocasiones no resulta sencillo establecer criterios apropiados, fiables y fácilmente
mensurables. Los problemas en cualquiera de estas direcciones repercuten
disminuyendo el coeficiente de validez y, por tanto, la precisión con que se puede
pronosticar un nivel dado en el criterio conociendo la puntuación en el test.
Dentro del concepto de validez de criterio cabe distinguir a su vez entre:
Validez externa y validez interna

Validez concurrente y validez predictiva
Hablamos de validez externa si el test se ha validado con respecto a un criterio externo,

como por ejemplo, una evaluación de rendimiento. La correlación del test con el criterio
da lugar al coeficiente de validez externa. Hace referencia a la posibilidad de
generalización. Sin embargo, hablaremos de validez interna si se correlaciona un test con
otro con validez reconocida que mide el mismo rasgo; los coeficientes de validez interna
suelen ser menores que los de validez externa y su interpretación es difícil.
La distinción entre validez concurrente y predictiva se emplea según se utilice un criterio

disponible en el momento (validez concurrente) o cuando se pretenda predecir la conducta
futura de un individuo (validez predictiva). Este tipo de validez se exige especialmente para
los instrumentos que se utilizan en selección y orientación académica o profesional.
Los procedimientos estadísticos utilizados en la validación referida a un criterio varían

según el número de predictores utilizados (uno o más tests) y el número de criterios
empleados (criterio único y criterio compuesto o múltiple). Se pueden distinguir varios
casos:
1. Un único test y un solo criterio: se emplearían los procedimientos de correlación

y regresión lineal simple.
2. Varios predictores (tests) y un solo criterio: se emplea la correlación y regresión

lineal múltiple o el análisis discriminante.
3. Varios predictores y varios criterios: regresión lineal multivariante y la

correlación canónica.
Tema 9 - Análisis factorial exploratorio
Tema 9. “Análisis factorial exploratorio”
9.1. Visión general del AFE

El Análisis Factorial exploratorio (AFE) de ítems es una de las técnicas más

frecuentemente aplicadas en estudios relacionados con el desarrollo y validación de
tests, porque es la técnica por excelencia que se utiliza para explorar el conjunto de
variables latentes o factores comunes que explican las respuestas a los ítems de un test.
El AFE tuvo sus orígenes a comienzos del siglo XX, y es conocido como una técnica
estadística de interdependencia (es decir, es un conjunto de variables en las cuales no
existe una variable respuesta ni variables independientes, como en la mayoría de
modelos de regresión, sino que todas las variables son analizadas en conjunto), que se
caracteriza por su versatilidad. Su propósito principal es tratar de establecer una
estructura subyacente entre las variables del análisis, a partir de estructuras de
correlación entre ellas; o, en otras palabras: busca definir grupos de variables (más
conocidos como factores) que estén altamente correlacionados entre sí. Adicionalmente,
se usa para reducir la complejidad de un gran número de variables en un número más
reducido; por lo tanto, tiene como objetivo explicar un fenómeno de forma más
minuciosa.
El AFE, junto a otras técnicas multivariadas como el Análisis de Componentes Principales

(ACP) y el Análisis Factorial Confirmatorio (AFC), permite seleccionar un conjunto
particular y bien escogido de ítems para elaborar nuestro test. Todas ellas son técnicas
utilizadas con este propósito. Pero, ¿cuándo elegir cada una de ellas? ¿Por qué es mejor
utilizar el AFE que el AFC para elaborar el test, o viceversa?
El AFE permite encontrar o establecer, de manera exploratoria, una estructura interna, al

generar nuevos factores a partir de un conjunto de variables, y conocer cuál es la
contribución de las variables originales a cada uno de estos nuevos factores. Así mismo, el
AFE permite reducir el número de variables, se eliminan del análisis aquellas variables
que sean poco relevantes o que tengan mucha colinealidad con otras variables. Se debe
utilizar cuando el objetivo es reducir variables o encontrar nuevos factores o variables
latentes.
El AFC, por otro lado, permite evaluar hasta qué punto un conjunto de factores
organizados teóricamente se ajusta a los datos. En este tipo de análisis, el investigador
desempeña un papel mucho más importante, pues, a mayor conocimiento del problema,
tiene mayor capacidad para formular y probar hipótesis mucho más concretas y
específicas. En este tipo de análisis se debe establecer un nivel de confianza para poder
evaluar si se rechazan o no las hipótesis planteadas. Se debe utilizar cuando el objetivo
es llegar a una estructura específica
El ACP se utiliza cuando el objetivo es identificar el número y composición de

componentes necesario para resumir las puntuaciones observadas en un conjunto
grande de variables observadas. Este método explica el máximo porcentaje de varianza
observada en cada ítem a partir de un número menor de componentes que resuma esa
información. La diferencia entre el AFE y el ACP es, que lo que se consideran las variables
observadas, dependientes (ítems) en el AFE son las variables independientes en el ACP.
Otra gran diferencia es que en el AFC se tiene en cuenta la inclusión de un término de
error (e). Por muy cuidadosa que sea la selección de los ítems, es imposible que sean
medidas perfectas del factor común correspondiente. Una parte de la variabilidad del
ítem estará directamente producida por el factor que mide, pero otra parte no. Bajo el
modelo clásico o teoría clásica de tests, es posible estimar la parte de la varianza de cada
ítem explicada por el factor común subyacente a ese conjunto de ítems, precisamente a
partir de la varianza común entre ese ítem y el resto de ítems que miden ese mismo factor
(a esta parte de la varianza del ítem se le denomina comunalidad). El resto de varianza del
ítem es varianza no común (denominada unicidad), no contribuye a la medida de los
factores comunes, y consecuentemente no se incluye en el proceso de identificación y
estimación de los factores comunes. Este término de error no existe en el ACP.
La recomendación actual es utilizar el AFE. El hecho de emplear CP como método de

estimación de factores supone ignorar el error de medida, lo que aumenta las cargas
factoriales, los porcentajes de varianza explicados por los factores, y puede producir una
sobreestimación de la dimensionalidad del conjunto de ítems. Esto sucede al intentar
encontrar componentes que expliquen el total de la varianza (la varianza común más la
varianza de error conjuntamente consideradas) en vez de dar cuenta únicamente de la
comunalidad. De una u otra forma, la interpretación de la solución obtenida mediante
ACP podría ser errónea.
Aún así, la AFE sigue siendo una técnica cuestionada, especialmente por la manipulación
que muchas veces se hace de los datos hasta encontrar resultados similares a lo
esperado. Para evitar suspicacias, lo recomendable es definir claramente los pasos y las
pruebas estadísticas que se van a utilizar antes de comenzar el análisis.
9.2. Pasos del AFE

En general, se considera que existen seis aspectos críticos en el AFE:
a) Objetivo. El AFE es utilizado en la construcción de escalas y cuestionarios para

detectar variables o ítems redundantes o que aporten poca información, con el fin
de ser eliminados. Es un objetivo perfectamente coherente con la naturaleza del
AFE.
b) Diseño
Selección de los ítems . Para la adecuada selección de los ítems debemos:
1. efinir claramente y de forma exhaustiva el constructo a medir y a

partir de esa definición seleccionar los ítems de forma que cubran
todo los aspectos relevantes en esa definición (validez de
contenido). Si el subconjunto de ítems omite aspectos relevantes
de la variable latente que se desea medir, habrá menos varianza
común de la que debiera en el análisis factorial, y los factores
comunes resultantes serán más débiles porque estarán
insuficientemente definidos. Si, por el contrario, se introducen
ítems irrelevantes, aparecerán factores comunes adicionales o se
ocultarán factores comunes objeto de medida, dificultando la
claridad de la estructura factorial identificada.
2. Utilizar algunos criterios empíricos obtenidos durante la fase de

análisis de los ítems, como son el índice de homogeneidad
corregido (correlación ítem-total sin el ítem analizado) y el
coeficiente alfa.
3. Evitar el uso/abuso de ítems redundantes que deterioren la

estructura factorial resultante. Los ítems redundantes son ítems
que expresan la misma idea con una redacción mínimamente
distinta. Tradicionalmente, se usan para evaluar la consistencia de
las personas, pero también para elevar la consistencia interna de
las escalas. El problema surge porque estos ítems redundantes
comparten, como es natural, más varianza que la que es
directamente explicada por el factor común. También parte de la
varianza única en estos pares o tripletes de ítems redundantes es
compartida. Y cuando esto sucede, aparecen factores comunes
adicionales difíciles de identificar y de explicar, especialmente tras
rotar la solución inicial.
4. Se recomienda utilizar ítems que sean de tipo numérico (variables

continuas). En el caso de variables categóricas, se deben codificar
utilizando al menos cinco alternativas de respuesta y con
distribuciones aproximadamente normales.
5. Se deben seleccionar tres ítems por cada factor como mínimo.

Como norma general, cuántos más ítems existan y midan con
precisión un factor, más determinado estará el factor y más
estable será la solución factorial. La explicación es que el número

de ítems por factor interactúa con el tamaño de las
comunalidades de los ítems y con el tamaño de la muestra. Acaso
que tengamos una muestra enorme, hay que incluir siempre 3
ítems como mínimo.
Tamaño de la muestra. El tamaño de la muestra es muy importante

porque nos va indicar si la solución que obtenemos del análisis es estable
y generalizable. Resulta obvio que las muestras más grandes son mejores
que las pequeñas, pero no siempre el investigador puede acceder a
tamaños muestrales grandes. La importancia del tamaño viene dada,
además, por su interacción con otros puntos críticos del AFE, como es el
diseño y la naturaleza de los datos (por ejemplo la matriz que sirve de
input al AFE, el número de ítems que definen el factor, la homogeneidad
de la muestra y, muy especialmente, la comunalidad de los ítems). Las
recomendaciones son:
1. Cuando la saturación es óptima, saturaciones superiores a .70, y el

número de variables por factor es adecuado (al menos 6 ítems por
factor), un tamaño muestral de 150 o 200 casos parece suficiente
para obtener estimaciones precisas de los coeficientes en el AFE.
2. Cuando la saturación es moderada, saturaciones entre .70 y 0.40,

y el número de variables por factor es de 3-4 ítems, también se
acepta un tamaño de 200 casos
3. Cuando la saturación es baja, en torno a 0.30, y el número de

variables por factor es de 3 ítems, se precisa una muestra mínima
de 400 casos para conseguir estimaciones suficientemente
precisas.
Supuesto de normalidad de los datos. El AF clásico se ha desarrollado

sobre el supuesto de que los ítems se relacionan linealmente con los
factores que miden, y además que las relaciones entre ellos son también
lineales. En caso de no cumplir con el supuesto de normalidad, se espera
que al menos las variables originales tengan moderados grados de
correlación entre sí. Antes de realizar un AFE se debe hacer una
evaluación del supuesto de correlación entre las variables, con el fin de
establecer si se justifica o no su aplicación. Algunas de las estrategias
más utilizadas para evaluar este supuesto son:
1. Evaluar si algunas de las variables tienen moderados o altos

valores de correlación entre sí (frecuentemente se utilizan
valores mayores a 0,30). Si en general se detectan bajas
correlaciones entre las variables, es necesario cuestionar si tiene
sentido realizar este tipo de análisis.
2. Evaluar estas correlaciones por medio de la prueba de esfericidad

de Bartlett. En esta prueba se evalúa la hipótesis nula de que no
existe correlación entre las variables; es decir, que la matriz de
correlación es la identidad. Al rechazar esta hipótesis, se
demuestra que en realidad sí existe algún grado de correlación
estadísticamente significativa.
3. Evaluar la fuerza de la relación entre dos variables o ítems, a

partir de las correlaciones parciales, la cual representa la
correlación entre este par de ítems, después de remover el efecto
de los demás. Para evaluar esta relación se utiliza el índice Kaiser
Meyer Olkin (KMO), el cual toma valores entre 0 y 1. La medida
puede ser interpretada como:valores menores de .50 se
consideran inaceptables; de .50 a .59, pobres; de .60 a .79,
regulares, y de .80 a 1, óptimos. Este índice toma el valor de 1 solo
en el caso de que una variable sea perfectamente predicha. Una
desventaja de este índice es el de ser muy sensible, pues tiende a
incrementarse cuando el tamaño de la muestra o el número de
variables aumenta, y a decrecer cuando las correlaciones o el
número de factores disminuye.
4. Calcular el determinante de la matriz de correlaciones. Dadas las

características de esta matriz, se espera que el determinante
tome valores entre 0 y 1. Se considera que el análisis factorial se
justifica si el valor del determinante encontrado es pequeño, pero
diferente de 0. En el caso de obtener valores altos (cercanos a 1),
su interpretación es que las variables entre sí probablemente son
independientes.
Al menos es aconsejable aplicar dos de estas medidas para considerar si

existe o no correlación significativa. Sin olvidar que la asimetría interactúa
con otros factores como el tamaño de la muestra o el número de ítems que
definen cada factor de modo que la exigencia debe crecer a medida que el
resto de condiciones se vuelven más desfavorables.
Finalmente, se recomienda analizar también las distribuciones bivariadas de

cada par de ítems para identificar patrones de relaciones no lineales entre los
ítems. Estos patrones violarían el supuesto de linealidad del AFE y de nuevo
añadirían ruido a la matriz a analizar y confusión a la estructura factorial
identificada.
c) Derivación de los factores y selección del número de factores más adecuado
Antes de aplicar el AFE es necesario especificar cuál va a ser el método

estadístico para extraer los nuevos factores y cómo determinar el número de
estos por analizar.
Métodos de estimación de factores. Los métodos recomendados

habitualmente son Máxima Verosimilitud (MV) y Mínimos Cuadrados
Ordinarios (MCO).
1. Máxima verosimilitud. Este método es inferencial. Es un método

de estimación factorial que proporciona las estimaciones de los
parámetros que con mayor probabilidad han producido la matriz
de correlaciones observada. Este método, frente a otros, tiene la
ventaja de que permite contrastar el ajuste del modelo a los datos
a través de un índice que sigue una distribución ji-cuadrado, y
obtener los errores típicos y pruebas de significación alrededor de
los parámetros estimados. La desventajas de MV, sin embargo,
son que: a) requiere el cumplimiento del supuesto de normalidad
multivariada. Aunque el método de MV es robusto al
incumplimiento de este supuesto cuando las variables tienen una
distribución univariada aproximadamente normal, por lo que
debe evitarse cuando los ítems son variables ordinales; b) el índice
referido a la distribución ji-cuadrado es muy sensible al tamaño
muestral, por lo que esta prueba asume que el modelo propuesto
con m factores se ajusta perfectamente a la población, y por tanto,
que todo el error es muestral, rechazando modelos que sí
suponen una buena aproximación a la estructura factorial latente,
en favor de modelos sobrefactorizados. Por ello, se recomienda
considerar otros indicadores de ajuste derivados del test ji-
cuadrado que evalúen el error de aproximación (el grado en que el
modelo es una aproximación razonable a lo que sucede en la
población, dados los datos observados en la muestra) y el grado
de ajuste del modelo.
2. Mínimos Cuadrados Ordinarios. Este método agrupa una serie de

métodos descriptivos que tienen como denominador común que
determinan la solución factorial que hace que los residuales sean
tan próximos a cero como sea posible. El uso de estos métodos ha
mostrado buenos resultados en la factorización de ítems
ordinales. Entre estos métodos el método de Ejes Principales ha
sido la opción clásica recomendada cuando no se cumple el
supuesto de normalidad, lo cual es más probable cuanto menor
sea el número de categorías de respuesta.
Cuando las variables tienen distribuciones aceptables, la solución está bien

determinada, y el modelo propuesto es razonablemente correcto, las soluciones
MCO y MV serán prácticamente idénticas. Pero, MV tiene la ventaja de que
permite obtener indicadores adicionales muy útiles en la evaluación del ajuste.
Cunado no se dan estas condiciones se recomienda usar MCO, porque con MV
aparecen problemas de convergencia y estimaciones inaceptables e indicadores
poco fiables.
Selección del número de factores más adecuado. Es quizá de todos, el

aspecto más determinante del AFE. El número de factores comunes que
hacen falta para explicar las relaciones entre los ítems, y la composición
de esos factores, son las dos cuestiones centrales en la interpretabilidad
de la estructura factorial obtenida en el análisis. Una característica de los
nuevos factores es buscar la mejor combinación lineal que ayude a
explicar la mayor variabilidad de las variables originales. Al generar los
nuevos factores, una propiedad es que el primer factor se caracteriza por
ser el que mayor varianza explica, mientras el segundo, que es
independiente al primer factor (ortogonal), es el siguiente en explicar la
mayor variabilidad, condicionado a que el primer factor ya se calculó, y
así sucesivamente. El número de factores calculado es igual al número de
variables originales. Si se retienen menos factores de los debidos, los
patrones de saturaciones resultantes se vuelven más difíciles de
interpretar, y por lo tanto los factores identificados resultan confusos, y
si se retienen más, entonces se están “fabricando” variables latentes con
poco sentido teórico.
Dadas las características de los nuevos factores, es importante saber cómo

decidir cuál es el número de factores que se deben considerar para el análisis.
Para tomar esa decisión se utilizan algunos criterios estadísticos como:
1. Criterio del valor propio. Se basa en tomar para el análisis solo

aquellos factores que tengan valores propios mayores a 1.
2. Criterio del test de pendiente (screen test). Al igual que en el

criterio anterior, depende de los valores propios, pero se
diferencia porque los valores son graficados y se hace un análisis
visual buscando en la curva un punto de inflexión donde esta
cambie de sentido o de concavidad. Un problema que puede llegar
a presentar es ser muy subjetivo y, por lo tanto, depender
básicamente del criterio del investigador. No se recomienda
cuando el número de variables en análisis es muy alto y la
contribución de los nuevos ítems es similar.
3. Criterio del porcentaje de varianza. Este criterio establece de

antemano el porcentaje de la varianza total mínimo que debería
ser explicado por los nuevos factores; por lo tanto, la selección
final corresponde a aquellos factores que se necesiten para
cumplir con este requisito. Su principal problema está en que, al
no tener una idea clara de su variabilidad, existe la posibilidad de
tomar muchos más factores de los necesarios.
4. Criterio a priori. Es uno de los criterios más subjetivos, y se

presenta en casos muy especiales. El criterio se basa en que, a
priori, el investigador establece cuál va a ser el número de
factores que va a analizar
5. Criterio del promedio de valores propios. Este último criterio se

basa en calcular el promedio de los valores propios, y, a partir de
este valor, valores propios mayores o iguales se seleccionan.
d) Interpretación de los factores.
Depende en gran parte de la experiencia, así como del conocimiento que el

investigador tenga del problema.
La interpretabilidad de la solución, es fundamental porque de poco sirve que un

modelo con 2 factores ajuste mejor que otro con 3, si el tercer factor está
pobremente definido, o no puede ser interpretado por carecer de contenido. En
este sentido hay que destacar la tendencia en las últimas décadas hacia distinguir
entre factores comunes mayores y menores. Los factores comunes mayores son los
que interesa retener, porque son los que explican una parte realmente sustantiva
de los ítems que forman la escala. Los factores comunes menores también explican
una parte de la varianza común, pero es una parte pequeña, que no llega a ser
interpretable en términos sustantivos en el contexto de lo que se desea medir con
ese conjunto de ítems. En consecuencia, la recomendación actual ya no es explicar
la mayor parte de varianza común posible, sino la mayor par-te de la varianza
común posible de explicar con el número adecuado de factores comunes, que serán
aquellos factores que tengan sentido.
Para lograr una adecuada interpretación de los resultados se recomienda seguir los
siguientes pasos:
Estimar la matriz de factores. A partir del método seleccionado, se

procede a ca cular la matriz de factores, la cual contiene las
ponderaciones (cargas o pesos) de cada variable. Estos pesos
corresponden a las correlaciones de cada una de las variables sobre cada
factor. Los valores en términos absolutos (debido a que la correlación
puede ser positiva o negativa) indican representatividad de la variable
sobre el factor; por lo tanto, valores altos representan mayores
contribuciones, y valores bajos muestran baja representatividad. Estos

primeros resultados cumplen el objetivo de reducir datos; sin embargo,
cuando el objetivo es buscar nuevos factores, se recomienda rotar los
ejes de los nuevos factores.
Rotación de factores. Como su nombre lo indica, rotar se refiere a girar

los ejes factoriales a distintos grados, pero manteniendo fijo el origen. El
resultado obtenido al hacer esta rotación es redistribuir la varianza de
las variables originales en los factores, con el fin de lograr una mejor
interpretación de los resultados.
e) Valoración de la significancia de los factores.
Una vez rotados los factores, es necesario evaluar cómo fueron las ponderaciones
en cada uno de ellos, de manera que sea más fácil identificar el grado de aporte de
cada una de las variables en los nuevos factores. En esta etapa es importante hacer
una evaluación tanto en términos estadísticos como prácticos, con el fin de
determinar cuáles variables son las más importantes y, de la misma forma,
identificar aquellas que definitivamente no aportan y pueden ser eliminadas del
análisis. Para hacer esta evaluación desde el punto de vista estadístico se recurre a
la significancia de las ponderaciones, así: valores menores a | .3| se consideran no
significativos; entre | .3| y | .5|, de aporte mínimo; entre | .5| y | .7|, de aporte
significativo, y valores mayores a |.7| son consideradas relevantes y, generalmente,
son el objetivo del análisis. Sin embargo, es frecuente que en ocasiones valores
mayores a | .3| también sean considerados para los análisis.
Este sería el proceso final del análisis si los objetivos trazados fueran reducir o
identificar combinaciones lógicas de variables, entender mejor las interrelaciones o
seleccionar variables útiles para una aplicación subsecuente con otras técnicas
estadísticas. No obstante, si el objetivo es generar nuevos factores, es necesario dar
unos pasos adicionales, como nombrar o bautizar a los nuevos factores y evaluar
cada uno de ellos en términos de la pregunta de investigación. Este es uno de los
aspectos más difíciles e importantes del análisis, pues, según lo encontrado, en
algunos casos puede ser lógico y fácil de interpretar, mientras en otros, los
resultados encontrados no presentan un comportamiento lógico y su
interpretación se torna compleja.
9.3. Matriz de correlaciones: extracción de factores, rotación

de factores y puntuaciones factoriales.

Como comentamos en el punto anterior, antes de aplicar el AFE es necesario especificar

cuál va a ser el método estadístico para extraer los nuevos factores y determinar su
número. Veíamos que existían dos métodos principales: Máxima Verosimilitud (MV) y
Mínimos Cuadrados Ordinarios (MCO).
Después de la fase de estimación de factores, la solución es rotada para conseguir la

mayor simplicidad e interpretabilidad.
Thurstone (1947) sugirió que los factores fueran rotados en un espacio multidimensional
para conseguir la solución con la mejor estructura simple. La rotación factorial puede ser
ortogonal u oblicua. El método de rotación ortogonal asume la independencia de los
factores (los dos factores en análisis se giran a la vez, lo cual mantiene siempre su
independencia (es decir, siempre se tendrá un ángulo de 90° entre ellos), mientras que el
método de rotación oblicua permite la correlación entre factores.
Dentro de los métodos de rotación ortogonal existe una gran variedad de posibilidades;
sin embargo, solo nos vamos a referir a los tres más utilizados: varimax, quartimax y
equamax. En el método de rotación varimax se busca maximizar las ponderaciones a nivel
del factor; es decir, se espera que cada ítem o variable sea representativo en solo uno de
ellos, con el fin de minimizar al máximo el número de variables dentro de cada factor. En
el caso de la rotación quartimax, la maximización de las ponderaciones se realiza a nivel
de la variable, lo que busca minimizar el número de factores que ayude a explicar cada
una de ellas. Finalmente, con la rotación equamax se hace una combinación de las dos
técnicas anteriores; por consiguiente, la maximización de las ponderaciones se hace
tanto a nivel del factor como a nivel de la variable.
En el caso de las rotaciones oblicuas, se parte del supuesto de correlación entre los
nuevos factores, que en la vida real es el escenario más común, lo que conduce a que las
ponderaciones calculadas no coincidan con las correlaciones entre el factor y la variable.
Dentro de los métodos de rotación oblicua más utilizados se encuentran el oblimin y el
promax. La rotación oblimin permite establecer relaciones jerárquicas entre los factores,
para lo cual debe establecer el grado de inclinación (δ) entre ellos. Un valor δ de cero da
las rotaciones más oblicuas. En cuanto a la rotación promax, modifica los resultados de
una rotación ortogonal hasta crear una solución con cargas factoriales lo más próximas
posible a la “estructura ideal”. Para ello, eleva las cargas factoriales obtenidas en una
rotación ortogonal a una determinada potencia (conocida como κ). En general, los valores
de κ se encuentran entre 2 y 4, pero, a mayor potencia, mayor oblicuidad en la solución (el
valor de κ más común es de 4). Para decidir qué tipo de rotación utilizar, es necesario
tener conocimiento previo del problema, pues identificar de antemano correlación entre
los nuevos factores significa que tiene más sentido una rotación oblicua, mientras un
supuesto de independencia hace preferible una rotación ortogonal.
En las últimas dos décadas, los estudios de revisión del uso del AFE han puesto de
manifiesto una evolución donde se ha pasado de un uso mayoritario de la rotación
ortogonal (concretamente el criterio Varimax), a utilizar cada vez más la rotación oblicua.
Esta evolución en el uso de criterios de rotación se debe a que tradicionalmente se

pensaba que la rotación ortogonal producía estructuras más simples y más fácilmente
interpretables. Sin embargo, diferentes estudios pusieron de manifiesto que esta
afirmación no era cierta, sino que la rotación oblicua es capaz de presentar estructuras
más claras, simples e interpretables. Se aconseja utilizar rotación oblicua
independientemente del modelo teórico del que se parta (factores independientes o
relacionados).
Los argumentos para ello son varios:
1) Casi todos los fenómenos que se estudian en las ciencias sociales y de la salud
están más o menos interrelacionados entre sí, por lo que encontrar relaciones de
ortogonalidad perfecta es difícil. De ello se deduce, que imponer una solución
factorial ortogonal puede ser muy probable-mente alejarse de la realidad
2) Si el constructo bajo estudio realmente presenta una estructura de factores

independientes, esta ortogonalidad se verá reflejada en los resultados (al permitir
correlaciones entre factores utilizando una aproximación oblicua, las correlaciones
obtenidas serán bajas)
3) Finalmente, si las correlaciones entre factores fueran consistentemente bajas

(por debajo de .30 ó .20), se propone repetir el análisis utilizando una solución
ortogonal. Y en el caso de que las dos soluciones fueran similares, atendiendo al
criterio de parsimonia, se aconseja aceptar provisionalmente la solución ortogonal.
Realmente, no se puede dar una respuesta definitiva a la cuestión de qué criterio de

rotación produce la “mejor” solución. Es decir, a priori, no hay criterios de rotaciones
correctas o incorrectas, ni criterios de rotación que produzcan soluciones mejores o
peores. Por el contrario, se debe ser consciente de que la elección de un criterio de
rotación u otro, puede tener efectos importantes en los patrones factoriales estimados y
en las correlaciones entre factores. La selección del “mejor” criterio de rotación debe
hacerla el investigador. El investigador puede poner a prueba distintas soluciones
factoriales utilizando diferentes criterios de rotación, y en base a los resultados
obtenidos, seleccionar como “mejor” criterio de rotación, aquel que ofrece la solución
factorial más simple y más informativa.
En cuanto al criterio de asignación de los ítems a los factores, otro aspecto que puede
hacer variar enormemente la interpretación de la solución obtenida, la práctica más
común es retener saturaciones que estén por encima de .30 ó .40, que equivale
aproximadamente al 10% de la varianza explicada.
Los ítems que no superen el criterio o conjunto de criterios establecidos, deben ser
revisados en sus dos aspectos: sustantivo y metodológico, para identificar en lo posible el
origen de su mal funcionamiento. Con ello se puede valorar si es necesario o aconsejable
que se eliminen del test, que se modifiquen de algún modo para incluirlos en una nueva
versión del test, o si lo que sucede es que hay que añadir nuevos ítems de contenido
semejante para muestrear adecuadamente el contenido del factor que pretendemos
medir con ese ítem, lo que nos lleva a reexaminar la validez de contenido.
Independientemente de ello, se realizará un nuevo análisis factorial con la escala
reducida tras eliminar esos ítems. Idealmente el análisis se repetirá tras eliminar uno de
los ítems inadecuados cada vez. En ocasiones variaciones pequeñas como eliminar un par
de ítems pueden modificar sustancialmente el resultado final del análisis.
Tema 10 - El coeficiente de validez
Tema 10. “Coeficiente de validez”
10.1. Coeficiente de validez y su interpretación.

El coeficiente de validez es la correlación entre las puntuaciones del test con un criterio
externo. Un criterio externo que será cualquier variable distinta del test que se toma
como referencia, que se sabe que es un indicador de aquello que el test pretende medir o
que se sabe que debe presentar una relación determinada con lo que el test pretende
medir.
A mayor correlación, mayor capacidad predictiva del test. Existen distintos diseños
experimentales que permiten determinar esta correlación. La elección de un diseño u
otro dependerá de las necesidades y circunstancias específicas de cada caso:
Validez concurrente o simultánea: El test y el criterio se miden al mismo

tiempo (concurrentemente). Puede utilizarse para validar un nuevo test
por comparación con otro ya validado previamente.
Validez de pronóstico: El criterio se mide pasado un periodo de tiempo
tras la aplicación del test. Es el tipo más habitual en los procesos de
selección de personal, en los que se pretende predecir el rendimiento
futuro de los sujetos.
Validez retrospectiva: El test se aplica un tiempo después del criterio que
se pretende evaluar. Útil cuando se pretende dilucidar mediante una
prueba algún aspecto del pasado que actualmente no es accesible.
Como mencionamos en el Tema 8, dependiendo del número de tests y criterios podemos

diferenciar entre los siguientes procedimientos estadísticos:
Un predictor y un criterio: análisis de correlación y regresión simple.

Varios predictores y un criterio: análisis de correlación y regresión
múltiple, análisis discriminante (criterios cualitativos), regresión logística
(criterio dicotómico).
Varios predictores y varios criterios: análisis de regresión multivariante,
análisis de correlación canónica.
Validez y utilidad de las decisiones: investigación operativa (técnicas
maximax y minimax). Permiten optimizar las decisiones tomadas con el
test.
Para conocer hasta qué punto podemos predecir las puntuaciones en el criterio de un
participante, dada su puntuación en el test, aplicamos la siguiente fómula, que nos dirá
que correlación existe entre el test y el criterio:
Imaginemos que queremos realizar la validación relativa al criterio de un test de aptitud

mecánica (X). Para ello, se aplica el test elaborado a una muestra de 6 participantes. Estos
participantes son evaluados posteriormente por sus supervisores, en una escala de 0 a
10, en función del tiempo empleado en reparar un coche con la misma avería (Y). Los
resultados son los siguientes (Tabla I):
X Y
12 9
14 7
1510
7 8
9 5
4 4
Vamos a calcular el coeficiente de validez (Tabla II):
X Y XY X2 Y2
12 9 108 144 81
14 7 98 196 49
1510 150 225 100
7 8 56 49 64
9 5 45 81 25
4 4 16 16 16
6143 473 711 335
Obtenemos un valor de 0,73. Dado que el valor máximo del coeficiente de validez es 1, se
puede decir que el test tiene una buena capacidad predictiva. Obtenemos un valor de
0,73. Dado que el valor máximo del coeficiente de validez es 1, se puede decir que el test
tiene una buena capacidad predictiva.
En este caso, como sólo tenemos un predictor y un criterio aplicaremos la regresión lineal
para predecir las puntuaciones en el criterio (Y) a partir de las puntuaciones en el test (X).
La interpretación del coeficiente de validez consiste, precisamente, en la estimación o

pronóstico de la puntuación en el criterio de cualquier sujeto a partir de la puntuación
obtenida en el test.
10.2. Predicción del criterio a partir del test: análisis de

correlación y regresión

Regresión Lineal
La función lineal viene definida por (Figura 1):
a = valor esperado de Y cuando X=0 (ordenada en el origen). Punto donde la línea corta al
eje Y, o valor esperado de Y cuando X vale 0.
b= cantidad de cambio en Y por cada unidad de cambio en X (pendiente).
Para cada Xi, tenemos dos puntos (XY), y (X, Y’) pronosticado. Es decir, dicha función
predice un valor de Y que no se corresponde con el real.
La diferencia entre (XY) y (XY´) determina el error de predicción, distancia vertical entre
ambos puntos.
Las fórmulas para calcular a y b son:
En puntuaciones di ferenciales la ordenada en el origen pasa por el punto (0,0) (Figura 2):
Puntuaciones directas:
Puntuaciones diferenciales:
Puntuaciones típicas
En puntuaciones típicas la pendiente de la recta es el coeficiente de validez
Con los datos de la Tabla I que mostramos anteriormente podemos calcular la ecuación
de regresión en puntuaciones directas, diferenciales y típicas (Tabla I):
Puntuaciones directas:
Puntuaciones diferenciales:
Puntuaciones típicas:
(Tabla III)
X Y Y’ =a+BX e =Y-Y’
12 9 Yx=12=3,15+0,395*12=7,89 9-7,89=1,11
14 7 Yx=14=3,15+0,395*14=8,68 7-8,68=-1,68
15 10 Yx=15=3,15+0,395*15=9,08 10-9,08=0,92
7 8 Yx=7=3,15+0,395*7=5,91 8-5,91=2,09
9 5 Yx=9=3,15+0,395*9=6,71 5-6,71=-1,71
4 4 Yx=4=3,15+0,395*4=4,73 4-4,73=-0,73
La interpretación del coeficiente de validez consiste en la estimación o pronóstico de la

puntuación en el criterio de cualquier sujeto a partir de la puntuación obtenida en el test.
Así, a un participante que obtuvo X=12, se le pronostica Y’=7,89
Si al valor real de Y le restamos el pronosticado, obtendremos el error de pronóstico. Por

ejemplo, para este mismo participante, el error de pronóstico asociado será 9 - 7,89 =
1,11
10.3. Factores que afectan a la validez

a) Validez y Fiabilidad del test
Se asume que cuanto más fiable es un test más válido será, lo que se verá reflejado en su
coeficiente de validez. Si un constructor de un test es capaz de mejorar, por el
procedimiento que sea, la fiabilidad de las medidas utilizadas (tanto la del test como la del
criterio de validación) en cierto grado mejora también la validez de ese test para
pronosticar ese criterio y eso se refleja en su coeficiente de validez.
Aplicando la ecuación de Spearman-Brown para Fiabilidad y Validez podemos estimar en

qué medida mejoraría el coeficiente de validez de un test en función de la mejora de la
fiabilidad del test, la fiabilidad de la medida del criterio de validación o de ambas:
Además, la longitud de un test afecta al coeficiente de fiabilidad del mismo y, dado que
esa fiabilidad afecta al coeficiente de validez, podemos poner en relación directamente la
longitud del test con el coeficiente de validez mediante la siguiente ecuación:
Y, también, podemos despejando “n” para tratar de averiguar el número de ítems que
debería tener un test con el fin de lograr un coeficiente de validez deseado.
b) Validez y variabilidad de los datos
El coeficiente de validez también se ve afectado por la variabilidad de los datos con los
que se está calculando. Si establecemos un coeficiente de validez con una muestra de
sujetos más homogénea (es decir con poca variabilidad) y, posteriormente, se lo
aplicamos a otro grupo de sujetos más heterogéneo (con mayor variabilidad) la cuantía
del coeficiente aumenta. Es lo mismo que ocurre con el coeficiente de fiabilidad, ambos
son índices correlacionales.
Donde Sx1 es la desviación típica del grupo 1 Sx2 es la desviación típica del grupo 2 rx1y
es el coeficiente de validez obtenida en el grupo 1 Rx2y es el coeficiente de validez que se
obtendría en el grupo 2.
Por ejemplo construimos un test de Orientación Espacial formado por 20 items (rxx =
0,91). Con el fin de analizar su eficiencia predictora del Rendimiento en Vuelo y se lo
pasamos a 200 aspirantes a entrar en una determinada Escuela Aeronáutica, con los que
obtenemos: Media de 14 y una desviación típica de 3,48.
Con los 70 admitidos a la escuela de aeronáutica (Media = 16 y D. Típica = 2,33)

correlacionamos los resultados en el test con sus calificaciones en vuelo al final del curso
(Media de calificaciones = 6,05 y D. Típica = 1,92) obteniendo un valor de rxy = 0,60.
a) Ante estos datos, ¿qué validez tiene el test para los fines propuestos?
Nos pide el coeficiente de validez para los aspirantes (validez y variabilidad)
b) ¿Cuál sería la nueva validez si redujésemos la fiabilidad del test hasta 0,85?.
Bloque V - Baremación e informe
Tema 11 - Interpretación de las puntuaciones
Tema 11. “Interpretación de las puntuaciones”
11.1. Transformaciones de las puntuaciones directas de un

test: Percentiles, puntuaciones típicas Z y puntuaciones típicas
derivadas.

La puntuación directa de una persona en un test no es directamente interpretable, es

imprescindible proporcionar a los usuarios de los tests reglas para su interpretación.
Las formas habituales de interpretación son:
a) Interpretación referida a un criterio: contenidos incluidos en el test, normalmente con

referencia a algún punto de corte. Este tipo de interpretación es de carácter absoluto, no
requiriendo de la existencia de normas derivadas de un grupo normativo. Aunque
colectivamente se denominan referidas a criterio, pueden tomar diversas formas: pueden
indicar la proporción de respuestas correctas necesarias en un dominio, o la probabilidad
de que un examinado responda correctamente a cierto tipo de ítems. En aplicaciones con
finalidad de diagnóstico, pueden indicar la presencia de debilidades concretas en el
examinado o, a veces, como por ejemplo en las tablas de expectativas, pueden indicar la
probabilidad de que un sujeto alcance un nivel adecuado de rendimiento en un momento
futuro o que caiga en un determinado trastorno. Suelen establecerse dos o más puntos de
corte que dan lugar a clasificaciones en tres o más grupos. En educación son frecuentes
los niveles: por debajo de básico, básico, competente y avanzado. Establecen un tipo de
interpretación muy bien aceptado y comprendido por los responsables políticos y el
público en general.
b) Interpretación referida a las normas de grupo: al rendimiento de las restantes personas

que comparten el grupo normativo. Se realiza en base a la obtención de escalas para
comparar esta puntuación con las que obtienen las personas que han formado el grupo
normativo. Los escalas consisten en asignar a cada posible puntuación directa un valor
numérico (en una determinada escala) que informa sobre la posición que ocupa la
puntuación directa (y por tanto la persona que la obtiene) en relación con los que
obtienen las personas que integran el grupo normativo donde se bareman las pruebas. De
este modo, los percentiles, las puntuaciones típicas y las puntuaciones típicas derivadas
en los grupos de referencia, se denominan normas.
Nos centraremos en la interpretación basada en normas, por ser la más frecuente en la

mayor parte de las aplicaciones de los tests.
El grupo normativo debe representar una población bien definida descrita con suficiente
detalle en el manual del test. Deberá indicarse su composición en los diferentes aspectos
sociodemográficos: sexo, edad, raza, región geográfica, nivel socioeconómico, nivel
educativo.
Las fases en un estudio normativo son:
1. Identificar la población de interés
2. Establecer el error de muestreo tolerable según los estadísticos que se

calcularán
3. Realizar un diseño muestral, estableciendo el tamaño mínimo deseable
4. Recogida de datos en la muestra
5. Calcular los estadísticos de interés (medias, desviaciones típicas, generales y por

subgrupos)
6. Establecer los tipos de puntuaciones normativas necesarias
7. Descripción escrita del proceso y guías para la interpretación de las

puntuaciones
El cálculo de las normas o puntuaciones normativas de referencia, el modo de baremar un

test, se puede llevar a cabo por medio de:
a) Escalas cronológicos: Edad Mental y Cociente Intelectual.
Para características que evolucionan con la edad (sobre todo de tipo intelectual)
tiene sentido comparar la puntuación de un sujeto con las que obtienen los de su
misma edad y los de edades diferentes. Esto se puede realizar mediante dos tipos
diferentes de escalas: las Edades Mentales (EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a
diferentes grupos de edad (niños entre 5 y 14 años), y que obtenemos las
puntuaciones medias de cada grupo de edad en la prueba, siendo las que siguen:
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27

Establecemos una correspondencia entre las edades y puntuaciones medias que

nos va permitir obtener la EM de cualquier niño al que apliquemos el test y su CI.
Por ejemplo, si un niño de 10 años obtiene una puntuación directa de 18 puntos,
diremos que su EM es de 11 años, y que su CI es 110. Si la EM de un sujeto coincide
exactamente con su EC, el CI es igual a 100, e indicará que este sujeto obtiene
exactamente la puntuación media de su grupo de edad. Si el CI supera el valor de
100 significará que el sujeto tiene una Inteligencia superior al promedio de su edad,
mientras que si su CI es inferior a 100, significa que el sujeto tiene una inteligencia
inferior a la media de su grupo de edad. Usualmente, CI inferiores a 70 indican
problemas importantes (deficiencias) de tipo cognitivo, mientras que CI superiores
a 140 indican excepcionalidad intelectual.
b) Percentiles.
Son puntuaciones que se obtienen mediante una transformación no lineal de las

puntuaciones originales, una transformación que no mantiene la distribución de las
puntuaciones originales.
Representan medidas de posición en una distribución de frecuencias.
Consisten en asignar a cada posible puntuación directa un valor (en una escala de 1
a 100) que se denomina percentil y que indican el porcentaje de sujetos del grupo
normativo que obtienen puntuaciones iguales o inferiores a las correspondientes
directas.
Así, si un sujeto obtiene en un test de autoritarismo una puntuación de 20 puntos,

poco sabemos sobre su nivel de autoritarismo, pero si sabemos que a esa
puntuación le corresponde el centil 95, ya conocemos que este sujeto supera en ese
rasgo al 95% de los sujetos utilizados para baremar el test; si el grupo normativo
fuese una muestra representativa de la población general, podríamos inferir que
esta persona supera en autoritarismo al 95% de las personas, y que sólo un 5% de
personas son más autoritarias que él.
El modo de cálculo del percentil asociado a una puntuación se resume en los

siguientes pasos:
1) Colocar en una columna, ordenadas de mayor a menor o de menor a mayor,

las posibles puntuaciones directas (Xi) que se puedan obtener en el test.
2) Asignar a cada puntuación su frecuencia (fi), es decir, el nº de sujetos del

grupo normativo que la han obtenido.
3) Colocar en una tercera columna las frecuencias acumuladas (Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil
asignado a la puntuación directa Xi, Fi la frecuencia acumulada
correspondiente a Xi y N el número total de sujetos que forman el grupo
normativo.
EJEMPLO:
Supongamos que aplicamos un test de conocimientos en el manejo de ordenadores a un

grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos
que obtuvieron cada una de ellas (f) son las siguientes:
Xi: 28 27 26 25 24 23 22 21 20 19 18
fi: 2 4 21 32 45 37 22 18 12 6 1
X f F Centiles C = (100) F/200
28 2 200 100
27 4 198 99
26 21 194 97
25 32 173 86.5
24 45 141 70.5
23 37 96 48
22 22 59 29.5
21 18 37 18.5
20 12 19 9.5
19 6 7 3.5
18 1 1 0.5
Un sujeto que obtiene una puntuación directa de 20 puntos en el test, diremos que
supera en conocimientos informáticos al 9.5% de los sujetos universitarios, mientras que
más del 90% de los alumnos universitarios tienen mayor conocimiento en el manejo de
ordenadores que la persona evaluada.
Debemos tener en cuenta algunas consideraciones respecto a las puntuaciones

percentiles:
Los percentiles no constituyen una escala de intervalos, lo que implica

que en diferentes regiones de la escala de puntuaciones directas, una
diferencia de 1 punto puede corresponder a diferencias de magnitudes
diferentes en la escala de rangos percentiles.
Las puntuaciones en percentiles son menos estables para puntuaciones

en la zona media de la distribución que en los extremos.
Las ganancias o pérdidas en puntuaciones individuales, así como las comparaciones entre
sujetos de diferentes puntos de la distribución, no pueden analizarse en percentiles.
No se permite la utilización de estadísticos que requieran de operaciones

aritméticas (medias, comparaciones de medias, etc.) sobre las
puntuaciones en percentiles.
c) Puntuaciones típicas: estándares, normalizadas, escalas T y D, estaninos o

eneatipos.

Puntuaciones típicas estándares
Las puntuaciones estandarizadas, normalmente denotadas como Zi se obtienen

mediante la siguiente ecuación:
Son puntuaciones que se obtienen mediante una transformación lineal de las

puntuaciones originales, no alteran la forma de la distribución original de las
puntuaciones.
La media y la desviación típica son las correspondientes al grupo normativo. La

media siempre es 0 y la desviación 1.
Pueden ser positivas o negativas, e indican el nº de desviaciones típicas que se aleja

de la media una determinada puntuación directa.
Puntuaciones típicas normalizadas
Las Zn normalizadas representan una transformación no lineal consistente en

atribuir puntuaciones típicas de la distribución normal (0,1) a las proporciones de
casos que una determinada puntuación deja por debajo en el grupo normativo.
Se basa en la propiedad de la distribución normal de que a cada Z le corresponde un

área.
No respetan la distribución original de las puntuaciones.
Si conocemos la proporción que queda por debajo de un punto dado de la

distribución, podemos utilizar la tabla de la curva normal para obtener sin cálculos
la puntuación típica asociada Zn. Indicará el número de desviaciones típicas que una
puntuación se encuentra por encima (si es positiva) o por debajo (si es negativa) de
la media en una distribución normal.
Por ejemplo, en la Figura 1, se representa una curva normal en la que podemos

observar que el C1 es aproximadamente el centil 10, y deja por debajo un área de
0.10 de la curva normal; el C2 es el centil 42, y deja por debajo una proporción de
0.42 del área de la curva normal; el C3 es aproximadamente el centil 95, y deja por
debajo de sí un área de 0.95 de la curva normal.
Cuáles serían las puntuaciones típicas normalizadas asociadas a los centiles 1, 26,
57 y 97 :
Centil Centil/100 Zn
1 0,01 -2,33
26 0,26 -0,64
57 0,57 0,18
97 0,97 1,88
En el caso en el que no podamos comprobar la normalidad de las puntuaciones

directas no podremos calcular Zn, no se puede hacer uso de las tablas de la curva
normal para obtener las puntuaciones normalizadas, tendríamos que calcular las
puntuaciones típicas estándares Zx, ya que no asumimos ningún supuesto sobre la
distribución de los datos.
Puntuaciones típicas derivadas
Las puntuaciones típicas estandarizadas y normalizadas se expresan con números

positivos y negativos y con abundantes decimales, lo que dificulta a veces su
presentación, por ello, con frecuencia, se transforman en puntuaciones típicas
derivadas, que son una transformación de las típicas originales.
Estas puntuaciones se denominan puntuaciones típicas derivadas (si el objeto de la

transformación lineal es una puntuación típica estándar) o puntuaciones típicas
derivadas normalizadas (si suponen la transformación lineal de una puntuación
típica normalizada), siendo las principales las denominadas como escala T, escala D
y estaninos (o eneatipos).
Las puntuaciones T representan una escala con media 50 y desviación típica 10. Así,
una puntuación T = 78 significa que la persona obtiene una puntuación Zi = 2.8, es
decir, 2.8 desviaciones típicas por encima de la media del grupo normativo.
Escala Derivada Derivada y normalizada
Escala T Ti= 50+(10)Zi Tni= 50+(10)Zni

Las puntuaciones D suponen una escala con media 50 y desviación típica 20. Por
ejemplo, una puntuación D = 35 indica que la persona obtuvo una puntuación Zi =
-.75, o lo que es lo mismo, una puntuación que se encuentra .75 desviaciones típicas
por debajo de la media del grupo normativo donde se barema el test.
Escala T Di= 50+(10)Zi Dni= 50+(10)Zni

Los estaninos representan otra escala con media 5 y desviación típica 2. Una
persona que obtenga el estanino 8 en un test de aptitud espacial indicará que se
encuentra 1.5 desviaciones típicas por encima de la media del grupo normativo.
Estaninos Eni= 5 + 2 Zni
Por ejemplo, a un sujeto que obtiene una puntuación directa de 30 puntos en un

test de aptitud mecánica con media de 38 puntos y desviación típica 4, le podemos
asignar puntuaciones en las siguientes escalas:
Puntuación típica: -2
Escala T: 30
Escala D: 10
Estanino: 1
Todas estas puntuaciones en escalas diferentes indican lo mismo: que es un sujeto

que se encuentra dos desviaciones típicas por debajo de la media de grupo
normativo en aptitud mecánica. La interpretación de cada una de las escalas típicas
derivadas normalizadas sigue la misma lógica que su correspondiente escala típica
derivada sin normalizar, haciendo siempre la salvedad de que la interpretación hay
que referirla a una distribución normal.
11.2. Informe de las propiedades psicométricas de un test

El estudio de las cualidades psicométricas del test requiere dos fases: una de análisis de
ítems y otra de estudio de las propiedades del test definitivo.
a) Análisis de los ítems.
Para cada ítem se obtienen los siguientes datos:
Media y varianza
Índice de homogeneidad
Para llevar a cabo el análisis inicial de los ítems en el SPSS se selecciona el menú Analizar -
> Escalas -> Análisis de fiabilidad y aparece el siguiente cuadro de diálogo (Figura 2):
A continuación, se seleccionan los ítems para los que se desea llevar a cabo los análisis.
Este cuadro de diálogo ofrece por defecto el valor del coeficiente alpha de Cronbach para
las variables seleccionadas. Para el análisis de ítems se pulsa el botón Estadísticos y
aparece el siguiente cuadro de diálogo (Figura 3):
Si se ejecutan las selecciones que aparecen señaladas en el cuadro de diálogo de la Figura

3, el SPSS proporciona una salida de resultados. Estos resultados contienen toda la
información necesaria para realizar el análisis de los ítems y determinar los ítems que
constituyen el test definitivo.
El programa nos ofrece:
1. Una primera tabla de estadísticos descriptivos para cada ítem que contiene: la
media, la desviación típica y el número de personas que han respondido a cada
ítem. Nos indica cual es el ítem con mayor media, cual con menor media, y cual
posee mayor desviación típica (Figura 4).
2. Una tabla de coeficientes de correlación entre los ítems. Una matriz de

correlaciones entre los ítems iniciales. Algunos coeficientes serán bajos y/o
negativos.
3. Una tabla con estadísticos adicionales para todo el test (“Estadísticos

descriptivos para el test y resumen de los principales estadísticos de los ítems”).
Nos informa de la puntuación media en el test y su desviación típica; una media de
las varianzas de los ítems; la varianzamás pequeña y la mayor. En el ejemplo,la
media en el test es 41.2326 y su desviación típica 5.3549. También se ofrecen la
media de las varianzas y de las correlaciones entre los ítems, así como su rango. Por
ejemplo, la media de las varianzas es 1.1473. La varianza más pequeña es .7498 y la
mayor 2.3011. (Figura 5).
4. Una tabla con la relación entre cada ítem y el test (Figura 6).
En la primera columna se muestra la puntuación media en el test si eliminamos el

ítem. Por ejemplo, si eliminamos el ítem 1 la media del test sería 38.0349.
La segunda columna es la varianza del test si eliminamos el ítem. Por ejemplo, si

eliminamos el ítem 5 la varianza del test sería 25.0715.
La columna tercera contiene el índice de homogeneidad corregido, es decir, la

correlación entre la puntuación en un ítem y la suma de las puntuaciones en los
ítems restantes. Por ejemplo, el índice de homogeneidad corregido para el ítem 10
es .0181, lo que nos indica que no hay mucha relación entre este ítem y los
restantes.
La cuarta columna contiene la correlación múltiple al cuadrado, es decir, el grado en

que se puede predecir la puntuación en el ítem a partir de las puntuaciones en los
restantes ítems. Tal y como era de esperar, el ítem 4 no se predice bien a partir del
resto de los ítems. Su correlación múltiple al cuadrado es sólo .1323. La última
columna contiene el coeficiente α de Cronbach si eliminamos el ítem. Por ejemplo,
eliminar el ítem 4 provoca que el coeficiente α de Cronbach pase a ser 0.4724.
5. Una tabla con el coeficiente α de Cronbach del test inicial. En nuestro ejemplo
alcanza un valor de 0.4284 (Figura 7).
Para obtener el test definitivo se debe depurar el test inicial, eliminando los ítems
que no resulten apropiados a partir de los datos de las Tablas I, II y III. Para eliminar
estos ítems tenemos que:
Eliminar los ítems con menor índice de homogeneidad o discriminación

(Hj)
Eliminar los ítems que tengan una varianza muy pequeña
Eliminar los ítems con medias extremas si el test es de rendimiento (es
decir, con índices de dificultad próximos a 0 ó a 1)
En el ejemplo eliminaríamos los ítems 10, 11 y 4 ya que, como se puede ver en la

Figura 6, la correlación es menor de .1.
b) Estudio de las propiedades del test definitivo.
Una vez tenemos el test definitivo obtenemos:
1. Su coeficiente de fiabilidad (por ejemplo, por la técnica de dos mitades)
Analizar -> Escalas -> Análisis de fiabilidad (ver Figura 2 y 3).
El programa SPSS ofrece una tabla para Estadísticos para la escala dividida en dos
mitades (Figura 8) y una tabla con el coeficiente de fiabilidad obtenido por el
procedimiento de dos mitades (Figura 9)
En ella aparece un resumen de los estadísticos que obtendríamos, si dividiésemos la

escala en dos partes. La parte 1 está formada por los 6 primeros ítems y la parte 2
por los 6 últimos.
La correlación entre las dos mitades del test vale .3239. El coeficiente de fiabilidad
de nuestro test vale 0.4894.
2. Su coeficiente α de Cronbach.
Analizar -> Escalas -> Análisis de fiabilidad (ver Figura 2) para obtener los
estadísticos para el test definitivo (seleccionaremos sólo los ítems 1, 2, 3, 5, 6,
7, 8, 9, 12, 13, 14 y 15). Y sólo solicitaremos los descriptivos para ‘Escala’ (ver
Figura 3), desactivando las opciones restantes).
Obtenemos una tabla (Figura 10: Media, varianza y coeficiente α de Cronbach del test
final.) que contiene la media, varianza y el coeficiente α del test final. Siguiendo con
el ejemplo, en el test inicial el coeficiente α era de .4284. En el test final, a pesar de
ser más corto, el coeficiente α alcanza un valor de .5437. Por lo tanto, al eliminar
estos ítems hemos mejorado la consistencia interna del test.
3. Un análisis factorial para conocer la validez factorial del test.
Para determinar la validez factorial de nuestro test realizamos un análisis factorial

por el método del Componente Principal. Para llevar a cabo dicho análisis se
selecciona el menú Analizar -> Reducción de datos -> Análisis factorial (Figura 11)
Lo primero es seleccionar las variables que constituyen el test definitivo y

transportaras a la casilla Variables. Dentro de este cuadro de diálogo veremos dos
opciones: Extracción y Rotación. Si se pulsa en el botón Extracción, podemos
seleccionar el método que se seguirá para la extracción de factores, obtener un
diagrama de sedimentación, controlar cuántos factores son extraídos, o especificar
el máximo de iteraciones para la convergencia (Figura 12)
Si seleccionamos la rotación podemos facilitar la interpretación de la solución

factorial. Existen varios métodos diferentes para la rotación. El más usado es la
rotación Varimax (Figura 13). Este cuadro de diálogo permite incluir los resultados
de la solución rotada.
El análisis factorial por el método del Componente Principal, da lugar a las siguientes
tablas en el SPSS (Figura 14, 15 y 16)
Figura 14: Factores obtenidos (método del Componente Principal)
La tabla de la Figura 14 muestra desde la segunda columna hasta la cuarta los

autovalores o varianza de cada factor, el porcentaje de varianza que cada factor
explica y el porcentaje de varianza acumulado. Por ejemplo, la varianza del factor 1
es 2.628 lo que supone un 21.90% de la varianza total. Las columnas 5 a 7
contienen las varianzas, porcentajes y porcentajes acumulados de los factores con
varianza superior a uno, que son los factores que se retienen (en nuestro ejemplo
los cuatro primeros). Las tres últimas columnas contienen esta misma información
(varianza, porcentaje y porcentaje acumulado) de los cuatro factores retenidos tras
su rotación ortogonal. Como se observa, los cuatro factores explican el 53.92% de
la variabilidad total.
Figura 15: Matriz factorial con los cuatro factores retenidos
Figura 16: Matriz factorial rotada.
En la Figura 16 aparece la Matriz factorial rotada, la matriz factorial resultado de

efectuar una rotación Varimax. Ésta es la matriz que debemos interpretar para
juzgar la validez factorial de nuestro test. Por ejemplo, en nuestro test el primer
factor viene definido sobre todo por los ítems número 5, 14 y 15 cuyas saturaciones
son respectivamente .767, .752 y .522.
4. Una escala en percentiles
Seleccionamos en el SPSS Transformar -> Calcular. Esta selección nos permite

obtener la distribución de frecuencias a partir de la cual podemos calcular el
baremo en centiles. Esta distribución de frecuencias se obtiene a partir de la
puntuación total de cada sujeto en el test. Para obtener dicha puntuación hay que
crear una nueva variable que es el resultado de sumar las puntuaciones en los del
test definitivo. Podemos llamar a la nueva variable, por ejemplo, Total (Figura 17)
Una vez definida la variable Total, para obtener su distribución de frecuencias se

selecciona el menú Analizar -> Estadísticos descriptivos -> Frecuencias del SPSS cuyo
cuadro de diálogo tiene el siguiente aspecto (Figura 18):
Los resultados obtenidos con esta selección aparecen en la Figura 19: Centiles y
distribución de frecuencias de nuestro test. La última columna contiene los
porcentajes acumulados que nos permiten conocer los centiles. Por ejemplo,
ennuestro test C73 = 44.
Una vez realizados todos los análisis, ya tenemos toda la información necesaria para
poder redactar el informe en que se describa el proceso seguido, comentando los
resultados más importantes.
La primera hoja del informe debe ser una HOJA DE VALORACIÓN.
En la segunda hoja debe constar el título del test e incluir los siguientes apartados:
1. Objetivos de la prueba.
En este apartado debe especificarse el rasgo que se pretende medir, con una
definición lo más operativa posible del mismo y de sus componentes.
2. Redacción de ítems.
Se deben especificar los ítems que miden cada componente y, en su caso, si lo hacen
de modo directo o inverso. Aclarar el formato de respuesta y el modo de
cuantificación de las respuestas.
3. Análisis de ítems.
Para cada ítem hay que especificar su varianza, media y su índice de homogeneidad.
Comentar los resultados indicando los ítems eliminados y los motivos por los que se
eliminan.
4. Fiabilidad del test.
Analizar el coeficiente de fiabilidad y el coeficiente alfa obtenidos, este último tanto

del test inicial como del test final.
5. Validez del test.
Comentar los resultados del análisis factorial para establecer qué dimensiones
mide el test. Se conveniente presentar una tabla con las saturaciones y las
varianzas de los factores retenidos. También es adecuado que proponer algún
procedimiento para estudiar la validez de constructo del test. El procedimiento
propuesto NO DEBE SER UNA DEFINICIÓN de la validez de constructo. Se deben
concretar las hipótesis, indicando qué resultados aportarían información a favor de
la validez de constructo del test. Por ejemplo, si la característica que midiese
nuestro test fuese el autocontrol, sería de esperar que, según lo que apunta la
teoría, éste fuese mayor en la población normal que en otras poblaciones
psicopatológicas. Si no se encontrasen tales diferencias la validez de las
puntuaciones de nuestro test se vería seriamente amenazada.
6. Baremos.
Incluir una tabla que muestre los baremos por centiles obtenidos.
7. Apéndice.
En un apéndice debe incluirse el test y los archivos FICHERO.SAV y FICHERO.SPO

con los datos y los análisis realizados.
Bloque VI - Introducción a la teoría de Respuesta a los ítems
Tema 12 - Ventajas frente al modelo clásico
Tema 12. “Ventajas frente al modelo clásico”
12.1. Introducción

La Teoría de Respuesta al Ítem representa una alternativa a la Teoría Clásica de Tests

(TCT) en el proceso de desarrollo de los instrumentos de evaluación, y en concreto en el
referido al análisis de la utilidad de los ítems para el propósito de la evaluación y la
capacidad de estos ítems para cumplir con los objetivos de evaluación definidos en el
propio test.
En evaluación de la salud los tests, cuestionarios o escalas utilizados para la toma de

decisiones acerca de un individuo o grupo deben ser construidos y evaluados de manera
apropiada y respetando el uso predefinido de los mismos.
Tanto el investigador o desarrollador de un instrumento como el profesional que

selecciona un test para su uso en evaluación debe estar familiarizado con las directrices y
normas establecidas por varios organismos y comisiones, como las Directrices para el
Uso de los Tests de la Comisión Internacional de Tests (ITC, 2001) o los Standards for
Educational and Psychological Testing (AERA, APA, & NCME, 2014). Estos documentos
proporcionan una excelente guía respecto a todas las fases en el proceso de evaluación.
La mayoría de los instrumentos que se han desarrollado lo han sido a partir de la TCT, más
popular en su uso, sin embargo, no podemos obviar que hemos sufrido un cambio
importante y se ha pasado a la utilización de modelos matemáticos de medida que
imponen duras restricciones a los datos para justificar que el instrumento construido y
los ítems que forman parte del mismo miden de manera apropiada el constructo o
variable de interés. El análisis usando TRI, a través de modelos matemáticos, nos
proporciona una visión de la relación entre el nivel en el rasgo de un individuo (por
ejemplo, nivel de depresión) y las características de los ítems.
La TRI proporciona una amplia gama de modelos que permite trabajar con tests tanto
unidimensionales como multidimensionales y con distintos formatos de respuesta
(dicotómico, politómico, continuo,...).
Todos los modelos especifican una relación entre las puntuaciones empíricas de los
sujetos y una característica rasgo latente no observable. Los modelos describen cuánta
influencia tiene el rasgo en el hecho de que se obtengan unas puntuaciones u otras en el
test, o en cada uno de los ítems.
En cualquier modelo de TRI tenemos que considerar los parámetros referidos a los
sujetos, es decir, los parámetros de habilidad o rasgo latente (θ). Se considera que cada
individuo lleva asociado un parámetro individual, al que se denominó puntuación
verdadera V en la TCT. El objetivo último de todos los modelos es el de poder estimar el
verdadero valor de θ a través de los valores que sus manifestaciones observables toman
sobre las variables aleatorias X1 , X2,…………...Xn cuya distribución depende, en cada caso,
de ese valor, θ.
La TRI proporciona modelos en los que, tanto los ítems como los individuos, se pueden
describir separadamente mediante sus propios parámetros, de tal manera que se puede
predecir probabilísticamente la respuesta de cualquier individuo a cualquier ítem, aún
cuando no existan datos acerca de cómo individuos similares a él hubieran resuelto ítems
análogos.
Un modelo de TRI predice la probabilidad de respuesta a un ítem basándose en

diferentes parámetros de los ítems.
12.2. Supuestos

La TRI depende de algunos supuestos clave. Los supuestos de estos modelos son:
a) la unidimensionalidad. Los ítems miden esencialmente uno y sólo un rasgo

latente.
b) la independencia local de los ítems. Las respuestas de un individuo para cualquier

pareja de ítems en el test no están relacionadas cuando consideramos un mismo
nivel en el rasgo, es decir, cuando la habilidad se mantiene constante.
c) las estimaciones invariantes. La TRI proporciona estimaciones invariantes de las

propiedades psicométricas de los ítems, así como de las características de los
sujetos, es decir, que los parámetros que caracterizan al ítem y al test son menos
dependientes de la muestra particular de sujetos utilizada y que los parámetros que
caracterizan al sujeto no dependen de la muestra particular de ítems utilizada. Este
supuesto es una ventaja de la TRI que la hace especialmente recomendable debido
a que los parámetros de los ítems se supone que son invariantes en la población de
sujetos.
Estos supuestos permiten diferenciar la TRI del modelo clásico (Tabla I)
Tª Clásica Tª de la respuesta al ítem
Relación lineal entre las

Relación no lineal entre el
puntuaciones verdaderas y el
parámetro individual y el rasgo
rasgo
La información, y por lo tanto la

La información, y por lo tanto la
precisión, puede variar a través de
precisión, no puede variar a
la distribución o continuo de la
través de la distribución o
aptitud
continuo de la aptitud
La aptitud del examinado se puede

La puntuación del test es la
estimar a partir de cualquier
suma de las puntuaciones del
conjunto de ítems que le puedan
sujeto. Comparándolo con un
ser administrados.
grupo normativo
Respecto a las aplicaciones prácticas de la TRI podemos decir:
1. Estimación de los parámetros invariantes que describen cada ítem de un test
2. Estimación de las características estadísticas de un test para cualquier grupo

específico.
3. Determinación de cómo varían la eficacia de un test a través de distintos niveles de

aptitud
4. Comparación d ella eficacia de diferentes métodos de puntuación del test.
5. Selección de los ítems para construir test convencionales.
6. Rediseño de los test convencionales
7. Diseño y evaluación de nuevos métodos tales como los test individualizados

(tailored test)
8. Estudio del sesgo de los ítems.
Como mencionamos en la Introducción, un modelo de TRI predice la probabilidad de

respuesta a un ítem basándose en diferentes parámetros de los ítems. Estos modelos se
diferencian en función del número de parámetros que contienen dependiendo de los
supuestos que subyacen a los datos.
a) Modelo logístico de 3 parámetros (3PL). En el modelo 3PL son tres los

parámetros que definen las características de cada ítem. Se caracteriza por:
Uso muy común
Se utiliza con ítems de respuesta dicotómica. Estos ítems son los típicos
en un examen de rendimiento académico donde cada ítem se formula
con dos opciones de respuesta, donde hay una respuesta que es la
correcta y otra que es incorrecta.
Tres parámetros que definen las características de cada ítem:
(1) la discriminación del ítem. Un parámetro que mide la capacidad del

ítem para diferenciar a los sujetos en función de su nivel en el rasgo
latente.
(2) la dificultad del ítem
(3) la pseudo-adivinación. Índica la posibilidad de que un sujeto pueda

acertar el ítem por azar.
b) Modelo logístico de 2 parámetros (2PL). Este modelo se puede utilizar

dependiendo de la naturaleza de los datos. Por ejemplo, si la adivinación no es
posible o no se puede asumir, el 2PL (es decir, sin el parámetro c) puede ajustarse
mejor a los datos que el modelo 3PL.
c) Modelo logístico de 1 parámetro (1PL). El modelo 1PL, es un modelo bastante

elegante y simple, es posible ajustarlo cuando se asume que no hay azar en las
respuestas y los ítems presentan la misma capacidad discriminativa, es decir, igual
discriminación. Por lo tanto, sólo el parámetro b se utiliza para predecir la
probabilidad de una respuesta correcta.
El modelado de la respuesta a un ítem proporciona lo que se denomina una función de

respuesta al ítem (FRI) o curva característica del ítem (CCI). La Figura 1 contiene la CCIs
correspondiente a cada uno de 5 ítems de respuesta dicotómica y sus respectivas
funciones de información FFIs (líneas de puntos).
Este gráfico ayuda a explicar la relación entre la habilidad latente que está siendo
evaluada (por ejemplo, conocimiento en matemáticas) y la probabilidad de un estudiante
de responder correctamente al ítem.
La discriminación (1) representa la capacidad del ítem para discriminar entre individuos
con diferentes niveles de habilidad, y es proporcional a la pendiente de la CCI en el valor
de dificultad del ítem.
La dificultad del ítem (2) representa el nivel de dificultad del ítem y se define como el nivel
de habilidad (θ) en la que un individuo tiene una probabilidad del 50% de responder
correctamente al ítem. Las CCIs del ejemplo, representan ítems con diferentes valores de
discriminación, lo que indica que se puede diferenciar bastante bien a aquellos sujetos
con niveles de habilidad cercanos a la dificultad del ítem tanto por encima de su valor
como por debajo. Cuanto más pronunciada es la pendiente de la curva mayor es la
discriminación del ítem.
Por otro lado, cuando la curva para una respuesta de 1 (es decir, una respuesta correcta)
se encuentra más desplaza a la derecha en la escala de habilidad, más difícil es el ítem, es
decir, es necesario un nivel en el rasgo más alto para que el individuo acierte el ítem. Por
ejemplo, el tercer ítem de la fila superior, más a la derecha, es el ítem más fácil, mientras
que el ítem de la fila inferior de la derecha es el más difícil. A través de una
transformación de las CCIs podemos obtener funciones de información del ítem. En la
Figura 1 las FFIs están representadas por las líneas de puntos. Tal y como se puede
observar, el segundo ítem de la fila superior es el que proporciona la mayor información
(es decir, el pico más alto), mientras que el tercer ítem de la fila superior proporciona
menor cantidad de información (es decir, la curva con el pico más bajo). Estas funciones
representan la cantidad de información que proporciona un ítem en cada nivel del
continuo de habilidad.
Sumando las FFIs de los ítems, obtenemos una función de información para el test de 5
ítems (Figura 1, imagen inferior derecha), que nos informa en qué nivel de habilidad la
evaluación es más precisa. Esta función de información en TRI está relaciona con la
fiabilidad de la medida. Cuanta más información tiene un ítem o un test, más precisa es la
estimación de la habilidad para un sujeto. En TRI cuanto más precisa sea la estimación
mayor será la fiabilidad.
Además, el error típico (línea de puntos en la Figura 1, imagen inferior derecha) es la

inversa de la función de información.
Por último, la Figura 2 indica que este conjunto de ítems es más preciso cuando θ = -.5, y
menos preciso en valores de habilidad por debajo de θ = -3 o por encima de θ = 3.
Esta información, en combinación con las CCIs se puede utilizar para llevar a cabo un
análisis empírico de los ítems y ayudar al desarrollo y depuración del instrumento de
evaluación. Es decir, podemos utilizar esta información gráfica para señalar un lugar en la
distribución de habilidad donde necesitamos más precisión y seleccionar ítems que
permitan alcanzar ese objetivo en esa zona. Esto es muy útil cuando tenemos que ser
precisos en un cierto nivel de habilidad para tomar decisiones que implicarán graves
consecuencias sobre los individuos. Por ejemplo, si estamos seleccionando estudiantes
para un programa de altas capacidades, necesitaremos una evaluación muy precisa en el
nivel de habilidad. Aquí es donde queremos que la curva de información alcance un valor
más alto y, por tanto, el error típico sea el más bajo. Por lo tanto, nos gustaría buscar
ítems que tengan FFIs con máximos cercanos a esta zona para asegurar que construimos
un criterio preciso focalizando la evaluación en este nivel de habilidad. Esta situación
también es la típica que se produce cuando tenemos que realizar un diagnóstico clínico
usando un punto de corte en un test.
Junto con los modelos de TRI para test con formatos de respuesta dicotómico,
encontramos modelos de TRI más complicados que subyacen a la mayoría de las escalas y
cuestionarios de personalidad que pueden ser utilizados con adultos, adolescentes y
niños en contextos de evaluación psicológica. Muchas de las medidas de personalidad
utilizan ítems que se puntúan en una escala ordinal o de valoración (por ejemplo,
Totalmente de acuerdo a Totalmente en desacuerdo), denominados ítems politómicos. Al
igual que con los ítems puntuados de forma dicotómica, encontramos varios modelos de
TRI que pueden ser seleccionados en función del tipo de datos, es decir, de los supuestos
de esos datos. Los tres elementos claves para identificar el modelo de TRI más apropiado
para tales tipo de datos son: (a) atractivo teórico, (b) tamaño apropiado de la muestra, y
(c) ajuste del modelo. Tales modelos incluyen el Modelo de Respuesta Graduada, el
Modelo de Crédito Parcial, y el Modelo Nominal, por nombrar algunos. El MRG es un
modelo comúnmente usado, ya que se puede aplicar a escalas que utilizan varias
opciones de respuesta. Este modelo implica que las puntuaciones en un ítem (por
ejemplo, 0, 1, 2, 3) están ordenadas, y una puntuación o respuesta más alta, de un sujeto
indica un nivel más alto en la característica o habilidad que está siendo evaluada. En el
MRG, que es una extensión del modelo de 2PL que se ha descrito anteriormente, la
capacidad del ítem para discriminar entre los niveles del rasgo latente se mantiene
constante mientras que la dificultad del ítem se establece en cada “paso del ítem”, o
cuando una respuesta pasa de una categoría de respuesta a otra. Es decir, si tenemos una
escala de respuesta de 4 puntos (p.e., 1, 2, 3, 4) tendríamos k-1 pasos (parámetros b)
puesto que la respuesta del sujeto pasa de (a) 1 a 2; (b) 2 a 3, o (c) 3 a 4. Siendo k el
número de opciones de respuesta al ítem. De este modo, en el modelo tendríamos 3
parámetros b. El modelo se formula en términos de probabilidades acumulativas, de
diferencias entre probabilidades acumuladas.
12.3. Ventajas frente al Modelo Clásico

La TRI dispone de numerosas ventajas sobre la Teoría Clásica de los Test (TCT):
1. La TRI ofrece la posibilidad de contar con modelos cuyos supuestos pueden ser
juzgados empíricamente, lo que supone mayor validez de las estimaciones
obtenidas. La TCT incorpora una serie de supuestos no posibles de poner a prueba.
2. En la TRI las estimaciones son invariantes, no dependen del grupo concreto al que
se ha aplicado el test, en la TCT las estimaciones de parámetros, tanto de los
individuos como de las estimaciones, dependen del grupo al que se ha aplicado el
instrumento.
3. En la TRI el cálculo de la consistencia interna (como indicador de fiabilidad) se

obtiene a partir de medidas de error distintas para cada individuo y/o nivel de
habilidad, con lo que podemos saber con que precisión hemos medido a cada
persona. Permite saber si un instrumento es efectivo para medir personas con
cierto nivel de habilidades, pero no puede medir a personas con niveles diferentes.
En la TCT la fiabilidad se calcula para el conjunto de los individuos y el instrumento,
con lo que obtenemos un índice global que suponemos propiedad del instrumento
completo.
4. En la TRI las estimaciones, tanto de las características de los ítems como de los
individuos, se obtienen en la misma escala de medición, lo que facilita su
comparación, mientras que en la TCT las estimaciones se obtienen en diversas
escalas.
5. Producto de estas ventajas, la TRI se ha ido convirtiendo en la teoría hegemónica

en la investigación en psicometría, pues facilita el diseño de instrumentos más
complejos que la TCT. Es así como diversos modelos de la TRI se han utilizado con
mucho éxito en el diseño de test de rendimiento educativo de aplicación
recurrente, en la generación de test adaptativos informatizados (TAIs), en la
investigación sobre funcionamiento diferencial de los ítems (DIF) y en la
construcción de bancos de ítems. Además, cotidianamente se publican
investigaciones que ponen a prueba sus supuestos bajo las más diferentes
condiciones, proponen nuevos modelos o diseñan algoritmos alternativos de
estimación de sus parámetros y programas informáticos para aplicarlos. Sin
embargo, a pesar de este evidente éxito a nivel académico, la TRI no ha logrado
imponerse en todos los campos. En el plano de la medición aplicada aún se utiliza
frecuentemente la tradicional TCT. No cabe duda que los altos costos que implica la
utilización de la TRI, tanto en términos del tamaño de muestra necesario para
calibrar sus parámetros como en los conocimientos matemáticos que exige su
comprensión, entre otros problemas, han limitado su uso a situaciones muy
específicas.
Bloque VII - Aplicación de instrumentos de medición
Tema 13 - Directrices para la aplicación de test y técnicas de evaluación
Tema 13. “Directrices para la aplicación de test y

técnicas de evaluación”
13.1. Proceso general de construcción y evaluación de un test.

El proceso de construcción de un test es realmente amplio y complejo. Una imagen puede

servir para dar crédito de su dificultad (Figura 1).
Como se puede observar en la figura, podemos identificar 10 etapas o fases implicadas en

la construcción de técnicas de medida:
1. Identificar los propósitos primarios para los que van a ser utilizadas las puntuaciones
del test.
Consideraciones sobre las poblaciones a las que está destinado el test y

el tipo de decisiones que se tomarán con las puntuaciones obtenidas.
Fijar las características de la población como edad, nivel educativo, clase
social, lengua materna, medio de procedencia, presencia o ausencia de
discapacidades...
Identificar los usos o la naturaleza de las inferencias que se pretende
hacer de las puntuaciones de un test (por ejemplo, la medición de un
constructo teórico o la evaluación académica)
Decisiones relativas al nivel de instrucción, diagnóstico, selección, etc.
Decisiones en torno a los límites o restricciones impuestos por la
práctica, como las de carácter temporal, tipo de aplicación (grupal vs
individual), etc.
2. Identificar las conductas que representan al constructo que queremos medir.
Operativizar el constructo a partir de un modelo teórico de éste, que

también incluye una serie de conductas observables.
Las cuestiones referentes a estas conductas son las que deben reflejarse
en los ítems del test.
Elaborar una tabla de especificaciones que ponga en relación conductas

con el conjunto de ítems para medirlas, teniendo en cuenta las
restricciones de la prueba: los límites temporales y aplicativos,la
diferencia entre tests referidos a la norma versus referidos al criterio
Elaborar una tabla de especificaciones, detallando ítems por temáticas o
áreas y los procesosque se cubren.
3. Considerar las restricciones de la prueba
4. Construir un conjunto inicial base de ítems.
5. Revisar los ítems (contenido) y, en consecuencia, corregirlos si fuera necesario,

acudiendo a expertos y ayudándonos de cálculos básicos del tipo fiabilidad Inter-jueces.
6. Mantener a prueba los ítems preliminares.
Realizar un estudio de prueba tipo piloto

Intentar reproducir en este estudio la mayoría de las cuestiones
relevantes, como el tipo de muestra posterior, los objetivos de la prueba,
etc. Se trata, pues, de seleccionar una muestra pequeña de los
parámetros relevantes.
7. Poner a prueba los ítems de un campo en una muestra amplia y representativa de la

población examinada, para la cual se pretende que sea la prueba.
8. Determinar propiedades estadísticas sobre las puntuaciones de los ítems
Eliminar o revisar los ítems que no reúnan criterios preestablecidos.

Realizar las estimaciones ítem a ítem.
Fijar unos criterios de exigencia por anticipado.
9. Diseñar y efectuar estudios de fiabilidad y validez sobre la forma final del test
10. Desarrollar guías para la administración, puntuación e interpretación de las

puntuaciones del test
Tablas de normas.
Si se pretende un objetivo de diagnóstico o predicción habrá que
facilitarlo mediante una ecuación de regresión.
De todo este proceso, existen dos puntos que son especialmente críticos: la construcción
de los ítems y el proceso de evaluación de la escala.
a) Construcción de los ítems
El objetivo de este proceso es llegar a obtener un conjunto de ítems escalados, es decir,

llegar a asignar los valores de escala a un conjunto de ítems. Un ítem es cada uno de los
estímulos mínimos que demandan una respuesta del sujeto. Es la unidad mínima en la que
puede subdividirse una escala conservando su significado de medición. Los ítems no

tienen porque ser enunciados escritos, pueden ser problemas expuestos oralmente,
problemas gráficos, manipulativos, etc.
No hay un procedimiento universal para elaborar ítems. Depende, sobre todo, de la

creatividad y los conocimientos de su creador. Algunas consideraciones generales que
hay que tenerse en cuenta son:
Estar bien informado sobre el tema, con información tan diversa y rica
como sea posible.
El instrumento de medida debe muestrear adecuadamente el contenido
de la dimensión a medir.
Es recomendable apuntar todos los ítems que se sea capaz de generar,
sin crítica previa, para después pasar a un análisis racional y a una
elaboración de lo aprovechable de los mismos.
Utilizar un lenguaje tan sencillo, claro y directo
Los ítems deben estar redactados en forma de frases simples, evitando
las oraciones compuestas o complejas.
Cada ítem debe expresar un solo pensamiento completo.
Evitar palabras de contenido absoluto, como “nada”, “siempre”, “nunca”,
“todo”
Evitar palabras imprecisas tales como “meramente”, “precisamente”,
“ocasionalmente”.
Evitar que los ítems puedan interpretarse de más de un modo.
Evitar ítems que sean irrelevantes al objeto psicológico bajo estudio.
Seleccionar ítems que cubran todo el rango afectivo bajo estudio (es
decir, de extremo rechazo hasta aceptación absoluta).
Evitar los ítems que probablemente sean afirmados o negados por casi
todos. Los ítems que quizás más pueden discriminar son aquellos que
matizan dentro de las opiniones más comunes.
Evitar los ítems cuyo contenido se refiera al pasado en lugar de al
presente.
Evitar los ítems que se refieran o que puedan interpretarse como
referidos a cuestiones de hecho, cuya respuesta se base en el
conocimiento de datos reales. Si un ítem contiene una afirmación tenida
como un hecho difícilmente su respuesta dependerá de la actitud del
sujeto.
Un aspecto muy importante a tener en cuenta, además de los ítems en sí, es cómo
presentar los ítems y cómo preguntar acerca de ellos a los sujetos para obtener sus
opiniones. Existen dos tipos de captación de información:
Métodos de juicio: se solicita al sujeto que juzgue un estímulo o un

conjunto de estímulos respecto a las características del estímulo, sin
referencia a las preferencias, actitudes o características del sujeto que

contesta.
Métodos de respuesta: se pregunta al sujeto sobre su relación con el
estímulo; se trata de saber si entre el sujeto y el estímulo existe una
relación particular. Ejemplo: Siguiendo con el enunciado anterior se le
pregunta al sujeto.
Una vez tenemos recogidas las respuestas de los sujetos debemos utilizarlas para llegar a
asignar un valor de escala a cada ítem. A la función que atribuye valores de escala a los
objetos de un modo sistemático se le denomina función de escalamiento. Algunos
métodos de elaboración del valor de escala de los estímulos serían la media y mediana de
las valoraciones hechas por los sujetos, escalas de puntuaciones típicas.
b) Proceso de evaluación del test.
El objetivo es asegurar que el test tiene propiedades de bondad adecuadas. Es posible

tener un conjunto de ítems bien escalados que, no obstante, no resulte una escala de
medida adecuada por diversas razones.
Los procesos de evaluación de la escala a veces pueden realizarse con datos obtenidos en
el proceso de escalamiento de los ítems, pero otras requieren utilizar datos obtenidos en
el proceso de medición de los sujetos. El proceso de evaluación de la escala incluye cuatro
grandes apartados:
Análisis de los ítems: se refiere a establecer las propiedades de los ítems:

Homogeneidad del ítem, frecuentemente expresada
como una correlación entre el ítem y el total de la escala.
Validez del ítem, expresada como su relación con
criterios externos
Dificultad del ítem, de interés únicamente para los ítems
que tienen respuesta verdadera o correcta.
Dimensionalidad de la escala: trata de responder a la pregunta: ¿Estos
ítems forman una única dimensión? Se pretende ver si el conjunto de
ítems representan una dimensión o, por el contrario, dos o más
dimensiones. Para ello se utilizan tres grandes grupos de técnicas
estadísticas:
Técnicas de análisis factorial
Técnicas de análisis de cluster
Técnicas de escalamiento multidimensional
Fiabilidad de la escala: se refiere a dos aspectos:
Consistencia interna: en qué medida los diferentes ítems
o componentes de la escala son consistentes entre sí, es
decir, están sólidamente relacionados midiendo de modo
semejante. Por ejemplo, ¿miden lo mismo la primera
mitad de la escala y la segunda? ¿miden lo mismo los
ítems pares y los impares? Generalmente se utiliza el

coeficiente alfa para estudiar la consistencia interna o la
prueba de la dos mitades.
Estabilidad temporal: se refiere a si la escala mantiene
una medición estable después de un periodo de tiempo,
supuesto que no haya cambiado el sujeto.
Validez de la escala: hace referencia a la capacidad de la escala para
representar bien el contenido que debe medir (validez de contenido),
correlacionar correctamente con criterios externos (validez criterial), y
satisfacer las hipótesis que cabría esperar que cumpliera esa escala de
medida en función de su cometido (validez de constructo).
Muchos instrumentos, cuando ya están listos para medir sujetos, todavía necesitan un
proceso de trabajo más: se trata de la fase de baremación u obtención de normas de
grupo. Se trata de conocer la distribución de las puntuaciones en la muestra de interés y
establecer equivalencias entre las puntuaciones en la prueba y las posiciones relativas en
esa muestra. El procedimiento más simple y más utilizado de baremación es calcular los
percentiles, permitiendo después interpretar las puntuaciones de los sujetos en relación
a un grupo.
c) Proceso de medición de los sujetos
El objetivo del proceso de medición de los sujetos es análogo al del proceso de

escalamiento, se trata de llegar a asignar a cada sujeto el valor de escala que mejor lo
representa, ubicarlo sobre la dimensión. Tiene dos pasos:
1. Captación de información de los sujetos. Se realiza con el objeto de medir a los

sujetos. Se trata de cómo presentar los ítems a los sujetos, y cómo preguntarles a
los sujetos acerca de los ítems, de modo que sus respuestas puedan ser utilizadas
para establecer cuál es la opinión del sujeto. Muchas veces, los mismos métodos de
captación de información que sirven para escalar los ítems sirven también para
medir a los sujetos.
2. Puntuación de los sujetos en la escala: Una vez que se ha obtenido la respuesta de

un sujeto a los ítems de una escala, conociendo previamente cuál es el valor de
escala de los ítems, se atribuye valores de escala a los sujetos de modo sistemático
a partir de sus respuestas a los ítems. La función de puntuación abarca dos
aspectos:
Valoración del ítem: puntuación asignada a cada ítem o enunciado que se

utiliza. Ejemplo: 1 = acierto;0 ó un valor negativo = no acierto;0= omisión
Obtención del total: asignar una puntuación total a partir de las
puntuaciones en los ítems. Ejemplo: puntuación directa total = suma de
los valores asignados a sus respuestas. Puntuación total = promedio de
los ítems no ignorados.
13.2. Directrices par a la adaptación y traducción.

La adaptación de tests y cuestionarios para su uso en contextos lingüísticos y culturales

diferentes a aquellos en que fueron construidos es una práctica que ha incrementado
exponencialmente en las últimas décadas, debido al contacto entre culturas e idiomas y a
los cambios que los tests y cuestionarios sufren diariamente en los ámbitos educativo,
social, jurídico o clínico.
El impacto social de las evaluaciones educativas internacionales como PISA (Programme

for International Student Assessment) y TIMMS (Trends in International Mathematics
and Science Study), que utilizan pruebas adaptadas a más de cuarenta idiomas, deja clara
la importancia de un correcto proceso de adaptación de los instrumentos de medida.
Consciente de esta necesidad, la Comisión Internacional de Tests (International Test
Commission, ITC) inició el año 1994 un proyecto de elaboración de directrices
relacionadas con la adaptación de tests y cuestionarios. Este proyecto dio origen a un
conjunto de veinte directrices que, agrupadas en seis apartados (Previas, Desarrollo,
Confi rmación, Aplicación, Puntuación e interpretación ), intentaban prevenir sobre las
distintas fuentes de error intervinientes en el proceso de adaptación de tests, ofreciendo
vías para controlarlas.
El objetivo de las directrices es que el producto final del proceso de adaptación consiga
con respecto a la prueba original el máximo nivel de equivalencia lingüística, cultural,
conceptual y métrica posible, y para ello son concebidas como un patrón que guía a los
investigadores y profesionales en las pautas a seguir. El proceso es global en naturaleza y
abarca la totalidad de fases y cuestiones a considerar durante el proceso de traducción,
desde cuestiones legales relacionadas con los derechos de la propiedad intelectual del
test a adaptar, hasta aspectos formales que atañen a la redacción del manual que
documenta los cambios introducidos. Todos ellos son importantes, y a todos ellos se
habrá de prestar atención.
Directrices para la traducción/adaptación de tests
1. Directrices previas
DP1. Antes de comenzar con la adaptación hay que obtener los permisos
pertinentes de quien ostente los derechos de propiedad intelectual del test.
DP2. Cumplir con las leyes y prácticas profesionales relativas al uso de tests que
estén vigentes en el país o países implicados.
DP3. Seleccionar el diseño de adaptación de tests más adecuado.
DP4. Evaluar la relevancia del constructo o constructos medidos por el test en las
poblaciones de interés.
DP5. Evaluar la influencia de cualquier diferencia cultural o lingüística en las

poblaciones de interés que sea relevante para el test a adaptar.
2. Directrices de desarrollo
DD1. Asegurarse, mediante la selección de expertos cualificados, de que el proceso

de adaptación tiene en cuenta las diferencias lingüísticas, psicológicas y culturales
entre las poblaciones de interés.
DD2. Utilizar diseños y procedimientos racionales apropiados para asegurar la

adecuación de la adaptación del test a la población a la que va dirigido.
DD3. Ofrecer información y evidencias que garanticen que las instrucciones del
test y el contenido de los ítems tienen un significado similar en todas las
poblaciones a las que va dirigido el test.
DD4. Ofrecer información y evidencias que garanticen que el formato de los ítems,
las escalas de respuesta, las reglas de corrección, las convenciones utilizadas, las
formas de aplicación y demás aspectos son adecuados para todas las poblaciones
de interés.
DD5. Recoger datos mediante estudios piloto sobre el test adaptado, y efectuar
análisis de ítems y estudios de fiabilidad y validación que sirvan de base para llevar
a cabo las revisiones necesarias y adoptar decisiones sobre la validez del test
adaptado.
3. Directrices de confirmación
DC1. Definir las características de la muestra que sean pertinentes para el uso del
test, y seleccionar un tamaño de muestra suficiente que sea adecuado para las
exigencias de los análisis empíricos.
DC2. Ofrecer información empírica pertinente sobre la equivalencia del

constructo, equivalencia del método y equivalencia entre los ítems en todas las
poblaciones implicadas.
DC3. Recoger información y evidencias sobre la fiabilidad y la validez de la versión

adaptada del test en las poblaciones implicadas.
DC4. Establecer el nivel de comparabilidad entre las puntuaciones de distintas

poblaciones por medio de análisis de datos o diseños de equiparación adecuados.
4. Directrices sobre la aplicación
DA1. Preparar los materiales y las instrucciones para la aplicación de modo que
minimicen cualquier diferencia cultural y lingüística que pueda ser debida a los
procedimientos de aplicación a los formatos de respuesta, y que puedan afectar a la
validez de las inferencias derivadas de las puntuaciones.
DA2. Especificar las condiciones de aplicación del test que deben seguirse en todas
las poblaciones a las que va dirigido.
5. Directrices sobre puntuación e interpretación
DPI1. Interpretar las diferencias de las puntuaciones entre los grupos teniendo en
cuenta la información demográfica pertinente.
DPI2. Comparar las puntuaciones entre poblaciones únicamente en el nivel de

invarianza establecida para la escala de puntuación utilizada en las comparaciones.
6. Directrices sobre la documentación
DC1. Proporcionar documentación técnica que recoja cualquier cambio en el test

adaptado, incluyendo la información y las evidencias sobre la equivalencia entre
las versiones adaptadas.
DC2. Proporcionar documentación a los usuarios con el fin de garantizar un uso

correcto del test adaptado en la población a la que va dirigido.
13.3. Directrices internacionales para el uso de los

instrumentos de medición

Las personas implicadas en el uso de los tests con fines de investigación deben de tener
en cuenta diferentes aspectos regulados por estándares legales, éticos y de buenas
prácticas.
1. Permiso para usar los tests en investigación. Las responsabilidades de un investigador

son diferentes si los tests tienen copyright o no lo tienen. En el primer caso el uso
de los tests está sujeto a las restricciones impuestas por el titular de los derechos
de autor. En el segundo, los tests suelen denominarse de libre acceso, y el titular de
los derechos de autor ha concedido a otros el libre acceso a ellos. Una vez
construido, el autor del test es el titular de los derechos de autor y por tanto el test
está legalmente protegido. Los derechos de autor protegen el título del test, los
ítems, la estructura, el manual, las claves de corrección y las fórmulas de
puntuación, y en algunas ocasiones otros materiales y componentes. La
información sobre quién es el titular de los derechos de autor suele encontrarse en
la primera página del manual y de las formas del test, o en la página web del test. El
autor o autores del test son titulares del copyright salvo que éste sea transferido
por un acuerdo escrito a otra persona o entidad, por ejemplo una editorial. Los
autores de tests cuyas publicaciones en revistas incluyan el test completo (lo cual
es poco frecuente), o algunos ítems, ceden el copyright de esos materiales
publicados a la revista, salvo que se establezca en un acuerdo escrito que el autor
mantiene el copyright.
El investigador debe de asegurarse de que el contrato no infringe las reglas que

regulan la privacidad, u otras leyes y directrices éticas y deontológicas. El investigador
debe cumplir el acuerdo firmado. El titular de los derechos de autor tiene el derecho
de rechazar el permiso para el uso libre del test con fines de investigación. Esto se
aplica tanto a las versiones originales del test como a la solicitud de llevar a cabo
traducciones. Los titulares del copyright de un test también pueden negar permiso de
uso para investigaciones que generan productos derivados, tales como traducciones.
El titular de los derechos de autor no debería de estar en una posición que le permita
decidir el tipo de investigación que se hace con sus instrumentos.
1. Permiso de reimpresión. Los trabajos con copyright no deben de reproducirse,

distribuirse ni exponerse públicamente; tampoco se deben llevar a cabo trabajos
derivados de ellos sin el permiso del titular de los derechos de autor. Debe
mantenerse la seguridad del test. Los ítems de los tests no deben de publicarse ya
que ello los pondría a disposición de usuarios de tests no autorizados, lo que haría
peligrar la seguridad del test. Está prohibida la publicación del test original o de
alguna versión traducida del test o de sus ítems en artículos de revista, tesis, o
páginas web. A la hora de presentar sus hallazgos los investigadores pueden verse
en la necesidad de proporcionar algunos ítems que ejemplifiquen los constructos
evaluados. Cuando se trate de tests de uso público los investigadores pueden
proporcionar ejemplos de ítems y citar la fuente. Cuando se utilizan tests con
copyright debe de obtenerse permiso del titular de los derechos de autor para
reproducir un número limitado de ítems (normalmente uno o dos por escala). Como
alternativa los investigadores pueden elaborar ítems similares a los del test original
pero que no los reproducen, de modo que no se violan los derechos de autor.
2. Modificación del test o de sus componentes. Cuando se utilicen tests sujetos a
copyright, los investigadores no deben modificar ningún componente del test, pues
se pondría en peligro la integridad de la prueba, se violaría los derechos de autor y
se cometería una ilegalidad, salvo que los investigadores estén debidamente
autorizados para ello. Cuando los tests son de uso público las reglas para su
utilización son diferentes. Los investigadores pueden modificarlos, añadiendo o
quitando ítems, cambiando su formulación, el orden, las instrucciones, o las reglas
de puntuación, para ajustar el test a los objetivos de la investigación, a la población
a la que se aplica, o a las condiciones del contexto. Estas versiones modificadas de
los tests se consideran productos derivados y están permitidos en el caso de tests
de uso público. Por ejemplo la adaptación de un test de uso público para su
utilización en otra cultura diferente a la que fue generado puede requerir su

traducción a otro idioma, eliminar algunos aspectos, reformular otros, añadir ítems,
o cambiar las instrucciones y la escala de los ítems. Los investigadores pueden
hacer modificaciones similares en los tests sujetos a copyright sólo en el caso de
que tengan el permiso escrito para ello del titular de los derechos de autor.
Cualquier modificación que se haga de un test original debe de estar
convenientemente documentada, tal como se indica más adelante en el punto 5.
Para la adaptación de tests de unas culturas a otras consulte las Directrices de la
ITC para la Adaptación de Tests (ITC, 2010)
3. Uso ético de los tests. El uso ético de los tests en investigación y en contextos
profesionales es muy parecido. Quienes utilizan tests en investigación deben de
actuar de forma ética y profesional, ser competentes en el uso de los tests, ser
responsables de su uso, y garantizar la seguridad de los materiales utilizados y la
confidencialidad de los resultados. Los usuarios de tests deben de cumplir con sus
obligaciones éticas. Estas incluyen la necesidad de obtener consentimiento
informado, defender la seguridad de los materiales del test, y asegurar la privacidad
de los datos personales. La documentación proporcionada a los participantes en la
investigación debe de informarles sobre los aspectos importantes de la
investigación, incluyendo si van a recibir un resumen personalizado o grupal de los
resultados. Puede ocurrir que en algunas circunstancias no sea posible ofrecer a los
participantes información sobre los resultados. No obstante, el investigador debe
esforzarse para ofrecer información como una condición para llevar a cabo la
investigación. Los investigadores también deben de cumplir los principios legales y
éticos de la región o país en los que se lleva a cabo la investigación, y ser sensible a
las características culturales. Las personas autorizadas para utilizar tests en
investigación deben de estar convenientemente cualificadas, o ser supervisadas
por un profesional cualificado, por ejemplo un colega, un profesor o un consejero.
La responsabilidad de un profesional cualificado abarca todo el proceso de
evaluación, incluyendo la recogida de datos, codificación, análisis, realización de
informes y la aplicación de los datos en sus distintas formas.
4. La investigación científica requiere una documentación adecuada. La
documentación permite a la comunidad científica evaluar la calidad y los resultados
de la investigación y facilitar su replicación. Por tanto, el uso de los métodos de
investigación, incluyendo el uso de los tests, debe documentarse adecuadamente
en la sección de Método de los informes de investigación. La documentación debe
incluir el nombre del test, edición y fecha de publicación del original y de la versión
adaptada. Adicionalmente, y si ello fuese apropiado, el investigador debería
documentar que el titular del copyright ha dado el permiso correspondiente para el
uso del test, incluyendo las condiciones que se hayan establecido en el documento
de autorización por parte del titular del copyright. Los investigadores que traducen
o adaptan un test deben de hacer constar la forma en la que se llevaron a cabo estas
modificaciones y proporcionar evidencias sobre la validez y la equivalencia de la

versión traducida o adaptada (ITC, 2010).
5. Conflicto de intereses. Si el investigador utiliza alguna fuente de financiación para
construir el test u otras investigaciones debe de hacerlo constar. Las
investigaciones financiadas por agencias externas pueden tener un interés
particular en los resultados, por ejemplo un departamento gubernamental que está
tratando de implantar una determinada política, o una compañía editora de tests
que es la titular del copyright. Los investigadores deben de ser conscientes de estas
situaciones y mantener su imparcialidad y objetividad. Los investigadores también
deben de hacer constar otras relaciones que puedan suponer un conflicto de
intereses, por ejemplo investigadores que reciben alguna compensación por los
tests utilizados en la investigación, o que están contratados por una compañía
editora de tests.
6. Utilización de los tests de investigación en la práctica profesional. En la práctica
profesional (Organizacional, Clínica, Educativa, u otras) los tests se utilizan para
evaluar determinadas características o llevar a cabo clasificaciones, por lo tanto los
tests tienen que ser fiables y válidos a nivel individual para estar seguros de la
correcta estimación de la característica evaluada, o de la adecuada clasificación de
una persona. En contextos de investigación los tests no siempre tienen que
satisfacer estos criterios de fiabilidad y validez tan estrictos. Hay varias razones
para esta mayor tolerancia con los criterios técnicos de los tests en contextos de
investigación. Primero, los tests pueden construirse y utilizarse para someter a
prueba hipótesis innovadoras e investigar constructos que no han sido
suficientemente estudiados, para asegurarse la obtención de modelos de medida
robustos. Segundo, los tests utilizados en investigación pueden no estar
estandarizados, y los datos estadísticos poblacionales y las propiedades
psicométricas pueden ser desconocidos antes de la investigación. Tercero, los datos
de los tests pueden usarse a un nivel grupal o agregado y no ser utilizados para
obtener conclusiones a nivel individual sobre las personas evaluadas. Las versiones
de investigación de los tests se utilizan a veces en la práctica profesional sin
advertir de sus limitaciones. El autor del test tiene la responsabilidad de no
contribuir a la utilización de los instrumentos de medida de investigación en la
práctica profesional antes de que se haya publicado suficiente información sobre
sus propiedades psicométricas.
International Test Commission (2010). Guidelines for Translating and Adapting Tests.
Retrieved from http://www.intestcom.org (http://www.intestcom.org)
Bibliografía
Bibliografía
Meliá, J.L. (2000). Teoría de la Fiabilidad y la Validez. Valencia: Cristóbal

Serrano.
Muñiz, J. (1996) Teoría Clásica de los Tests, 2ª. ed. Madrid: Ediciones
Pirámide
Muñiz, J. (1996) (coordinador) Psicometría.Madrid: Universitas.
Thorndike, R. (1989) Psicometría Aplicada.México: Limusa.
Botella, J., León, O. G., San Martín, R. y Barriopedro, M. I. (2001). Análisis

de datos en psicología I. Teoría y ejercicios. Madrid, España: Pirámide.
Navas, M. J. (2002). La fiabilidad como criterio métrico de la calidad

global del test. En M. J. Navas (Coord.), Métodos, diseños y técnicas de
investigación psicológica (pp. 213-261). Madrid, España: UNED.
Pérez Juste, R., García Llamas, J. L., Gil Pascual, J. A. y Galán González, A.
(2009). Estadística aplicada a la educación. Madrid, España:
UNED/Pearson-Prentice Hall
Ejercicios
Ejercicio 1 - Módulos 1 y 2
Supongamos un test formado por 3 ítems con formato de respuesta de

categorías ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un
grupo de 5 sujetos se obtienen los siguientes datos. Calcular los índices de
homogeneidad de los 3 elementos:
Ítems
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
El contenido no debe sobrepasar los 2MB

Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.

En la siguiente tabla se muestran las puntuaciones obtenidas por un grupo de

10 estudiantes de 2º de Bachillerato en un test de Matemáticas compuesto
por 5 ítems de elección múltiple.
Items
Sujetos 1 2 3 4 5
A 01111
B 10011
C 11100
D 11110
E 11000
F 11111
G 11010
H 01111
I 11111
J 10000
1. Calcular el coeficiente de Cronbach
2. Cuál es la varianza del ítem 5
3. Sabiendo que la varianza de los errores es el 64% de la varianza

empírica, el intervalo confidencial en el que se encontrará la puntuación
verdadera de un sujeto que en el test obtuvo una puntuación empírica
de 4, utilizando el modelo de regresión y a un nivel de confianza del 95%
será. a) 2,48 - 4,76; b) 2,16 – 5,84; c) 1,79 – 5,47

Enviar al tutor
acción formativa.
En una escala formada por 10 ítems, el índice de homogeneidad (Hj) del ítem
4 vale -0, 83 ¿Qué significa esto?

Enviar al tutor
acción formativa.
Ejercicio 4 - Módulos 5,6 y 7
La puntuación de una persona en un test de inteligencia se encuentra 0,5

desviaciones típicas por encima de la media del grupo normativo. Obtenga
sus puntuaciones en los baremos Z, T y D.

Enviar al tutor
acción formativa.

Temario 4º Curso Instrumentos de Medición

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Temario 4º Curso Instrumentos de Medición

Cargado por

Copyright:

Formatos disponibles

1/1/22 18:37 Campus Virtual

Bloque Tema Apartados

1.1. Supuestos básicos de la medición en salud.

Tema 1. “La evaluación en 1.2. La naturaleza, uso y valor de los instrumentos de

1.3. Tipos de instrumentos de medición.

1.4. Los principios éticos de la evaluación.

Tema 2. “Los test” 2.2. Historia

3.1. Elaboración de ítems

3.1.1. Redacción de los ítems

3.1.2. Formato de respuesta.

Tema 3. “Diseño y análisis 3.2. Análisis de ítems

3.3.1. Índice de homogeneidad

3.3.2. Índice de validez.

3.4. Relación entre las puntuaciones totales en el test

4.1. Métodos para obtener la fiabilidad de un Test.

4.2. Fiabilidad absoluta y relativa.

4.4. Error de medida: concepto, tipos, definición

5.1. Definición de tests paralelos. RXX como

Tema 5. “Fiabilidad y tests 5.2. Límites de la fiabilidad de un test.

5.4. Error típico de medida.

6.1. Estimación puntual de V.

6.2. Estimación por intervalos de V.

6.4. Fiabilidad y diferencias.

7.1. Coeficiente alpha de Cronbach.

7.2. Fiabilidad de un test complejo.

7.4. Factores que afectan a la fiabilidad de los tests.

Bloque IV. Validez 8.1. Concepto de validez.

9.1. Visión general del AFE.

Tema 9. “Análisis factorial 9.2. Pasos del AFE.

10.1. Coeficiente de validez y su interpretación.

10.3. Factores que afectan a la validez.

11.1. Transformaciones de las puntuaciones directas

Bloque VI. 12.1. Introducción

Introducción a la Tema 12. “Ventajas frente

13.1. Proceso general de construcción y evaluación de

1. Conocer las características de los distintos modelos de medida y sus aportaciones

2. Ser capaz de evaluar la calidad de los instrumentos de medición

3. Ser capaz de elegir, aplicar y valorar los procedimientos de análisis de la validez de

4. Ser capaz de elaborar un informe psicométrico.

El curso de instrumentos de la investigación en salud es una asignatura dentro de la

Se trata de un curso de carácter teórico práctico en el que se presentan los modelos

Bloque I - La investigación científica

Tema 1 - Introducción: La evaluación en ciencias de la salud

Tema 1. “La evaluación en ciencias de la salud”

1.1. Supuestos básicos de la medición en salud

El proceso de medición forma parte de la práctica diaria de todos los profesionales de

Medición es simplemente el proceso de asignar valores a ciertos eventos de la realidad.

La dificultad del proceso radica al menos en dos aspectos:

Que el valor represente realmente el evento que se quiere medir

Que el evento sea expresado en toda su complejidad.

En medicina, los instrumentos para determinar la condición biológica de un paciente han

1. Los rasgos y estados de la salud existen: Un rasgo se ha definido como “cualquier

relativamente menos perdurables (Chaplin et al., 1988). Por ejemplo, un

2. Los rasgos y estados pueden cuantificarse y medirse.

4. La evaluación puede señalar fenómenos que requieren una mayor atención o

5. Diversas fuentes de información enriquecen y son parte del proceso de evaluación.

7. Las pruebas y otras técnicas de medición tienen ventajas y desventajas. Si se

1.2. La naturaleza, uso y valor de los instrumentos de medición

El diseño y construcción de un instrumento de medición en salud constituye un proceso

1.3. Los principios éticos de la evaluación

1. El que elabora la prueba. Quienes se dedican a elaborar pruebas, brindan una

administración pueden tener un impacto significativo en las vidas de las personas

3. El que responde la prueba. Las personas evaluadas enfocan una situación de

a) Ansiedad experimentada y grado en que ésta podría afectar los resultados