Uigv Fases en La Construcción de Un Test

Construcción de Pruebas Psicológicas.
Dr. Jaime Aliaga Tovar
FASES EN LA CONSTRUCCIÓN DE UN TEST I

Jaime Aliaga Tovar
APUNTES DE CLASE
La construcción de un test es una labor cualificada en la que el constructor pone

en juego, en sinergia, conocimientos, capacidades, habilidades, actitudes,
experiencias, con el propósito de desarrollar en y para un determinado contexto un
instrumento de medición psicométricamente adecuado.
Existe una gran diversidad de tests que difieren en muchas cosas, por ejemplo, en
sus objetivos, en los tipos de ítems que utilizan, en las modalidades de
presentación de los mismos y en los tiempos concedidos para que el sujeto los
responda, pero también en esta diversidad se observan aspectos comunes que ha
conducido a la aparición de varias propuestas de estructuración de este proceso
(p.e. Brown, 1980; Thorndike, 1989; Muñiz y Fonseca-Pedrero, 2012).
La construcción de tests y escalas que se efectuará en la asignatura de

CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS seguirá el proceso que se
esquematiza en la tabla 1.
Tabla 1. Fases en la elaboración de un test

__________________________________________________________________
I. ESTABLECIMIENTO DE LA FINALIDAD DEL TEST.
II. DETERMINACIÓN DE LAS CARACTERÍSTICAS DEL TEST.
III REDACCIÓN Y REVISIÓN DE LOS ÍTEMS.
IV. ELABORACION DEL PRETEST O PRUEBA PILOTO.
V. APLICACIÓN DEL PRETEST O PRUEBA PILOTO.
VI. ANÁLISIS CUANTITATIVO O ANÁLISIS DE LOS ITEMS.
VII. ELABORACION DE LA VERSIÓN FINAL DEL TEST.
VIII. ANÁLISIS DE LA CONFIABILIDAD Y VALIDEZ DEL TEST.
IX. ELABORACIÓN DE LAS NORMAS DE INTEPRETACIÓN DE LAS

PUNTUACIONES DIRECTAS.
1
X. ELABORACIÓN DEL MANUAL TÉCNICO DEL TEST.

_________________________________________________________________________
FASE I. ESTABLECIMIENTO DE LA FINALIDAD DEL TEST
La elaboración de la finalidad del test responde en lo fundamental a las siguientes

preguntas: 1) ¿Qué se desea medir?, 2) ¿A quién se va a medir?, 3) ¿Para qué
se va medir? Un ejemplo de respuestas a estas preguntas es el siguiente: 1)
Capacidades administrativas de oficina; 2) A postulantes a secretarías ejecutivas;
3) Selección para puestos administrativos.
1) ¿Qué se desea medir? Se debe elaborar un marco teórico del que se derive el
constructo a medir de manera tal que se pueda hacer una definición conceptual (o
sintáctica) del constructo o variable y una definición operacional (o semántica) del
mismo para hacerlo visible y cuantificable. Por ejemplo, véase la siguiente
definición conceptual y operacional del constructo inteligencia (test de respuesta
máxima) y del constructo alexitimia (test de respuesta típica).
Definición teórica conceptual de inteligencia: Capacidad dinámica, constituida

por aptitudes y factores interrelacionados que pueden ser genéticos, aprendidos o
mixtos; pero todos con una base neurofisiológica. Susceptible de ser medida por
baterías de test y que permite a las personas solucionar problemas mediante el
razonamiento manejando conceptos concretos y abstractos.
Definición operacional de inteligencia: Capacidad dinámica estructurada por

aptitudes y factores interrelacionados que pueden ser genéticos, aprendidos o
mixtos; pero todos con una base neurofisiológica para resolver problemas de tipo
espacial, lógico, numérico, verbal y recordar y asociar significados.
Definición operacional 1.1: Capacidad para resolver problemas que ponen en

juego el razonamiento espacial mediante la identificación de objetos ubicados
espacialmente en sentido derecha-izquierda (véase la figura A) ; y de identificación
de una figura patrón entre un conjunto similar de figuras ubicadas en diferentes
posiciones en el espacio (véase la figura B).

juego el razonamiento lógico mediante la…
juego el razonamiento numérico mediante la…
juego el razonamiento verbal mediante la…
Definición operacional 1.5: Capacidad para recordar y asociar significados
verbales.
2
Definición conceptual de alexitimia: Incapacidad de base neurológica para

controlar y reconocer las propias emociones que se manifiesta en una dificultad o
falta de palabras para expresar emociones y sentimientos.
Definición operacional de alexitimia: Incapacidad de base neurológica que se

manifiesta en dificultad para identificar sentimientos y diferenciarlos de las
sensaciones corporales o fisiológicas que acompañan a la activación emocional
(véase el
Figura A.
Figura B:
3
ejemplo A); en dificultad para describir sentimientos a los demás (véase el ejemplo
B); y en un pensamiento orientado hacia lo concreto, lo fáctico, sin relación con lo
emocional (véase el ejemplo C). (TAS 20).
Ejemplo A. Tengo sensaciones físicas que incluso ni los doctores entienden.

A: Muy en desacuerdo B: En desacuerdo C: Ligeramente en desacuerdo
D: Ligeramente de acuerdo E: De acuerdo F: Muy de acuerdo
Ejemplo B. Me es difícil revelar mis sentimientos más profundos incluso a mis

amigos más íntimos.
Ejemplo C. Prefiero ver espectáculos simples, pero entretenidos, que dramas

psicológicos.
2 ) ¿A quién se va a medir? Se debe especificar de manera rápida y clara las

características de la población a la cual está destinado el test. Se debe reunir y
analizar información sobre la edad (¿el test se aplicará a infantes, niños,
adolescentes, adultos, gerontes?), nivel intelectual aproximado (¿el test se
aplicará a una población general desde el punto de vista intelectual, o se aplicará
a sujetos de nivel bajo, medio o alto?, bajo, medio, alto); nivel y grado educativo
(¿ el test se aplicará a sujetos que cursan el nivel inicial, primario, secundario o
superior? ¿se aplicará a determinados grados de estos niveles?), nivel
socioeconómico (el test se aplicará a una población general desde el punto de
vista socioeconómico o a sujetos de nivel bajo o medio o alto?), nivel cultural
(referido al caudal informativo y al conocimiento del mundo que se tiene
concretizado en los aspectos literarios, musicales, el arte en general, las ciencias
y el trato en sociedad. No es sinónimo de educación pero pueden ir de la mano,
tampoco es sinónimo de inteligencia, pero para tener un alto nivel cultural es
necesario por lo menos un nivel de inteligencia promedio. Este nivel puede ser
bajo, medio o alto), nivel de lectura (básico, descriptivo o literal, nivel medio,
interpretativo o inferencial, nivel alto, valorativo o crítico). Otros aspectos
relevantes se refieren a si la población-objetivo tiene desordenes mentales y
dificultades comportamentales, auditivas, visuales, intelectuales, de aprendizaje y
otros aspectos que se consideren convenientes para delinear las características
de referida población y el contenido y formato del test.
3) ¿Para qué se va a medir? El propósito u objetivo del test debe ser declarado
de forma explícita y completa de manera tal que sea claro para el psicólogo/a
usuario/a. Se debe especificar las decisiones que se van a tomar a partir de las
inferencias que se hagan de las puntuaciones que obtengan los sujetos. Las
principales situaciones en las que hay que tomar decisiones son las de selección,
4
clasificación, diagnóstico, orientación y consejo, certificación,

descripción/información (Barbero, Vila, Holgado, 2010).
Ejemplo A. En este ejemplo se conjugan las respuestas a estas tres preguntas:
La finalidad de la College Entrance Examination Board’s Scholastic Aptittude Test

(SAT) que es una prueba de aptitudes para el ingreso a la Universidad en EE.UU.
es la siguiente “Puesto que las escuelas secundarias difieren mucho de sus
cursos, sus normas académicas y sus prácticas de calificación, los funcionarios
encargados de admisión a la Universidad necesitan contar con alguna medida
estándar de capacidad para comparar las solicitudes de los postulantes
procedentes de distintos colegios.
“El SAT es una prueba objetiva con duración de tres horas, destinado a
proporcionar una medida estándar de las capacidades verbales y matemáticas de
los postulantes que postulan al ingreso a la universidad. Las secciones verbales
del SAT pondrán a prueba la capacidad para comprender las relaciones entre las
palabras y las ideas y entender lo que se lee. Las secciones matemáticas ponen a
prueba la capacidad para comprender símbolos matemáticos y utilizarlos en la
resolución de problemas” (College Examination Entrance Board, citado en Brown,
1980).
La declaración precedente no sólo explícita la finalidad de la prueba sino que va

más allá, subrayando incluso el contenido del test. Por otro lado, puesto que el
SAT se diseño para postulantes a la universidad, la gran mayoría de las personas
que se someten a ellas son egresados de secundaria, de 16 a 18 años de edad,
quienes se han visto expuestos a un núcleo común de experiencias educativas.
Así pues, tales candidatos al ingreso, serían una muestra más homogénea que la
población general en su nivel de desarrollo intelectual. Por consiguiente, los ítemes
del SAT estarán diseñados teniendo en cuenta la dificultad y extensión apropiada
para este grupo especial. (Brown, 1980).
Ejemplo B. “Antes de la declaración de Alma Ata, la OMS había iniciado las

coordinaciones pertinentes, para desarrollar alternativas de atención en salud
mental de bajo costo, en base a estudios epidemiológicos en poblaciones
supuestamente sanas, o en pacientes no psiquiátricos (en particular de medicina
general) elaborando instrumentos como el Self Reportig Questionnaire (SRQ) , o
Cuestionario de Autoreporte (CAR): La validación de este instrumento en nuestro
medio es el objetivo principal del presente estudio”. (Véliz, 1998).
FASE II. DETERMINACIÓN DE LAS CARACTERÍSTICAS DEL TEST.
Esta fase responde a las siguientes preguntas: 1) ¿Cuál será el contenido del
test? 2) ¿Qué tipo de ítems se utilizará? 3) ¿Cuántos ítems serán necesarios?
5
Un ejemplo de respuestas a estas preguntas es el siguiente: 1) conocimientos en

psicometría; 2) ítems de opción múltiple con cinco opciones de respuesta (una de
ellas la correcta); 3) 90 ítems (tres veces la cantidad de ítems que se desea
tenga la versión final del test).
1) ¿Cuál será el contenido del test? La determinación del contenido del test
tiene matices diferentes si el test es de conocimientos (sobre un curso o asignatura
o evento académico al que el sujeto ha asistido), si el test es de aptitud o si el test
es de personalidad.
1.1) ¿Cuál será el contenido del test si es de conocimientos? La respuesta

apropiada se centra básicamente en dos aspectos: a) el constructor/a del test
debe determinar el universo de contenidos que el sujeto debe aprender o
haber aprendido, para el efecto, es pertinente revisar el currículo, el silabo o
programa de la asignatura o evento, ayudándose con la opinión de jueces o
expertos para seleccionar los tópicos principales que representen al contenido total
del currículo, sílabo o programa. Aquí es necesario tener presente que los tests de
conocimientos o de rendimiento deben tener validez de contenido (algunos la
denominan validez curricular). La validez de contenido refiere al grado en el que
los ítems de la prueba constituyen una muestra representativa del universo de
reactivos del contenido que se estudia (Nunally, 1987). En el proceso de validar
el contenido el constructor/a del test puede recurrir a lo siguiente: (*) Realizar el
análisis lógico de los ítems y de la estructura de la prueba, representando
claramente mediante como cuadros y tablas, el universo o dominio conductual
que le interesa y, a la vez, estudiar de manera lógica y racional los ítems,
explicitando por qué se incluyen en el instrumento (Brown, 1982; Anastasi y
Urbina, 1998). (**) Recurrir al análisis por criterio de jueces, solicitando la
ayuda de un conjunto de personas calificadas con amplios conocimientos de la
temática evaluada (en número de 5 a 10, preferentemente), quienes se
constituirán en jueces, que evaluarán el grado en que los reactivos concuerdan
con los planteamientos realizados por el constructor (Anastasi y Urbina, 1996). El
grado de acuerdo de los jueces respecto de los reactivos a incluirse puede ser
cuantificado porcentualmente o por medio de diferentes coeficientes, por ejemplo
el coeficiente V de Aiken.
b) el constructor/a del test debe determinar las operaciones intelectuales que el

sujeto debe realizar con estos contenidos. Esta operación es extremadamente
importante. En efecto, la medición del contenido del test de rendimiento no sólo
debe hacerse por la memorización de hechos concretos sino que se debe medir
procesos cognitivos más complejos del pensamiento, pero, ¿cuáles son estos
procesos complejos del pensamiento?. Existen muchos modelos que explican el
proceso del pensamiento, por ejemplo, los modelos de Taba, Guilford, Gagné,
Blomm, entre otros. Todos ellos se refieren en esencia a un mismo proceso: la
capacidad para pensar en forma inductiva o deductiva. La taxonomía de las
habilidades del pensamiento de Blomm (1956) o sus modificaciones (Anderson y
Kratwhol, 2003 y Churches, 2006)
6
(http://www.eduteka.org/TaxonomiaBloomCuadro.php3) ha sido y es bastante

utilizada con este propósito.
Blomm (1956, 2000), sostiene que en el dominio cognitivo (cognitive domain) se

pueden detallar los siguientes procesos mentales e intelectuales de quien aprende:
- Conocimientos (Memoria). Retención del material previamente
aprendido.
. conocimientos específicos
. conocimientos de modos y medios
. conocimientos de principios y generalizaciones
. conocimientos de teorías y estructuras
- Habilidades intelectuales y destrezas
. comprensión: entendimiento del significado del material. La comprensión
comprende:
Traducción: conversión de una forma en otra.
Interpretación: explicar o resumir el material
Extrapolación: extender el significado más allá de los datos
. aplicación: uso de la información en situaciones concretas.
. análisis: descomponer o dividir el material en sus partes. El significado
comprende:
Análisis de elementos
Análisis de relaciones
Análisis de los principios organizadores
. síntesis: integrar las partes de un todo. La síntesis comprende:
Elaborar una comunicación
Elaborar un plan o un conjunto propuesto de operaciones
Deducir un conjunto de relaciones abstractas
. Evaluación: juzgar el valor de una cosa para determinado propósito,
empleando criterios definidos. La evaluación comprende:
Juicios en función de evidencias subjetivas
Juicios en función de criterios objetivos.(Blomm 1956 en Gronlund, 1974).
Precisados el contenido y las operaciones intelectuales, se elabora una TABLA

DE ESPECIFICACIONES, que en las filas contendrá las áreas del contenido que
cubrirá el test y en las columnas a las habilidades cognitivas que se medirán en la
prueba, junto con la importancia relativa que se atribuye a cada categoría de
contenido y habilidad. La tabla de especificaciones es el “plano” del test que
especifica con claridad las relaciones entre los objetivos (habilidades) y el
contenido temático. Por otro lado, esta tabla sirve para dos fines: a) en la etapa de
elaboración de reactivos, indica la cantidad y el tipo de ítems a elaborar y, b)
cuando se tiene la versión final del test, se puede comparar la distribución real de
los ítemes con lo establecido en el plan de construcción. Esta operación nos
ayudará, por otra vía, a determinar si los reactivos fueron un muestreo adecuado
del universo temático (Anastasi y Urbina, 1998). Véase el siguiente ejemplo de
tabla de especificaciones:
7
TABLA DE ESPECIFICACIÓN PARA UN TEST DE ÁLGEBRA

(4to. año de secundaria)
OBJETIVOS (Habilidades)
CONOCE COMPRENDE APLICA ANALIZA SELECCIONA
CONTENIDOS la termi- Principios y Principios y Principios y Técnicas y TOTA
nología generalizaciones generaliza- gráficos métodos adecu- L
ciones dos
Conjuntos 2
6 2 -- -- 10
Variables 2
6 2 -- -- 10
Propiedades de los Números 4 2 2 2 5 15
Operaciones aritméticas 4 2 2 2 5 15
Razón y porcen-taje -- -- 5 5 -- 10
Empleos de números en la
4 2 6 8 -- 20
medición
Números reales 4
2 6 8 -- 20
TOTAL 20 20 25 25 10 100
1.2) ¿Cuál será el contenido de un test si es de aptitud? En algunos test de

aptitud el universo de contenidos puede ser especificado más o menos
rápidamente, así por ejemplo, en un test con el que se pretende medir el
vocabulario o capacidad léxica de niños que cursan el último ciclo de la educación
primaria, este universo puede estar constituido por el conocimiento del significado
de las palabras que aparecen en el texto de lectura o en un diccionario escolar;
en este caso la tabla de especificación puede elaborarse colocando en las filas
los campo semánticos de interés y en la columnas las categorías gramaticales a
incluirse (sustantivos, adjetivos, etc.). Sin embargo, en la mayoría de test de
aptitud precisar el universo de contenidos o reactivos no es tarea fácil. Piénsese
en cuál sería el universo de reactivos de un test de memoria. Es necesario hacer
una buena definición operacional para especificar el dominio de conductas que
ponen de manifiesto al constructo. La determinación del universo de conductas se
realizará después de un análisis crítico de artículos científicos, otros test, consultas
con expertos o la revisión de otras fuentes de información adecuadas, de manera
tal que se pueda elaborar una tabla de especificaciones apropiada.
Un modelo de operacionalización contribuye a determinar el contenido. Véase la

siguiente figura:
8
UN MODELO PARA EL MUESTREO DE CONDUCTAS (Levine y Freeman, 1973)
Nivel 1: VARIABLE
Inteligencia
Nivel 2: DEFINICION 
CONCEPTUAL
Capacidad para aprender de la

Nivel 3: VARIABLES experiencia
CONTENIDAS
EN LA DEFINICION   
Capacidad para
Memoria generalizar Otras variables
Nivel 4: UNIVERSO
DE INDICADORES   
Repetir números, Predecir

reproducir dibujos, dar consecuencias, inferir
información, etc. causas, etc.
Nivel 5: MUESTRA
REPRESENTATIVA
DE INDICADORES   
ITEMS DEL TEST
Es conveniente elaborar la tabla de especificaciones que sintetice las

dimensiones o facetas del constructo y el número de los ítems que se le adjudicará
a cada una de ellas.
1.3) ¿Cuál será el contenido del test si es de personalidad? En general, en los

test de respuesta típica el contenido se deriva necesariamente de un sólido marco
teórico del constructo por medio de definiciones operacionales que especifiquen
las facetas o dimensiones del constructo. Los ítems que se decida correspondan
9
a cada una de estas dimensiones o facetas constituyen una muestra del universo
de conductas pudiéndose acudir a la lectura crítica de artículos científicos,
otros tests y entrevistas con expertos para obtener ideas que se concreticen en
los reactivos. Siempre será conveniente elaborar una tabla de especificaciones.
Véase los siguientes ejemplos:
Ejemplo A. Contenido de una escala de actitudes hacia las matemáticas:
Definición conceptual: Es la organización duradera de creencias y cogniciones,

dotada de una carga afectiva a favor o en contra de la matemática y que
predispone a una acción coherente con dichas cogniciones y afectos (Rodríguez
Feijóo, 1991).(Es de señalar que esta definición se deriva de la teoría triárquica de
las actitudes).
Definición operacional: Es la organización duradera de creencias y cogniciones,

dotada de una carga afectiva a favor o en contra de la matemática, vinculada a la
ansiedad, el agrado, la utilidad, la motivación y la confianza que genera la
matemática y que predispone a una acción coherente con dichas cogniciones y
afectos.(Modificado de Auzmendi, 1992).
Tabla de especificaciones:
Dimensiones Componentes de la teoría triárquica Total de

o facetas de Cognitivo Afectivo Conductual ítems
la actitud
Ansiedad
Agrado
Motivación
Utilidad
Confianza
Total de ítems
Ejemplo B. Contenido de un cuestionario de neuroticismo.
Definición conceptual: El neuroticismo es una tendencia global que hace a la

persona sumamente vulnerable a la neurosis y que implica una baja tolerancia al
estrés físico y psicológico. Parece depender de la actividad del sistema límbico y
del sistema vegetativo, y está determinado por factores genéticos y
constitucionales.(Cerdá, 1977).
Definición operacional: Tendencia global a presentar sintomatología disociativa,
de inadecuación en las relaciones interpersonales, de alteración del sueño, de
10
hiperreacción vegetativa, depresiva, de ansiedad, de neurastenia y de

impulsividad, indicadoras de una tendencia a la neurosis.
Tabla de especificaciones: (Esquema)
Total
Dimensiones Síntomas de
Somático Depresivo Ansiogeno Neurasténico Impulsivo ítem
s s s s s s
Cardiovascula
r
Respiratoria
Digestiva
Osteo-
muscular
Tegumentoso
Ideativa-
motivacional
Relaciones
con los otros
Total de ítems
2) ¿Qué tipo de ítems se utilizará? El ítem es un reactivo o elemento de un

test cuya resolución correcta determina el incremento de la puntuación total del
mismo. En el proceso de construcción del test teniendo como base la información
reunida y analizada en las dos fases anteriores, se decidirá cuál es el formato del
ítem más conveniente para el logro del propósito u objetivo del test. Existen
varias clasificaciones de los ítems. Según Barbero, Vila, Holgado (2010), los
ítems pueden ser de construcción de la respuesta o de elección de la respuesta;
categorías gruesas que abarcan a diversas modalidades de formatos.
a) Ítems de construcción de la respuesta. Esta categoría abarca a los ítems de

respuesta breve y a los de ensayo.
11
1 En los ítems de respuesta breve el sujeto debe contestar con sus propias
palabras, es decir, el testado suministra su propia respuesta. Generalmente la
respuesta requerida es una palabra o un número, y las puntuaciones se computan
como acierto o error. Por ejemplo:
El cuadrado de 11 es ... ( ) Respuesta: 121
La palabra que rima con CONTENTO y que significa lo mismo que RICO es (…)
Respuesta: OPULENTO
Estos ítems tienen la ventaja de eliminar el fenómeno de la conjetura o

adivinación porque el sujeto no puede anotar la respuesta correcta a no ser que
realmente la conozca; en comparación con los de opción múltiple tienen una
confiabilidad alta con un menor número de reactivos. Por otro lado, si las
respuestas a los reactivos son números, como en los tests de series, la corrección
y puntuación es objetiva. Sin embargo, cuando las respuestas son palabras se
presentan algunas desventajas, pues estas exigen que el sujeto tenga que escribir
más, pudiendo empezar a intervenir un factor subjetivo en la corrección y
puntuación puesto que el calificador debe decidir si la palabra es razonablemente
elegida y si su ortografía es correcta. Este tipo de ítem es difícil de corregir con
computadora y es necesario realizar un cuidadoso análisis de ítems para asegurar
que no hay dos respuestas correctas a un reactivo (Anstey, 1976).
2 En los ítems de ensayo el sujeto queda en libertad de decidir cómo enfrentar el

problema, qué información utilizar, cómo organizar su respuesta y qué grado de
importancia dar a cada aspecto de la respuesta. Así pues, el ítem de ensayo
confiere valor a las capacidades de producir, integrar y expresar ideas. Estas
habilidades constituyen los tipos de conducta para las que empiezan a resultar
inadecuadas los reactivos de los tests objetivos.
b) Ítems de elección de la respuesta. Esta categoría abarca a los ítems de

selección múltiple, de emparejamiento y de verdadero-falso. En este tipo de
elemento el sujeto debe elegir una respuesta de entre las varias posibles
presentadas.
El ítem de opción múltiple tiene dos partes:

Pie, enunciado, tronco o premisa, es la parte que presenta una situación
problema. Puede ser una pregunta o un enunciado incompleto.
Opciones, alternativas o frases que completan la aseveración incompleta o que
presentan las posibles soluciones. Entre las alternativas hay una que se
considera la respuesta correcta y varias otras posibles, incorrectas, llamadas
respuestas de distracción o simplemente distractores, cuya función es confundir a
los sujetos que no están seguros de la respuesta.
12
Partes de un ítem, reactivo, estímulo o elemento
Pie, enunciado o premisa La mayoría de los constructores de tests

opinan que el tipo de ítem objetivo más
flexible es el de:
Opciones, alternativas a) apareamiento (**)
b) verdadero o falso (**)
c) opción múltiple (*)
d) respuesta breve (**)
Respuesta correcta (*); distractores (Gronlund, 1974) )
(**)
1 Ítems de selección múltiple. Ejemplos:
CONDUCIR es a ENCAUSAR como FORZAR es a:

a) Transportar b) Persuadir (*) c) Provocar d) Insistir
¿Cuál de los siguientes tipos de ítems ejemplifica al ítem de tipo suministro?

a) Ítem de opción múltiple.
b) Ítem verdadero-falso.
c) Ítem de correspondencia (o emparejamiento).
d) Ítem de respuesta breve.
Estos ítems tiene ciertas ventajas: requieren un mínimo trabajo de escritura por
parte del testado. La corrección es completamente objetiva y rápida pudiendo
utilizar computadoras para tal fin. Es el ítem de mayor margen de aplicabilidad,
tiene todas las ventajas de la objetividad de la calificación y carece de las
desventajas del verdadero-falso. El hecho de que la respuesta que puede dársele
no tiene que ser necesariamente la única e indiscutible respuesta correcta a la
pregunta, pudiendo ser la mejor de las alternativas que se presentan, permite al
constructor una mayor amplitud de la selección de los conceptos que habrán de
ser evaluados.
Sin embargo, también tiene ciertas desventajas: aparece la conjetura o

adivinación, lo cual hace que este tipo de ítem no deba ser extremadamente difícil,
dado que si un reactivo es muy difícil, las posibilidades de adivinarlo serían para
un sujeto promedio, mayores que las de trabajar buscando razonadamente la
13
respuesta correcta. Este tipo de ítem es más satisfactorio en los elementos fáciles
o de dificultad media (cercanos a p= 0.50), pero incluso en este caso el test tiene
que ser apreciablemente más largo que el de respuesta breve para alcanzar la
misma fiabilidad. Una desventaja notable es que la respuesta correcta se
encuentra entre las opciones; esto sugiere, alguna indicación o pista a los sujetos
que sin ella no hubieran contestado correctamente; por eso es importante que las
opciones incorrectas (distractores) sean adecuadas con visos de posibilidad
(distractores plausibles), de modo que ninguna pueda ser eliminada a priori por un
sujeto inteligente, y que a la vez sean indiscutiblemente incorrectas debiendo
presentar igual atractivo (“jale”) para un sujeto que no tenga conocimiento de la
respuesta correcta.
Este tipo de ítem debe tener de cuatro a cinco opciones como mínimo. Un
procedimiento para obtener distractores plausibles es ensayar los ítems en un
formato de respuesta breve. Ejemplo: 2 4 6 8 ? Los sujetos darán sus
respuestas y luego el psicólogo escogerá entre ellas a los distractores. Este
procedimiento es particularmente útil en los tests de analogías, razonamiento
aritmético, razonamiento matemático, series, etc, pero no aconsejable en otros
tipos de tests. En los tests de razonamiento matemático y series para la
búsqueda de buenos distractores es mejor que en el pretest se incluya en cada
reactivo una alternativa más (por ejemplo, incluir seis distractores en vez de los
cinco que se desea tenga cada ítem), y luego del análisis de los ítems y de
distractores seleccionar los más convenientes.
2 ítems de emparejamiento o correspondencia. Este tipo de ítems combina la

objetividad en la corrección de los ítems de selección múltiple y la fiabilidad alta de
los ítems de respuesta breve. Algunas fallas comunes en su elaboración son las
siguientes: que las dos columnas que lo conforman tengan el mismo número de
elementos o reactivos, debiendo tener números distintos; el incluir demasiados
estímulos en las columnas, causando fatiga en los sujetos.
Veamos el siguiente ejemplo de este tipo de ítem: (Gronlund, 1974)
Instrucciones: La columna A es una lista de características de los ítems objetivos.

Sobre la línea a la izquierda de cada enunciado escriba la letra del ítem de la
columna B que se ajusta mejor al enunciado. Cada respuesta de la columna B se
puede usar una vez, más de una vez, o no usarse.
COLUMNA 1 COLUMNA 2
(___) 1. El mejor para medir habilidades para A. Ítems de correspondencia o
calcular empareja-miento
(___) 2. El menos útil para el diagnóstico
B. Ítemes de opción múltiple
educativo
(___) 3. Mide la mayor variedad de C. Ítemes de verdadero-falso
14
resultados del aprendizaje

(___) 4. El más difícil de calificar
D. Ítemes de respuesta breve
objetivamente
(___) 5. Mide el aprendizaje a nivel de
memorización
3 Ítems de verdadero-falso. Este tipo de ítem no es otra cosa que una oración
expositiva que el sujeto debe juzgar como verdadera (V) (cierta (C) o falsa (F). Es
el más conocido y el menos recomendado en la construcción de tests. Su
desventaja es que tiene un 50% de probabilidad de ser acertado por azar, dado
que tiene solamente dos alternativas. Evalúa solamente memoria, conduciendo a
limitar la prueba a datos concretos. Se utiliza algunas veces en los tests de
rendimiento o escolásticos pero nunca en los tests de aptitud.
Ejemplo: Un ítem de tipo de suministro es el de verdadero-falso V F
3) ¿Cuántos ítems serán necesarios? La determinación del número de ítems

que tendrá el test requiere previamente de tener una respuesta a las siguientes
preguntas:¿El test será de lápiz y papel o se requerirá de algún tipo de aparato u
otros materiales? ¿Cuál será el formato del ítem? ¿el test tendrá un tiempo límite?
¿será un test de velocidad o un test de poder? ¿el test será aplicado
individualmente, colectivamente o será autoadministrado? ¿cuál es el propósito del
test?
En los test de respuesta máxima (aptitudes, habilidades, conocimientos) basados

en la Teoría Clásica de los Test (TCT) el grado de dificultad de los ítems debe ser
el conveniente para el logro de una distribución normal de las puntuaciones del
test (grosso modo: ítems fáciles, medios, difíciles); salvo en los test de velocidad,
en los que el grado de dificultad es bajo, pues el tiempo de ejecución es el que va
a permitir la discriminación entre los sujetos. En los tests de respuesta típica o de
personalidad no tiene sentido el concepto de grado de dificultad. Por otro lado, en
ambos tipos de tests los ítems deben poseer adecuados índices de
homogeneidad y de discriminación.
FASE III. REDACCIÓN Y REVISIÓN DE LOS ÍTEMS
La redacción de los ítems es para muchos constructores de test un arte, pero la

práctica intensa contribuye en mucho a aprender a redactar buenos reactivos,
congruentes con el constructo de interés y con las especificaciones técnicas
previstas tales como grado de dificultad, dificultad semántica, pertinencia.
Ejemplos de ítems mal redactados son los siguientes:
15
a) Ítems de test de respuesta máxima de aptitud y rendimiento.

Un ítem que tiende a engañar al testado:
Un metro es igual a
(A) 30 pulgadas
(B) 36 pulgadas
(C) 39 pulgadas (*)
(D) Ninguna de las anteriores
La respuesta que más se acerca a la correcta de 39.37
pulgadas es la C: 39 pulgadas. La persona que la escoge pensando que se busca
un número redondo ya que todas las alternativas son números redondos sale
engañado. (Cirino, 1984).
Un ítem cuya respuesta correcta dependa de la respuesta a otro anterior:
Ejemplo A:
Luis vendió una camioneta usada en $. 2000. De ese dinero

pagó un 5% de comisión a un amigo que le ayudó a venderlo. ¿Qué cantidad neta
le produjo la venta?
(A) $. 1500
(B) $. 1550
(C) $. 1900 (*)
(D) $. 1995
Ejemplo B (Erróneo)
Si el dinero neto que recibió representa el 80% del valor original
de la camioneta, ¿cuánto le costó la camioneta?
En este caso si el examinado contesta erróneamente al primer

reactivo, se le penaliza dos veces porque también resolverá erróneamente el
segundo ítem. (Cirino, 1984 ).
Un ítem cuyo pie, tronco o premisa tiene un determinante específico,

vale decir un señalador o pista para hallar una respuesta.
Ejemplo C.
El multiplicador es un término utilizado en:
(A) la multiplicación.
(B) la división.
16
(C) la suma.
(D) la sustracción (Adkins, 1947, citado en Anstey, 1976,
pág. 83).
Un ítem en el que el pie, tronco o premisa no contiene toda la

información necesaria para responder a la pregunta.
Ejemplo D. (Erróneo).
Una oficinista archiva un promedio de 30 tarjetas por hora.

¿Cuántas archivará en una semana?
(A) 1440 (*)
(B) 1200
(C) 900
(D) 240
Ejemplo D. (Mejor)
Una oficinista archiva un promedio de 30 tarjetas por hora.
¿Cuántas archivará en una semana si trabaja cuarenta horas semanales?
(A) 1440 (*)
(B) 1200
(C) 900
(D) 240 (Cirino, 1984 ).
b) Ítems de test de respuesta típica

Un problema principal en la elaboración de tests, principalmente en los
tests de personalidad, es la elección y redacción de los ítems. Los ítems deben
tener la misma significación psicológica en los diferentes medios culturales en los
que se va a aplicar el test.
Ejemplo A.
Un ítem de una escala de actitudes tipo Likert que se refiere a dos
objetos.
“La matemática es una materia desagradable e inútil” (Erróneo)
(A) Totalmente de acuerdo (B) De acuerdo (C) Indeciso (D) En
desacuerdo (E) totalmente en desacuerdo
“La matemática es una materia desagradable” (Mejor)
(A) Totalmente de acuerdo (B) De acuerdo (C) Indeciso (D) En
desacuerdo (E) totalmente en desacuerdo
Ejemplo B.
Una frase negativa como contenido de un Inventario de Personalidad
(MMPI-1, ítem 174).
“Nunca me he desmayado” (C) (F)
17
Si algún sujeto jamás se ha desmayado, el debe responder

afirmativamente (“cierto”) a esta cuestión; pero es corriente
comprobar que muchos sujetos tienden a responder a esta frase, así
como a otras frases negativas, negativamente (“falso”), o sea: “NO,
yo jamás me he desmayado” en vez de decir: “SI, yo jamás me he
desmayado”. (Higueras, 1975).
En referencia al grado de dificultad (concepto que no tiene sentido en los tests de

respuesta típica) la elaboración de los reactivos en los tests de rendimiento y de
aptitud basados en la norma debe realizarse de manera tal que se favorezca la
posibilidad de una distribución normal (campana de Gauss) de las puntuaciones
del test; en este sentido, es fundamental elaborar ítems que a priori se
distribuyan en determinadas categorías de dificultad. En la tabla siguiente se
presentan cinco categorías de dificultad y en porcentaje el número de ítems por
categoría que deben ser elaborados. El índice de dificultad definitivo del ítem se
establecerá en la fase Análisis de los ítems.
Estimación a priori del grado de dificultad de los ítems
Grado de dificultad a priori Límites aproximados de los

(Pretest) (antes de realizar el No. aproximado índices de dificultad (después de
análisis de los ítemes) realizado el análisis de los ítems.)
(MF) Muy fáciles 10% De 0.75 a 0.95
( F ) Fáciles 20% De 0.55 a 0.74
( M ) Medios 40% De 0.45 a 0.54
( D ) Difíciles 20% De 0.25 a 0.44
(MD) Muy difíciles 10% De 0.05 a 0.24
(Yela, citado en Cerdá, 1984: 143); tabla con ligeras modificaciones en los encabezados).
Los ítems redactados deben ser sometidos al escrutinio cualitativo de un grupo de

expertos que los evaluarán en cuanto a su correspondencia con la dimensión o
constructo, la calidad de la redacción, la calidad de los distractores, las
puntuaciones asignadas a los reactivos. Los jueces a través del juicio que emiten
están realizando la validación de contenido del test, aspecto que es
extremadamente importante, sobre todo en los test de rendimiento.
FASE IV. ELABORACION DEL PRETEST O PRUEBA PILOTO.
En los test que se presentan por escrito, las instrucciones de administración

deben elaborarse en un lenguaje claro, preciso y sencillo. Sea en los tests de
respuesta máxima o de respuesta típica se debe incluir dos o tres ejemplos para
que el sujeto se familiarice con la tarea que va a realizar y la manera en que va a
registrar su respuesta, sea en el mismo cuadernillo o en una hoja de respuesta
anexa. En el caso de los test de respuesta máxima los ejemplos deben ser uno
fácil y otro de regular dificultad, las respuestas a los ejemplos deben ser
18
explicadas. En los test de respuesta típica es conveniente incluir al final un párrafo

que informe que “no hay respuestas buenas malas ni buenas porque cada quien
tiene el derecho de tener su propio punto de vista ante las situaciones planteadas”.
En las instrucciones de los test de respuesta máxima es conveniente escribir el

tiempo del que dispondrá el sujeto para resolver el test. En los de respuesta típica
puede indicarse el tiempo aproximado en el que habitualmente la mayoría de
personas responde el test.
En los test de respuesta máxima que tengan un formato de ítem de opción

múltiple, el lugar o posición que ocupará la respuesta correcta (p.e,. A,B,C,D o
E,…) se determinará aleatoriamente (p.e. utilizando un dado). Asimismo, se
cuidará que esta respuesta aparezca –en la medida que fuera posible - el mismo
número de veces en cualquiera de las opciones de respuesta.
Se volverá a revisar los ítems con el fin de evitar cualquier falla en su redacción
(error tipográfico, acentuación, ortografía, nitidez de las figuras, etc.).
En los test de respuesta máxima, se asignará a cada ítem un grado de dificultad

tentativo (Muy fácil, fácil, medio, difícil, muy difícil) (véase la fase III) y se les
distribuirá empezando por los “Muy fácil”, numerándolos después correlativamente
según el número de ítems que tendrá el pretest (generalmente el doble o triple del
que se ha establecido como el número final).
Es conveniente escribir en letras mayúsculas las palabras importantes, sea en el

enunciado del ítem o en las instrucciones.
En los test de respuesta máxima, escrito el pie, enunciado, premisa o tronco, es
conveniente escribir las opciones de respuesta en columna debajo del enunciado.
Por otro lado, los reactivos no deben separarse al terminar la hoja, es decir, no
debe escribirse una parte del ítem en una página y la otra parte en la siguiente.
Sea un test de respuesta máxima o de respuesta típica, al finalizar cada hoja es

conveniente escribir una frase como la siguiente “No se detenga. Pasa a la
siguiente página”, o colocar un signo gráfico (flecha, etc.) equivalente.
Al finalizar el test, si este es de respuesta típica es conveniente escribir lo
siguiente: “Por favor, asegúrese de de haber respondido a todas las preguntas y
haber indicado sus respuestas en la Hoja de Respuestas (si la hubiese). Gracias
por su colaboración”. En los test de respuesta máxima puede escribirse lo
siguiente: “El tiempo de resolución ha terminado. Asegúrese de haber respondido
en la Hoja de respuestas (si la hubiese). Gracias por su colaboración.”
Si se ha considerado el uso de una Hoja de Respuestas, esta debe ser diseñada,

conteniendo una sección de datos de filiación (apellido y nombres, edad, sexo,
fecha de la aplicación, u otro dato que el psicólogo/a considere relevante para
sus propósitos. En la segunda sección, se colocarán en columna tantos espacios
numerados como ítems contiene el pretest, seguidos por las letras – en
mayúsculas - que indican las opciones de respuesta; por ejemplo:
19
1. A B C D E 26. A B C D E
2. A B C D E 27. A B C D E
10. A B C D E 50. A B C D E
Al final de cada columna es conveniente ubicar un recuadro para escribir la

puntuación que obtenga el sujeto.
Se elaborarán las instrucciones para la administración y calificación del pretest

(condiciones de administración -rapport, ambiente físico, tiempo, material
necesario - puntos por cada acierto, etc.).
El pretest en su conjunto debe ser diseñado de manera tal que su presentación

sea atractiva para el sujeto.
Concluida la elaboración, es muy conveniente administrar el pretest a un

pequeño grupo (unos 10 sujetos como máximo) de un buen nivel intelectual,
pidiéndoles que realicen todas las observaciones que estimen conveniente sobre
la calidad de las instrucciones y ejemplos (claridad, suficiencia, …) y sobre lo
ítems (si son entendibles o no) y sobre las instrucciones (si son claras y
comprensibles). La finalidad es identificar ítems criticables o acerca de los que
hay desacuerdo en la respuesta correcta, y también mejorar las instrucciones.
Realizados por el psicólogo/a los reajustes pertinentes, se redactara y diseñará la
versión final del pretest.
FASE V. APLICACIÓN DEL PRETEST O PRUEBA PILOTO
Tomada la decisión de la forma de administración del pretest: individual, colectiva,

de forma oral, mediante computadora, etc.., se selecciona una muestra de sujetos
de la población a la cual está destinado el test. Por ejemplo, si el test está
destinado a medir capacidades en niños del nivel de educación inicial, se definirá
la población –podría ser “niños del nivel inicial de 5 años de edad de instituciones
educativas estatales y privadas de Lima metropolitana”-, y luego se extraerá una
muestra de la población definida. Puede recurrirse a técnicas de muestreo
probabilísticas o no probabilísticas, dependiendo de los propósitos del
psicólogo/a. Si se desea que mediante las puntuaciones del test se puedan
efectuar inferencias para la población de niños de esa edad de Lima
metropolitana, entonces el muestreo tendrá que ser probabilístico en una de sus
modalidades que se estime más conveniente: simple, sistemático, estratificado,
por conglomerados.
20
Ejemplo A.
“El tamaño de la muestra utilizada para la construcción y estandarización del

cuestionario de SRL fue calculado procediendo como si la población fuera infinita
(en una investigación fáctica significa una población muy grande) y que el
muestreo es sin reemplazamiento. Desde este punto de vista, es lícito suponer
que la determinación del tamaño de la muestra bajo estas condiciones
sobreestimará el número necesario de sujetos, lo cual evidentemente no perjudica
al estudio sino que le da mayor precisión. (Sierra Bravo, 1994). En este sentido, de
acuerdo al tamaño de la población (264 010), el número de alumnos que compone
la muestra fue calculado para estimar los parámetros poblacionales con un nivel
de confianza del 97.5% y un error muestral de ±4%, utilizando la siguiente fórmula
(Sierra Bravo, 1994).
Donde:
N = total de la población
Za2 = 2.242 (la seguridad es del 97.5%)
P = proporción esperada (en este caso 5% = 0.05), con lo que se
maximiza el tamaño muestral).
q = 1 – p (en este caso 1-0.05 = 0.95)
d = precisión (en este caso deseamos un 4%)
El tamaño de la muestra así establecido es de 782 sujetos. A
continuación, el tamaño de esta muestra fue estratificado por afijación uniforme –
es decir, aquella en la que “el tamaño de la muestra es igual en cada estrato,
independientemente del estrato de la población” (Alarcón, 1991, p. 258)–;
atendiendo a los estratos USES, sexo, tipo de gestión educativa y grado de
estudios, de modo que represente a la población de estudio: “Estudiantes de
ambos sexos del quinto y sexto grado de primaria de menores, que siguen
estudios en los colegios de gestión estatal y no estatal en las siete (07) Unidades
de Servicios Educativos (USES) en las que está dividida Lima Metropolitana y que,
administrativamente, forman parte de la circunscripción de la Dirección de
Educación de Lima.” (Aliaga, 2003).
Ejemplo B:
“Para determinar las características técnicas de la Escala, se realizó una
aplicación piloto a una muestra intencionada (por accesibilidad) de 41 alumnos de
primer ciclo básico, de ambos sexos (19 mujeres y 22 hombres) y de dos niveles
socioeconómicos (bajo y medio alto) de la ciudad de Concepción. El instrumento
de carácter dicotómico, debía ser respondido por el profesor. Se utilizó un grupo
21
de 16 profesores, cada uno de los cuáles debía evaluar a 3 o 4 alumnos de su

curso seleccionados previamente al azar por los investigadores”.
“A partir de los resultados obtenidos del análisis de la aplicación a la muestra

piloto, se realizaron las siguientes modificaciones al instrumento:
1) Agregar 6 nuevos reactivos con el objeto de reemplazar aquellos que en la
aplicación piloto mostraron una baja correlación ítem-test.
2) Transformar la modalidad de respuesta dicotómica de la Escala, por una
con cuatro posibilidades: nunca/a veces/ generalmente/ siempre. (Esto por
dos motivos principales: sugerencia de los profesores y dificultad para
realizar un análisis factorial confiable con una escala de este tipo).
La Escala definitiva quedó constituida por 30 ítems, cinco para cada dimensión, y
fue aplicada a una muestra probabilística de 321 niños de primer ciclo básico, de
ambos sexos (162 varones y 159 mujeres) y de dos niveles socioeconómicos (…)”
(Moore y Soto, 1999).
Seleccionada la muestra se le administrará el pretest. Esta actividad debe

hacerse en condiciones similares a las decididas para el test definitivo, adoptando
todas las precauciones y normas recomendadas para su mejor realización, pues
hay una amplia diversidad de factores relacionados con la aplicación del test que
pueden afectar a las puntuaciones; en efecto, los resultados pueden variar
sistemáticamente en función de lo que se ha llamado “variables del ambiente, de
la situación de examen y del examinador”. Por ejemplo, las personas perturbadas
e inseguras de cualquier edad suelen resultar más afectadas por esos factores
que las personas normales. En consecuencia, tanto si la administración será
individual o grupal debe cuidarse que el lugar donde se realice la experiencia
sea confortable, tenga buena ventilación, luminosidad, esté libre de ruidos y los
asientos estén colocado de tal manera que se evite las consultas entre los
examinados. Por otro lado, en el acto de administración el examinador no trata
con una cosa sino con una persona o grupo de personas con las que establece
una relación de variados matices socioemocionales, donde se encuentran dos
personalidades, la del examinador y la del testado, que “vivenciaran” de modo
diferente tal relación.
En efecto, la administración de un test supone una compleja relación de tipo

socioemocional en la que la actitud del examinador puede hacer que un paciente
hospitalizado o un adolescente se preste o no a realizar la prueba (no es lo mismo
una actitud “natural” y cálida” que una manera “fría, rígida y altanera” de parte del
examinador). El examinador debe hacer que la relación con el sujeto o sujetos
sea cálida y positiva para una adecuada medición. Él termino RAPORT se refiere
al esfuerzo del examinador por despertar el interés del sujeto, obtener su
cooperación y asegurar que sigue las instrucciones que se la dan. En los tests de
rendimiento máximo, las instrucciones exigen una concentración cuidadosa en la
tarea enmendada y el máximo esfuerzo del sujeto para actuar bien. En los tests de
respuesta típica, como los cuestionarios e inventarios de personalidad, se requiere
que las respuestas a las preguntas sobre la conducta habitual sean francas y
22
honestas. De otro lado, en ciertos tests proyectivos, se exige una relación

completa de las asociaciones que los estímulos evocan, sin ninguna clase de
censura o modificación del contenido. En todos estos casos, el psicólogo debe
persuadir sutilmente al sujeto para que siga las instrucciones lo más plena y
escrupulosamente que pueda, además se debe convencer al sujeto de que cada
respuesta que ofrezca es importante y garantizarle la mayor discreción
respecto a los datos ofrecidos.(Raport adecuado).
Las técnicas específicas para el establecimiento del raport varían según la

naturaleza del test y la clase de sujetos a quienes se aplique:
(1) Establecimiento del raport en niños en edad preescolar. Los factores

principales que deben considerarse son: timidez con los extraños, la distracción y
el negativismo. Los modales amistosos, animadores y tranquilizadores por parte
del examinador (antes de aplicar el reactivo) ayuda al niño adquirir seguridad. El
niño tímido y vergonzoso necesita ciertos tiempos breves, y las tareas a realizar
deben ser variadas e intrínsecamente interesantes para el niño.Se ha de presentar
el test como un juego y se procurará despertar su curiosidad antes de introducir
cada nueva tarea.
En este nivel de edad se necesita cierta flexibilidad de procedimiento a

causa de las posibilidades negativas, perdida de interés y otras manifestaciones
de negativismo.
(2) Establecimiento del raport en niños en edad escolar. Los niños de los
primeros grados presentan muchos problemas idénticos a los de los niños
preescolares. El atractivo del sujeto sigue siendo el medio más eficaz para
aumentar su interés por el test. Los niños de esta edad pueden motivarse
mediante una llamada a su espíritu de competencia y a su deseo de quedar bien
con el test. En este sentido, hay que tener mucho cuidado cuando se aplica el test
a los niños de zonas rurales. En ellos no podemos presuponer que estarán
motivados para sobresalir en los ítems en la misma medida que los niños del
grupo normativo, que en el Perú proceden generalmente de las zonas urbanas.
Es conveniente, dado que cada test supone una amenaza implícita al

prestigio del individuo, darle seguridad, explicando que no se espera que nadie
finalice correctamente todos los ítems, de otro modo, el individuo podría
experimentar una creciente sensación de fracaso al comprobar que no es capaz
de terminar el test dentro del tiempo permitido. Es deseable también eliminar al
factor sorpresa puesto que lo inesperado y desconoció produce probablemente
ansiedad. Es bueno avisar con algunos días de anticipación la administración del
test.
(3) Establecimiento del raport en adultos. Presenta varios problemas

adicionales a la de los jóvenes en edad escolar. Al contrario que el colegial, el
adulto no se siente inclinado a trabajar de firme en una tarea meramente por que
se le ha asignado. Por tanto, se hace necesario convencerle de la finalidad del
23
test. Generalmente se asegura la cooperación del sujeto convenciéndole de que

redunda en su propio interés el conseguir una puntuación válida, es decir una
puntuación que indique lo que es capaz de hacer, y no la sobrestimación o
subestimación de sus capacidades. Esta técnica suele ser eficaz no sólo en la
motivación del sujeto para que trate de hacer lo mejor posible en el test de aptitud,
sino también para reducir los fraudes y animarle a que se expresa francamente en
los inventarios de personalidad (Anastasi y Urbina, 1998).
La uniformidad de las condiciones en el establecimiento de raport, como en los

demás pasos de la administración del pretest o test (por ejemplo, tiempo
concedido) es esencial para comparar los resultados de los sujetos y lograr una
buena medición. Se afectará esta situación si, por ejemplo, un niño que resuelve
correctamente un reactivo recibe una alabanza que no se estipula en las
instrucciones. Su resultado no será comparable con las respuestas de niños que
no recibieron esta alabanza. Al interpretar la respuesta, hay que anotar y tener en
cuenta cualquier desviación inevitable de las condiciones estandarizadas en un
test concreto.
La administración de algunos pretest (o de algunos tests) puede ser hecha por

personas que no sean psicólogos, de preferencia por estudiantes avanzados de
psicología, siempre y cuando estén adecuadamente entrenados para obtener la
colaboración del sujeto o de los sujetos y saber resolver sus dudas.
Efectuada la aplicación del pretest en la muestra de acuerdo a las instrucciones

de administración, se procederá a calificar los protocolos de respuesta según las
instrucciones elaboradas para tal fin, aunque en esta fase podrían introducirse
algunos cambios en la cuantificación de las respuestas. Asimismo, podría optarse
por hacer una “corrección” por la acción de la conjetura o adivinanza en las
respuestas a los ítems de los test de respuesta máxima
Efectuada la calificación se elabora la base o matriz de datos, preferentemente en

el programa Excel, tarea que exige un elevado control de calidad; matriz de datos
que será utilizada para el análisis psicométrico de los ítems y del pretst en su
conjunto según la modelización de la teoría de los test que se esta empleando
(Teoría Clásica –TCT- o Teoría de Respuesta al ítem -TRI).
24
FASE VI. ANÁLISIS CUANTITATIVO O ANALISIS DE LOS ITEMS.
Antes de desarrollar este tópico anotamos que el procedimiento para analizar los
ítems que seguiremos se ajusta a los lineamientos básicos de la TCT y no a los de
la TRI.
ANALISIS DE LOS ITEMS
CONCEPTO
El análisis de los ítems se efectúa atendiendo a procedimientos estadísticos que tienen por
objeto conocer el comportamiento de cada uno de los ítems o unidades básicas del test y
el de su conjunto. La utilización de recursos estadísticos y la interpretación de esa
información permiten asegurar la validez, confiabilidad, eficiencia predictiva, etc. del test
en construcción o de adaptación. Esto es así porque “la principal finalidad del análisis de
ítems es obtener información objetiva y cuantitativa sobre los elementos de un test. Esta
información puede combinarse con información subjetiva y utilizarla para desarrollar y
mejorar el test mediante:
a) Identificación de los defectos de los elementos y corrección de los mismos,

cuando sea practicable.
b) En el caso de los test de respuesta máxima, la “Selección de los mejores

elementos y reagrupación de los mismos en un orden de dificultad más
adecuado” (Anstey, 1976, pág. 119).
El análisis de ítems no implica un procedimiento mecánico pero impone un riguroso

respeto a un conjunto de normas cuya violación perjudica la validez de los resultados
obtenidos con el análisis estadístico. (Tavella, 1978).
Es importante tener en cuenta que los tests que han sido construidos en otros
países deben ser ADAPTADOS (lingüísticamente, pictográficamente, etc.) y luego
sometidos a un ANÁLISIS DE ÍTEMS para averiguar sus cualidades psicométricas en
nuestras poblaciones. En este caso, a la par de realizar el análisis, el psicólogo/a debe
obtener la información más amplia posible acerca del test consultando artículos científicos,
25
manuales, monografías técnicas, etc.; que le permitirá orientar productivamente la

adaptación y el análisis.
PROCEDIMIENTO
Ejemplo: una especialista ha construido una escala de actitudes hacia la matemática
compuesta de 25 reactivos politomicos (varias opciones de respuesta) que se puntúan en
una escala del 1 al 5 según el grado de acuerdo del sujeto con sus contenidos. Administra
adecuadamente la escala a 400 estudiantes varones y mujeres que cursan el quinto año de
secundaria en instituciones educativas estatales y privadas de Lima Metropolitana y a
continuación realiza la calificación de los reactivos. Como primer paso de la parte
estadística del procedimiento de construcción de la escala desea realizar un análisis de los
ítems empleando el paquete estadístico SPSS. (la base de datos en Excel se encuentra en
archivo adjunto).
El paquete SPSS no ha sido elaborado ex profeso para analizar ítems (hay programas que
si lo han sido para este tipo de análisis, pero actualmente no se comercializan en el país),
sin embargo, tiene rutinas que hacen posible un análisis básico de los elementos.
A continuación para colaborar con la especialista desarrollaremos un procedimiento básico

de análisis de los ítems empleando el paquete estadístico SPSS.
1. Elaborar la MATRIZ DE DATOS en Excel (aunque también puede hacerlo

directamente en el SPSS). La psicóloga elabora una base de datos con las puntuaciones que
los sujetos han logrado en los 25 reactivos, también incluye las variables sexo (varón=1;
mujer =2), la puntuación total lograda en la escala por el sujeto y la puntuación promedio
en matemática de cada uno de los alumnos. En total, las variables son 28 (1 corresponde al
sexo, 25 a los ítems; 1 a la puntuación total, y 1 al rendimiento académico promedio-RA).
En las columnas se ubican a los ítems y las otras variables; en las filas se ubican a los
sujetos. Una reproducción reducida de la base es la siguiente:
BASE DE DE DATOS (Excel, reproducción reducida)
SUJETOS Sexo A1 A2 A3 A4 …. A23 A24 A25 Total RA

1 1 5 3 2 2 … 5 4 3 87 11
2 1 5 4 4 2 … 4 4 4 89 14
3 1 4 4 4 1 … 3 4 4 86 14
4 1 5 3 4 3 … 4 3 4 94 13
….. ….. …. …. ….. ….. …. …. …. …. …. …
201 2 4 4 4 2 … 5 1 4 90 14
202 2 5 2 5 4 … 3 4 3 92 16
…. … … … … … … … … … … …
399 2 4 4 4 4 … 4 3 4 91 14
26
400 2 4 4 4 3 … 4 3 3 87 12
2. Trasladar (“jalar”) la MATRIZ DE DATOS hecha en Excel al programa SPSS. La

ruta es la siguiente: Archivo – Guardar Como – Libro de excel 97-2003 - Guardar (donde
Ud. desee, por ejemplo, en el escritorio) – Cerrar Excel. Abrir SPSS – Archivo - Abrir –
Datos – Ventana abrir datos – Buscar en… (anotar donde Ud., guardo el archivo, p.e.
escritorio) – Archivo de tipo (cliquear en “flecha” ubicada al costado y buscar al final
“Todos los archivos” – Buscar el nombre de su archivo entre todos los que pueda haber, al
ubicarlo cliquee y el archivo se trasladara automáticamente a… – Nombre de archivo –
Abrir - Ventana “Apertura de datos de Excel” comprobar aquí que esta activado “Leer
nombre de variable de la primera fila de datos” – Aceptar (aparece la base de datos en
SPSS).
Al aparecer la Base de datos se encuentra activado en la parte inferior “Vista de datos”

(siempre será así para indicar la Base de Datos). Al costado se encuentra el botón “Vista de
variables”. Al cliquear allí aparecen las variables y lo siguiente: Nombre (variables), Tipo
(comprobar que diga numérico para el caso del análisis de ítems), Anchura, Decimales,
Etiquetas (escribir aquí el contenido de los 25 ítems, primero el número, un punto, y luego
el contenido del ítem), Valores, Perdidos, Columnas, Alineación, Medida (en el caso del
análisis de ítems debe decir “escala”), Rol (debe decir “entrada”).
En los tests de respuesta máxima los principales estadísticos (no los únicos por cierto) que deben
ser calculados son la media aritmética del ítem, la desviación estándar del ítem, la asimetría y la
curtosis del ítem, el índice de dificultad, el índice de homogeneidad, el índice de confiabilidad y
el índice de validez (si se dispone de un criterio externo), asimismo se realiza un análisis de las
opciones de respuestas o de distractores. En los tests de respuesta típica, con excepción del
índice de dificultad, se pueden calcular los mismos estadísticos, pero los básicos son la media
aritmética, la desviación estándar y el índice de Homogeneidad (IH).
El Índice de Homogeneidad (IH) (rit), desde un punto de vista conceptual, informa el grado de
semejanza, de relación entre las respuestas a un determinado ítem y el resto de los ítems de la
escala. Es decir, informa el grado en que dicho ítem está midiendo lo mismo que la escala global.
Desde un punto de vista operacional, la homogeneidad entre cada ítem y el conjunto de los
demás se expresa en forma de correlación entre cada ítem y el puntaje total (la suma de todos
los ítems). Su obtención se realiza correlacionando las puntuaciones obtenidas por los sujetos
en el ítem con la puntuación total o global de la escala de actitudes. Se empleo el coeficiente de
correlación de Pearson cuya valor resultante se corrigió eliminando el efecto del propio ítem
sobre el puntaje total (correlación ítem-total corregido o ítem remainder). Si el ítem analizado
mide lo mismo que el resto de ítems el IH será elevado; si, por el contrario, no mide lo mismo que
los demás, el IH tendrá un valor bajo o cercano a 0. En general, no se admiten ítems con IH
negativos o inferiores a 0,20 (Ary, Jacobs y Razavieh, 1999), pues estos ítems, denominados
indiferenciadores, aportan escasa o ninguna información sobre el rasgo, característica o
dimensión que se está midiendo, por lo que no tiene sentido alguno el combinarlos con el resto
de ítems para obtener una puntuación total (McIver y Carmines, 1981). Likert señaló algunas de
las razones por las que un ítem puede resultar indiferenciador: Puede medir una actitud diferente
a la que miden el resto de ítems; puede ser respondido por casi todos los sujetos de la misma
forma; puede estar redactado de manera que no sea entendido correctamente; puede tratarse
27
de un enunciado de hecho.(Likert, 1932).
3. Calcular el IH y el coeficiente de confiabilidad alfa de crombach. El procedimiento

en el SPSS es el siguiente: Analizar – Escala – Análisis de fiabilidad– (aparece la ventana
análisis de fiabilidad) - Pasar los ítems (NO el puntaje total) al espacio Elementos
empleando el botón identificado con una “flecha”, observe que ya está programado el
coeficiente alfa de consistencia interna. A continuación, cliquee el botón “Estadísticos” -
(aparece la ventana Análisis de fiabilidad: estadísticos) - Active “Descriptivos para:
Elemento, Escala, Escala si se elimina el elemento - Active “Resúmenes: Medias,
Varianzas, Correlaciones – Active: Interelementos: Correlaciones – Cliquee en el botón
Continuar (aparece la ventana “Análisis de fiabilidad” - Aceptar.
Veamos la salida (output) del SPSS:

El Resumen de procesamiento de datos informa la cantidad de sujetos (válidos) en el
análisis, y los sujetos excluidos (por alguna razón que el investigador analizara revisando
la base de datos
Análisis de fiabilidad
Resumen del procesamiento de los casos
N %
Casos Válidos 400 100,0
Excluidosa 0 ,0
Total 400 100,0
a. Eliminación por lista basada en todas las

variables del procedimiento.
Estadísticos de fiabilidad
Alfa de Cronbach
basada en los
Alfa de Cronbach elementos tipificados N de elementos
,858 ,860 25
El coeficiente alfa “puede considerarse como una estimación del límite inferior del
coeficiente de fiabilidad de un test” (Muñiz, 1994:50), pero no hay un acuerdo acerca de
su valor mínimo; para Nunally (1987) este valor sería 0,70. Por su lado, George y Mallery
(1995) presentan una gama de intervalos de valores de alfa para evaluar la fiabilidad: por
debajo de 0,50, fiabilidad inaceptable; entre 0,50 y 0,60, fiabilidad pobre; entre 0,60 y
0,70, fiabilidad de nivel débil; entre 0,70 y 0,80, fiabilidad aceptable; entre 0,80 y 0,90
fiabilidad de un nivel bueno; un valor superior a 0,90, fiabilidad excelente. Utilizando esta
28
gama, el coeficiente alfa de la escala de actitudes hacia la matemática puede ser valorado
de un “nivel bueno”.
Estadísticos de los elementos
Desviación
Media típica N
1. Considero las matemáticas como una materia muy necesaria para mis estudios. 4,2950 ,86883 400
2. La asignatura de matemática me cae bastante mal. 3,5250 1,05933 400
3. Estudiar y trabajar con las matemáticas no me asusta en absoluto. 3,4800 1,11926 400
4. Utilizar las matemáticas es una diversión para mí. 2,9150 1,15590 400
5. La matemática es demasiado teórica para que pueda servirme de algo. 3,8950 1,09863 400
6. Quiero llegar a tener un conocimiento más profundo de las matemáticas. 4,0375 1,09274 400
7. Las matemáticas es una de las asignaturas que más temo. 3,5025 1,18892 400
8. Tengo confianza en mí cuando me enfrento a un problema de matemáticas. 3,5950 ,99924 400
9. Me divierte hablar con otros de matemáticas. 2,8525 1,19763 400
10. Las matemáticas pueden ser útiles para el que decida realizar una carrera de “CIENCIAS” pero no para el resto de 3,4200 1,34653 400
estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis posibilidades de trabajo. 3,8675 1,12165 400
12. Cuando me enfrento a un problema de matemáticas me siento incapaz de pensar con claridad. 3,5675 1,04555 400
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema de matemáticas. 3,3725 1,01554 400
14. Las matemáticas son agradables y estimulantes para mí. 3,1825 1,13905 400
15. Espero tener que utilizar poco las matemáticas en mi vida profesional. 3,0325 1,28669 400
16. Considero que existe otras asignaturas más importantes que la matemática para mi futura profesión. 2,9000 1,28613 400
17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). 3,3950 1,10545 400
18. No me altero cuando tengo que trabajar en problemas de matemáticas. 3,0600 1,15096 400
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las matemáticas. 3,0200 1,24840 400
20. Me provoca una gran satisfacción el llegar a resolver problemas de matemáticas. 3,9150 1,19009 400
21. Para mi futuro profesional la matemática es una de las asignaturas más importante que tengo que estudiar. 3,7050 1,21724 400
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). 3,5150 1,13269 400
23. Si me lo propusieran creo que llegaría a dominar bien las matemáticas. 4,3275 ,90404 400
24. Si tuviera la oportunidad me inscribiría en más cursos de matemáticas de los que son obligatorios. 3,5200 1,20134 400
25. La materia que se imparte en la clase de matemática es muy poco interesante. 3,3900 1,14068 400
Estadísticos de resumen de los elementos
29
N de
Media Mínimo Máximo Rango Máximo/mínimo Varianza
elementos
Medias de los elementos
3,492 2,853 4,328 1,475 1,517 ,168 25
Correlaciones inter-elementos
,197 -,107 ,578 ,685 -5,384 ,016 25
Estadísticos total-elemento
Correlac
Media de Alfa de
Varianza de ión Correla
la escala si Cronbach
la escala si se element ción
se elimina si se
elimina el o-total múltiple al
el elimina el
elemento corregid cuadrado
elemento elemento
a
1. Considero las matemáticas como una materia muy necesaria para mis estudios. 82,9925 172,604 ,466 ,322 ,852
2. La asignatura de matemática me cae bastante mal. 83,7625 172,698 ,365 ,288 ,855
3. Estudiar y trabajar con las matemáticas no me asusta en absoluto. 83,8075 171,549 ,382 ,247 ,854
4. Utilizar las matemáticas es una diversión para mí. 84,3725 165,442 ,579 ,471 ,848
5. La matemática es demasiado teórica para que pueda servirme de algo. 83,3925 174,685 ,279 ,195 ,857
6. Quiero llegar a tener un conocimiento más profundo de las matemáticas. 83,2500 170,734 ,422 ,398 ,853
7. Las matemáticas es una de las asignaturas que más temo. 83,7850 167,001 ,507 ,384 ,850
8. Tengo confianza en mí cuando me enfrento a un problema de matemáticas. 83,6925 172,695 ,392 ,232 ,854
9. Me divierte hablar con otros de matemáticas. 84,4350 165,374 ,558 ,442 ,848
10. Las matemáticas pueden ser útiles para el que decida realizar una carrera de “CIENCIAS” pero 83,8675 174,296 ,222 ,192 ,861
no para el resto de estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis posibilidades de trabajo. 83,4200 175,407 ,247 ,213 ,858
12. Cuando me enfrento a un problema de matemáticas me siento incapaz de pensar con claridad. 83,7200 173,365 ,346 ,268 ,855
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema de matemáticas. 83,9150 171,286 ,439 ,301 ,853
14. Las matemáticas son agradables y estimulantes para mí. 84,1050 163,032 ,676 ,583 ,845
15. Espero tener que utilizar poco las matemáticas en mi vida profesional. 84,2550 167,308 ,451 ,321 ,852
16. Considero que existe otras asignaturas más importantes que la matemática para mi futura 84,3875 169,842 ,373 ,276 ,855
profesión.
17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). 83,8925 169,229 ,471 ,419 ,851
18. No me altero cuando tengo que trabajar en problemas de matemáticas. 84,2275 184,066 -,045 ,075 ,868
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las matemáticas. 84,2675 162,462 ,627 ,515 ,846
20. Me provoca una gran satisfacción el llegar a resolver problemas de matemáticas. 83,3725 169,372 ,426 ,286 ,853
21. Para mi futuro profesional la matemática es una de las asignaturas más importante que tengo que 83,5825 167,913 ,463 ,379 ,852
estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). 83,7725 168,236 ,492 ,470 ,851
23. Si me lo propusieran creo que llegaría a dominar bien las matemáticas. 82,9600 174,094 ,381 ,264 ,854
30
24. Si tuviera la oportunidad me inscribiría en más cursos de matemáticas de los que son 83,7675 168,730 ,443 ,353 ,852
obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco interesante. 83,8975 172,709 ,333 ,218 ,856
Estadísticos de la escala
Media Varianza Desviación típica N de elementos
87,2875 183,990 13,56428 25
En la tabla estadístico total-elemento se observa en la columna Correlación

elemento-total corregida que el único ítem que tiene un IH inferior a 0,20 es el
ítem 18 cuyo IH tiene un valor de -,045. Su eliminación haría que el coeficiente
de crombach suba de ,858 a ,868. Se decide eliminarlo; en consecuencia la
psicóloga volverá a realizara todo el proceso (“depuración”) excluyendo a este
ítem.
Los resultados son los siguientes:
Estadísticos de fiabilidad
Alfa de
Cronbach N de elementos
,868 24
Las medias aritméticas y las desviaciones estándares son las mismas que las
de la tabla mostrada más arriba (no hay razón alguna para que estos estadísticos
sean diferentes).
Estadísticos de resumen de los elementos
Máximo N de
Media Mínimo Máximo Rango /mínimo Varianza elementos
Medias de los elementos 3,509 2,853 4,328 1,475 1,517 ,167 24

Correlaciones inter- ,216 -,102 ,578 ,680 -5,639 ,012 24
elementos
Se observa que la media de las correlaciones entre los elementos ha subido

de 0,197 a 0,216. Hay que recordar que la congruencia entre los ítems está
vinculada con el tamaño de la media de estas correlaciones.
31
Estadísticos total-elemento
Correlació Alfa de
Media de la Varianza de n Correlació Cronbach
escala si se la escala si se elemento- n múltiple si se
elimina el elimina el total al elimina el
elemento elemento corregida cuadrado elemento
1. Considero las matemáticas como una materia muy necesaria para mis estudios. 79,93 172,630 ,468 ,322 ,862
2. La asignatura de matemática me cae bastante mal. 80,70 172,841 ,363 ,286 ,864
3. Estudiar y trabajar con las matemáticas no me asusta en absoluto. 80,75 171,462 ,387 ,245 ,864
4. Utilizar las matemáticas es una diversión para mí. 81,31 165,233 ,589 ,469 ,858
5. La matemática es demasiado teórica para que pueda servirme de algo. 80,33 174,603 ,284 ,191 ,867
6. Quiero llegar a tener un conocimiento más profundo de las matemáticas. 80,19 170,595 ,430 ,397 ,863
7. Las matemáticas es una de las asignaturas que más temo. 80,73 166,907 ,513 ,384 ,860
8. Tengo confianza en mí cuando me enfrento a un problema de matemáticas. 80,63 172,799 ,391 ,230 ,864
9. Me divierte hablar con otros de matemáticas. 81,38 165,453 ,558 ,439 ,858
10. Las matemáticas pueden ser útiles para el que decida realizar una carrera de “CIENCIAS” 80,81 174,306 ,224 ,191 ,870
pero no para el resto de estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis posibilidades de trabajo. 80,36 175,414 ,249 ,212 ,868
12. Cuando me enfrento a un problema de matemáticas me siento incapaz de pensar con 80,66 173,227 ,354 ,261 ,865
claridad.
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema de matemáticas. 80,86 171,312 ,441 ,301 ,862
14. Las matemáticas son agradables y estimulantes para mí. 81,05 162,905 ,683 ,581 ,855
15. Espero tener que utilizar poco las matemáticas en mi vida profesional. 81,20 167,335 ,453 ,321 ,862
16. Considero que existe otras asignaturas más importantes que la matemática para mi futura 81,33 170,131 ,366 ,269 ,865
profesión.
17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). 80,83 169,298 ,471 ,418 ,861
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las matemáticas. 81,21 162,496 ,629 ,515 ,856
20. Me provoca una gran satisfacción el llegar a resolver problemas de matemáticas. 80,31 169,499 ,424 ,285 ,863
21. Para mi futuro profesional la matemática es una de las asignaturas más importante que tengo 80,52 167,889 ,466 ,378 ,861
que estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). 80,71 168,301 ,493 ,470 ,861
23. Si me lo propusieran creo que llegaría a dominar bien las matemáticas. 79,90 174,261 ,377 ,260 ,864
24. Si tuviera la oportunidad me inscribiría en más cursos de matemáticas de los que son 80,71 168,578 ,450 ,348 ,862
obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco interesante. 80,84 173,014 ,325 ,214 ,866
32
84,23 184,066 13,567 24
Al comparar la tabla Estadísticos total-elemento con la anterior del mismo título, se

observa que todos los 24 ítems tienen IH superiores a 0,20, además que las
variaciones en el tamaño de estos IH son pequeñas (pero siempre en más, nunca
en menos). Las pequeñas variaciones se deben a que la “eliminación” del ítem ha
sido poco relevante, lo que se refleja en el tamaño del coeficiente alfa (la
“ganancia” en el coeficiente alta ha sido pequeña, solamente de 1 décimo, pero
esto ya era sabido por la psicóloga por los resultados mostrados en la columna
“Alfa de Cronbach si se elimina el elemento” de la primera tabla Estadísticos total-
elemento). Aquí también es de tener presente que la psicóloga tomo la decisión de
“eliminar” cualquier ítem con un IH inferior a 0,20.
En otros casos, las variaciones en los tamaños de los IH pueden ser grandes lo que redunda
en el aumento del tamaño de los coeficientes alfa de crombach.
Por otro lado, la tabla Estadísticos de la escala refleja cambios en la media

aritmética y los otros estadísticos respecto de la primera tabla con el mismo
nombre. Es claro que estos cambios se deben a la eliminación del ítem 18.
Puede decirse que aquí ha concluido el análisis básico de los ítems. A

continuación para comunicar los resultados del análisis, la psicóloga tiene que
elaborar dos tablas básicas pues el Spss no las proporciona directamente. La
primera tabla debe mostrar los estadísticos, la media aritmética y los IH de los
ítems. La elaborara empleando las columnas media y desviación típica de la tabla
“estadísticos de los elementos” y la columna Correlación elemento-total corregida
de la tabla “Estadísticos total-elemento”. La segunda debe mostrar el coeficiente
alfa y otros datos. La elaborara usando los datos de la tabla “Estadísticos de
fiabilidad” y los datos de la tabla “Estadísticos de la escala” ade,ás de otra
información concerniente a la prueba.
Las tablas básicas son las siguientes:
Estadísticos descriptivos e índices de homogeneidad de los ítems
33
Correlación
elemento-
total
Desviación corregida
Media típica (IH)
1. Considero las matemáticas como una materia muy necesaria para mis estudios. 4,30 ,869 ,466
2. La asignatura de matemática me cae bastante mal. 3,53 1,059 ,365
3. Estudiar y trabajar con las matemáticas no me asusta en absoluto. 3,48 1,119 ,382
4. Utilizar las matemáticas es una diversión para mí. 2,92 1,156 ,579
5. La matemática es demasiado teórica para que pueda servirme de algo. 3,90 1,099 ,279
6. Quiero llegar a tener un conocimiento más profundo de las matemáticas. 4,04 1,093 ,422
7. Las matemáticas es una de las asignaturas que más temo. 3,50 1,189 ,507
8. Tengo confianza en mí cuando me enfrento a un problema de matemáticas. 3,60 ,999 ,392
9. Me divierte hablar con otros de matemáticas. 2,85 1,198 ,558
10. Las matemáticas pueden ser útiles para el que decida realizar una carrera de “CIENCIAS” 3,42 1,347 ,222
pero no para el resto de estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis posibilidades de trabajo. 3,87 1,122 ,247
12. Cuando me enfrento a un problema de matemáticas me siento incapaz de pensar con 3,57 1,046 ,346
claridad.
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema de matemáticas. 3,37 1,016 ,439
14. Las matemáticas son agradables y estimulantes para mí. 3,18 1,139 ,676
15. Espero tener que utilizar poco las matemáticas en mi vida profesional. 3,03 1,287 ,451
16. Considero que existe otras asignaturas más importantes que la matemática para mi futura 2,90 1,286 ,373
profesión.
17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). 3,40 1,105 ,471
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las matemáticas. 3,02 1,248 ,627
20. Me provoca una gran satisfacción el llegar a resolver problemas de matemáticas. 3,92 1,190 ,426
21. Para mi futuro profesional la matemática es una de las asignaturas más importante que tengo 3,71 1,217 ,463
que estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). 3,52 1,133 ,492
23. Si me lo propusieran creo que llegaría a dominar bien las matemáticas. 4,33 ,904 ,381
24. Si tuviera la oportunidad me inscribiría en más cursos de matemáticas de los que son 3,52 1,201 ,443
obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco interesante. 3,39 1,141 ,333
Fiabilidad
Total
Media aritmética 84,23
34
Desviación estándar 13,56

Número de ítems 24
Puntaje máximo a 120
lograr
Puntaje mínimo a 24
lograr
Coeficiente alfa 0,868
4) Estimación de la validez de la escala de actitudes. La especialista decide estimar la

validez de constructo analizando la estructura interna de la escala empleando un análisis
factorial exploratorio (validez factorial), es decir quiere determinar cuántos factores o
dimensiones subyacen a los ítems.
El análisis factorial (AF) es una técnica de análisis multivariado (analiza muchas variables de
manera simultánea) creada por el psicólogo inglés Charles Spearman en 1904.
En términos generales, esta técnica se usa para encontrar una o unas pocas dimensiones o
factores latentes, no observables, que subyacen a un amplio conjunto de variables
observables (conductas, ítems), dimensiones o factores latentes que generan las relaciones
que puedan determinarse entre las variables observables.
En términos estadísticos, elaborada una matriz de correlaciones entre un conjunto de
variables observables (p.e. comportamientos, ítems, etc.) aparece un elenco de coeficientes
diferentes entre sí (en cuanto a su sentido, algunos pueden ser positivos, otros negativos; en
cuanto a su tamaño, algunos puede ser grandes, otros pequeños u otros ser de valor 0 o
cercanos a 0). ¿Qué “causa” esta variabilidad, estas diferencias, entre los coeficientes (que, no
olvidemos, son el resultado de la correlación de comportamientos)? Desde el punto de vista
del AF la “causa” son las dimensiones o factores subyacentes a las variables observables
(comportamientos, ítems, etc.), SON variables latentes que no se observan directamente y
que para ser observadas (por lo menos matemáticamente) deben ser extraídas de la matriz de
correlaciones. Existen varias técnicas estadísticas para la extracción de factores, una de ellas
es la de los componentes principales. Esta técnica supone que existen componentes o factores
principales y secundarios para explicar la variabilidad de la tabla de correlaciones. En
términos porcentuales, la variabilidad de toda matriz de correlaciones tiene un valor de los
100%. ¿Qué porcentaje de esta variabilidad explica el factor? La determinación de los
componentes principales se realiza empleando el autovalor (eigen value) del componente.
El autovalor refiere a la capacidad que tiene el factor para explicar la variabilidad de los
coeficientes de la matriz de correlaciones. El autovalor debe ser mayor a 1 para considerarse
que el factor es principal, si el autovalor es inferior a 1 el factor es calificado como
secundario.
Para el efecto realiza un análisis factorial exploratorio para precisar la estructura interna de
la escala, vale decir, cuántos factores subyacen a los ítems, como sabemos los factores son
constructos matemáticos o variables latentes, mientras que los ítems son variables
observables. (véase la lectura EL ANALISIS FACTORIAL).
5). Ejecución del análisis factorial. El procedimiento en el SPSS es el siguiente:

Analizar – Reducción de dimensiones – Factor – (aparece ventana análisis factorial) -
35
Trasladar los ítems (NO el total) al espacio Variables – Cliquear el botón Descriptivos
(aparece ventana Factor Analysis: Descriptivos) – Ya esta activado Solución inicial, no
desactivar - Activar Coeficiente – Niveles de significación – Determinante – KMO y
prueba de esfericidad de Bartlett – Continuar.
Cliquear en el botón Extracción – Aparece ventana Factor Analysis: Extracción – Ya
esta activado Método: Componentes Principales (no desactivar), asimismo, ya esta activado
Extraer Basado en autovalor Autovalores mayores que: 1 (no desactivar) – Continuar.
Cliquear en el botón Rotación – Aparece ventana Factor Analysis: Rotación - Activar
Varimax – Continuar.
Cliquear en el botón Opciones – Aparece ventana Factor Analysis: Opciones – Activar
Suprimir pequeños coeficientes - Valor absoluto bajo (borrar 0,10 y escribir 0,30 o
solamente ,30) – Continuar – Aceptar.
En el visor Resultados de SPSS aparecen las tablas, antes de interpretarlas hay que tener en
cuenta lo siguiente: NO a toda tabla de correlaciones se le puede aplicar el AF. Se debe
comprobar antes de esta aplicación que se están cumpliendo con lo siguiente: a) La tabla
de correlaciones debe tener un Determinante con un valor cercano a 0, pero no 0; b) la
medida de adecuación de muestreo de Kayser – Meyer – Olkin (KMO) debe ser mayor al
valor 0,50 (este índice varía de 0 a 1); c) el test de esfericidad de Barteltt debe tener un
valor Ji cuadrado estadísticamente muy significativo (p<0,0000) (un valor aceptable puede
llegar como máximo al nivel de significación 0,05). Si no se cumplen con estos requisitos,
el resultado del análisis factorial será espureo.
Matriz de correlacionesa
a. Determinante = .001
KMO y prueba de Bartlett

Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,881
Prueba de esfericidad de Chi-cuadrado aproximado 2612,701
Bartlett gl 276
Sig. ,000
Comunalidades
Inicial Extracción
1. Considero las matemáticas como una materia muy necesaria para 1,000 ,544
mis estudios.
2. La asignatura de matemática me cae bastante mal. 1,000 ,641
3. Estudiar y trabajar con las matemáticas no me asusta en absoluto. 1,000 ,499
4. Utilizar las matemáticas es una diversión para mí. 1,000 ,555
5. La matemática es demasiado teórica para que pueda servirme de 1,000 ,620
algo.
6. Quiero llegar a tener un conocimiento más profundo de las 1,000 ,509
matemáticas.
7. Las matemáticas es una de las asignaturas que más temo. 1,000 ,555
8. Tengo confianza en mí cuando me enfrento a un problema de 1,000 ,405
matemáticas.
9. Me divierte hablar con otros de matemáticas. 1,000 ,548
10. Las matemáticas pueden ser útiles para el que decida realizar una 1,000 ,597
carrera de “CIENCIAS” pero no para el resto de estudiante.
36
11. Tener buenos conocimientos de matemáticas incrementara mis 1,000 ,692

posibilidades de trabajo.
12. Cuando me enfrento a un problema de matemáticas me siento 1,000 ,410
incapaz de pensar con claridad.
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema 1,000 ,493
de matemáticas.
14. Las matemáticas son agradables y estimulantes para mí. 1,000 ,666
15. Espero tener que utilizar poco las matemáticas en mi vida 1,000 ,525
profesional.
16. Considero que existe otras asignaturas más importantes que la 1,000 ,597
matemática para mi futura profesión.
17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). 1,000 ,514
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las 1,000 ,603
matemáticas.
20. Me provoca una gran satisfacción el llegar a resolver problemas de 1,000 ,522
matemáticas.
21. Para mi futuro profesional la matemática es una de las asignaturas más 1,000 ,544
importante que tengo que estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). 1,000 ,576
23. Si me lo propusieran creo que llegaría a dominar bien las matemáticas. 1,000 ,443
24. Si tuviera la oportunidad me inscribiría en más cursos de matemáticas 1,000 ,501
de los que son obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco 1,000 ,558
interesante.
Método de extracción: Análisis de Componentes principales.
Varianza total explicada
Compone Sumas de las saturaciones al Suma de las saturaciones al

nte Autovalores iniciales cuadrado de la extracción cuadrado de la rotación
%
% de la acumulad % de la % % de la %
Total varianza o Total varianza acumulado Total varianza acumulado
1 6,266 26,110 26,110 6,266 26,110 26,110 3,440 14,333 14,333

2 2,030 8,460 34,569 2,030 8,460 34,569 2,776 11,568 25,902
3 1,431 5,962 40,531 1,431 5,962 40,531 2,412 10,052 35,953
4 1,241 5,172 45,703 1,241 5,172 45,703 1,640 6,831 42,785
5 1,102 4,590 50,293 1,102 4,590 50,293 1,426 5,942 48,726
6 1,045 4,356 54,649 1,045 4,356 54,649 1,421 5,923 54,649
7 ,937 3,903 58,552
8 ,895 3,727 62,279
9 ,868 3,616 65,895
10 ,778 3,240 69,135
11 ,745 3,103 72,238
12 ,698 2,907 75,145
13 ,685 2,853 77,997
37
14 ,670 2,792 80,789

15 ,598 2,490 83,279
16 ,570 2,373 85,652
17 ,532 2,217 87,869
18 ,500 2,081 89,951
19 ,480 1,998 91,949
20 ,456 1,900 93,849
21 ,431 1,798 95,647
22 ,408 1,702 97,349
23 ,332 1,382 98,730
24 ,305 1,270 100,000
Método de extracción: Análisis de Componentes principales.
Matriz de componentesa
Componente
1 2 3 4 5 6
1. Considero las matemáticas como una materia muy necesaria ,523
para mis estudios.
2. La asignatura de matemática me cae bastante mal. ,414 -,517
3. Estudiar y trabajar con las matemáticas no me asusta en ,457 ,408
absoluto.
4. Utilizar las matemáticas es una diversión para mí. ,677
5. La matemática es demasiado teórica para que pueda servirme ,309 ,437 ,383
de algo.
6. Quiero llegar a tener un conocimiento más profundo de las ,510 -,487
matemáticas.
7. Las matemáticas es una de las asignaturas que más temo. ,573 ,384
8. Tengo confianza en mí cuando me enfrento a un problema de ,458 ,318
matemáticas.
9. Me divierte hablar con otros de matemáticas. ,646
10. Las matemáticas pueden ser útiles para el que decida realizar ,594
una carrera de “CIENCIAS” pero no para el resto de estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis ,319 -,360 ,608
12. Cuando me enfrento a un problema de matemáticas me siento ,402 ,485
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un ,514
problema de matemáticas.
14. Las matemáticas son agradables y estimulantes para mí. ,764
38
15. Espero tener que utilizar poco las matemáticas en mi vida ,511 -,461
profesional.
16. Considero que existe otras asignaturas más importantes que la ,421 -,551
17. Trabajar con las matemáticas hace que me sienta muy ,539 ,396
nervioso(a).
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las ,709
matemáticas.
20. Me provoca una gran satisfacción el llegar a resolver problemas de ,491 ,329
matemáticas.
21. Para mi futuro profesional la matemática es una de las ,542 -,355
asignaturas más importante que tengo que estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso ,558 ,477
(a).
23. Si me lo propusieran creo que llegaría a dominar bien las ,433 ,312
matemáticas.
24. Si tuviera la oportunidad me inscribiría en más cursos de ,524 -,357
matemáticas de los que son obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco ,364 ,405 -,428
interesante.
Método de extracción: Análisis de componentes principales.
a. 6 componentes extraídos
Matriz de componentes rotadosa

Componente
1 2 3 4 5 6
1. Considero las matemáticas como una materia muy necesaria ,338 ,346 ,427 ,353
para mis estudios.
2. La asignatura de matemática me cae bastante mal. ,742
3. Estudiar y trabajar con las matemáticas no me asusta en ,569 -,314
absoluto.
4. Utilizar las matemáticas es una diversión para mí. ,456 ,313 ,374
5. La matemática es demasiado teórica para que pueda servirme ,719
de algo.
6. Quiero llegar a tener un conocimiento más profundo de las ,500 ,409
matemáticas.
7. Las matemáticas es una de las asignaturas que más temo. ,611
8. Tengo confianza en mí cuando me enfrento a un problema de ,457 ,430
matemáticas.
9. Me divierte hablar con otros de matemáticas. ,326 ,525 ,385
10. Las matemáticas pueden ser útiles para el que decida realizar -,306 ,638
una carrera de “CIENCIAS” pero no para el resto de estudiante.
11. Tener buenos conocimientos de matemáticas incrementara mis ,820
12. Cuando me enfrento a un problema de matemáticas me siento ,571
13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un ,593 ,359
problema de matemáticas.
14. Las matemáticas son agradables y estimulantes para mí. ,483 ,499
39
15. Espero tener que utilizar poco las matemáticas en mi vida ,399 ,587
profesional.
16. Considero que existe otras asignaturas más importantes que la ,725
17. Trabajar con las matemáticas hace que me sienta muy ,646
nervioso(a).
19. Me gustaría tener una ocupación en la cual tuviera que utilizar las ,325 ,341 ,540
matemáticas.
20. Me provoca una gran satisfacción el llegar a resolver problemas de ,692
matemáticas.
21. Para mi futuro profesional la matemática es una de las ,561 ,405
asignaturas más importante que tengo que estudiar.
22. Las matemáticas hacen que me sienta incomodo (a) y nervioso ,701
(a).
23. Si me lo propusieran creo que llegaría a dominar bien las ,600
matemáticas.
24. Si tuviera la oportunidad me inscribiría en más cursos de ,530 ,383
matemáticas de los que son obligatorios.
25. La materia que se imparte en la clase de matemática es muy poco ,307 ,649
interesante.
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 12 iteraciones.
Se observa que el índice determinante, el KMO y el test de esfericidad de Bartlet

tienen valores que hacen posible aplicar el análisis factorial a la matriz de
correlaciones de los 24 ítems de la escala de actitudes hacia la matemática
(Recuérdese que uno de los ítems fue eliminado en el análisis de los ítems).
Por otro lado, en la tabla de Comunalidades, la comunalidad del ítem

1. “Considero las matemáticas como una materia muy necesaria para mis
estudios”, significa que el 54,4% (0,544 x 100) de las diferencias de los sujetos de
la muestra en sus respuestas (puntuaciones) a este ítem se explican porque
puntúan de modo diferente en los 6 factores (véase matriz de componentes y
matriz factorial) o variables latentes que subyacen a esta variable observable. De
manera similar se puede interpretar las otras comunalidades. Por otro lado, al
analizar un test es conveniente obtener la media aritmética de las comunalidades
(y señalar el valor máximo y el valor mínimo). Comunalidades iguales o mayores
a 0,50 son buenas pues indican que la variabilidad en ellos se explica por los
factores subyacentes y no por el error u otras causas. A comunalidad más alta,
tanto mejor.
La tabla de varianza explicada nos muestra cuántos factores principales

subyacen a las variables observables, el porcentaje de varianza que explican
antes y después de la rotación. En este caso subyacen a las 24 variables
observables o ítems de la escala de actitudes un total de 6 factores que tienen
autovalores superiores a 1. Estos factores explican en conjunto el 54,649% de la
variabilidad de las respuestas de los sujetos a los ítems; obsérvese que el factor
1 explica el 26,110% de la varianza (su eigen value o autovalor es 6,266).
Compárese los autovalores y la cantidad de varianza explicada por los factores
después de realizada la rotación. Se hallará que hay cambios en los valores,
pero la cantidad de varianza explicada total por los factores permanece sin
40
cambio. Explicar más del 50% de la variabilidad habla de la validez factorial de la

prueba.
La matriz de componentes principales debe ser observada en su primer

componente o factor. Los ítems deben tener una carga o saturación mayor en
este primer factor (debe considerarse sólo a los ítems que cargan en este factor y
no en este y en otros más).
La matriz rotada es la matriz definitiva. Llegamos a un paso del análisis factorial

que no es estadístico sino psicológico pues corresponde a la denominación de
los factores hallados.
6) Denominación del factor. La denominación del factor requiere un análisis

semántico de los ítems y el entrecruzamiento de la información estadística. Es
conveniente lo siguiente:
a) Seleccionar en la matriz de componentes rotados los ítems que se han

alineado con un factor, por ejemplo, el factor o componente 1. Puede suceder
que un ítem aparezca en dos o más factores.
b) Enlistarlos por el tamaño de los coeficientes de correlación del ítem con el
factor. Estos coeficientes en el análisis factorial reciben el nombre especializado
de Carga o Saturación. Si un ítem parece en dos o más factores incluirlo en el
factor en el que tiene la saturación más elevada.
c) Realizar factor por factor un análisis semántico de los ítems enlistados,
buscando esencialmente que tienen de común. Los ítems con saturaciones más
altas (y que a la vez cargan solo en un factor y no en dos o más) juegan un rol
más decisivo para denominar al factor.
Veamos el factor 1 ¿cuál pudiera ser su denominación?
A22. Las matemáticas hacen que me sienta incomodo (a) y nervioso (a). (Carga
0,701).
A17. Trabajar con las matemáticas hace que me sienta muy nervioso(a). (Carga
0,646).
A7. Las matemáticas es una de las asignaturas que más temo.(Carga 0,611).
A13. Estoy calmado (a) y tranquilo (a) cuando me enfrento a un problema de

matemáticas (Carga 0,593).(También carga 0,359 en el factor 2)
A12. Cuando me enfrento a un problema de matemáticas me siento incapaz de
pensar con claridad.(Carga 0,571).
A3. Estudiar y trabajar con las matemáticas no me asusta en absoluto.(Carga
0,569) (También carga 0,313 en el factor 2 y 0,374 en el factor 3)
A4. Utilizar las matemáticas es una diversión para mí.(Carga 0,456) (También
carga 0,313 en el factor 2 y 0,374 en el factor 3).
El análisis de las cargas de los ítems A13, A3 y A4 indica que estos son
complejos pues responden a dos o tres factores. En el caso del ítem A13 se le
ha agrupado en el factor 1 por su contenido y porque las diferencias de las cargas
que tiene en el factor 1 y en el factor 2 es mayor a 0,10. De manera similar se ha
41
procedido con el ítem A3; en tanto que en el caso del ítem 4, por el tamaño de la
carga se agrupa con el factor 1 pero, en vista que la diferencia con la carga en el
factor 3 es inferior a 0,10 queda abierta la posibilidad de incluirlo en el factor 3 si
conceptualmente se vincula con los ítems de este factor. El alumno/a debe
examinar esta posibilidad.
Por razón de elaboración del baremo o tabla de normas para interpretar las
puntuaciones de la escala de actitudes hacia las matemáticas, se ha incluido el
ítem 4 en el factor 1 denominado ANSIEDAD ANTE LAS MATEMÁTICAS.
Respecto a esta denominación se debe tener en cuenta que a menor puntuación

menor ansiedad y a mayor puntuación mayor serenidad ante las matemáticas. Es
conveniente, entonces, denominar a este factor como SERENIDAD ANTE LAS
MATEMÁTICAS.
d) Se debe considerar un mínimo de 3 – 5 ítems como mínimo por cada factor.

De haber un factor con menos ítems, lo recomendable es eliminar dicho factor. Si
alguno de los ítems del factor a eliminar tiene una carga en otro factor que no
difiera más de 0,10 centesimas de la carga en el factor en el cual ahora se
encuentra, puede ser considerado en el otro factor. Si no aparece la carga de un
ítem en la matriz es probable que su valor no haya superado el 0,30 de carga que
debe de tener. En ese caso el ítem se elimina.
Queda como tarea a realizar por los alumnos elaborar las denominaciones de los
factores restantes (¿quedará eliminado algún factor?).
Otro análisis importante a realizar en el apartado análisis de los ítems es el

del análisis de las distractores. En efecto, para un determinado ítem de un test
de respuesta máxima, lo adecuado es que la opción o alternativa seleccionada
sea la correcta; pero, también, cada una de las opciones o alternativas incorrectas
(distractores) debe ser seleccionada por un número de personas que, aun siendo
inferior al que selecciona la alternativa correcta, ratifique como adecuadas (como
bien elaboradas) dichas alternativas (Abad, Garrido, Olea, Ponsoda, 2006).
Existen diversos procedimientos para el análisis de distractores. Dos de ellos son

los siguientes:
*Análisis de distractores por el método de los grupos extremos. La

realización de este procedimiento requiere lo siguiente:
1. Las puntuaciones de los sujetos son ordenadas desde la más
alta hasta la más baja.
2. Se calcula el primer y tercer cuartiles (Q1) y (Q3). Los sujetos
con puntuaciones en el Q3 constituyen el grupo superior; los sujetos con
puntuaciones en el Q1 constituyen el grupo inferior.
3. Se elabora una matriz por cada uno de los ítemes, reactivos o
elementos, Se tabula la frecuencia de respuestas de los sujetos de los grupos
42
superior e inferior que responden a cada una de las opciones (en el caso de los
ítemes de opción múltiple).
4. Se compara el número de sujetos de los grupos superior e
inferior que eligieron cada opción incorrecta. Una buena respuesta de
distracción resultará atractiva para más sujetos del grupo inferior que del grupo
superior.
Ejemplo: el siguiente ítem "X" de un test tuvo las siguientes
contestaciones:
ÍTEM X: OPCIONES A B(+) C D E TOTAL

Grupo 0 15 8 2 0 25
superior
Grupo inferior 8 4 5 8 0 25
(+) respuesta correcta.
Interpretación: La opción A y B funcionan eficazmente, la opción C es
deficiente porque atrajo a más estudiantes del grupo superior (los sujetos
más dotados) y la opción E es totalmente ineficaz por no haber sido atractiva
para ninguno.
*Análisis de distractores empleando el total de la muestra. En este

procedimiento se considera la muestra total de respuestas dadas a las diferentes
opciones (correctas y distractores) que plantea cada ítem. Graficaremos este
análisis con un ejemplo brindado por Abad, Garrido, Olea y Ponsoda (2006).
Veamos los siguientes porcentajes de respuestas dadas a las diferentes opciones
de tres reactivos de un test.
Item Opción correcta Porcentaje de

respuesta
A B C D E
1 B 16 40 15 14 15
2 C 35 15 21 17 12
3 A 60 1 21 18 0
“El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la mayor parte
de la muestra selecciona la alternativa correcta, mientras que las incorrectas son
seleccionadas por un porcentaje parecido de personas. El ítem 2 seguramente no
es muy adecuado, pues la muestra selecciona en mayor grado una alternativa
incorrecta como la buena; al menos, habría que reformular esa alternativa
incorrecta. Para el ítem 3, los problemas se refieren a dos alternativas incorrectas
que apenas si son seleccionadas por la muestra; también habría que reformular
esas dos opciones de respuesta”. (Abad, Garrido, Olea y Ponsoda (2006, pág. 18).
Concluyendo el apartado Análisis de los Items señalaremos algunas

limitaciones que tiene. Como hemos visto, la principal finalidad del análisis de
ítems es obtener información objetiva y cuantitativa sobre los reactivos de un
43
pretest o test. Esto se puede combinar con la información subjetiva y utilizarla

para desarrollar y mejorar el test mediante:
- Identificación de los defectos de los reactivos y corrección de los mismos
cuando sea practicable.
- Selección de los mejores elementos y reagrupación de los mismos en un
orden de dificultad más adecuado.
Aunque el análisis de ítems es útil, existen algunas limitaciones:

- No hay ninguna técnica de análisis de ítems que pueda hacer buenos
unos reactivos malos, ni tampoco operar eficientemente cuando no existe un
criterio fiable (externo) con el cual contrastar el valor de los elementos.
- Los resultados del análisis realizado en un grupo experimental de
sujetos no se repiten necesariamente de modo exacto en otro grupo
experimental. A no ser que el número de casos sea grande, hay que conceder
poca importancia a pequeñas diferencias entre los índices obtenidos por
diferentes reactivos.
- Una evidencia puramente objetiva puede venir a reforzar, completar, y
complementar pero no suplantar las opiniones subjetivas. Si un análisis define
como muy pobre a un ítem aparentemente lógico y adecuado, se deberá
rechazar; pero no es aplicable el razonamiento contrario. Si un reactivo
presenta un defecto natural u otra imperfección real, no se debería utilizar,
aunque presenta evidencia favorable en el análisis. Para ser prácticos, los ítems
deben ser reconocidos como buenos en la práctica, pero también adecuados y
defendibles ante cualquier crítica teórica (Anstey, 1976).
FASE VII. ELABORACIÓN DE LA VERSIÓN FINAL DEL TEST.
Para seleccionar los ítemes que compondrán la versión final del test, el
psicólogo se basa en dos criterios: a) el contenido de los ítems y, b) los
resultados del análisis de reactivos.
1 El criterio de selección contenido de los ítems. El contenido de los ítemes

adquiere gran importancia en las pruebas de aprovechamiento o escolásticas. En
efecto, en este tipo de tests, siempre que el plan detallado para un test señale los
temas, el número total de ítems y la proporción de ítems dedicados a cada tema
según la tabla de especificaciones. Estas especificaciones constituyen un requisito
que debe cumplirse al seleccionar los ítems que van a formar parte del test.
Recordemos que el plan detallado establece también las especificaciones relativas
al tipo de formato de ítem o el tipo de proceso mental que se requiere. Ninguno de
estos son procedimientos estadísticos, pero cobran importancia, en las pruebas de
aprovechamiento. En efecto, en una prueba que se considera como muestra de
un dominio de conocimiento, las propiedades estadísticas de los ítems son
sólo consideraciones complementarias, cuya función es asegurar la mayor
eficiencia de la prueba, pero no a costa de la representación del contenido
del dominio que se debe mantener, como se especifica en la TABLA DE
ESPECIFICACIONES.
44
En las pruebas de aptitud, la delineación del contenido tiende a ser menos

detallada, y entonces las propiedades estadísticas de los ítems son un factor
relevante (Thordike, 1989).
2. El criterio de selección resultado del análisis de los ítems (estadísticas de los

reactivos). Es más importante en los test de aptitud mientras que lo es menos en
los tests de rendimiento y de selección (predicción de la eficiencia en el trabajo).
Sin embargo, es conveniente tener en cuenta lo siguiente: Se ha dicho que

se usan las estadísticas de ítems para generar la prueba más efectiva posible. Sin
embargo, ¿qué se quiere decir con “efectiva”?, ¿“efectiva” para qué?, ¿con cuál
criterio se juzga la “efectividad”?. En este punto se vuelve a la premisa básica de
que las puntuaciones de la prueba sean la base de la toma de decisiones. Estas
decisiones estarán en directa relación con los propósitos que haya tenido el
constructor del test. En este sentido, en psicometría, se vienen haciendo uso de
nuevos conceptos como la de FUNCIÓN DE INFORMACIÓN de un ítem, así
como el concepto relacionado de la función de la información de una prueba
(Teoría de Respuesta al Item – TRI). Hasta aquí, , como estamos interesados en
elaborar pruebas con SENSIBILIDAD en toda la amplitud del continuo latente,
confiabilidad y validez, nos bastará seleccionar loa ítems para el test teniendo en
cuenta los índices “p” y los índices de homogeneidad del ítem (IH), siendo éste
último el más importante.
En consecuencia, seleccionaremos los ítemes cuyos IH hayan alcanzado

significatividad estadística (riesgos alfas 0.05 y 0.01) y seguidamente
agruparemos los ítemes seleccionados por sus valores “p”. La agrupación seguirá
aproximadamente la siguiente disposición:
“P” 0 - 10 11 - 20 21 - 30 31 - 40 41 – 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100
% de Ítems 2 3 7 13 25 25 13 7 3 2
En resumen:
1º. Se seleccionará los reactivos del pretest por sus IH estadíticamente

significativos;
2º. Se agrupará los ítemes por sus valores “p” (el número de ítemes en
porcentajes para cada franja de valores “p” aparece en la tabla anterior);
3º. Se reordenará los ítemes de acuerdo a sus valores “p”, colocando en primer
lugar al del valor “p” más cercano a 1 y así sucesivamente en forma descendente
hasta el último, que será el del valor “p” más cercano a 0.
45
Antes de la elaboración de la versión final del TEST siempre se debe hacer una
última inspección de los ítemes seleccionados para descartar cualquier falla en su
redacción o en su presentación, de tal modo que el TEST sea óptimo en todos los
aspectos.
FASE VIII. ANÁLISIS DE LA CONFIABILIDAD Y VALIDEZ DEL TEST.
Concluida la versión final del test, se debe realizar el análisis de su confiabilidad y validez
empleando las estrategias psicométricas más adecuadas. Este estudio debe realizarse en
una muestra de sujetos diferente a la de los sujetos empleados para elaborar la versión
final del test.
FASE IX. ELABORACIÓN DE LAS NORMAS DE INTEPRETACIÓN DE LAS

PUNTUACIONES DIRECTAS.
En el proceso de obtener normas adecuadas para la interpretación de las

puntuaciones directas de un test.
Elaboración del baremo. Se elaborara un baremo en percentiles tomando en

cuenta a los factores hallados. Es decir, se elaborara los percentiles para cada
factor y para el puntaje total (Pero en definitiva esta acción de tomar en cuenta a
los factores hallados depende de la decisión que tome el constructor de la prueba)
Para el efecto, para cada factor se debe calcular un puntaje total (en base a los
ítems que lo conforman. La ruta en SPSS es: Barra de herramientas – Botón
Transformar - Calcular variable (aparece la ventana Calcular variable. En el
espacio Variable de destino escribir el nombre del factor. Luego pasar los ítems
que componen el factor al espacio Expresión numérica cuidando de colocar el
signo “+” después de introducir cada ítem. Hacer Clik en Aceptar (verificar que
en la base de datos aparezca la variable). Esta misma operación se realizará
factor por factor y también por el total.
Cliquear en Analizar . Estadísticos descriptivos – Frecuencias - (Aparece la

ventana) – Pasar al espacio Variables el total de los factores y del Total -
Cliquear el borón estadísticos – Aparece la ventana Frecuencias estadísticos -
Activar media, desviación estándar – Percentiles – Se activa un cuadro – escribir
1 – añadir – 5 – añadir – 10 – añadir, y así hasta 95 añadir – 99 añadir (se está
elaborando un baremo que empieza en el percentil 1 y finaliza en el percentil 99
subiendo de 5 en 5) – Continuar – Aceptar.
En este apartado se ha elaborado el baremo percentilar para el factor 1

SERENIDAD ANTE LAS MATEMÁTICAS. Veamos la salida SPSS según el
procedimiento comunicado en los párrafos anteriores.
46
Statistics
SERENIDAD_ANTE_LAS_MATEMATI
CAS
Valid 400
N
Missing 0
Mean 27,3425
Std. Deviation 5,50281
1 15,0100
5 18,0000
10 20,0000
15 21,0000
20 22,0000
25 23,0000
30 24,0000
35 25,0000
40 26,0000
45 27,0000
Percentiles 50 28,0000
55 28,0000
60 28,0000
65 30,0000
70 30,0000
75 31,0000
80 33,0000
85 34,0000
90 35,0000
95 37,0000
99 39,0000
Obsérvese que en la columna de la izquierda del baremo aparecen los percentiles (1 al 99).
En la columna de la derecha aparecen los valores que indican el tamaño de la muestra (n =
400), la media aritmética del factor (27,3425), la desviación estándar (5,50281) y las
puntuaciones directas correspondientes a cada percentil de la columna derecha. Se ve que a
47
la puntuación directa 28 le corresponde el percentil 50, el percentil 55 y el percentil 60,

cuando le debe corresponder uno sólo de estos percentiles. De manera similar sucede con
la puntuación directa 30 a la que le corresponden los percentiles 65 y 70, cuando
únicamente le debe corresponder uno de ellos.
Veamos ahora el baremo adecuadamente presentado:
Pc Serenidad ante las F2 F3 F4 ….. …… Actitud ante las

matemáticas matemáticas
99 39 - 40
95 37 - 38
90 35 - 36
85 34
80 33
75 31- 32
70 -----
65 30
60 -----
55 -----
50 28
45 27
40 26
48
35 25
30 24
25 23
20 22
15 21
10 20
5 18 - 19
1 8 - 17
Media 27,34
Desv. Típica 5,50
N 400
Obsérvese lo siguiente:
1) Cuando la duda en el percentil a otorgar se encuentra por encima del Pc 50, se

otorga el Pc más bajo. Vea el caso del puntaje directo 28 al que le “correspondía”
los Pc 50, 55 y 60. Se ha otorgado el Pc 50 (el m{as bajo de los tres), y así por el
estilo.
2) Cuando la duda en el percentil a otorgar se encuentra por debajo del Pc 50, se

otorga el percentil más alto. En el baremo no hay ningún caso en esta situación,
pero supongamos que al puntaje directo 22 le correspondiera los Pc 20 y 25, en este
caso se le otorgaría el Pc más alto (Pc 25).
3) El puntaje máximo teórico del Factor SERENIDAD ANTE LAS

MATEMÁTICAS es 40 puntos y el mínimo teórico es ocho puntos. Esto se debe
a que el puntaje más alto del ítem es 5 y los ítems que componen el factor son
ocho, por tanto 5 x 8 = 40; por otro lado, el puntaje más bajo por ítem es 1, por lo
que 1 x 8 = 8. Estas puntuaciones teóricas máxima y mínima deben aparecer al
finalizar el intervalo de puntuaciones directas correspondientes al Pc 99 y al Pc 1,
respectivamente.
4) Por otro lado, al Pc 90 le correspondía el puntaje directo 35 y al Pc 95 le

correspondía el puntaje directo 37. Por lo tanto, el Pc 90 cubre el intervalo 35 –
36 puntos directos.
5) Finalmente, los Pc fueron ordenados de mayor a menor (de Pc 99 a Pc 1). Véase

también que se han resaltado los Pc 25, 50 y 75 pues representan a los cuartiles 1,
2 y 3 (Q1, Q2 y Q3).
49
El alumno/a completará correctamente el baremo con los otros factores (antes tienen que
explicar su denominación) y el puntaje total (la Actitud global hacia la matemática).
7) Elaboración del baremo. Se elaborara un baremo en percentiles. Para el

efecto, se tomara en cuenta a los factores. Es decir, se elaborara los percentiles
para cada factor y para el puntaje total.
Para el efecto, para cada factor se debe calcular un puntaje total (en base a los
ítems que lo conforman. La ruta en SPSS es: Barra de herramientas – Botón
Transformar - Calcular variable (aparece la ventana Calcular variable. En el
espacio Variable de destino escribir el nombre del factor. Luego pasar los ítems
que componen el factor al espacio Expresión numérica cuidando de colocar el
signo “+” después de introducir cada ítem. Hacer Clik en Aceptar (verificar que
en la base de datos aparezca la variable). Esta misma operación se realizará
factor por factor y también por el total.
Cliquear en Analizar. Estadísticos descriptivos – Frecuencias - (Aparece la

ventana) – Pasar al espacio Variables el total de los factores y del Total - Cliquear
el borón estadísticos – Aparece la ventana Frecuencias estadísticos - Activar
media, desviación estándar – Percentiles – Se activa un cuadro – escribir 1 –
añadir – 5 – añadir – 10 – añadir, y así hasta 95 añadir – 99 añadir (se está
elaborando un baremo que empieza en el percentil 1 y finaliza en el percentil 99
subiendo de 5 en 5) – Continuar – Aceptar.
En este apartado se ha elaborado el baremo percentilar para el factor 1

SERENIDAD ANTE LAS MATEMÁTICAS. Veamos la salida SPSS según el
procedimiento comunicado en los párrafos anteriores.
50

Uigv Fases en La Construcción de Un Test

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Uigv Fases en La Construcción de Un Test

Cargado por

Copyright:

Formatos disponibles

Construcción de Pruebas Psicológicas.

Dr. Jaime Aliaga Tovar

FASES EN LA CONSTRUCCIÓN DE UN TEST I

La construcción de un test es una labor cualificada en la que el constructor pone

La construcción de tests y escalas que se efectuará en la asignatura de

Tabla 1. Fases en la elaboración de un test

I. ESTABLECIMIENTO DE LA FINALIDAD DEL TEST.

II. DETERMINACIÓN DE LAS CARACTERÍSTICAS DEL TEST.

III REDACCIÓN Y REVISIÓN DE LOS ÍTEMS.

IV. ELABORACION DEL PRETEST O PRUEBA PILOTO.

V. APLICACIÓN DEL PRETEST O PRUEBA PILOTO.

VI. ANÁLISIS CUANTITATIVO O ANÁLISIS DE LOS ITEMS.

VII. ELABORACION DE LA VERSIÓN FINAL DEL TEST.

VIII. ANÁLISIS DE LA CONFIABILIDAD Y VALIDEZ DEL TEST.

IX. ELABORACIÓN DE LAS NORMAS DE INTEPRETACIÓN DE LAS

X. ELABORACIÓN DEL MANUAL TÉCNICO DEL TEST.

FASE I. ESTABLECIMIENTO DE LA FINALIDAD DEL TEST

La elaboración de la finalidad del test responde en lo fundamental a las siguientes

Definición teórica conceptual de inteligencia: Capacidad dinámica, constituida

Definición operacional de inteligencia: Capacidad dinámica estructurada por

Definición operacional 1.1: Capacidad para resolver problemas que ponen en

Definición operacional 1.2: Capacidad para resolver problemas que ponen en

Definición conceptual de alexitimia: Incapacidad de base neurológica para

Definición operacional de alexitimia: Incapacidad de base neurológica que se

Ejemplo A. Tengo sensaciones físicas que incluso ni los doctores entienden.

Ejemplo B. Me es difícil revelar mis sentimientos más profundos incluso a mis

Ejemplo C. Prefiero ver espectáculos simples, pero entretenidos, que dramas

2 ) ¿A quién se va a medir? Se debe especificar de manera rápida y clara las

clasificación, diagnóstico, orientación y consejo, certificación,

Ejemplo A. En este ejemplo se conjugan las respuestas a estas tres preguntas:

La finalidad de la College Entrance Examination Board’s Scholastic Aptittude Test

La declaración precedente no sólo explícita la finalidad de la prueba sino que va

Ejemplo B. “Antes de la declaración de Alma Ata, la OMS había iniciado las

FASE II. DETERMINACIÓN DE LAS CARACTERÍSTICAS DEL TEST.

Un ejemplo de respuestas a estas preguntas es el siguiente: 1) conocimientos en

1.1) ¿Cuál será el contenido del test si es de conocimientos? La respuesta

b) el constructor/a del test debe determinar las operaciones intelectuales que el

(http://www.eduteka.org/TaxonomiaBloomCuadro.php3) ha sido y es bastante

Blomm (1956, 2000), sostiene que en el dominio cognitivo (cognitive domain) se

Precisados el contenido y las operaciones intelectuales, se elabora una TABLA

TABLA DE ESPECIFICACIÓN PARA UN TEST DE ÁLGEBRA

1.2) ¿Cuál será el contenido de un test si es de aptitud? En algunos test de

Un modelo de operacionalización contribuye a determinar el contenido. Véase la

UN MODELO PARA EL MUESTREO DE CONDUCTAS (Levine y Freeman, 1973)

Capacidad para aprender de la

Repetir números, Predecir

ITEMS DEL TEST

Es conveniente elaborar la tabla de especificaciones que sintetice las

1.3) ¿Cuál será el contenido del test si es de personalidad? En general, en los

Véase los siguientes ejemplos:

Ejemplo A. Contenido de una escala de actitudes hacia las matemáticas:

Definición conceptual: Es la organización duradera de creencias y cogniciones,

Definición operacional: Es la organización duradera de creencias y cogniciones,

Dimensiones Componentes de la teoría triárquica Total de

Ejemplo B. Contenido de un cuestionario de neuroticismo.

Definición conceptual: El neuroticismo es una tendencia global que hace a la

hiperreacción vegetativa, depresiva, de ansiedad, de neurastenia y de

Tabla de especificaciones: (Esquema)

2) ¿Qué tipo de ítems se utilizará? El ítem es un reactivo o elemento de un

a) Ítems de construcción de la respuesta. Esta categoría abarca a los ítems de

El cuadrado de 11 es ... ( ) Respuesta: 121

Estos ítems tienen la ventaja de eliminar el fenómeno de la conjetura o

2 En los ítems de ensayo el sujeto queda en libertad de decidir cómo enfrentar el