Está en la página 1de 19

Fases para la construcción de un test 8

Una vez que se han visto en los capítulos prece- proceso de validación ya comienza a fraguarse in-
dentes las propiedades psicométricas más impor- cluso antes de la propia elaboración empírica del
tantes de los test, vamos a recapitular y presentar instrumento, pues todas las acciones que se realicen
aquí de forma sintética los pasos generales que ha- antes, durante y después permitirán recoger eviden-
bría que seguir para construir un instrumento de cias que ayuden a la interpretación de las puntua-
medida. No se trata de una exposición exhaustiva, ciones y a la posterior toma de decisiones (Elosua,
que excede las pretensiones de este texto introduc- 2003; Markus y Borsboom, 2013; Muñiz, 2004;
torio, pero esperamos que permita al lector extraer Wells y Faulkner-Bond, 2016; Zumbo, 2007a).
una idea cabal de cómo proceder si tuviese que de- A continuación se sintetiza en diez pasos el pro-
sarrollar un nuevo test, escala o cuestionario. Tra- cedimiento a seguir para desarrollar una prueba,
tamientos exhaustivos pueden verse en los trabajos que en esencia recogen las recomendaciones de los
de Downing (2006), Downing y Haladyna (2006), últimos estándares de la AERA, APA y NCME
Haladyna y Rodríguez (2013), Schmeiser y Welch, (2014). Autores como Downing (2006) y Lane et al.
(2006) o Lane, Raymond y Haladyna (2016), entre (2016) prefieren establecer doce pasos o fases. Por
otros muchos. En este apartado seguiremos en lí- supuesto no existe un número mágico al respecto,
neas generales los trabajos previos sobre el tema de lo esencial queda recogido en los diez propuestos.
Muñiz y Fonseca (2008, 2017). En la tabla 8.1 se recogen de forma esquemática los
La construcción de un instrumento de medida pasos que se deben considerar en el proceso de
es un proceso complejo que aquí vamos a concretar construcción y validación de un instrumento de me-
en diez pasos, si bien estos no son automáticos ni dida.
universales y pueden variar en función del propósi- A continuación se comentan brevemente los pa-
to del instrumento de medida (selección, diagnósti- sos propuestos en la tabla 8.1.
co, etc.), del modelo psicométrico utilizado (teoría
clásica, teoría de respuesta a los ítems), del tipo de
respuesta exigida por los ítems (selección o cons- 1.  MARCO GENERAL
trucción), del formato de administración (lápiz y
papel o informatizado) o del contexto de evaluación Todo proceso de construcción de un instrumen-
(diagnóstico, evaluación de rendimientos, etc.), por to de medida comienza por una explicación detalla-
citar solo algunos casos. Todo el proceso de cons- da y precisa de cuáles son las razones que motivan
trucción debe desarrollarse de forma rigurosa y ob- su desarrollo. Un nuevo instrumento no se constru-
jetiva, siguiendo unos estándares de calidad, para ye porque sí, hay que justificarlo adecuadamente.
así maximizar la validez de las inferencias hechas a Asimismo, hay que delimitar con claridad cuál es la
partir de las puntuaciones obtenidas en la prueba variable objeto de medición, cuál va a ser el contex-
por las personas evaluadas (Downing, 2006; Lane, to de aplicación, las circunstancias en las que se va
Raymond y Haladyna, 2016). Puede decirse que el a administrar el instrumento de evaluación, el tipo

©  Ediciones Pirámide
266 / Introducción a la Psicometría

TABLA 8.1
Fases del proceso de construcción de un test

  1. Marco general
— Justificación y motivación.
— Contexto de aplicación.
— Uso e interpretación de las puntuaciones.
  2. Definición de la variable medida
— Definición operativa.
— Definición sintáctica.
— Definición semántica.
 3. Especificaciones
— Requerimientos de aplicación.
— Tipo, número, longitud, formato, contenido y distribución de los ítems.
— Especificaciones e instrucciones en la entrega del material, seguridad.
  4. Construcción de los ítems
— Principios generales para la construcción de ítems.
— Tipos de ítems.
— Directrices para la construcción de ítems de elección múltiple.
 5. Edición
— Composición.
— Edición.
— Puntuación y corrección.
  6. Estudios piloto
— Selección de la muestra piloto (cualitativo y cuantitativo).
— Análisis y resultados del estudio piloto (cualitativo y cuantitativo).
— Depuración, revisión, modificación o construcción de ítems.
  7. Selección de otros instrumentos de medida
— Justificación teórica.
— Obtener evidencias de relación con variables externas.
— Utilizar pruebas ya validadas.
  8. Aplicación del test
— Selección y tamaño de la muestra y tipo de muestreo.
— Aplicación del instrumento de medida.
— Control de calidad y seguridad de la base de datos.
  9. Propiedades psicométricas
— Análisis de los ítems.
— Fiabilidad.
— Validez.
10. Versión final del test
— Informe.
— Prueba final.
— Manual.

©  Ediciones Pirámide
Fases para la construcción de un test / 267

de administración (individual, colectiva), el formato de una prueba deben venir avalados por evidencias
de aplicación (lápiz y papel, informática) y qué de- empíricas, como bien establece la norma ISO 10667,
cisiones se van a tomar a partir de las puntuaciones. relativa a la evaluación de personas en entornos la-
Las causas que pueden llevar a la construcción de borales y organizacionales. Más aún, como indica
un instrumento de evaluación son lógicamente di- nuestro código deontológico en su artículo 17, el
versas. Por ejemplo, un psicólogo puede decidir psicólogo tiene que estar profesionalmente prepara-
construir un instrumento porque no existe ningún do y especializado en la utilización de métodos, ins-
otro para medir una determinada variable, porque trumentos, técnicas y procedimientos que adopte en
los instrumentos existentes presentan unas pésimas su trabajo, y debe reconocer los límites de su com-
propiedades psicométricas, porque no incorporan petencia y los de sus técnicas.
alguna faceta relevante para analizar dicha variable
o simplemente porque los existentes se han queda-
do obsoletos. Wilson (2005) detalla y comenta las 2.  DEFINICIÓN DE LA VARIABLE MEDIDA
principales razones para generar nuevos instrumen-
tos de medida. El objetivo esencial de esta segunda fase es la
Los responsables de la construcción del instru- definición operativa, semántica y sintáctica de la
mento de medida no solo deben especificar el mo- variable medida, así como las facetas o dimensiones
tivo por el cual quieren desarrollar una nueva herra- que la componen (AERA, APA y NCME, 2014;
mienta de medida sino que también deben delimitar Carretero y Pérez, 2005; Wilson, 2005).
con claridad cuál es el contexto en el que se va a La variable evaluada debe definirse en términos
aplicar, lo que incluye necesariamente la población operativos para que pueda ser medida de forma em-
objeto de medición (pacientes, alumnos, empresas, pírica (Muñiz, 2004). En este sentido, tan interesan-
departamentos, etc.) y las circunstancias de apli- te puede ser definir cuidadosamente lo que es como
cación (lugar, medios de los que se dispone y con- lo que no es. La facilidad o dificultad de la defini-
diciones de aplicación, individual o colectiva). ción operativa depende en cierta medida de la na-
También debe especificarse de antemano con qué turaleza de la variable objeto de medición. Para lle-
propósito van a ser utilizadas las puntuaciones y var a cabo una definición operativa es clave realizar
qué decisiones se van a tomar a partir de ellas. En una revisión exhaustiva de la literatura publicada al
este sentido, las puntuaciones en un instrumento de respecto, así como la consulta a expertos (Clark y
evaluación pueden servir para propósitos varios, Watson, 1995; Wilson, 2005). Ello permite, por un
como por ejemplo: seleccionar, diagnosticar, clasi- lado, delimitar la variable objeto de medición, y
ficar, orientar, evaluar un dominio específico o in- considerar todas sus dimensiones relevantes, y, por
cluso como método de cribado (AERA, APA y otro, identificar con claridad los comportamientos
NCME, 2014). Se debe dejar claro que las inferen- más representativos de tal variable (Calero y Padi-
cias que se extraigan de las puntuaciones de un ins- lla, 2004; Smith, 2005). Hay que evitar dejar fuera
trumento de medida no son universales, son siem- alguna faceta o dominio relevante (infrarrepresen-
pre para un uso, contexto y población determinados. tación), así como ponderar en demasía una faceta
Nótese que lo que puede ser válido para un grupo o dominio de la variable (sobrerrepresentación)
determinado de personas o población tal vez no lo (Smith et al., 2003). Asimismo, no se deben incor-
sea para otra, y lo que pueda ser válido en un con- porar facetas, o ítems, que no tengan relación con
texto de evaluación no tiene por qué serlo en otro la variable objeto de medición (varianza irrelevan-
diferente (Zumbo, 2007). te). Una definición operativa y precisa de la variable
En suma, un instrumento de medida vale para influye de forma determinante en la posterior ob-
lo que vale, y hay que explicitarlo de forma clara. tención de los diferentes tipos de evidencias de va-
Ello no es óbice para que una prueba desarrollada lidez, ayuda a especificar las conductas más repre-
originalmente con una determinada finalidad se re- sentativas de la variable objeto de medición y
vele en el futuro, tras distintos procesos de valida- facilita el proceso de construcción de los ítems (Ca-
ción, como buena predictora de otros aspectos ini- rretero y Pérez, 2005; Elosua, 2003; Muñiz et al.,
cialmente no contemplados. Los usos que se hagan 2005; Sireci, 1998a; Smith, 2005).

©  Ediciones Pirámide
268 / Introducción a la Psicometría

No solo es importante una definición operativa respecto de la aplicación estándar (Dorans y Cook,
de la variable sino que también es preciso identifi- 2016; Wells y Faulkner-Bond, 2016).
car y definir sus facetas o dominios (definición se- En relación con los ítems, se debe especificar su
mántica) y la relación que se establece entre ellas, tipo, el número, la longitud, el contenido y el orden
así como con otras variables de interés (definición (disposición), así como el formato de respuesta o el
sintáctica) (Lord y Novick, 1968). Lógicamente, las tipo de alternativas que se van a utilizar. Con res-
diferentes facetas que componen la variable medida pecto a este tema, no existen normas universales, y
se deberían encontrar relacionadas, dado que se su- todo dependerá de las circunstancias de aplicación,
pone que miden la misma variable o constructo. Al del propósito de la variable objeto de medición y de
mismo tiempo hay que establecer la relación con otras circunstancias.
otras variables de interés. La variable objeto de me-
dición no se encuentra aislada en el mundo, sino
que está en relación o interacción con otras varia- 4.  CONSTRUCCIÓN DE LOS ÍTEMS
bles. Es interesante comprender y analizar estas re-
laciones especificándolas de antemano con el pro- La construcción de los ítems constituye una de
pósito de llevar a cabo posteriores estudios dirigidos las etapas más cruciales dentro del proceso de ela-
a la obtención de evidencias de validez (Carretero y boración del instrumento de medida. Los ítems son
Pérez, 2005; Muñiz, 2004; Smith, 2005). la materia prima, los ladrillos a partir de los cuales
se conforma un instrumento de evaluación, por lo
que una construcción deficiente de los mismos inci-
3. ESPECIFICACIONES dirá en las propiedades métricas finales del instru-
mento de medida y en la validez de las inferencias
Una vez delimitados el propósito de la evalua- que se hagan a partir de las puntuaciones (Halady-
ción y la definición operativa de la variable que in- na y Rodriguez, 2013; Lane, Raymond y Haladyna,
teresa medir, se deben llevar a cabo determinadas 2016; Muñiz et al., 2005; Osterlind, 1998; Schmeiser
especificaciones relacionadas con el instrumento de y Welch, 2006).
medida. En esta fase se deben describir de forma Los principios básicos que deben regir la cons-
detallada y precisa aspectos concernientes a los re- trucción de cualquier banco de ítems son: represen-
querimientos de aplicación del instrumento de me- tatividad, relevancia, diversidad, claridad, sencillez
dida, el tipo, número, longitud, contenido y distri- y comprensibilidad (Muñiz et al., 2005). Todos los
bución de los ítems, especificaciones e instrucciones dominios de la variable de interés deben estar igual-
en la entrega del material y aspectos relacionados mente representados (evitando la infra o sobre­
con la seguridad del mismo. rrepresentación), aproximadamente con el mismo
Los requerimientos de aplicación del instru- número de ítems, a excepción de que se haya consi-
mento de medida se refieren a cuál va a ser el so- derado un dominio más relevante dentro de la va-
porte de administración (papel o informático), a riable y que, por tanto, deba tener un mayor núme-
qué tipo de aplicación se va a realizar (individual ro de ítems, esto es, una mayor representación. Un
y/o colectiva) y a cuándo y en qué lugar se va a ad- muestreo erróneo del dominio objeto de evaluación
ministrar el instrumento de medida. Igualmente, se sería una clara limitación en la obtención de evi-
deben especificar los requerimientos cognitivos, de dencias de validez de contenido y tendrá repercu-
vocabulario y de accesibilidad de los participantes. siones en las inferencias que con posterioridad se
Es importante llevar a cabo adaptaciones (acomo- hagan a partir de las puntuaciones. Los ítems deben
daciones) para aquellos participantes que no pue- ser heterogéneos y variados para así recoger una
dan desempeñar la tarea en igualdad de condicio- mayor variabilidad y representatividad de la varia-
nes que el resto, por ejemplo, disponer de una ble. Deben primar la claridad y la sencillez y se de-
versión en Braille para una persona con deficiencia ben evitar tecnicismos, negaciones, dobles negacio-
visual. Las adaptaciones que se realicen deben estar nes o enunciados excesivamente prolijos o ambiguos
convenientemente avaladas por evidencias empíri- (Muñiz et al., 2005). Del mismo modo, los ítems
cas para que no supongan ventajas ni desventajas deben ser comprensibles para la población a la cual

©  Ediciones Pirámide
Fases para la construcción de un test / 269

va dirigido el instrumento de medida, evitándose en 4.1.  Tipos de ítems


todo momento un lenguaje ofensivo y/o discrimina-
torio. Ítems con una redacción defectuosa o excesi- Existe una gran variedad de ítems, que se pue-
vamente vagos van a incrementar el porcentaje de den clasificar en distintas categorías en función de
varianza explicada por factores espurios o irrele- los criterios que se tengan en cuenta, tales como
vantes, con la consiguiente merma en las evidencias su contenido, el formato o la forma de respuesta
de validez de la prueba. exigida, bien sea seleccionar una respuesta entre
Si los ítems provienen de otro instrumento ya las presentadas o desarrollarla (Downing, 2006;
existente en otro idioma y cultura, deberán seguirse Haladyna y Rodríguez, 2013; Magno, 2009; Oster-
las directrices internacionales para la traducción y lind, 1998; Osterlind y Merz, 1994; Rauthmann,
adaptación de test (Hambleton, Merenda y Spiel- 2011; Sireci y Zenisky, 2006). Por ejemplo, Scalise
berger, 2005; Muñiz y Bartram, 2007; Muñiz, Elo- y Gifford (2006) establecen siete tipos de ítems,
sua y Hambleton, 2013). En el caso de ítems origi- que van desde la selección pura de la respuesta
nales, han de seguirse las directrices elaboradas para hasta la construcción completa, pasando por va-
su desarrollo (Downing y Haladyna, 2006; Halady- rias posibilidades intermedias. Por su parte, Sireci
na, 2004; Haladyna et al., 2002, 2013; Moreno et y Zenisky (2016) añaden todavía otros tipos de ta-
al., 2004, 2006, 2015; Muñiz et al., 2005). reas. En suma, se han propuesto diversas clasifica-
Durante las fases iniciales de la construcción ciones, tratando de sistematizar y organizar la
del banco de ítems se recomienda que el número gran cantidad de tipos de ítems existentes, y si bien
de ítems inicial sea como mínimo el doble del que resultan útiles en la práctica, ninguna de ellas re-
finalmente se considera que podría formar parte sulta totalmente satisfactoria desde un punto de
de la versión final del instrumento de medida. La vista teórico.
razón es bien sencilla: muchos de ellos, por moti- Esta proliferación de los tipos de ítems se ha
vos diferentes (métricos, comprensibilidad, dificul- acentuado en los últimos años debido a las grandes
tad, etc.), se acabarán desechando, por lo que solo posibilidades que ofrecen las nuevas tecnologías de
quedarán aquellos que ofrezcan mejores indicado- la información, que están influyendo de forma cla-
res o garantías técnicas (sustantivas y métricas). ra en su formulación (Sireci y Zenisky, 2016). Según
Finalmente, para garantizar la obtención de evi- Parshall et al. (2010), habría siete dimensiones o as-
dencias de validez basadas en el contenido de los pectos de los ítems en los que se están produciendo
ítems, se ha de recurrir a la consulta de expertos las mayores innovaciones debido a la irrupción de
y a la revisión exhaustiva de las fuentes bibliográ- las nuevas tecnologías:
ficas, así como a otros instrumentos similares ya
existentes (Sireci, 1998b; Sireci y Faulkner-Bond, a) Su estructura, con la aparición de nuevos
2014). En relación con la valoración de los ítems formatos facilitados por las nuevas tecnolo-
por parte de los expertos, y con la finalidad de una gías y las facilidades que ofrecen la panta-
evaluación más precisa y objetiva del conjunto ini- llas de los ordenadores para su implemen-
cial de ítems, se puede pedir a los expertos que juz- tación.
guen, a partir de un cuestionario, si los ítems están b) Complejidad, al incluirse en los ítems nue-
bien redactados para la población de interés, si son vos elementos que han de tenerse en cuenta
o no pertinentes para evaluar una faceta o domi- para responder.
nio determinado y si cada ítem representa de for- c) Fidelidad, referida a la posibilidad que ofre-
ma adecuada la variable o dimensión de interés. A cen las tecnologías de la información de dar
continuación se comentan algunos de los formatos un mayor realismo a los ítems.
más habituales de los ítems y se dan unas directri- d) Interactividad, dado que el ítem puede reac-
ces para el desarrollo de ítems de elección múltiple, cionar y mutar en función de las respuestas
que son de los más utilizados, si no los más. Tra- de las personas, volviéndose interactivo.
tamientos exhaustivos pueden verse en Osterlind e) Multimedia, cuando se incluyen en los ítems
(1998), Haladyna y Rodríguez (2013) o Lane et al. medios técnicos como audio, vídeo, gráfi-
(2016). cos, animación u otros.

©  Ediciones Pirámide
270 / Introducción a la Psicometría

Tipo de respuesta, habiendo una amplia


f )  — El coeficiente de validez es la correlación en-
gama de posibilidades del tipo de tareas tre el test y el criterio.
que los ítems demandan.
g) Sistemas de puntuación, pudiendo registrar- En este caso ambas afirmaciones son correctas.
se, además de los clásicos aciertos y errores, Cuando se construye un test con este tipo de ítems,
otros muchos parámetros, tales como tiem- hay que equilibrar el número de ítems verdaderos y
pos, intentos, estrategias, etc. falsos. Este formato ha sido ampliamente estudia-
do. A continuación se sintetizan algunas de sus ven-
Un excelente trabajo sobre la influencia de los tajas e inconvenientes, siguiendo a autores como
avances tecnológicos sobre los test puede verse en Frisbie y Becker (1991) y Haladyna y Rodríguez
Drasgow (2016), y para el tema específico de la gene- (2013):
ración automática de ítems, Gierl y Haladyna (2013).
Aquí vamos a limitarnos a presentar algunos de Ventajas
los tipos de ítems más clásicos, remitiendo al lector
interesado en saber más a la bibliografía citada más — Son fáciles de formular.
arriba. — Pueden utilizarse para evaluar todo tipo de
contenidos.
Elección múltiple — Se adaptan a diferentes demandas cogniti-
vas.
Se trata del tipo de ítem más utilizado, y en su — Para un mismo tiempo pueden hacerse mu-
versión más genuina consta de un enunciado y va- chos más que si fuesen de elección múltiple.
rias alternativas, una de las cuales es la correcta. — Son fáciles de puntuar.
Dentro de los ítems selectivos, es decir, ítems en los — Ocupan poco espacio, y resultan económi-
que hay que seleccionar una opción, este formato cos.
es el más recomendable. Un ejemplo sería: — Son muy realistas, al plantear si una frase es
verdadera o falsa.
En los modelos de TRI la función de informa- — Reducen el tiempo de lectura.
ción es una medida de: — Los test compuestos por ellos dan buenos
coeficientes de fiabilidad.
a) Fiabilidad.
b) Validez. Desventajas
c) Eficiencia.
— Si no se hacen bien, tienden a centrarse en
Recordará el lector que la función de informa- contenidos triviales, y esto hay que evitarlo.
ción se refería a la fiabilidad; por tanto, la opción Ahora bien, más que un defecto del formato
correcta es la a. Dado el uso masivo de este tipo de en sí, es del constructor, que no controla
ítems en toda clase de ámbitos, en el subepígrafe 4.2 este aspecto.
se presentan unas directrices para su construcción — Tienden a ser muy memorísticos si no están
y evaluación. bien construidos. De nuevo no se trata de un
defecto del formato per se, sino del cons-
Verdadero-falso tructor.
— Los aciertos al azar son muy elevados, aun-
Se trata de un tipo de ítem también muy utili- que este efecto puede mitigarse alargando el
zado en el que la tarea de la persona evaluada con- test.
siste en decidir si una afirmación es verdadera o — Dada su estructura dicotómica, no permite
falsa. Por ejemplo: detectar fácilmente grados de verdad y fal-
sedad.
— El valor de la sensibilidad de un test está — Los test compuestos por ítems verdadero-
entre 0 y 1. falso tienden a dar coeficientes de fiabilidad

©  Ediciones Pirámide
Fases para la construcción de un test / 271

algo más bajos que los test similares forma- un test. Esta reducción de ítems afecta al
dos por ítems de elección múltiple. muestreo del constructo evaluado y por tan-
— Según algunos autores, los ítems que son to a las evidencias de validez de contenido
verdaderos no se comportan igual que los que se pueden obtener.
falsos.
En suma, se trata de un formato poco recomen-
En suma, los ítems verdadero-falso pueden uti- dable.
lizarse, son una opción, pero siguen siendo preferi-
bles los de elección múltiple clásicos.
Emparejamiento

Elección múltiple compleja En este conocido formato una serie de ideas,


conceptos o hechos hay que emparejarlos con sus
Se trata de un formato en el cual se ofrecen dis- correspondientes siguiendo las directrices del enun-
tintas alternativas sobre las que se plantean varias ciado, por ejemplo:
opciones de respuesta. Por ejemplo:
En el cuadro adjunto aparecen cuatro autores
¿Cuál de los siguientes indicadores constituye que debe relacionar con sus obras correspondientes.
una evidencia de validez de un test?

1. Sensibilidad. 1. Spearman a) Coeficiente a.


2. Especificidad. 2. Rasch b) Modelo lineal clásico.
3. Función de información. 3. Cronbach c) Modelo logístico de un parámetro.
4. Cohen d) Coeficiente kappa.
a) 1 y 2.
b) 2 y 3.
c) 1 y 3. Recordará el lector que los emparejamientos
d) 1, 2 y 3. correctos serían: 1-b, 2-c, 3-a, 4-d.
Según Haladyna y Rodríguez (2013), las venta-
Recordará el lector, que la opción correcta es la jas de este formato serían su fácil construcción, una
a). Este formato se utiliza con cierta frecuencia, si presentación compacta, su popularidad y amplia
bien Haladyna y Rodríguez (2013) no lo recomien- aceptación y que permite evaluar procesos cogniti-
dan por varias razones, entre ellas: vos superiores, tales como comprensión de concep-
tos, principios y procedimientos. Además, es muy
— Si la persona evaluada tiene un conocimien- eficiente en tiempo y espacio. Si bien es un formato
to parcial, por ejemplo, sabe que una determi­ muy querido en los reales de la enseñanza, en el
nada opción es correcta o incorrecta, puede caso de las variables psicológicas tiene el inconve-
ayudarle a encontrar la respuesta correcta niente de que, dada su naturaleza, no permite llevar
eliminado distractores. Es decir, las habilida- a cabo un muestreo exhaustivo del constructo a
des y experiencia con los test pueden ayudar evaluar, con los problemas que ello conlleva de cara
a una persona a encontrar la verdadera res- a las evidencias de validez de contenido.
puesta, interfiriendo con el nivel en la varia-
ble medida e introduciendo un sesgo inde- Likert
seado.
— Con estos ítems se obtienen índices de dis- Este formato de los ítems, cuyo nombre provie-
criminación más bajos, lo cual tiende a re- ne del trabajo original del autor (Likert, 1932), es
bajar la fiabilidad del test. tan omnipresente en el ámbito de la medición de
— El formato resulta complejo de formular y las actitudes, opiniones, preferencias, creencias y
exige bastante tiempo de lectura, reduciendo otros campos afines no cognitivos como lo es el de
el número de ítems que se pueden incluir en elección múltiple para la medición de variables

©  Ediciones Pirámide
272 / Introducción a la Psicometría

cognitivas. En este formato la persona evaluada más alta (techo). Si en el análisis de los
debe posicionarse en una escala de varias catego- ítems se detectan este tipo de ítems, hay que
rías ordinales entre las que tiene que elegir. Por eliminarlos de la prueba o reformularlos
ejemplo: para futuras evaluaciones.
— Formular los ítems de forma positiva, evitar
Me considero una persona ordenada: los negativos. Este punto es polémico, pues
hay autores que recomiendan balancear los
1. Total desacuerdo. positivos y negativos y luego recodificar los
2. En desacuerdo. negativos para obtener la puntuación total.
3. De acuerdo. Esta recomendación de balancear los ítems
4. Totalmente de acuerdo. positivos y negativos viene motivada por
la creencia de que así se podría evitar la
La popularidad de este formato proviene de su aquiescencia a la hora de responder, pero
facilidad de aplicación y de su adaptación a cual- tiene más inconvenientes que ventajas, por
quier ámbito de evaluación, razón que explica en lo que se desaconseja su uso. Por un lado,
la práctica se haya impuesto a otros modelos me- no está nada claro que de hecho evite o mi-
jor fundados científicamente, pero de aplicación tigue la aquiescencia, y, por otro, la recodi-
menos sencilla, como el de las comparaciones bi- ficación de los ítems es una práctica muy
narias de Thurstone (1927a, 1927b, 1928b), entre problemática, por las asunciones en las que
otros. se basa.
Hay una literatura abundante sobre su cons- — El número de alternativas que debe tener un
trucción y uso (Dillman et al., 2009; Haladyna y ítem tipo Likert es una cuestión ampliamen-
Rodríguez, 2013; Krosnick y Presser, 2010). Co- te investigada, y que ofrece muchos matices.
mentaremos aquí los aspectos más relevantes, rela- A continuación se resumen los resultados
tivos a su formulación y al número de categorías. más destacados. No deben utilizarse ítems
con tres alternativas, pues la alternativa cen-
— La frase sobre la que hay que pronunciarse tral tiende a atraer una gran cantidad de
debe estar claramente formulada, con un respuestas, lo que rebaja la capacidad discri-
lenguaje claro y directo, sin ambigüedad, de minativa del ítem. La mayoría de las inves-
modo que sepamos con precisión sobre qué tigaciones indican que los ítems tipo Likert
se está posicionando exactamente la perso- funcionan bien cuando se utilizan entre cua-
na evaluada. tro y siete categorías, siendo muy frecuente
— No hay que utilizar ítems que se refieren a el uso de cinco. Podría argumentarse que en
dos cuestiones al mismo tiempo, para evitar el caso de cinco la alternativa central podría
confusiones. Por ejemplo, si utilizamos el monopolizar las respuestas, como ocurría
ítem me gusta el pan y el vino, nunca sabre- con tres, pero su efecto es menor al existir
mos con precisión sobre qué se está pronun- otras cuatro opciones. Con cuatro o cinco
ciando la persona evaluada, de modo que categorías los ítems funcionan bien y tiene
mejor desglosar el ítem en dos, uno para el la ventaja de que resulta sencillo asignar un
pan y otro para el vino. nombre o etiqueta a cada categoría, lo cual
— Utilizar un lenguaje adaptado a la pobla- se vuelve más difícil si se aumenta el núme-
ción a la que va dirigida la prueba, evitando ro de categorías. En algunas poblaciones fa-
tecnicismos o palabras rebuscadas. miliarizadas con determinadas escalas po-
— Utilizar frases cortas, evitando la verbosi- drían utilizarse estas, como es el caso de las
dad innecesaria. poblaciones de estudiantes, que conocen
— Evitar que se produzcan efectos suelo y te- perfectamente la escala 0-10 utilizada para
cho, es decir, que la mayoría o todas las res- sus calificaciones. La ventaja de estas esca-
puestas de las personas evaluadas se concen- las más amplias es que tienden a aumentar
tren en la categoría más baja (suelo), o en la la variabilidad de las puntuaciones de las

©  Ediciones Pirámide
Fases para la construcción de un test / 273

personas, lo cual siempre es deseable de cara lo cual hay que evitarlo a toda costa, por razones
a los análisis estadísticos y psicométricos obvias. Por ejemplo, cuando la respuesta se escribe
posteriores. Algunos autores no aconsejan a mano, como es muy habitual, el tipo de letra
este uso (Couper et al., 2006; Krosnick, puede condicionar notablemente al corrector, per-
1999), sobre todo con poblaciones poco fa- judicando claramente a las personas con peor le-
miliarizadas con ellas, por la posibilidad de tra. Este aspecto podría evitarse utilizando un pro-
que generen patrones de respuesta diferen- cesador de texto, cuando ello sea posible. El efecto
ciales en función de la interpretación de la de halo es otro posible sesgo, dado que la opinión
escala numérica, no anclada a una denomi- que el evaluador tiene sobre la persona evaluada
nación concreta de las categorías. Un análi- puede condicionar por generalización la correc-
sis detallado de la influencia del número de ción. La solución es eliminar los nombres de las
categorías de los ítems tipo Likert sobre las personas de la prueba antes de llevar a cabo una
propiedades psicométricas de la escala pue- corrección para que esta sea ciega respecto de la
de verse en Muñiz et al. (2005) y Lozano, persona evaluada. El efecto anclaje puede ser otro
García-Cueto y Muñiz (2008). Para un aná- condicionante de la corrección; por ejemplo, si el
lisis de los errores en el uso de este formato evaluador acaba de corregir una prueba con un
véase Carifio y Perla (2007). gran nivel, sin pretenderlo va a tender a evaluar
con más rigor a la siguiente persona que corrija al
quedar anclado al elevado nivel de la anterior.
Ensayo Para evitar estos y otros sesgos es muy importante
instruir y entrenar de forma adecuada a los correc-
En todos los formatos de los ítems vistos más tores, así como enseñarles a establecer unos crite-
arriba la persona tenía que elegir o seleccionar una rios claros que les permitan una corrección más
respuesta entre las que se le ofrecían; por eso a analítica y objetiva. Estos criterios de corrección,
veces se alude a ellos con la expresión general de denominados «rúbricas», no solo permiten una
«formatos selectivos», o «de elección». Sin embar- mayor objetividad a la hora de corregir, sino que
go, en el formato que se comenta ahora, denomi- han de hacerse públicos para orientar a las perso-
nado «de ensayo», «desarrollo» o «construcción», nas evaluadas. Por ejemplo, para la evaluación del
la persona evaluada tiene que construir la respues- trabajo fin de grado (TFG) en la Facultad de Psi-
ta. Aunque existen posibles variaciones, aquí se cología de la Universidad de Oviedo, se establecen
comenta el formato genuino en el que se pide a la los siguientes criterios con sus correspondientes
persona evaluada que desarrolle un determinado pesos, y además cada uno de esos criterios o di-
tema, por ejemplo el concepto y tipos de fiabilidad. mensiones se desglosa con mayor detalle, tratando
Este formato es más utilizado en el ámbito educa- de evitar ambigüedades y evaluaciones no equita-
tivo que en el estrictamente psicológico, pero es tivas:
aplicable a cualquier contexto. La gran ventaja de
los formatos de construcción frente a los selectivos Aspectos formales (0-10 puntos).
es que permite una mayor libertad de expresión de
la persona evaluada, pudiendo apreciarse su capa- — Estructura del trabajo: 0-4
cidad de expresión, su creatividad, su estilo y or- — Ajuste a normas APA: 0-3
ganización, amén de su dominio del tema propues- — Redacción: 0-3
to. Por estas razones es un formato muy apreciado
entre los educadores, que con cierta frecuencia lo Contenidos (0-45 puntos).
prefieren a los formatos de elección, los cuales,
más que generar la propia respuesta, exigen a la — Fundamentación: 0-10
persona evaluada reconocer entre las alternativas — Originalidad y objetivos: 0-10
propuestas la correcta. Pero todo tiene un precio, — Metodología: 0-10
y el de los formatos de desarrollo es la posible sub- — Resultados y conclusiones: 0-10
jetividad a la hora de la corrección y puntuación, — Bibliografía: 0-05

©  Ediciones Pirámide
274 / Introducción a la Psicometría

Defensa pública (0-30 puntos). Contenido

— Estructura y calidad técnica: 0-10  1. Cada ítem debe centrarse en un contenido
— Claridad expositiva: 0-10 específico y en una determinada demanda
— Interacción con el tribunal: 0-10 cognitiva.
  Cada ítem irá dirigido a evaluar un con-
Valoración del tutor (0-15 puntos). tenido y solo uno, sin mezcla ni confusión,
elaborando todos los ítems que fuesen ne-
— Asistencia a las tutorías: 0-3 cesarios para muestrear adecuadamente
— Seguimiento de las orientaciones: 0-3 los contenidos. Asimismo, el ítem deberá
— Cumplimiento plan de trabajo: 0-3 centrarse en un solo proceso cognitivo,
— Interés e implicación en el TFG: 0-3 como puede ser comprender un concepto,
— Entrega dentro del plazo establecido: 0-3 aplicar un conocimiento, hacer inferencias
o lo que fuere.
Estas directrices o rúbricas no son la panacea,  2. Utilizar material novedoso para evaluar el
pero ayudan a objetivar la evaluación y a evitar ses- aprendizaje de alto nivel.
gos y subjetivismos. El problema de la construcción   Cuando se utilice parte de un libro, tex-
y valoración de los ítems de ensayo está muy am- to o documento en la evaluación, conviene
pliamente tratado en la bibliografía psicométrica; parafrasearlo, no utilizarlo literalmente,
pueden consultarse, por ejemplo, las directrices del para así evitar evaluar el mero recuer-
Educational Testing Service (Baldwin et al., 2005; do. Lo mismo debe hacerse con cualquier
Livingston, 2009), Hogan y Murphy (2007) y un tipo de materiales utilizados en la ense-
buen resumen en Haladyna y Rodríguez (2013). Tal ñanza.
vez la solución radical a la objetividad de la evalua-  3. Mantener el contenido de cada ítem inde-
ción de los ensayos venga a través de una vigorosa pendiente del contenido de otros ítems del
línea actual de investigación psicométrica sobre la test, no utilizar ítems encadenados.
corrección automática mediante programas de or-   Un ítem no tiene que hacer alusión a
denador. Puede sorprender al lector la posibilidad ningún otro ni estar encadenado a los an-
de que un ensayo pueda ser corregido por un pro- teriores. Cuando se utiliza un texto o ma-
grama informático, pero los avances en este campo terial sobre el cual se hacen varios ítems,
son notables, existiendo ya programas con altas hay que ser especialmente cuidadoso con
prestaciones (Livingston, 2009; Shermis y Burstein, que unos ítems hagan alusión a otros. Si
2013; Williamson et al., 2006, 2010). esto ocurriera, según Haladyna y Rodrí-
guez (2013), tiende a sobreestimarse la fia-
bilidad. Además, tienden a beneficiar a las
4.2. Directrices para la construcción personas con experiencia en hacer los test,
de ítems de elección múltiple aunque no controlen la materia evaluada.
Recuérdese que los modelos psicométricos
Los ítems de elección múltiple son los más uti- de TRI asumen la independencia local, es
lizados en numerosos ámbitos de la evaluación psi- decir, que la respuesta a un ítem no influye
cológica, educativa y en general en las ciencias so- en la respuesta a otro, con lo que se estaría
ciales y de la salud. Su construcción inadecuada violando este principio.
puede causar serios perjuicios a las personas eva-  4. El ítem debe evaluar un contenido impor-
luadas y atentar contra la equidad de los test. Se tante, evitando contenidos muy específicos
presentan a continuación las directrices para su o muy generales.
construcción, desarrolladas por Haladyna et al.   El número de ítems de un test es limita-
(2002, 2013) y Rodríguez (2016). Se refieren al con- do, así que hay que centrarse en los temas
tenido, formato, estilo, redacción del enunciado y más relevantes a evaluar, evitando cuestio-
redacción de las alternativas de los ítems. nes marginales o muy generales.

©  Ediciones Pirámide
Fases para la construcción de un test / 275

 5. Evitar ítems cuyas opciones sean opinables. a) Validez.


  No se pueden utilizar ítems cuyas opcio- b) Fiabilidad.
nes no sean claras y planteen dudas entre c) Variabilidad.
los expertos. Las opciones tienen que ser
claras, unívocas e indiscutibles, cartesia-   Como habrá adivinado el lector, la res-
nas, pues de otro modo se estaría introdu- puesta correcta es la b).
ciendo una gran arbitrariedad en la eva-
luación, lo que podría llevar a anular a Estilo
posteriori los ítems con alternativas discu-
tibles. Esto ocurre con frecuencia en los  8. Corregir y probar los ítems antes de llegar
exámenes para psicólogos internos resi- a la versión definitiva.
dentes (PIR) y médicos (MIR). Desde lue-   Hay que asegurarse de que los ítems es-
go, anular a posteriori un ítem dudoso es tán formulados de forma correcta, tanto
un mal menor, pero es un mal, pues algu- en lo relativo a los aspectos gramaticales y
nos candidatos lo habrán acertado, y se les ortográficos como en el contenido. Aparte
anula, y otros habrán invertido una gran de lo embarazoso y poco profesional que
cantidad de tiempo en resolverlo en detri- puede resultar para quienes aplican los
mento de otros ítems. Si la prueba se cons- test tener que hacer rectificaciones en la
truye con rigor, esto no debería ocurrir, sesión de evaluación, una formulación in-
pues demuestra una falta de profesionali- correcta del ítem afecta a la validez de las
dad con consecuencias no deseables para inferencias hechas a partir de las puntua-
las personas evaluadas. ciones del test. En suma, hay que revisar
 6. Evitar ítems con trampas. con sumo cuidado los ítems antes de in-
  No se trata de construir ítems para ir a cluirlos en un test.
«cazar» a las personas evaluadas mediante  9. Ajustar la complejidad del lenguaje a las
ítems truculentos, sino de comprobar su personas evaluadas.
nivel de conocimientos de manera clara,   La idea central es que las personas eva-
directa y profesional. Además, si se utili- luadas deben de comprender el ítem, otra
zan este tipo de ítems, se genera una acti- cosa es que luego conozcan o no la repues-
tud de desconfianza de las personas eva- ta. Si no lo comprenden, no podremos sa-
luadas en el proceso de evaluación, lo cual ber si los fallos cometidos se deben a que
no es deseable. desconocen las respuestas o que no han
comprendido el enunciado. Las personas
Formato evaluadas tienen que comprender bien los
ítems, la comprensión lectora no debe de
 7. Formular las alternativas del ítem de forma interferir con la variable medida
vertical, no horizontal. 10. Minimizar la cantidad de lectura en cada
  La única ventaja de formular las alterna- ítem.
tivas de forma horizontal es que se ahorra   Ya nos lo dejó dicho nuestro Baltasar
espacio y la edición de la prueba resulta Gracián: lo bueno, si breve, dos veces bue-
más barata, pero tiene muchos inconve- no. Hay que evitar enunciados farragosos
nientes, pues resulta más difícil de leer y en e innecesariamente largos que interfieren
consecuencia aumenta los errores y confu- con la variable que queremos evaluar. Esto
siones innecesariamente; por tanto, es me- ocurre con cierta frecuencia en la evalua-
jor utilizar siempre el formato vertical, por ción educativa cuando se utilizan enuncia-
ejemplo: dos alambicados, en los que es difícil saber
cuál es exactamente lo que se pregunta.
  El estudio de la precisión de las puntua- Por ejemplo, si en un problema de mate-
ciones de un test se denomina: máticas utilizamos una formulación muy

©  Ediciones Pirámide
276 / Introducción a la Psicometría

compleja, al final no sabemos si los estu- variable medida y las menos competentes.
diantes desconocen el problema matemáti- Hay que evitar alternativas obvias o absur-
co planteado o sencillamente no tienen das que rebajan la discriminación del ítem.
claro qué se pregunta. Además, al reducir En el apartado dedicado al análisis de los
la longitud de los enunciados, podemos in- ítems ya se expuso cómo se pueden eva-
cluir más ítems en el mismo tiempo desti- luar empíricamente estos aspectos una vez
nado a la evaluación, con el consiguiente que se ha aplicado el test. También vimos
beneficio que ello supone para la fiabili- allí los argumentos psicométricos que in-
dad y validez del test, tal como se vio en dican que el número aconsejable de alter-
los apartados correspondientes. nativas es tres, frente a cuatro o cinco.
14. 
Asegurarse de que solo una de las alternati-
Redacción del enunciado vas es la respuesta correcta.
  Puede parecer una obviedad, pero con-
11. 
Incluir la idea central en el enunciado y no viene asegurarse de que no hay dudas so-
en las alternativas. bre cuál es la respuesta correcta. Esto se
  La parte importante del texto debe ir en consigue con una buena revisión por parte
el enunciado, dejando las alternativas con de varios expertos; si hubiese alguna duda
un texto breve. Un error bastante común al respecto, hay que eliminar o corregir el
es hacer un enunciado breve y luego meter ítem. Si se detecta el problema tras llevar
demasiado texto en las alternativas, lo cual a cabo la evaluación, hay que suprimir el
aumenta innecesariamente la longitud del ítem como mal menor, pero, como se indi-
ítem y hace la tarea de la persona evalua- có más arriba, no es deseable, pues plantea
da más difícil, pues no conoce el objetivo serios problemas deontológicos al perjudi-
final del ítem hasta que no lee todas las car a las personas evaluadas.
alternativas que contienen la mayor parte 15. 
Variar la colocación de la respuesta correcta.
de la información.   Se refiere a que hay que repartir aleato-
12. 
Expresar el enunciado en términos positi- riamente la alternativa en la que se coloca
vos. la respuesta correcta. Si, por ejemplo, un
  Hay que evitar formular los ítems de test consta de treinta ítems de tres alterna-
forma negativa. La razón de esta recomen- tivas cada uno, la respuesta correcta debe-
dación es que a las personas les resulta ría aparecer diez veces en la primera alter-
mucho más difícil comprender textos for- nativa, diez en la segunda y diez en la
mulados de forma negativa que positiva. tercera. Hay que asegurarse de que esto se
Por tanto, al formularlo negativamente, la lleva a cabo correctamente, pues si se deja
comprensión del ítem estaría interfiriendo al mero azar del constructor del test po-
con la variable medida. Por ejemplo, si dría ocurrir perfectamente que por deter-
pretendo evaluar la competencia matemá- minada querencia no consciente acabase,
tica de las personas, no es deseable que por ejemplo, apareciendo la respuesta co-
desempeñe un papel importante la com- rrecta en primer lugar en el 80 % de los
prensión verbal, ya que distorsionaría el casos, lo cual podría ayudar a las personas
resultado. evaluadas a obtener aciertos de forma es-
puria.
Redacción de las alernativas 16. 
Colocar las alternativas en un orden lógico
o numérico.
13. 
Utilizar opciones que sean plausibles y dis-   Cuando en las alternativas del ítem apa-
criminativas. rezcan cantidades numéricas, o ciertos ar-
  Las alternativas del ítem tienen que te- gumentos lógicos, hay que presentarlos
ner sentido, ser plausibles y discriminar ordenados. Los ítems tratan de detectar si
entre las personas más competentes en la la persona evaluada domina determinada

©  Ediciones Pirámide
Fases para la construcción de un test / 277

materia, y el hecho de que los materiales pues si la pregunta que se plantea en un


se presenten desordenados podría contri- ítem tiene respuesta correcta, ¿por qué no
buir a la confusión, interfiriendo con el ha de figurar en el ítem? Parece la forma
verdadero nivel de la persona en la varia- más clara, directa y honesta intelectual-
ble medida. El ordenamiento en las alter- mente de proceder. Como señalan Halady-
nativas puede ser ascendente o descenden- na y Rodríguez (2013), no existe ninguna
te; por ejemplo en el siguiente ejemplo se ventaja en omitir la respuesta correcta en la
plantean en orden ascendente: formulación del ítem.
  En el caso de la opción todas las anterio-
  ¿En qué año se publicó el libro de Rasch res, el mayor problema es que puede dar
sobre el modelo logístico de un paráme- pistas a las personas evaluadas sobre la op-
tro? ción correcta, favoreciendo a aquellas per-
sonas más experimentadas en la práctica
a) 1954. de los test. Por ejemplo, si en un ítem de
b) 1960. cuatro alternativas, siendo la última todas
c) 1975. las anteriores, una persona sabe que dos de
las tres restantes son correctas, aun desco-
  Recordará el lector que la correcta es la nociendo la tercera, infiere acertadamente
opción b). que la correcta será todas las anteriores,
17. 
Construir las alternativas independientes pues el ítem no puede tener dos correctas;
entre sí, no deben solaparse. luego solo cabe que lo sean todas. En
  Cada alternativa de un ítem tiene vida suma, la habilidad de la persona para ha-
propia, debe ser independiente del resto de cer test está interactuando con su nivel en
alternativas, sin solapamientos con las de- la variable medida, lo cual no es deseable.
más. Si resultan interdependientes, pueden   En el caso de no lo sé, tampoco mejora
dar claves a las personas evaluadas sobre en nada la evaluación, y es mejor evitarla.
la opción correcta, aparte de generar con- No todas las personas evaluadas la inter-
fusión. pretan de la misma manera, por lo que
18. 
No deben utilizarse las alternativas: ningu- puede introducir sesgos indeseables en la
na de las anteriores, todas las anteriores, no evaluación, de modo que es mejor evitarla.
lo sé. 19. 
Formular las alternativas de forma positiva.
  Desgraciadamente es muy frecuente en-   Como ya se indicó en la directriz 12 para
contrar evaluaciones, sobre todo educativas, el enunciado del ítem, en el caso de las al-
en las que se incluyen este tipo de opciones, ternativas también deben formularse de
que son totalmente desaconsejables. La ra- forma afirmativa por las dificultades que
zón fundamental de su inadecuación es que conlleva para las personas evaluadas el
van a permitir a las personas evaluadas ha- procesamiento de frases negativas. Como
llar pistas sobre la alternativa correcta, in- ocurría en el enunciado, el uso de términos
dependientemente de su nivel en la variable como NO y EXCEPTO debe evitarse en la
medida. Es decir, a igual nivel de competen- redacción de las alternativas.
cia en la variable medida, estas alternativas 20. 
Evitar dar pistas sobre la respuesta correc-
van a favorecer a las personas más hábiles o ta.
avezadas en la práctica de los test, desvir-
tuando así la medida genuina de la variable a) 
Longitud de las alternativas.
objeto de la medición.   Las alternativas deben tener aproxi-
  Es verdad que algunos autores mantie- madamente la misma longitud. Un
nen abierta la posibilidad de utilizar la op- error muy frecuente es redactar de for-
ción ninguna de las anteriores, pero nos uni- ma larga y detallada la opción correc-
mos a quienes mantienen su inoportunidad, ta y luego despachar de forma breve

©  Ediciones Pirámide
278 / Introducción a la Psicometría

las incorrectas, dando la pista a las alternativas alguna que es absurda, ri-
personas evaluadas de que la correcta dícula, de dudoso gusto y por tanto
es la opción larga. Hay que evitar este obvia para todas las personas evalua-
error a toda costa. das. Estas alternativas no contribuyen
b) 
Determinantes específicos. a la calidad del ítem, por lo que no
  Hay que evitar dar pistas mediante deben utilizarse en ningún caso, son
la utilización de determinantes tales alternativas perdidas. El siguiente
como siempre, nunca, totalmente, ab- ítem sería un ejemplo claro de lo di-
solutamente o completamente. Estos cho:
determinantes son tan extremos que
raramente van a figurar en la respues-   El modelo lineal clásico fue formu-
ta correcta, por lo que están indican- lado originalmente por:
do a las personas evaluadas que la
opción en la que aparecen no es la co- — Spearman.
rrecta. Lo mejor es evitarlos. — Obama.
c) 
Asociaciones de términos. — Cervantes.
  A veces en la formulación de los
ítems se pueden introducir términos en   Una persona puede desconocer que
el enunciado asociados con alguna de fue Spearman, quien en 1904 formu-
las alternativas, dando pistas sobre la lase el modelo lineal clásico, pero se-
respuesta correcta. Hay que evitar estas guro que no fallará el ítem, dada su
asociaciones, que pueden ser de sonidos formulación lamentable.
similares, términos idénticos en el enun- f ) Homogeneidad de las alternativas.
ciado y las alternativas u otras posibili-   Si las alternativas son muy hetero-
dades. Por ejemplo, el siguiente ítem géneas en contenido o en su estructu-
estaría cayendo en este error, al incluir ra gramatical pueden dar pistas sobre
el término «fiabilidad» en el enunciado la respuesta correcta, conviene que
y en la tercera alternativa, que es la co- tengan una cierta homogeneidad. Un
rrecta, dando pistas obvias sobre ella: trabajo detallado sobre este aspecto
puede consultarse en Ascalon et al.
  La fiabilidad de las puntuaciones de (2007).
un test se evalúa mediante el coefi-
ciente de: 21. 
Hacer plausibles todas las alternativas inco-
rrectas.
— Determinación.   Las alternativas incorrectas, denomi-
— Validez. nadas con frecuencia «distractores», han
— Fiabilidad. de ser todas plausibles a priori. Es decir,
todas las alternativas incorrectas deben
d) Pares o tríos de alternativas que den tener su lógica y permitir la discrimina-
pistas sobre la opción correcta. ción entre las personas más competentes
  Hay que evitar incluir entre las al- y menos competentes en la variable me-
ternativas pares o tríos de ellas que dida. En contextos educativos pueden
por su estrecha relación den pistas utilizarse los errores más comunes de los
claras a las personas evaluadas sobre estudiantes en la formulación de los dis-
cuál es la respuesta correcta. tractores.
e) Alternativas claramente absurdas o ri- 22. 
No utilizar el humor.
dículas.   No debe utilizarse el humor ni las gra-
  Con demasiada frecuencia se en- cias en la formulación de los ítems. Por
cuentran ítems que incluyen entre sus supuesto, el uso del humor puede ser un

©  Ediciones Pirámide
Fases para la construcción de un test / 279

recurso interesante en numerosas situacio- plo si existen ítems que se deben recodificar, si se va
nes de enseñanza y aprendizaje, contribu- a crear una puntuación total o varias puntaciones,
yendo a rebajar las tensiones y a crear un etcétera.
buen clima, pero su uso en la formulación
de los ítems no contribuye a mejorar la
evaluación, todo lo contrario. Como seña- 6.  ESTUDIOS PILOTO
lan Haladyna y Rodríguez (2013), supone
el desperdicio del distractor en el que se La finalidad de cualquier estudio piloto es
incluye, haciendo, por tanto, el ítem más examinar el funcionamiento general del instru-
fácil. También puede contribuir a que las mento de medida en una muestra de participantes
personas evaluadas no se tomen en serio con características semejantes a la población ob-
la evaluación, y en algunos casos puede jeto de interés. Esta fase es de suma importancia,
generar reacciones negativas de las perso- ya que permite detectar, evitar y corregir posibles
nas evaluadas, sometidas como están a la errores, así como llevar a cabo una primera com-
presión de la evaluación. probación del funcionamiento del instrumento de
evaluación en el contexto aplicado. El estudio pi-
loto podría verse como una representación en mi-
5. EDICIÓN niatura de lo que posteriormente va a ser el estu-
dio de campo.
En esta fase se compone y se imprime la prime- Existen dos tipos fundamentales de estudio pi-
ra versión del test, además de construir la base de loto: cualitativo y cuantitativo (Wilson, 2005). El
datos con las claves de corrección. Este paso ha estudio piloto cualitativo permite, a partir de grupos
sido con frecuencia injustamente infraestimado y, de discusión, debatir diferentes aspectos relaciona-
sin embargo es esencial, pues el continente bien po- dos con el instrumento de medida, por ejemplo la
dría echar a perder el contenido. Buenos ítems po- detección de errores semánticos o gramaticales, el
bremente editados dan como resultado un mal test, grado de comprensibilidad de los ítems, las posibles
igual que los malos barriles pueden echar a perder incongruencias semánticas, etc. Los participantes en
los buenos vinos. Podemos haber construido un este pilotaje pueden ser (o no) similares a la pobla-
buen banco de ítems que de nada servirá si luego ción objeto de medición. Por su parte, el estudio pi-
estos se presentan de forma desorganizada, con loto cuantitativo permite examinar las propiedades
errores tipográficos, o en un cuadernillo defectuoso. métricas de la versión preliminar del instrumento de
Uno de los errores más frecuentes entre los cons- medida, y ha de llevarse a cabo con personas simi-
tructores de test aficionados es utilizar fotocopias lares a las que va dirigida la prueba. En ambos casos
malamente grapadas, con la excusa de que solo se se deben anotar de forma detallada todas las posi-
trata de una versión experimental de la prueba, ol- bles incidencias acaecidas durante la aplicación, por
vidándose de que para las personas que las respon- ejemplo preguntas o sugerencias de los participan-
den no existen pruebas experimentales, todas son tes, grado de comprensión de los ítems, así como
definitivas. El aspecto físico de la prueba forma posibles errores o problemas detectados en el instru-
parte de la validez aparente. Es importante que el mento.
instrumento dé la impresión de medir de manera A continuación, una vez tabulados los datos, se
objetiva, rigurosa, fiable y válida la variable de in- procede a los análisis de la calidad psicométrica de
terés, porque, entre otros aspectos, influye en un los ítems. En función de criterios sustantivos y es-
punto esencial presente en todo el proceso de eva- tadísticos, algunos ítems se mantienen mientras que
luación: la motivación de las personas evaluadas. otros son descartados o modificados. Es importan-
Por otra parte, en esta fase también se debe cons- te que el constructor del instrumento de evaluación
truir, si fuera el caso, la base de datos donde poste- deje constancia de qué ítems fueron eliminados o
riormente se van a tabular las puntuaciones y a rea- modificados y por qué, además de explicitar con
lizar los análisis estadísticos pertinentes, así como claridad el criterio (cualitativo o cuantitativo) por
las normas de corrección y puntuación, por ejem- el cual se eliminaron. En este paso, si se considera

©  Ediciones Pirámide
280 / Introducción a la Psicometría

conveniente, se pueden incorporar nuevos ítems. a) Que se encuentren validados para la pobla-
Todas las actividades deben ir destinadas a seleccio- ción objeto de interés y se conozcan sus
nar los ítems con mayores garantías métricas que propiedades psicométricas.
maximicen las propiedades finales del instrumento b) Que sean sencillos y de rápida administra-
de evaluación. Finalmente, se debe construir una ción.
nueva versión del instrumento de medida que es re- c) Que tengan «coherencia» sustantiva de
visada de nuevo por el grupo de expertos y que será cara a establecer relaciones entre las varia-
la que en última instancia se administre en el estu- bles, dentro de una red nomológica.
dio final de campo.

8.  APLICACIÓN DEL TEST


7. SELECCIÓN DE OTROS INSTRUMENTOS
DE MEDIDA En esta fase de estudio de campo se incluyen la
selección de la muestra (tipo, tamaño y procedi-
La selección adecuada de otros instrumentos de miento), la aplicación propiamente dicha del instru-
evaluación permite recoger evidencias a favor de la mento de medida a los participantes y el control de
validez de las puntuaciones de los participantes calidad y seguridad de la base de datos.
(Elosua, 2003). Es interesante que no se pierda el La representatividad y generalizabilidad de los
norte: la finalidad última de todo proceso de cons- resultados dependen en gran medida de que la
trucción de instrumentos de medida es siempre ob- muestra elegida sea realmente representativa de la
tener evidencias de validez. La selección adecuada población objetivo de estudio. Elegir una muestra
de otras variables de interés permite aglutinar dife- pertinente en cuanto a representatividad y tamaño
rentes tipos de evidencias que conduzcan a una me- es esencial: si se falla en esto, todo lo demás va a
jor interpretación de las puntuaciones en el instru- quedar invalidado. El muestreo probabilístico siem-
mento de medida dentro de un contexto y uso pre es preferible al no probabilístico; para la estima-
particular. En este sentido, se pueden establecer re- ción del tamaño muestral requerido para un deter-
laciones con un criterio externo, con otros instru- minado error de medida ha de acudirse a los textos
mentos de medida que pretendan medir la misma especializados, o consultar a los expertos en la tec-
variable u otras diferentes (lo que anteriormente se nología de muestreo. Aunque no hay recetas univer-
había denominado «definición sintáctica»). Las sales y aún no se dispone de una base sólida para
asociaciones entre las variables son la base para la tal afirmación, se suele recomendar que por cada
obtención de evidencias de validez de relación con ítem administrado tengamos al menos cinco o 10
variables externas, que permite la construcción de personas, o unas 200 observaciones como mínimo
una red nomológica. (Ferrando y Anguiano, 2010), si bien determinadas
La decisión de qué instrumentos se deben utili- técnicas estadísticas pueden reclamar incluso más
zar complementariamente con el nuestro viene afec- de cara a una buena estimación de los parámetros,
tada tanto por cuestiones sustantivas como prag- por ejemplo los modelos de teoría de respuesta a los
máticas, referidas a exigencias de tiempo y lugar y, ítems.
cómo no, materiales (por ejemplo, posibilidad de Las actividades relacionadas con la aplicación
acceso al test, cuestiones económicas, etc.). Eviden- y el uso del instrumento de medida, son cruciales
temente las exigencias materiales y temporales, así durante el proceso de validación (Muñiz y Bartram,
como las razones éticas, no permiten administrar 2007; Muñiz et al., 2005). Cuando aplicamos cual-
todos los instrumentos que quisiéramos, si bien quier instrumento de medida, hay que cuidarse de
aquí no se trata de pasar cuantos más mejor, sino que las condiciones físicas de la aplicación sean las
de seleccionar aquellos de mayor calidad científica, adecuadas (luz, temperatura, ruido, comodidad de
a partir de los cuales se pueda profundizar en el los asientos, etc.). Igualmente, las personas encar-
significado de nuestras puntuaciones. Algunas reco- gadas de la administración del instrumento de me-
mendaciones prácticas en la selección de otros ins- dida deben establecer una buena relación (rapport)
trumentos de medida son: con los participantes, estar familiarizados con la

©  Ediciones Pirámide
Fases para la construcción de un test / 281

administración de este tipo de herramientas, dar las ceso de medición en la ciencia que sea, la psicolo-
instrucciones a los participantes correctamente, gía incluida, conlleva necesariamente un error, el
ejemplificar con claridad cómo se resuelven las pre- cual tiene que quedar claramente reflejado cuando
guntas, supervisar la administración y minimizar al el profesional lleva a cabo una evaluación.
máximo las posibles fuentes de error. Por todo ello En esta fase debe primar por encima de todo el
es recomendable elaborar unas pautas o directrices rigor metodológico. Todos los pasos y decisiones
que permitan estandarizar la administración del que se tomen se deben describir con claridad y de-
instrumento de medida y garanticen la equidad. ben estar correctamente razonadas. En un primer
El control de calidad de la base de datos es otro lugar se deben analizar los ítems tanto a nivel cua-
tema a veces poco valorado en el proceso de cons- litativo como cuantitativo. Para seleccionar los me-
trucción de instrumentos de medida. Por control de jores ítems desde el punto de vista psicométrico se
calidad nos referimos a una actividad que tiene pueden tener en cuenta el índice de dificultad (cuan-
como intención comprobar que los datos introduci- do proceda), el índice de discriminación, las cargas
dos en la base de datos se correspondan exactamen- factoriales y/o el funcionamiento diferencial de los
te con las puntuaciones de los participantes en la ítems (Muñiz et al., 2005). El funcionamiento dife-
prueba. Frecuentemente, cuando introducimos las rencial de los ítems trata de garantizar la equidad
puntuaciones de los participantes en una base de en el proceso de medición. La ausencia de funcio-
datos se pueden cometer multitud de errores, razón namiento diferencial en un ítem supone que la pro-
por la cual es altamente recomendable comprobar babilidad de respuesta correcta depende únicamen-
de forma rigurosa que los datos se han introducido te del nivel del participante en la variable objeto de
correctamente. Una estrategia sencilla que se puede medición, y no está condicionada por la pertenen-
utilizar a posteriori es la de extraer al azar un cier- cia a un grupo determinado o característica, por
to porcentaje de los participantes y comprobar la ejemplo, género, cultura u otro aspecto cualquiera
correspondencia entre las puntuaciones en la prue- (Gómez, Hidalgo y Guilera, 2010). No se debe per-
ba y la base de datos. No obstante, los mejores erro- der de vista que la finalidad del análisis psicométri-
res son los que no se cometen, así que hay que po- co de los ítems es maximizar o potenciar las propie-
ner todos los medios para minimizar los errores a dades métricas del instrumento de medida; no
la hora de construir la base de datos. obstante, no existen reglas universales, y las consi-
deraciones estadísticas no garantizan unos resulta-
dos con significación conceptual, por lo que hay
9.  PROPIEDADES PSICOMÉTRICAS que tener presente también los aspectos sustantivos
(Muñiz et al., 2005).
Una vez aplicado el test a la muestra de interés, Una vez seleccionados los ítems, se procede al
se procede al estudio de las propiedades psicomé- estudio de la dimensionalidad del instrumento para
tricas de sus puntuaciones: análisis de los ítems, obtener evidencias de validez de su estructura inter-
estimación de la fiabilidad de las puntuaciones, ob- na. En el caso de encontrar una solución esencial-
tención de evidencias de validez (por ejemplo, mente unidimensional, nos podríamos plantear la
estudio de la dimensionalidad, análisis del funcio- construcción de una puntuación total, y en el caso
namiento diferencial de los ítems, relación con va- de una estructura multidimensional deberíamos
riables externas) y construcción de baremos. Como pensar en un conjunto de escalas o perfil de puntua-
se ha visto con detalle en el epígrafe 2, la fiabilidad ciones. El análisis factorial exploratorio y confirma-
se refiere a la precisión de las puntuaciones, esto es, torio y el análisis de componentes principales son
a la calidad de los datos, mientras que la validez se las técnicas multivariantes más utilizadas para exa-
refiere a la calidad de las inferencias hechas a par- minar la estructura interna que subyace a las pun-
tir de las puntuaciones (Prieto y Delgado, 2010). tuaciones de un instrumento de evaluación (Ferran-
En sentido estricto no es fiable el test, sino las pun- do y Anguiano, 2010), si bien no son las únicas
tuaciones obtenidas en él. Análogamente, un test (Cuesta, 1996). Una vez determinada la dimensio-
no es válido, sino que lo son las inferencias hechas nalidad de las puntuaciones del instrumento de me-
a partir de las puntuaciones. Nótese que todo pro- dida, se lleva a cabo una estimación de la fiabilidad,

©  Ediciones Pirámide
282 / Introducción a la Psicometría

para lo cual se pueden seguir diversas estrategias, partir de las puntuaciones de las personas. Asimis-
tanto desde el punto de vista de la teoría clásica de mo conviene llevar a cabo una evaluación rigurosa
los test como de la teoría de respuesta a los ítems y sistemática del instrumento elaborado, para lo
(Muñiz, 1997a, 2003). Posteriormente, y de cara a cual puede utilizarse el modelo de evaluación de test
obtener evidencias de validez, se debe observar la elaborado por la European Federation of Professio-
relación del instrumento de medida con otros instru- nal Psychologists Associations (EFPA), adaptado
mentos de evaluación, y finalmente se lleva a cabo en España por Hernández, Ponsoda, Muñiz, Prieto
una baremación del instrumento de medida que per- y Elosua (2016), que se presenta en el siguiente ca-
mita establecer puntos de corte con alguna finalidad pítulo.
práctica o profesional. Los desarrollos estadísticos y Se han descrito los diez pasos fundamentales
técnicos en este campo son notables, incorporándo- que habría que seguir para desarrollar un test obje-
se cada vez más a menudo los métodos estadísticos tivo y riguroso para evaluar variables psicológicas.
robustos (Erceg-Hurn y Mirosevich, 2008), el análi- Estos pasos no se pueden abordar en profundidad
sis factorial confirmatorio (Brown, 2015), los test desde un punto de vista técnico en un breve docu-
adaptativos informatizados (Olea, Abad y Barrada, mento como este; no se trataba de eso, sino de po-
2010; Wells y Faulkner-Bond, 2016) o el análisis de ner a disposición de los estudiantes y profesionales
redes (Borsboom y Cramer, 2013). una guía general que les permitiese obtener una vi-
sión panorámica de las actividades implicadas en el
desarrollo de los instrumentos de medida. Se cita
10.  VERSIÓN FINAL DEL TEST además la bibliografía especializada, a la que pue-
den acudir aquellos interesados en profundizar en
En último lugar, se procede a la elaboración de esta temática. El campo de la elaboración de instru-
la versión definitiva del test, se envía un informe mentos de medida está altamente desarrollado, y es
de resultados a las partes interesadas y se elabora el necesario acudir a personal cualificado para su de-
manual que permita su utilización a otras personas sarrollo adecuado, pues constituye una temeridad
o instituciones interesadas. El manual de la prueba dejarlo en manos de aficionados bienintencionados.
debe recoger con todo detalle todas las característi- Que un instrumento de evaluación esté adecuada-
cas relevantes de la prueba. Finalmente, y aunque mente construido y reúna las propiedades técnicas
sea la última fase, esto no quiere decir que el proce- idóneas es condición necesaria, pero no es suficien-
so de validación concluya aquí, pues posteriores es- te: además hay que utilizar la prueba de forma per-
tudios deberán seguir recogiendo evidencias de va- tinente. En el capítulo 9 nos ocupamos de la utili-
lidez que permitan tomar decisiones fundadas a zación adecuada de los test.

©  Ediciones Pirámide

También podría gustarte