Está en la página 1de 7

Tipos de tests

Consideramos genéricamente un test como un procedimiento estandarizado que sirve


para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de
indicadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable
latente.

1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento


óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar
una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y
aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal
como se hace en los tests de personalidad o en las escalas de actitudes).

2. Según el modelo psicométrico, tests analizados desde la TCT y desde la TRI. Ambos
modelos pueden aplicarse a las puntuaciones de un mismo test.

3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests


informatizados. Dentro de estos últimos se distingue entre tests fijos informatizados
(aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos
que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas
en un grupo de personas específico) y tests adaptativos informatizados (los que
presentan diferentes ítems del banco a los diferentes evaluados, dependiendo del nivel
progresivo que vayan manifestando en la prueba).

4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la
interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests
referidos al criterio (la interpretación se refiere al rendimiento individual conseguido
por una persona en relación a unos criterios o dominios establecidos de antemano). Cabe
interpretar desde ambas perspectivas el rendimiento en el mismo test.

5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por


ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo),
tests de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones
de respuesta, normalmente con una sola opción correcta), tests de categorías ordenadas
(por ejemplo con varias categorías para manifestar el grado de acuerdo con
determinadas sentencias) o tests de respuesta binaria o elección forzosa (típicos, como
veremos, de los tests ipsativos o de ciertos tests de personalidad).

6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests


psicométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos.

7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba,


hablamos, respectivamente, de tests de velocidad o tests de potencia.

1
Teoría Clásica de los Test (TCT)

Después de que los ítems son construidos y aplicados a los sujetos, hay que relacionar las
respuestas con el constructo que los inspiró. Es de decir, hay que obtener alguna forma de
puntuación en el constructo. Esta relación se establece por medio del denominado
«modelo de medida». Los modelos de medida de uso extendido en la psicometría
responden básicamente a dos formas:

 Los que ponen el acento en la puntuación total obtenida a partir del conjunto de
ítems, que se basan en alguna forma de agregación de las puntuaciones de los
ítems, normalmente mediante su suma o suma ponderada. Esta aproximación es
denominada por Wilson (2005) la teoría simple de la puntuación. El modelo que la
justifica es la denominada Teoría Clásica de los Tests (TCT) y alguna de sus
extensiones, como la Teoría de la Generalizabilidad (TG).
 Los que ponen el acento en los ítems considerados individualmente, y en los
patrones de respuesta. Hay diferente smodelos agrupados de forma general bajo la
denominación de Teoría de la Respuesta al Ítem.

La TCT fue formulada por Spearman (1904) casi en su totalidad. El modelo parte de que
las respuestas dadas a los ítems del test se combinan en una única puntuación total Xi para
cada sujeto i. La formalización de la relación de esta puntuación con el constructo se
refleja en el siguiente modelo:

El modelo expresa, simplemente, que la puntuación observada surge de una puntuación


verdadera, Vi que es la cantidad que el sujeto posee del atributo más un error de medida,
Ei. Como puede observarse, la relación entre X y E es aditiva, dando lugar a un modelo
lineal.

Como todo modelo formal, la TCT necesita de un conjunto de supuestos acerca de la


naturaleza de las variables implicadas y de sus relaciones. La TCT se formula a partir de
supuestos débiles, que se acomodan a la mayoría de las situaciones prácticas.

Fases en el estudio psicométrico

1. Diseño del test

Hay qué decidir qué, a quién y para qué se va a usar el test. Hay que pensar las
dimensiones para ver cuántas puntuaciones vamos a tener.

¿Haremos un test nuevo o una adaptación? La adaptación se llevará a cabo cuando el test
ha demostrado su utilidad en otros contextos culturales y lingüisticos; esto es
especialmente importante en estudios o aplicaciones psicológicas o educativas
internacionales (ej. Examen PISA).

2
2. Construcción provisional

Se recomienda que se elaboren el doble de ítems de los que se piensa que debería tener el
test.

Hay que elegir el formato de los ítems dependiendo si es un test de rendimiento óptimo o
típico.

Test de rendimiento Test de rendimiento típico2


óptimo1
Formato más usual Opción múltiple o respuesta Categorías ordenadas
construida (frecuencia o acuerdo)
Tiempo de administración Velocidad (max ítems) o Sin tiempo límite
potencia (características de
los ítems respondidos).
Respuesta en blanco Diferenciar entre omisiones Imputación estadística (se
e ítems no alcanzados. le asigna la media del resto
de ítems para poder
predecir la puntuación)
Si son muchas, no se evalua
Respuestas al azar Corregir los aciertos por
azar (opción múltiple)
Sesgos de respuesta Categorías extremas (por
estilo personal)
Aquiescencia (ítems
directos-inversos)
Deseabilidad social
En la práctica, la mayoría de los test de rendimiento óptimo son de potencia si bien se fija
un tiempo de administración.

3. Aplicación a una muestra y cuantificación de respuesta


 Opción múltiple: cuantificación dicotómica 1(acierto) 0 (error
 Respuesta construida: cuantificación politómica (ej. de 0-5)
 Categorías ordenadas: 1-k (directo) y de k-1 (inverso)

4. Análisis de ítems

Con análisis de ítems nos referimos a los procedimientos dirigidos a extraer información
sobre su calidad.

 Índice de dificultad

Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los
ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j,
pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente
entre el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han
respondido (Nj).

1 máxima puntuación posible. ej, un examen, prueba de aptitud, test de inteligencia.


2 responder cómo somos o la posición personal entorno a un tema.

3
El índice de dificultad corregido de un ítem de opción múltiple de K opciones, pcj , se
obtiene aplicando la siguiente expresión:

Donde pj es el índice de dificultad sin corregir y Fj es el número de personas que fallaron el


ítem de los Nj que lo respondieron. Si los ítems del test del Ejemplo tuviesen 4 opciones,
los nuevos índices de dificultad corregidos serían:

 Propiedades del índice de dificultad


1. El valor mínimo que puede asumir p es 0 (cuando nadie acierta el ítem) y el valor
máximo, 1 (todos los que lo intentan lo aciertan).
2. El valor de p depende de la muestra. Un ítem aplicado a una muestra muy
preparada (de alto nivel en el rasgo) será acertado por más evaluados que si es
aplicado en una muestra poco preparada.
3. El valor de p se relaciona con la varianza de los ítems: Si p es 0 ó 1, la varianza del
ítem es cero, pues sólo se han producido en el ítem fallos y aciertos,
respectivamente. A medida que p se acerca a 0,5, su varianza aumenta. La máxima
varianza de un ítem dicotómico (0,25) se alcanza cuando p = 0,5.

Por tanto, en general, los mejores ítems son los que aportan más varianza al test y son los
que tienen valores de p medios.

4
 Índices basados en la correlación entre el ítem y el test

Otra estrategia para determinar si un ítem discrimina entre los evaluados que tienen altas
y bajas puntuaciones en el constructo consiste en correlacionar las puntuaciones en el
ítem con una medida del constructo, que por lo general es el rendimiento en el test. Esta
estrategia da lugar a los indicadores de discriminación basados en la correlación ítem-test.
Los indicadores de discriminación basados en la correlación ítem-test pueden aplicarse a
ítems dicotómicos y no dicotómicos, a tests de rendimiento óptimo y típico, y la muestra
completa participa en su cómputo. El índice de discriminación del ítem j basado en la
correlación ítem-test, rjX, se define como la correlación de Pearson entre las puntuaciones
en el ítem y en el test. Se le suele llamar correlación ítem-test.

Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener la
correlación ítem-test corregida, rcjX , o correlación del ítem con el resto del test. Consiste
en correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test
después de restarle las puntuaciones del ítem cuyo indicador queremos obtener. La
correlación entre un ítem y el resto del test suele ser inferior a su correlación ítem-test.

En la práctica, es difícil encontrar valores positivos muy altos, porque el ítem es una
variable con escasa varianza. Se toman los valores entre 0.15-0.3 como aceptables y
mayores a 0.40 como buenos (aunque estos son valores arbitrarios). Se puede obtener con
una fórmula:

Por ejemplo, para 100 sujetos con un α=0.05, rxy será sig si es
mayor a 0.196

Si el valor es negativo y alto, es muy posible que no se haya cuantificado bien el ítem y
habría que recodificarlo o eliminarlo.

5. Fiabilidad y validez

Fiabilidad

La estimación del coeficiente de fiabilidad, calculada a partir de datos empíricos, está


afectada por varios factores: 1) variabilidad del grupo y 2) longitud del test.

 Fiabilidad y longitud: fórmula de la profecía de Spearman-Brown

Un aspecto muy influyente en el valor del coeficiente de fiabilidad es la longitud del test o
número de ítems que lo componen.

Este procedimiento también puede aplicarse si queremos conocer en cuánto se reducirá la


fiabilidad eliminando ítems del test. Una aplicación frecuente es su utilización como
corrección en el procedimiento de cálculo de la fiabilidad a partir en la división de un test
en dos mitades.

La razón de definir el coeficiente de fiabilidad como lo hizo Spearman desde la teoría de la


regresión lineal fue porque representa una buena forma de establecer el grado de
aproximación entre las puntuaciones verdaderas y las observadas. Si recordamos la teoría
de la regresión de estadística, para cada puntuación verdadera puede obtenerse una
distribución de puntuaciones observadas X, de tal modo que E(Xi|Vi)=Vi. Bajo este modelo

5
hablamos del coeficiente de determinación, p2xv o proporción de la variación de X
explicada por V, es decir, por las puntuaciones verdaderas, definido como p2xv = 𝜎𝑣2 2/𝜎𝑥2 .

La imposibilidad de calcular empíricamente el coeficiente de fiabilidad llevó a Spearman al


concepto de tests o medidas paralelas:

1. Dividir el test en dos mitades equivalentes (p.ej. ítems Pares e Impares)


2. Calcular la correlación entre ambas mitades:
4. Aplicar Spearman-Brown para estimar la fiabilidad del test completo

Coeficiente α de Cronbach

Es un indicador de consistencia interna global entre todos los ítems del test (grado de
covariación media entre los ítems).

 teóricamente no puede ser negativo


 estimación por defecto del coeficiente de fiabilidad
 valores extremadamente altos pueden indicar redundancia en el contenido de los
ítems
 no es un indicador de unidimensionalidad
 si hay varios factores/escalas/dominios en un test, hay que calcularlo para cada
uno.

Error típico de medida

6
Fiabilidad ¿Cómo incrementarla?

1) Incrementando la longitud con ítems paralelos.


2) Eliminar ítems con escasa correlación ítem-resto del test, es decir, aquellos que si se
quitan proporcionan una consistencia interna mayor.
3) Mejorar las condiciones de aplicación.
4) Aplicarlo a una muestra más variable (restricción de rango).

También podría gustarte