Está en la página 1de 8

TEMA 3:

Fases del proceso de construcción de un test:

Tenemos dos clasificaciones las de Abad y la de Muñiz. Nos guiaremos por Muñiz puesto que le
va a dar mucho peso a unos ítems que el otro no es que los obvie pero no los resalta.

1. Marco general
2. Definición de la variable medida
3. Especificaciones
4. Construcción de los ítems
5. Edición
6. Estudios piloto
7. Selección de otros instrumentos de medida
8. Aplicación del test
9. Propiedades psicométricas
10. Versión final del test

1. Marco general:

Explicación detallada y precisa de cuáles son las razones que motivan el desarrollo del estudio.

 No existe ningún otro para medir una determinada variable.


 Los instrumentos existentes presentan unas puntuaciones con propiedades
psicométricas deficientes.
 No incorporan algún constructo relevante para analizar dicha variable.
 Los existentes se han quedado obsoletos

Esto viene a decir que aquí debe aparecer la razón por la que se hace tu estudio.

2. Definición de la variable medida:

 Definición de la variable que quieres medir, por ejemplo si quieres medir liderazgo
tienes que definir esa variable.
 La variable evaluada debe definirse en términos operativos para que pueda ser medida
de forma empírica (Ver los términos operativos que tenga dentro).
 Tan importante como lo que vamos a medir es lo que no vamos a medir (si queremos
medir liderazgo intentar que otras variables como resiliencia no se metan).
 Revisión exhaustiva de la literatura publicada al respecto.
 Hay que evitar dejar fuera algún constructo o dominio relevante (infrarrepresentación)
vs. sobrerrepresentación.

Esto es un ejemplo.
3. Especificaciones:

Requerimientos de aplicación del instrumento (por ejemplo ser estudiante de X curso).

El soporte de administración (Papel y/o informático)

Tipo de aplicación se va a realizar (Individual y/o colectiva)

Cuándo y en qué lugar se va a administrar el instrumento de medida

Especificar OTROS requerimientos

• cognitivos
• de vocabulario
• de accesibilidad de los participantes,
• rango de edades

Adaptaciones para aquellos participantes que no puedan desempeñar la tarea en igualdad de


condiciones que el resto (Versión en Braille).

En relación con los ítems

• Tipo
• Número
• Longitud

El contenido y el orden.

Formato de respuesta o el tipo de alternativas que se va a utilizar.

Medidas a emplear para el control de los sesgos de respuesta, tanto a nivel de redactado de
ítems.

Procedimientos para el cálculo de las puntuaciones.

Tipos de sesgos:

 Sesgo de error: disminuir el número de distractores


 Sesgo de aquiescencia: poner ítems en positivo y negativo
 Sesgo de engaño: poner ítems trampa o preguntar lo mismo parafraseando (para la
detección de engaños por ejemplo en peritajes).

4. Construcción de los ítems:

No existen normas universales (aunque si una serie de guías como no poner ítems
excesivamente largos).

La construcción de los ítems constituye una de las etapas más cruciales dentro del proceso de
elaboración del test.

Ítems que provienen de otro instrumento ya existente en otro idioma y cultura deberán
seguirse las directrices internacionales para la traducción y adaptación de test.
Principios básicos para la construcción de cualquier banco de ítems:

• Representatividad: considerando el modelo teórico subyacente y la evidencia empírica


acumulada.
• Relevancia
• Diversidad (heterogéneos y variados)
• Claridad (evitando tecnicismos, negaciones, dobles negaciones. Si se incluyen
subrayarlas.
• Sencillez
• Comprensibilidad (lenguaje inclusivo y evitando lenguaje ofensivo y discriminatorio).

Se recomienda que el número de ítems inicial sea como mínimo el doble del que finalmente se
considera que podrían formar parte de la versión final (tiene lógica puesto que siempre es fácil
quitar ítems de los que has pasado a una población que añadir mas.

En las preguntas de rendimiento óptimo:

• La idea principal de un ítem debe estar en el enunciado.


• Simplicidad
• Evitar conocimientos triviales o “rebuscados”.
• Evitar información irrelevante en el enunciado (esta está repetida, es como la primera)
• Evitar dar indicios de la solución.
• No encadenar unos ítems con otros.
• Anticipar la dificultad e incluir preguntas de todo rango de dificultad, predominando la
dificultad media.

En las preguntas de rendimiento típico:

• Usar el tiempo presente.


• Evitar excesiva generalidad.
• Evitar la aquiescencia. Items directos e inversos. (Esto lo dice un poco porque en
algunos tests que evalúan la depresión por ejemplo el paciente sabe que le estás
evaluando esto y porque el tio no se piense que todo son síntomas y no lo lea como “A
que sientes una tristeza aguda…”.
• Evitar usar universales (todo, siempre, nada,…)
• Evitar preguntas que favorezcan la deseabilidad social.

Esta diapo sin más, el tipo de test ya lo has decidido antes.

5. Edición:

Imprime la primera versión del test.

Base de datos con las claves de correctoras.

Buenos ítems pobremente editados dan como resultado un mal test.


Uno de los errores más frecuentes entre los constructores de test aficionados es utilizar
fotocopias malamente grapadas.

El aspecto físico de la prueba forma parte de su validez aparente.

Es importante que el instrumento dé la impresión de medir de manera objetiva, rigurosa,


fiable y válida.

Del anterior tema: El CDI es de respuesta típica, hay que valorarlo desde el punto de vista no del
experimentador, sino desde el punto de vista del que hace el test. De este tema: el instrumento se
vuelve mas fiable en tanto que cuida su apariencia.

6. Estudios piloto:

Examinar el funcionamiento general del instrumento de medida en una muestra de


participantes con características semejantes a la población objeto de interés. (llega el
momento en el que tenemos que coger información de los participantes del test, hacerles un
test piloto previo a las personas distintas pero parecidas para saber por dónde va a ir la cosa).

Permite detectar, evitar y corregir posibles errores. (Por ejemplo ves que todo el mundo te
responde mal a una pregunta, pues esa pregunta no te está sirviendo para discriminar a la
gente a lo largo de una distribución por tanto no te sirve para nada).

Llevar a cabo una primera comprobación del funcionamiento del test en el contexto aplicado.

El estudio piloto podría verse como una representación en miniatura de lo que posteriormente
va a ser el estudio de campo.

7. Selección de otros instrumentos de medida:

La selección adecuada de otros instrumentos de evaluación permite recoger evidencias a favor


de la validez de las puntuaciones de los participantes.

(Por ejemplo medir aprendizaje y memoria al mismo tiempo para ver si correlacionan).

8. Aplicación de los tests:

Selección de la muestra

• Tipo
• Tamaño
• Procedimiento

Control de calidad y seguridad de la base de datos.


La representatividad y generalizabilidad de los resultados depende en gran medida de que la
muestra elegida sea realmente representativa de la población objetivo de estudio.

Elegir una muestra pertinente en cuanto a representatividad y tamaño es esencial, si se falla


en esto todo lo demás va a quedar invalidado.

El muestreo probabilístico siempre es preferible al no probabilístico.

Se suele recomendar que por cada ítem administrado tengamos al menos 5 o 10 personas, o
unas 200 observaciones como mínimo.

Muestreo probabilístico: lo mas aleatorio posible. Si coges a gente por la calle delante de un
colegio privado no es probabiliístico porque es mas probable que sean ricos.

9. Propiedades psicométricas:

Análisis de los ítems

• Dificultad
• Discriminación

Estimación de la fiabilidad de las puntuaciones

• La fiabilidad se refiere a la precisión de las puntuaciones, mientras que la validez se


refiere a la calidad de las inferencias hechas a partir de las puntuaciones.
(En la famosa diana, si están todas las flechas en un punto que no es el centro el test
es muy fiable pero poco válido. Lo que quiera que mida lo mide bien. Un test válido
pero poco fiable serían puntos alrededor del centro de la diana pero separados entre
si. Esto podría ser porque hay demasiados distractores en las preguntas.
• En sentido estricto no es fiable el test, sino las puntuaciones obtenidas en él. Un test
no es válido o fiable en si, sino que lo son las inferencias hechas a partir de las
puntuaciones.

Evidencias de la validez:

Según el contenido:

- Validación por expertos: pones expertos en el campo en cuestión del que se trata el
test y ellos te dicen si creen que cada uno de los ítems midan bien lo que pretenden
medir.

Según las evidencias basadas en la relación con otras variables:

- Validez concurrente: lo contrario de discriminante.


- Validez discriminante: los elementos que miden cosas distintas deberían tener una
correlación igual o cercana a 0.
- Validez predictiva: si puedo o no hacer predicciones con ese test.

Evidencias basadas en la estructura interna del test:


- Validez de constructo:

Teoría de los factores:

Ahora no lo tienes por qué entender puesto que lo veremos. La idea de esta teoría es que
intentas ver qué factores se representan en tu test de manera común. En un porcentaje o
saturación mas alto o mas bajo. También habrá factores específicos y de error.

Si X1 es el resultado de mi test puedo afirmar que X1 es una combinación de factores en


diferentes porcentajes o saturación los que finalmente sumo el error.

Análisis factorial confirmatorio:

Esto no me he enterado men.

Diapo 34:

¿Y cuántos factores hay que poner en un test? No está muy claro pero tampoco debemos
saturar las cosas.

10. Versión final del test:

• Elaboración la versión definitiva del test.


• Informe de resultados.
• Elaboración del manual que permita su utilización a otras personas o instituciones.
• Posteriores estudios deberán seguir recogiendo evidencias de validez que permitan
tomar decisiones fundadas a partir de las puntuaciones de las personas.

También podría gustarte