Está en la página 1de 117

Psicometría

1
¿De qué trata la Psicometría?

¿Qué es medir?

¿Es posible medir las variables psicológicas?

¿Es necesario medir las variables psicológicas?

¿Es difícil medir las variables psicológicas?

2
¿En qué se diferencia la Psicometría de ….

….. Evaluación psicológica

…. Evaluación y diagnóstico en educación

3
Objetivos de la asignatura

1. Comprender la necesidad, la posibilidad y la transcendencia


de la medición en psicología

2. Conocer y comprender los distintos modelos teóricos de


medición en psicología

3. Saber aplicar esos conocimientos teóricos en el proceso de


construcción de instrumentos de medida

4. Ser capaz de juzgar la idoneidad de los modelos e


instrumentos de medida utilizados en psicología

4
Definición

RAE:

Psicometría: la medida de lo psicológico

¿Qué es lo psicológico?

¿Qué es la medida?
5
¿Qué es lo psicológico? – Objeto de estudio

Constructos

X1 X2 X3

6
¿Qué es medir?

a. Encontrar un sistema relacional numérico con una estructura


semejante al relacional empírico que se pretende medir

b. Comparar una cantidad con su respectiva unidad, con el fin


de averiguar cuántas veces la segunda está contenida en la
primera

c. Asignar números a los objetos (las propiedades de los


objetos) según ciertas reglas

7
Definición

Muñiz (2001, p. 17). Psicometría: conjunto de


métodos, técnicas y teorías implicadas en la
medición de variables psicológicas… lo específico
de la Psicometría sería su énfasis y
especialización en aquellas propiedades métricas
exigibles a las mediciones psicológicas
independientemente del campo sustantivo de
aplicación y de los instrumentos utilizados.
8
Definición

Barbero, Vila y Suárez (p. 27). La psicometría es


una disciplina metodológica, dentro del área de
la psicología, cuya tarea fundamental es la
medición o cuantificación de las variables
psicológicas con todas las implicaciones que ello
conlleva, tanto teóricas (posibilidades y criterios
de medición) como prácticas (cómo y con qué se
mide).
9
Método científico y Psicometría
Fase Método científico Psicometría
1. Problemas
Definición del constructo
2. Hipótesis
Teórico-conceptual Modelo teórico
3. Definición de Modelo de medida
variables
4. Muestra Elaboración/selección de
Técnico-metodológica 5. Procedimiento los instrumentos más
6. Instrumentos adecuados
Calidad métrica de los
datos recogidos
7. Análisis estadístico de Nivel de
medida/propiedades
los datos
Estadístico-analítica métricas de los datos
8. Discusión Conclusiones respecto al
9. Conclusiones modelo teórico y al modelo
de medida
10
Baremos
Desarrollo histórico de la psicometría

11
Desarrollo histórico de la psicometría
Desarrollo
Histórico

Escalamiento
Experimental Psico-físico

Diferencias
Correlacional individuales
12
Desarrollo histórico de la
psicometría

13
Autores asociados al desarrollo de la psicometría

Fechner: psicofísica – escalamiento de estímulos

Galton: medidas individuales, análisis estadísticos

Binet: pruebas de inteligencia

Yerkes: pruebas Alfa y Beta del ejército

Woodworth: tests psicométricos de personalidad

Spearman, Pearson, Lord, Birnbaum, Rasch


Psicometría

Teoría de la Teoría de los Aplicaciones:


medida Escalamiento Tests Validez Construcción de
tests. Baremación

15
16
Escalar: situar a personas o estímulos a lo largo de un continuo

Baja Item 1 Item 2 Item 3 Elevada


dificultad dificultad
- +
Baja 0 2 3 Elevada
habilidad habilidad

-1 1 1.5
Métodos de escalamiento de estímulos.
a) según el tipo de continuo a lo largo del cual varía el atributo pueden ser:
- escalas psicofísicas (Fechner, Stevens, etc.)
- escalas psicológicas (Thurstone)
b) según el tipo de respuesta de los sujetos pueden ser:
- juicio categórico
- juicio comparativo

Métodos de escalamiento de sujetos.


- tests de ejecución máxima: rendimiento, conocimientos, aptitudes,
inteligencia, etc.
- tests de ejecución típica: personalidad, intereses, valores, actitudes, etc.

Métodos de escalamiento conjunto.


- determinísticos (Guttman)
- probabilísticos (T.R.I.)
TEORÍA DE LOS TESTS
1. Definición de tests
2. Clasificación de los tests
3. Problemas en la medición psicológica
CONSTRUCCIÓN DE TESTS
1. Introducción
2. Proceso de construcción de tests: fases
2.1. Marco general del test
2.2. Selección del modelo de medida a utilizar
2.3. Definición del constructo
2.4. Diseño del test
2.5. Redacción y análisis preliminares de los ítems
2.6. Organización y formato del test
2.7. Estudio piloto
2.8. Cálculo de las propiedades psicométricas y selección de los ítems
2.9. Diseñar y realizar estudios de fiabilidad y validez con la forma final del test
2.10. Puntuación e interpretación de las puntuaciones del test
2.11. Manual del test
Test:

•Instrumento estandarizado

•Prueba objetiva

•Cuantificar
20
21

Instrumento estandarizado:
1. Preguntas
2. Respuestas
3. Formato de presentación
4. Orden de presentación
5. Instrucciones
6. Contexto y tiempo de aplicación
7. Corrección y puntuación de los ítems
8. Puntuación del test
9. Interpretación de las puntuaciones
La relación entre indicadores y
constructos, e inferir los constructos a
partir de los indicadores, es uno de los
mayores problemas asociados a los
tests, por ello una característica que los
identifica es la necesidad de aportar
evidencias de la fiabilidad y validez de
las mediciones realizadas.
Inferencia psicométrica

Definiciones:
Operacional o semántica
Estructural o sintáctica

Evidencias de fiabilidad y validez


23
Inferencia psicométrica
Del constructo a …

Las conductas observables …

Los ítems …

Las respuestas …

Los números (cantidades) …

Puntuación total en el test

¿Puntuación en el test = Cantidad de atributo? 24


Calidad de las medidas

Obtener evidencias externas de la


calidad de la medición

Precisión Fiabilidad
Utilidad Validez
25
Problemas/limitaciones de la medición psicológica:

1. No hay definiciones únicas (variedad de indicadores)


2. Medidas basadas en muestras (de conductas, de ítems,
de situaciones, de momentos, de personas,…)
3. La medida siempre está sujeta a error
4. No tenemos unidades de medida (ni conocemos el
nivel de medida)
5. Es necesario definir las variables a partir de
indicadores observables y de modelos teóricos

26
Teoría de los tests
Relación entre puntuaciones en un test y la variable inobservable que intenta medir
ese tests.

Esas relaciones se suelen expresar en notación matemática.

Permiten interpretar las puntuaciones de los sujetos y conocer el error de medida


cometido.

Marco teórico que permite el cálculo de fiabilidad y validez

1. Teoría Clásica de los Tests (TCT): X = V+ e

2. Teoría de Respuesta a los Ítems (TRI): P(θ) = 1 / (1+e-D(θ-b))


27
Teoría Clásica de los Tests
Modelo lineal de Spearman: X = V + E

X = Observable

V = No observable

E= error de medida E = X – V; No observable

28
Modelo de la TCT

1. Escalamiento de sujetos
1. Construcción de ítems: ítems paralelos

Item 7
Item 6
Item 5
Item 4
Item 3
Item 2
Item 1

María Luis
- María Pepa
Inmaculada
Rosa Juan Pepe Luisa
+
De todos los
santos
Modelo de la TCT

1. Escalamiento de sujetos

2. Análisis de ítems y tests: estadísticos tradicionales:


medias, desviación típica, correlación

3. Puntuaciones: suma, puntuaciones Z, percentiles


Modelo de la TCT
Mayoría de investigaciones
Análisis de TESTS

Ventajas

Limitaciones:
1. Propiedades psicométricas dependientes de las muestras de sujetos
2. No ordenación de los ítems
3. Medidas ordinales
4. No se pueden verificar los supuestos
5. Igual cantidad de error a lo largo del continuo
TRI
Análisis de ITEMS

Ventajas de la TRI:
1. Independencia de las muestras
2. Medidas de intervalo
3. Escalamiento conjunto
4. Verificación del ajuste de los ítems
5. Precisión de las medidas para cada nivel en el continuo

Limitaciones:
1. Modelos matemáticos complejos
2. Cálculo de las puntuaciones
3. Tamaños muestrales elevados
Modelo de la TRI

1. Escalamiento conjunto
1. Construcción de ítems: ítems a lo largo de todo
el continuo

Item 6 Item 7 Item 2 Item 1 Item 3 Item 5 Item 4

María Luis
- María Pepa
Inmaculada
Rosa Juan Pepe Luisa
+
De todos los
santos
Clasificaciones de los test:

1. Ejecución demandada: ejecución


máxima frente a ejecución típica

2. Interpretación de las puntuaciones:


tests referidos a la norma y tests
referidos al criterio
34
Construcción de tests

35
Objetivos
Conocer y comprender las fases del proceso
general de elaboración de tests.
Seleccionar el modelo de medida más adecuado en
función del objetivo y del contexto de medición
Conocer y comprender la función de las
especificaciones de tests e ítems.
Conocer los distintos formatos de ítems.
Identificar los controles de calidad que se realizan
sobre los tests.

36
Para dominar a fondo todas las fases de
construcción de tests:

Construcción de cuestionarios

Optativa de 4º de psicología
Etapas en la elaboración de un test

1. Marco general del test


2. Selección del modelo de medida a utilizar
3. Definición del constructo
4. Diseño del test
5. Redacción y análisis preliminares de los ítems
6. Organización y formato del test
7. Estudio piloto
8. Cálculo de las propiedades psicométricas y
selección de los ítems
9. Diseñar y realizar estudios de fiabilidad y validez
con la forma final del test
10.Puntuación e interpretación de las puntuaciones
del test
11.Manual del test
38
Proceso de construcción de un test:

Objetivo: obtener mediciones válidas

Validez: utilidad de las puntuaciones/justificación de las decisiones que


se tomarán a partir de esas puntuaciones.

Validación: proceso de obtención de evidencias que justifiquen las


decisiones que se tomen / proceso que permite ir depurando y
perfeccionando cada vez más nuestro instrumento de medida

Validez: guía y referente de todas las fases del proceso

39
Proceso de construcción de un test:

Es … Secuencial

Flexible

Importancia de seguir las fases que se proponen:

1. Asegurar la validez

2. Evitar la tentación de ponerse a escribir ítems


40
Tests de Ejecución
Típica
Tests de Ejecución Típica
1. Identificación de los objetivos de la prueba, de la población de
estudio y de las condiciones de aplicación del test [MARCO
GENERAL DEL TEST].

Objetivos: ¿para qué? ¿qué vamos a hacer una vez conocidas las
puntuaciones de cada sujeto?

• Diagnóstico

• Selección

• Clasificación

• Certificación

• Consejo

• Descripción/Información
Tests de Ejecución Típica
1. Identificación de los objetivos de la prueba, de la población de estudio y
de las condiciones de aplicación del test.
Población:

1. Nivel de rasgo

2. Características sociodemográficas

3. Limitaciones físicas o intelectuales

4. Características sociológicas (ideologías, creencias, etc.)

Contexto:

Aplicación colectiva o individual

Formato: test manipulativo/ papel y lápiz/ ordenador

Tiempo/Dinero
Tests de Ejecución Típica
2. Selección del modelo de medida a utilizar:
Objetivos
Teoría psicológica

TCT - TRI

Redacción de ítems
Análisis de ítems
44
TCT vs TRI

¿Variables nominales?

¿Identificación de sujetos con patrones de respuesta atípicos?

¿Ítems paralelos?

Generación de puntuaciones totales

Software accesible

¿Modelos multidimensionales?
Tests de Ejecución Típica
3. Definición del constructo:

¿Qué variable hemos de medir para lograr los objetivos


propuestos?

Definición compartida – Replicabilidad

Doble vía:

- Definición operativa o semántica

- Definición estructural o sintáctica

46
Tests de Ejecución Típica

Procedimientos para llegar a una buena definición del


constructo:

1. Revisión bibliográfica

2. Consulta a expertos

3. Observación directa

47
Tests de Ejecución Típica
4. Diseño del test: Especificaciones del test y de los
ítems

Determinar la importancia relativa que tiene cada dimensión o variable

Características generales del test y de los ítems

Descripción de la estructura y contenidos del test

Incluye: 1. Porcentaje de importancia de cada dimensión

2. Nº total de ítems en el test

3. Nº ítems para cada dimensión

4. Formato de las preguntas y de las respuestas

48
Tests de Ejecución Típica
Especificaciones de un test de ejecución típica

Basado en el modelo de la Conducta Planeada de Ajzen


Likert
Preg. Cerrada Cerrada Likert grado Likert Diferencial
frecuenci Total
abierta nominal ordinal de acuerdo seguridad Semántico
a
10
Actitud 2 8
(26.5%)
6
Norma Subjetiva 6
(15.8%)
Control conductual 6
6
percibido (15.8%)
6
Intención 6
(15.8%)
4
Conducta 1 2 1
(10.6%)
Variables 6
3 1 2
sociodemográficas (15.8%)
38
Total 4 1 2 16 1 6 8
(100%)

49
Tests de Ejecución Típica

5. Redacción y análisis preliminar de los ítems

En principio debemos elaborar el doble o el triple de los ítems que finalmente


incluiremos en nuestro test. En el proceso de elaboración de los ítems tendremos
en cuenta:

a) Formato de los ítems

b) Recomendaciones para las preguntas

c) Recomendaciones para las respuestas

d) Errores o problemas asociados a la redacción de las preguntas y de las


respuestas

50
Tests de Ejecución Típica

Formato de los ítems. Formato de las preguntas


Abierta Cerrada
Obtener información directa de Obtener datos objetivos de
Objetivo los encuestados con sus propias juicios, opiniones o actitudes
palabras
Nivel cultural medio-elevado y Nivel cultural medio-bajo y sin
Características de los
con conocimientos y opinión conocimientos y opinión sobre
encuestados
sobre el tema el tema
No disponer de las posibles Respuestas previstas.
Forma de hacer las
respuestas. Posibles respuestas
preguntas
muy numerosas.
Posibilidad de categorizar y Descripción cuantitativa de las
Análisis de los resultados analizar respuestas muy respuestas
heterogéneas
Descripción individual de los Información estadística de los
Comunicar los resultados
tipos y categorías de respuestas resultados
51
Tests de Ejecución Típica
Formato de los ítems de elección (preguntas cerradas)
a) Dicotómicos: SI/NO; Acuerdo/Desacuerdo

b) Diferencial semántico:
A continuación aparece una frase seguida de seis pares de adjetivos. Pon una X en la casilla que
mejor exprese tu posición (cercana, lejana o intermedia) respecto a los adjetivos que se hallan
en ambos extremos.
Para mí, hacer 20 minutos de ejercicio físico diario es (o sería) algo ...

Agradable|__|__|__|__|__|__|__|__|__|__|__|Desagradable(act1)

Insalubre|__|__|__|__|__|__|__|__|__|__|__|Saludable (act2)

Muy placentero|__|__|__|__|__|__|__|__|__|__|__|Nada placentero (act3)

Incómodo|__|__|__|__|__|__|__|__|__|__|__|Cómodo (act4)
0 1 2 3 4 5 6 7 8 9 10

52
Tests de Ejecución Típica
Formato de los ítems de elección (preguntas cerradas)
Formato tipo Likert

53
Tests de Ejecución Típica
Formato de los ítems de elección (preguntas cerradas)

Formato tipo Likert

Suele ser el formato de ítem más utilizado en tests, escalas o inventarios de


personalidad, motivaciones, actitudes, intereses, etc.

El formato prototípico es:

1.Una frase con la que se puede estar de acuerdo o no


2.El sujeto expresa su grado de acuerdo en un rango de respuesta
3.Se utilizan distintos ítems paralelos que miden la misma dimensión y en el mismo grado (TCT)
4.Miden una única dimensión
5.Se suelen intercalar ítems en sentido positivo y negativo
6.Son puntuaciones sumativas (recodificar los ítems enunciados en sentido inverso)

54
Tests de Ejecución Típica
Formato de los ítems de elección (preguntas cerradas)
Formato tipo Likert

En las respuestas se pueden poner números, palabras o ambos.

a) Muy en desacuerdo
b) En desacuerdo
c) De acuerdo
d) Muy de acuerdo

Casi De vez A Muy a


En el último mes…. Nunca
nunca en cuando menudo menudo
1. ¿Con qué frecuencia ha estado afectado por algo que ha
0 1 2 3 4
ocurrido inesperadamente?

Nunca A veces Siempre


1 2 3 4 5 6 7

55
Formato tipo Likert

Los ítems tipo Likert no solo expresan grado de acuerdo, también pueden expresar
frecuencia, cantidad, probabilidad, …
0 1 2 3 4 5 6
Nunca Alguna vez al Una vez al Algunas veces Una vez por Algunas veces Todos los días
año o menos mes o menos al mes semana por semana

¿Crees que tú tienes posibilidades de contagiarte con el VIH? (Responde rodeando un número de 1 a 7)

Ninguna Muchas
posibilidad posibilidades
1 2 3 4 5 6 7

Expresa tu grado de seguridad rodeando un número desde 1 (Totalmente seguro de que no) hasta 7 (Totalmente
seguro de que sí):
Totalmente Totalmente
seguro de que no seguro de que sí

56
Tests de Ejecución Típica
Recomendaciones para la redacción de los ítems

Una sola idea


Claridad, una sola interpretación
No expresar hechos, sino cuestiones sobre las que se
pueda discrepar
Utilizar tiempo presente o condicional, nunca pasado
Evitar la aceptación o rechazo generalizado (TCT)
Estructura gramatical simple (evitar dobles negaciones,
oraciones subordinadas) 57
Tests de Ejecución Típica
Recomendaciones para la redacción de los ítems
Enunciados en sentido positivo y negativo (cuidado con los
enunciados negativos)
Evitar ‘a veces’, ‘apenas’, ‘muchas veces’ (diferentes interpretaciones)
Vocabulario entendible por la población a la que va dirigido (ni jerga
ni pedantería)
Evitar los términos sexistas, racistas, ofensivos
Que las preguntas no induzcan las respuestas
Las opciones de respuesta deben ser exhaustivas y mutuamente
excluyentes
‘Siempre’ o ‘Nunca’ son poco recomendadas
Tests de Ejecución Típica
Factores que afectan a la fiabilidad y la validez
Aquiescencia
[Enunciados en sentido positivo y negativo]

Tendencia central o evasividad


[Número par de opciones de respuesta]
[Que las etiquetas centrales incluyan más de un valor]

Deseabilidad social
[Asegurar el anonimato]
[Aproximaciones sucesivas]
[Justificar la conducta]
[Incorporar una escala de deseabilidad social]
[Elección forzada]
59
Tests de Ejecución Típica
5. Redacción y análisis preliminares de los ítems
Autocrítica:

1. Contenido
a) ¿Es necesaria esta pregunta?
b) ¿Es necesario concretar más la pregunta?
2. Redacción
a) ¿Se podría expresar de un modo más claro?
b) ¿Puede tener varias interpretaciones?
c) ¿Presenta algún sesgo o prejuicio?
d) ¿Las alternativas son exhaustivas?
e) ¿Se solapan las alternativas de respuesta?

A partir del juicio de expertos

1. Congruencia ítem-objetivo: grado de adecuación del ítem al objetivo o contenido


2. Emparejamiento ítem-objetivo: asociación entre ítems y contenidos u objetivos
60
Tests de Ejecución Típica
6. Organización y formato del test
1) Tamaño de la letra
i. Población
ii. Limitaciones de espacio
iii. Espacio entre letras / párrafos /entre preguntas

2) Presentación (carátula de presentación)


i. Aclaración / motivación
ii. Sinceridad / anonimato /deseabilidad social
iii. No mentir / decidir cuánta información dar

63
Tests de Ejecución Típica
6. Organización y formato del test
3) Opciones de respuesta (letras / números)
4) Instrucciones para responder
5) Estructura matricial de las preguntas
6) No romper ítems entre páginas
7) Los ítems que miden un mismo contenido deben ir juntos
8) Ordenados desde los menos hasta los más comprometidos
9) Colocación de las variables sociodemográficas
10) ¿Dónde responden los sujetos?

64
Tests de Ejecución Típica
7. Estudio piloto
Muestra representativa

Al final incluir:

• ¿Hay alguna pregunta que no hayas entendido?


• ¿Hay alguna pregunta que te haya molestado?
• El cuestionario te parece….
•… largo
… pesado
•…
… difícil de leer/entender/responder
•…
•… interesante
• Si quieres, puedes opinar acerca del cuestionario o de la temática estudiada

8. Cálculo de las propiedades psicométricas y selección de los ítems


9. Diseñar y realizar estudios de fiabilidad y validez con la forma final del
test
10. Puntuación e interpretación de las puntuaciones del test
11. Manual del test
65
Contenidos
•ANÁLISIS DE ÍTEMS
1. Análisis de ítems en tests de ejecución típica
1.1. Estadísticos descriptivos: media y varianza
1.2. Discriminación del ítem
2. Tests de ejecución máxima
2.1. Dificultad del ítem
2.2 Sistemas de corrección de la adivinación
2.3. Discriminación del ítem
2.4. Análisis de los distractores

66
¿Pero qué tipo de análisis?

¿Para qué?

67
Objetivos:

1. Conocer los criterios psicométricos de calidad de los ítems

2. Saber calcular, comprender e interpretar los parámetros de un


ítem

3. Conocer y comprender la importancia que estas propiedades


psicométricas del ítem tienen sobre la calidad global del test

4. Saber analizar los distractores de los ítems y comprender el


peso que tienen en la calidad del ítem y del test

68
Contenidos:
a)Propiedades de los ítems: dificultad / discriminación / fiabilidad
/ validez
i. Fórmulas, cálculo, interpretación, conclusiones, decisiones

b)Estadísticos del ítem: medias, varianzas, correlaciones

c)Relación entre las propiedades de los ítems y del test (fórmulas)

d)Análisis cuantitativo de los distractores de un ítem de un test de


ejecución máxima (proporciones, porcentajes, diferencias de
proporciones)

69
1º Tests de ejecución típica

Ítems tipo Likert (1-5 // 1-7)

2º Tests de ejecución máxima

Ítems de exámenes

Ítems de elección múltiple

70
Tests de ejecución típica
Análisis de ítems

Variables cuantitativas. Valores de 1 a 5 o de 1 a 7. Valores elevados indican elevada


cantidad de la variable que se mide [¿Recodificación?].

Media: mejor cuanto más centradas.

Varianza: mejor cuanto mayor sea la varianza

Correlación ítem-total: mejor cuanto mayor sea la correlación

Correlación ítem-total corregida: valores mayores 0.30

Cuanto mejores sean los parámetros de cada uno de los ítems, mejor será el test

71
1. Tests de ejecución típica:
1.1. Medias y varianzas X i ; Si2

1.2. Correlación ítem-total ( rxi )

1.3. Índice de discriminación o de homogeneidad:


Correlación ítem-total corregida

rix S x − Si
ri ( x −i ) =
Si2 + S x2 − 2rix S x Si

72
Tests de ejecución típica
Medias y varianzas

En general, para conocer la media teórica de un ítem, sumamos sus valores


extremos y el resultado lo dividimos por 2.

En una escala de…. La media teórica sería…

1-5 3

0-6 3

0-4 2

1-10 5.5
Mínimo Máximo Media Desv. Típica
Ítem 1 1 8 4.23 1.05
Ítem 2 1 8 2.01 0.67
Ítem 3 1 8 3.08 1.92
Ítem 4 1 8 2.09 2.16
Ítem 5 1 8 2.55 2.12
Ítem 6 1 8 3.00 0.87
Ítem 7 1 8 7.50 0.46

74
i1 i2 i3 i4 total
1 7 6 7 5 25
2 7 3 4 1 15
3 6 5 4 5 20
4 1 1 2 1 5
5 1 2 2 4 9
6 6 6 5 4 21

Correlaciones

total
i1 Correlación de Pearson .879
Sig. (bilateral) .021
i2 Correlación de Pearson .976
Sig. (bilateral) .001
i3 Correlación de Pearson .937
Sig. (bilateral) .006
i4 Correlación de Pearson .678
Sig. (bilateral) .138
75
Tests de ejecución típica
Correlación ítem-test corregida

Al calcular la correlación entre el ítem y el test (rix) calculamos la correlación entre dos
puntuaciones: i (ítem) y X (puntuación total en el test).

Pero X (puntuación total en el test) contiene a ‘i’. X es la suma de todos los ‘i’

La correlación está inflada porque ‘i’ está en las dos partes

El índice de discriminación de un ítem es la correlación entre ese ítem y la puntuación total


del test una vez que a esa puntuación total le hemos restado la puntuación del ítem

Índice de discriminación correlacional o índice de homogeneidad = ri(x-i)

rix S x − Si
ri ( x −i ) =
Si2 + S x2 − 2rix S x Si
76
Tests de ejecución típica
Correlación ítem-test corregida

En este caso el índice de discriminación se interpreta como índice de


homogeneidad

Es una expresión de la relación entre un ítem concreto y el resto de ítems


considerados en su conjunto

Cuanto más se asemejan las puntuaciones de un ítem con las puntuaciones


de los demás ítems, más parecidos son –más homogéneos- y aparecerán
más relacionados entre sí.

Cuando construimos una escala desde el enfoque de la TCT intentamos


elaborar varios ítems que miden lo mismo y con la misma intensidad. Así
pues, cuanto más parecidas sean sus puntuaciones, más homogéneos serán
los ítems.
77
Resúmenes de casosa
i1 i2 i3 i4 test
1 4 6 7 3 20
2 2 3 4 5 14
3 6 2 8 9 25
4 4 5 6 7 22
Total N 4 4 4 4 4
a. Limitado a los primeros 100 casos.

Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza
i1 4 2 6 4.00 1.633 2.667
i2 4 2 6 4.00 1.826 3.333
i3 4 4 8 6.25 1.708 2.917
i4 4 3 9 6.00 2.582 6.667
test 4 14 25 20.25 4.646 21.583
N válido (según lista) 4
78
Estadísticos de fiabilidad
Alfa de
Cronbach N de elementos
.371 4
Estadísticos total-elemento
Media de la Varianza de Alfa de
escala si se la escala si Correlación Cronbach si
elimina el se elimina elemento-total se eleimina
elemento el elemento corregida el elemento
i1 16.2500 9.583 .923 -.522a
i2 16.2500 26.250 -.428 .800
i3 14.0000 10.000 .802 -.400a
i4 14.2500 12.917 .108 .465
a. El valor es negativo debido a una covarianza promedio entre los
elementos negativa, lo cual viola los supuestos del modelo de
fiabilidad. Puede que desee comprobar las codificaciones de los
elementos.
79
Resúmenes de casosa
i1 i3 i4 test134
1 4 7 3 14.00
2 2 4 5 11.00
3 6 8 9 23.00
4 4 6 7 17.00
Total N 4 4 4 4
a. Limitado a los primeros 100 casos.

Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza
i1 4 2 6 4.00 1.633 2.667
i3 4 4 8 6.25 1.708 2.917
i4 4 3 9 6.00 2.582 6.667
test134 4 11.00 23.00 16.2500 5.12348 26.250
N válido (según lista) 4
80
Estadísticos de fiabilidad
Alfa de
Cronbach N de elementos
.800 3

Estadísticos total-elemento
Media de la Varianza de Alfa de
escala si se la escala si Correlación Cronbach si
elimina el se elimina elemento-total se eleimina
elemento el elemento corregida el elemento
i1 12.2500 12.917 .909 .516
i3 10.0000 14.667 .663 .727
i4 10.2500 10.917 .508 .977
81
1º Tests de ejecución típica

Ítems tipo Likert (1-5 // 1-7)

2º Tests de ejecución máxima

Ítems de exámenes

Ítems de elección múltiple

83
1. Tests de ejecución máxima:

1.1. Índice de dificultad


I.D. = p = A/N A−
E
Índice de dificultad corregida IDC = k − 1
N

Media del ítem corregido [recodificado 0-1]. Varianza del ítem


corregido [recodificado 0-1].

1.2. Índice de discriminación

Índice D = ps – pi

1.3. Análisis de los distractores


Tests de ejecución máxima
Índice de dificultad
A Número de personas que eligen la opción correcta
p = I .D. = Índice de dificultad = =
N Número de personas a las que se aplica el ítem

Proporción de sujetos que responden correctamente al ítem. Se suele expresar en


porcentajes.
pi1 = I.D.i1 = Índice de dificultad del ítem 1 = 0.95; 95%

pi2 = 0.05; 5%

¿Cómo son estos ítems? ¿son buenos? ¿en cualquier situación?

N = ¿Número de personas a las que se presenta el ítem?

N = ¿Número de personas que responden el ítem?

85
Tests de ejecución máxima
Índice de dificultad
9. ¿Cuál de las siguientes es una característica de los modelos organísmicos del desarrollo
humano?
a) Defienden la existencia de estadios en el desarrollo
b) El desarrollo carece de dinámica interna
c) El desarrollo humano tiene carácter teleonómico
d) Las opciones a) y c) son correctas*

i9
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
1 Opción A 20 25.6 25.6 25.6
2 Opción B 10 12.8 12.8 38.5
Válidos 3 Opción C 4 5.1 5.1 43.6
4 Opción D 44 56.4 56.4 100.0
Total 78 100.0 100.0
86
Tests de ejecución máxima
Índice de dificultad
3. ¿Cuáles son las propiedades de los contenidos cerrados de nuestro código genético?
a) Son potencialidades que, a través de la interacción social, se desarrollan
b) Son diferentes de una cultura a otra, y dentro de la misma cultura, de una generación a otra
c) Nos definen como especie*
d) Las opciones a y c son correctas
i3
i3
Porcentaje Porcentaje
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Frecuencia Porcentaje válido acumulado
1 Opción A 14 17.9 21.2 21.2
1 Opción A 14 17.9 21.2 21.2
2 Opción B 5 6.4 7.6 28.8
2 Opción B 5 6.4 7.6 28.8
Válidos 3 Opción C 30 38.5 45.5 74.2
Válidos 3 Opción C 30 38.5 45.5 74.2
4 Opción D 17 21.8 25.8 100.0
4 Opción D 17 21.8 25.8 100.0
Total 66 84.6 100.0
Total 66 84.6 100.0
Perdidos Sistema 12 15.4
Perdidos Sistema 12 15.4
Total 78 100.0
Total 78 100.0 87
Tests de ejecución máxima
Índice de dificultad
i1

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 Opción A 8 10.3 10.3 10.3
2 Opción B 7 9.0 9.0 19.2
3 Opción C 7 9.0 9.0 28.2
4 Opción D 56 71.8 71.8 100.0
Total 78 100.0 100.0

En relación a la dificultad del ítem 1 (.72), que aparece en la tabla


anterior, de entre las opciones que se ofrecen, ¿qué podríamos decir
de las personas a las que identifica?
a) Saben la respuesta correcta al ítem
b) Aciertan, por azar, la respuesta correcta
c) Eligen la opción correcta *
Tests de ejecución máxima
Índice de dificultad
Corrección del azar:

El ítem parece más fácil de lo que es

Una proporción de sujetos no sabe la respuesta correcta –no tiene los conocimientos-
pero acierta por azar

Para conocer la verdadera dificultad del ítem debemos restar al porcentaje de personas
que responden corresponden el porcentaje de personas que aciertan al azar

Pero, ¿cuántas personas aciertan por azar?

En la práctica es difícil saberlo, pero EN TEORÍA, para un ítem


de 4 opciones de respuesta, de entre los que no saben la
respuesta correcta, ¿qué porcentaje de ellos aciertan por azar?
Tests de ejecución máxima
Índice de dificultad

N = 1000 Correcta = b Los que no Frecuencias


saben finales
Saben = 600 a) a) 100 a) 100
No saben = 400 b) 600 b)100 b)700
c) c) 100 c) 100
d) d) 100 d) 100

A 700
p = I .D. = Índice de dificultad = = = 0.70; 70%
N 1000

90
Tests de ejecución máxima
Índice de dificultad
E
A−
pc = I .D.c = Índice de dificultad corregida = k −1
N
Siendo:

A = número de personas que eligen la opción correcta

E = número de personas que NO eligen la opción correcta

k = número de opciones de respuesta

E 300
A− 700 -
pc = I .D.c = Índice de dificultad corregida = k −1 = 3 = 0.60; 60%
N 1000
91
Tests de ejecución máxima
Índice de dificultad

E 300
A− 700 -
pc = I .D.c = Índice de dificultad corregida = k −1 = 3 = 0.60; 60%
N 1000
En relación al índice de dificultad corregida (.60), de entre las
opciones que se ofrecen, ¿qué podríamos decir de las personas a las
que identifica?
a) Saben la respuesta correcta al ítem *
b) Aciertan, por azar, la respuesta correcta
c) Eligen la opción correcta

92
Tests de ejecución máxima
Índice de dificultad
N = 1000 Correcta = b Los que no saben Frecuencias finales
Saben = 600 a) a) 100 a) 100
No saben = 400 b) 600 b)100 b)700
c) c) 100 c) 100
d) d) 100 d) 100
Entonces, ¿cuál es la proporción de sujetos que aciertan por azar?
100
= .10;10%
1000
p − p c = I . D . − I . D .c = 0 . 70 − 0 . 60 = 0 . 10
Índice de dificultad − Índice de dificultad corregida = 0.70 - 0.60 = 0.10; 10%

no saben 400 fallan 300


= = = = 100 personas
nº opciones de respuesta 4 (nº opciones de respuesta) - 1 3

93
Un ítem con 3 opciones de respuesta. Índice de
dificultad de 0.84. Los errores no restan.

¿Qué porcentaje de personas han elegido la opción


correcta?

¿Qué proporción de personas han respondido


correctamente el ítem por azar?

¿Qué porcentaje de personas saben, de verdad, la


respuesta correcta al ítem?
94
no saben ?
Azar = = =
nº opciones de respuesta 3

fallan 0.16
= = = 0.8; 8%
(nº opciones de respuesta) - 1 2

Saben = Eligen correcta − Azar = 0.84 − 0.8 = 0.76; 76%

95
Tests de ejecución máxima
Índice de dificultad
i14
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
1 Opción A 43 55.1 55.1 55.1
2 Opción B 14 17.9 17.9 73.1
Válidos 3 Opción C 8 10.3 10.3 83.3
4 Opción D 13 16.7 16.7 100.0
Total 78 100.0 100.0

1. ¿Cuál es el valor del índice de dificultad?


2. ¿Cuál es el valor del índice de dificultad corregida?
3. ¿Cuántas personas saben de verdad la respuesta correcta al ítem?
4. ¿Cuántos sujetos acertaron por puro azar?
5. ¿Cuántos sujetos respondieron correctamente al ítem?
6. ¿Qué proporción de sujetos acertaron al azar?

96
Observa la siguiente tabla. En ella aparecen las respuestas de 153 personas a 3 ítems con 4
opciones de respuesta. En negrita y subrayado aparece el número de personas que
eligieron la opción correcta en cada ítem.

Opciones de
Ítem 1 Ítem 2 Ítem 3
respuesta
A 44 89 20
B 32 40 19
C 13 18 94
D 64 6 20

1. ¿Cuál es el índice de dificultad del ítem 2?


2. ¿Cuántas personas aciertan por azar el ítem 3?
3. ¿Cuántos sujetos saben de verdad la respuesta correcta del ítem 1?
4. En teoría, ¿cuál es la probabilidad de que acierte por azar el ítem 2 alguien que no
conoce la respuesta correcta?
5. ¿Cuál es la proporción de personas que responden correctamente al ítem 3?
6. Proporción de aciertos al azar del ítem 2 en esta muestra
7. ¿Para cuál de los tres ítems funcionan mejor los distractores?
Desde un punto de vista práctico, el índice de
dificultad corregida se utiliza poco, siendo el
índice de dificultad el más utilizado.

Desde un punto de vista teórico, la


corrección del azar se utiliza para determinar
el punto de corte en algunas pruebas de
conocimientos.
Tests de ejecución máxima

En la mayoría de vuestros exámenes, el número de


ítems mínimo necesario para aprobar (o punto de
corte o número de ítems que respondería un
alumno con un nivel medio de conocimientos) se
determina a partir de la dificultad de los ítems (y
se supone siempre pc =.50) y de la probabilidad de
acertar por azar
Tests de ejecución máxima
Índice de dificultad

PREGUNTA: Si los errores no restan [y partiendo siempre del


supuesto de que todos los ítems tienen pc = .50], ¿cuántos ítems
debo responder correctamente para aprobar?

RESPUESTA: la mitad de los ítems más la otra mitad dividida


por el número de opciones de respuesta: 30 + (30/3) = 40

Entonces, en un examen de 50 ítems de V/F:


80 ítems de 4 opc.:
50 ítems de 3 opc.:
40 ítems de 3 opc.:
80 ítems de V/F:
Tests de ejecución máxima
Índice de dificultad

Ítem 1 (b) Ítem 1 recodificado (I1r)

S1 A 0

S2 B 1

S3

S4
B

C
1

0
X I 1r = pI 1 = I .D.I 1
S5 A 0

S6 B 1

S7 B 1

A 4 ∑ 0 +1+1+ 0 + 0 +1+1 4
p I 1 = = = 0.57 X I 1r =
X I 1r
= = = 0.57
N 7 N 7 7
Tests de ejecución máxima
Índice de dificultad
Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.


i1r 78 0 1 .72 .453
i2r 78 0 1 .69 .465
i3r 78 0 1 .49 .503
i4r 78 0 1 .44 .499
i5r 78 0 1 .35 .479
i6r 78 0 1 .65 .479
i7r 78 0 1 .49 .503
i8r 78 0 1 .36 .483
i9r 78 0 1 .56 .499
i10r 78 0 1 .71 .459
i11r 78 0 1 .64 .483
i12r 78 0 1 .31 .465
i13r 78 0 1 .24 .432
i14r 78 0 1 .55 .501
i15r 78 0 1 .32 .470
N válido (según lista) 78
Tests de ejecución máxima
Índice de dificultad
Relación entre la puntuación media en el test y la dificultad de los ítems.
Puntuación en el test = nº de respuestas correctas
Ítem 1 (b) Ítem 2 (c) Ítem 3 (a) Ítem 4 (c) Total (test = X)

S1 A A B C

S2 B C C C

S3 B C C C

S4 C A A A

S5 A C A A

S6 B C C B

S7 B C B C

Calculad: 1º Puntuación total de cada sujeto en el test


2º Media en el test para esta muestra de 7 sujetos
3º Índice de dificultad de cada uno de los ítems
4º Suma de los índices de dificultad de los ítems
103
Tests de ejecución máxima
Índice de dificultad

En nuestro ejemplo de 15 ítems, la media fue de


7.5. En promedio, según la dificultad de los ítems,
¿cómo dirías que son estos 15 ítems?

¿Y si de 30 ítems la media del test fuese 7.5?

¿Y si de 8 ítems la media fuese 7.5?

104
Tests de ejecución máxima
Índice de dificultad
Aunque en la práctica, en TCT, la dificultad de los ítems dependerá del nivel de
conocimientos de la muestra a la que apliquemos la prueba, se intenta que la distribución
de los ítems, en función de la dificultad, sea:

Rango de índices de
Porcentaje de ítems Dificultad
dificultad corregida
5% Muy difíciles .01 - .25
20% Difíciles .25 - .40
50% Intermedios .40 - .60
20% Fáciles .60 - .75
5% Muy fáciles .75 - .99
Tests de ejecución máxima
Índice de dificultad

1. Suponiendo que somos distintos en aquello que miden nuestros ítems. Que existe
variabilidad entre personas.
2. Lo ideal es que nuestros ítems sean capaces de captar toda esa variabilidad. ¿Qué
estadístico nos permite conocer le grado de dispersión o de variabilidad de una variable?
3. La varianza es una medida de lo diferentes que somos. Ya que suponemos que somos
distintos, será bueno que la varianza sea elevada.
4. Manteniendo el resto de condiciones constantes, cuanto mayor sea la varianza de un
ítem mejor es dicho ítem. Mejor discrimina entre los sujetos.
5. Cuando los valores de una variable son 0-1 [como en un ítem corregido], la varianza de
dicho ítem se calcula aplicando la siguiente fórmula:

S = p*q
2

106
i9
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
1 Opción A 20 25.6 25.6 25.6
2 Opción B 10 12.8 12.8 38.5
Válidos 3 Opción C 4 5.1 5.1 43.6
4 Opción D 44 56.4 56.4 100.0
Total 78 100.0 100.0

¿Cuál es el valor de la varianza del ítem 9?

107
Tests de ejecución máxima
Índice D de discriminación

Nuestros ítems deben ser tan buenos que nos permitan discriminar entre quienes tienen
conocimientos suficientes para superar la prueba y quienes no los tienen.

Nuestros ítems deben discriminar entre los sujetos que saben y los que no saben.

Y hacerlo no sólo globalmente, en el total del test, sino que cada ítem debe contribuir a esa
discriminación.

Para calcular el valor del índice D de discriminación procederemos como sigue:

1. Identificamos dos grupos el de los más “listos” y el de los más “torpes”


2. Calculamos el porcentaje de “listos” que responden correctamente al
ítem y el porcentaje de “torpes” que responden correctamente al ítem
3. Comparamos dichos porcentajes
108
Tabla de contingencia grupos División de la muestra en 4 grupos (25%, aprox., cada uno) * i8

i8
1 Opción A 2 Opción B * 3 Opción C 4 Opción D Total
1 Grupo inferior 3 1 6 10 20
15.0% 5.0% 30.0% 50.0% 100.0%
2 Grupo intermedio 3 3 8 5 19
15.8% 15.8% 42.1% 26.3% 100.0%
3 Grupo intermedio 1 7 4 4 16
6.3% 43.8% 25.0% 25.0% 100.0%
4 Grupo superior 0 17 3 3 23
.0% 73.9% 13.0% 13.0% 100.0%
Total 7 28 21 22 78
9.0% 35.9% 26.9% 28.2% 100.0%

¿Cuál es el valor del índice D de discriminación del ítem 8?


Tabla de contingencia División de la muestra en 4 grupos (25%, aprox., cada uno) * i13

i13
1 Opción A 2 Opción B* 3 Opción C 4 Opción D Total
1 Grupo inferior 3 5 6 6 20
15.0% 25.0% 30.0% 30.0% 100.0%
2 Grupo intermedio 3 4 10 2 19
15.8% 21.1% 52.6% 10.5% 100.0%
3 Grupo intermedio 3 3 7 3 16
18.8% 18.8% 43.8% 18.8% 100.0%
4 Grupo superior 8 7 7 1 23
34.8% 30.4% 30.4% 4.3% 100.0%
Total 17 19 30 12 78
21.8% 24.4% 38.5% 15.4% 100.0%

¿Cuál es el valor del índice D de discriminación del ítem 13?


Tests de ejecución máxima
Índice D de discriminación
¿Cómo se interpreta el índice D de discriminación?

Valor de D Ítem
D ≥ 0.40 Muy bueno
0.30≤ D ≤0.39 Aceptable
0.20≤ D ≤0.29 Regular. Revisar
0≤ D ≤0.19 Malo. Modificar o eliminar
D <0 Muy malo. Problemático
Tests de ejecución máxima
Índice D de discriminación

Ítem 1 (b) Ítem 2 (c) Ítem 3 (a) Ítem 4 (c) Total (test = X)
S1 A A B C
S2 B C C C
S3 B C C C
S4 C A A A
S5 A C A A
S6 B C C B

¿Cuál es el valor del índice D de discriminación del ítem 1?


¿Cuál es el valor del índice D de discriminación del ítem 4?

¿Cuál es el valor del índice D de discriminación del ítem 3?


112
Tests de ejecución máxima
Análisis de las alternativas incorrectas

Para que un ítem cumpla su función, es necesario que los distractores –las
alternativas incorrectas- funcionen adecuadamente.

Es decir, han de distraer y confundir a los sujetos que no saben la respuesta


correcta. Si el ítem está bien redactado todas las opciones de respuesta son
igualmente atractivas para los sujetos que no saben.

Si alguna de las alternativas incorrectas no funciona como es de esperar el


índice de dificultad se verá incrementado, la varianza disminuida y el índice
D de discriminación disminuido

113
Tests de ejecución máxima
Análisis de las alternativas incorrectas
Las alternativas incorrectas de un ítem funcionan bien si:

1. Son elegidas por el mismo número de sujetos (son igual de


atractivas para los sujetos que no saben)

2. Los sujetos que las eligen tienen una puntuación media en el


test inferior a la de los sujetos que eligen la opción correcta. Y
también inferior a la de toda la muestra.

3. Las opciones incorrectas discriminan en sentido inverso a


como lo hace la alternativa correcta.
114
Tabla de contingencia gruposTests dedeejecución
División máxima
la muestra en 4 grupos (25%, aprox., cada uno) * i8
Análisis de las alternativas incorrectas
i8
1 Opción A 2 Opción B * 3 Opción C 4 Opción D Total
1 Grupo inferior 3 1 6 10 20
15.0% 5.0% 30.0% 50.0% 100.0%
2 Grupo intermedio 3 3 8 5 19
15.8% 15.8% 42.1% 26.3% 100.0%
3 Grupo intermedio 1 7 4 4 16
6.3% 43.8% 25.0% 25.0% 100.0%
4 Grupo superior 0 17 3 3 23
.0% 73.9% 13.0% 13.0% 100.0%
Total 7 28 21 22 78
9.0% 35.9% 26.9% 28.2% 100.0%
Informe

aciert15 Nº de aciertos (15 items)


i8 Media N
1 Opción A 5.43 7
2 Opción B 10.00 28
3 Opción C 6.29 21
4 Opción D 6.18 22
Total 7.51 78
Tests de ejecución máxima
Tabla de contingencia División de la muestra en 4 grupos (25%, aprox., cada uno) * i13
Análisis de las alternativas incorrectas
i13
1 Opción A 2 Opción B* 3 Opción C 4 Opción D Total
1 Grupo inferior 3 5 6 6 20
15.0% 25.0% 30.0% 30.0% 100.0%
2 Grupo intermedio 3 4 10 2 19
15.8% 21.1% 52.6% 10.5% 100.0%
3 Grupo intermedio 3 3 7 3 16
18.8% 18.8% 43.8% 18.8% 100.0%
4 Grupo superior 8 7 7 1 23
34.8% 30.4% 30.4% 4.3% 100.0%
Total 17 19 30 12 78
21.8% 24.4% 38.5% 15.4% 100.0%
Informe

aciert15 Nº de aciertos (15 items)


i13 Media N
1 Opción A 8.35 17
2 Opción B 7.95 19
3 Opción C 7.50 30
4 Opción D 5.67 12
Total 7.51 78

También podría gustarte