Transparencias Tema 1

Psicometría
1
¿De qué trata la Psicometría?
¿Qué es medir?
¿Es posible medir las variables psicológicas?
¿Es necesario medir las variables psicológicas?
¿Es difícil medir las variables psicológicas?
2
¿En qué se diferencia la Psicometría de ….
….. Evaluación psicológica
…. Evaluación y diagnóstico en educación
3
Objetivos de la asignatura
1. Comprender la necesidad, la posibilidad y la transcendencia

de la medición en psicología
2. Conocer y comprender los distintos modelos teóricos de

medición en psicología
3. Saber aplicar esos conocimientos teóricos en el proceso de

construcción de instrumentos de medida
4. Ser capaz de juzgar la idoneidad de los modelos e

instrumentos de medida utilizados en psicología
4
Definición
RAE:
Psicometría: la medida de lo psicológico
¿Qué es lo psicológico?
¿Qué es la medida?
5
¿Qué es lo psicológico? – Objeto de estudio
Constructos
X1 X2 X3
6
¿Qué es medir?
a. Encontrar un sistema relacional numérico con una estructura

semejante al relacional empírico que se pretende medir
b. Comparar una cantidad con su respectiva unidad, con el fin

de averiguar cuántas veces la segunda está contenida en la
primera
c. Asignar números a los objetos (las propiedades de los

objetos) según ciertas reglas
7
Definición
Muñiz (2001, p. 17). Psicometría: conjunto de

métodos, técnicas y teorías implicadas en la
medición de variables psicológicas… lo específico
de la Psicometría sería su énfasis y
especialización en aquellas propiedades métricas
exigibles a las mediciones psicológicas
independientemente del campo sustantivo de
aplicación y de los instrumentos utilizados.
8
Definición
Barbero, Vila y Suárez (p. 27). La psicometría es

una disciplina metodológica, dentro del área de
la psicología, cuya tarea fundamental es la
medición o cuantificación de las variables
psicológicas con todas las implicaciones que ello
conlleva, tanto teóricas (posibilidades y criterios
de medición) como prácticas (cómo y con qué se
mide).
9
Método científico y Psicometría
Fase Método científico Psicometría
1. Problemas
Definición del constructo
2. Hipótesis
Teórico-conceptual Modelo teórico
3. Definición de Modelo de medida
variables
4. Muestra Elaboración/selección de
Técnico-metodológica 5. Procedimiento los instrumentos más
6. Instrumentos adecuados
Calidad métrica de los
datos recogidos
7. Análisis estadístico de Nivel de
medida/propiedades
los datos
Estadístico-analítica métricas de los datos
8. Discusión Conclusiones respecto al
9. Conclusiones modelo teórico y al modelo
de medida
10
Baremos
Desarrollo histórico de la psicometría
11
Desarrollo histórico de la psicometría
Desarrollo
Histórico
Escalamiento
Experimental Psico-físico
Diferencias
Correlacional individuales
12
Desarrollo histórico de la
psicometría
13
Autores asociados al desarrollo de la psicometría
Fechner: psicofísica – escalamiento de estímulos
Galton: medidas individuales, análisis estadísticos
Binet: pruebas de inteligencia
Yerkes: pruebas Alfa y Beta del ejército
Woodworth: tests psicométricos de personalidad
Spearman, Pearson, Lord, Birnbaum, Rasch

Psicometría
Teoría de la Teoría de los Aplicaciones:

medida Escalamiento Tests Validez Construcción de
tests. Baremación
15
16
Escalar: situar a personas o estímulos a lo largo de un continuo
Baja Item 1 Item 2 Item 3 Elevada

dificultad dificultad
- +
Baja 0 2 3 Elevada
habilidad habilidad
-1 1 1.5
Métodos de escalamiento de estímulos.
a) según el tipo de continuo a lo largo del cual varía el atributo pueden ser:
- escalas psicofísicas (Fechner, Stevens, etc.)
- escalas psicológicas (Thurstone)
b) según el tipo de respuesta de los sujetos pueden ser:
- juicio categórico
- juicio comparativo
Métodos de escalamiento de sujetos.

- tests de ejecución máxima: rendimiento, conocimientos, aptitudes,
inteligencia, etc.
- tests de ejecución típica: personalidad, intereses, valores, actitudes, etc.
Métodos de escalamiento conjunto.

- determinísticos (Guttman)
- probabilísticos (T.R.I.)
TEORÍA DE LOS TESTS
1. Definición de tests
2. Clasificación de los tests
3. Problemas en la medición psicológica
CONSTRUCCIÓN DE TESTS
1. Introducción
2. Proceso de construcción de tests: fases
2.1. Marco general del test
2.2. Selección del modelo de medida a utilizar
2.3. Definición del constructo
2.4. Diseño del test
2.5. Redacción y análisis preliminares de los ítems
2.6. Organización y formato del test
2.7. Estudio piloto
2.8. Cálculo de las propiedades psicométricas y selección de los ítems
2.9. Diseñar y realizar estudios de fiabilidad y validez con la forma final del test
2.10. Puntuación e interpretación de las puntuaciones del test
2.11. Manual del test
Test:
•Instrumento estandarizado
•Prueba objetiva
•Cuantificar
20
21
Instrumento estandarizado:
1. Preguntas
2. Respuestas
3. Formato de presentación
4. Orden de presentación
5. Instrucciones
6. Contexto y tiempo de aplicación
7. Corrección y puntuación de los ítems
8. Puntuación del test
9. Interpretación de las puntuaciones
La relación entre indicadores y
constructos, e inferir los constructos a
partir de los indicadores, es uno de los
mayores problemas asociados a los
tests, por ello una característica que los
identifica es la necesidad de aportar
evidencias de la fiabilidad y validez de
las mediciones realizadas.
Inferencia psicométrica
Definiciones:
Operacional o semántica
Estructural o sintáctica
Evidencias de fiabilidad y validez

23
Inferencia psicométrica
Del constructo a …
Las conductas observables …
Los ítems …
Las respuestas …
Los números (cantidades) …
Puntuación total en el test
¿Puntuación en el test = Cantidad de atributo? 24

Calidad de las medidas
Obtener evidencias externas de la

calidad de la medición
Precisión Fiabilidad
Utilidad Validez
25
Problemas/limitaciones de la medición psicológica:
1. No hay definiciones únicas (variedad de indicadores)

2. Medidas basadas en muestras (de conductas, de ítems,
de situaciones, de momentos, de personas,…)
3. La medida siempre está sujeta a error
4. No tenemos unidades de medida (ni conocemos el
nivel de medida)
5. Es necesario definir las variables a partir de
indicadores observables y de modelos teóricos
26
Teoría de los tests
Relación entre puntuaciones en un test y la variable inobservable que intenta medir
ese tests.
Esas relaciones se suelen expresar en notación matemática.
Permiten interpretar las puntuaciones de los sujetos y conocer el error de medida

cometido.
Marco teórico que permite el cálculo de fiabilidad y validez
1. Teoría Clásica de los Tests (TCT): X = V+ e
2. Teoría de Respuesta a los Ítems (TRI): P(θ) = 1 / (1+e-D(θ-b))

27
Teoría Clásica de los Tests
Modelo lineal de Spearman: X = V + E
X = Observable
V = No observable
E= error de medida E = X – V; No observable
28
Modelo de la TCT
1. Escalamiento de sujetos
1. Construcción de ítems: ítems paralelos
Item 7
Item 6
Item 5
Item 4
Item 3
Item 2
Item 1
María Luis
- María Pepa
Inmaculada
Rosa Juan Pepe Luisa
+
De todos los
santos
Modelo de la TCT
1. Escalamiento de sujetos
2. Análisis de ítems y tests: estadísticos tradicionales:

medias, desviación típica, correlación
3. Puntuaciones: suma, puntuaciones Z, percentiles

Modelo de la TCT
Mayoría de investigaciones
Análisis de TESTS
Ventajas
Limitaciones:
1. Propiedades psicométricas dependientes de las muestras de sujetos
2. No ordenación de los ítems
3. Medidas ordinales
4. No se pueden verificar los supuestos
5. Igual cantidad de error a lo largo del continuo
TRI
Análisis de ITEMS
Ventajas de la TRI:
1. Independencia de las muestras
2. Medidas de intervalo
3. Escalamiento conjunto
4. Verificación del ajuste de los ítems
5. Precisión de las medidas para cada nivel en el continuo
Limitaciones:
1. Modelos matemáticos complejos
2. Cálculo de las puntuaciones
3. Tamaños muestrales elevados
Modelo de la TRI
1. Escalamiento conjunto
1. Construcción de ítems: ítems a lo largo de todo
el continuo
Item 6 Item 7 Item 2 Item 1 Item 3 Item 5 Item 4
María Luis
- María Pepa
Inmaculada
Rosa Juan Pepe Luisa
+
De todos los
santos
Clasificaciones de los test:
1. Ejecución demandada: ejecución

máxima frente a ejecución típica
2. Interpretación de las puntuaciones:

tests referidos a la norma y tests
referidos al criterio
34
Construcción de tests
35
Objetivos
Conocer y comprender las fases del proceso
general de elaboración de tests.
Seleccionar el modelo de medida más adecuado en
función del objetivo y del contexto de medición
Conocer y comprender la función de las
especificaciones de tests e ítems.
Conocer los distintos formatos de ítems.
Identificar los controles de calidad que se realizan
sobre los tests.
36
Para dominar a fondo todas las fases de
construcción de tests:
Construcción de cuestionarios
Optativa de 4º de psicología
Etapas en la elaboración de un test
1. Marco general del test

2. Selección del modelo de medida a utilizar
3. Definición del constructo
4. Diseño del test
5. Redacción y análisis preliminares de los ítems
6. Organización y formato del test
7. Estudio piloto
8. Cálculo de las propiedades psicométricas y
selección de los ítems
9. Diseñar y realizar estudios de fiabilidad y validez
con la forma final del test
10.Puntuación e interpretación de las puntuaciones
del test
11.Manual del test
38
Proceso de construcción de un test:
Objetivo: obtener mediciones válidas
Validez: utilidad de las puntuaciones/justificación de las decisiones que

se tomarán a partir de esas puntuaciones.
Validación: proceso de obtención de evidencias que justifiquen las

decisiones que se tomen / proceso que permite ir depurando y
perfeccionando cada vez más nuestro instrumento de medida
Validez: guía y referente de todas las fases del proceso
39
Proceso de construcción de un test:
Es … Secuencial
Flexible
Importancia de seguir las fases que se proponen:
1. Asegurar la validez
2. Evitar la tentación de ponerse a escribir ítems

40
Tests de Ejecución
Típica
Tests de Ejecución Típica
1. Identificación de los objetivos de la prueba, de la población de
estudio y de las condiciones de aplicación del test [MARCO
GENERAL DEL TEST].
Objetivos: ¿para qué? ¿qué vamos a hacer una vez conocidas las
puntuaciones de cada sujeto?
• Diagnóstico
• Selección
• Clasificación
• Certificación
• Consejo
• Descripción/Información
1. Identificación de los objetivos de la prueba, de la población de estudio y
de las condiciones de aplicación del test.
Población:
1. Nivel de rasgo
2. Características sociodemográficas
3. Limitaciones físicas o intelectuales
4. Características sociológicas (ideologías, creencias, etc.)
Contexto:
Aplicación colectiva o individual
Formato: test manipulativo/ papel y lápiz/ ordenador
Tiempo/Dinero
2. Selección del modelo de medida a utilizar:
Objetivos
Teoría psicológica
TCT - TRI
Redacción de ítems
Análisis de ítems
44
TCT vs TRI
¿Variables nominales?
¿Identificación de sujetos con patrones de respuesta atípicos?
¿Ítems paralelos?
Generación de puntuaciones totales
Software accesible
¿Modelos multidimensionales?
3. Definición del constructo:
¿Qué variable hemos de medir para lograr los objetivos

propuestos?
Definición compartida – Replicabilidad
Doble vía:
- Definición operativa o semántica
- Definición estructural o sintáctica
46
Procedimientos para llegar a una buena definición del

constructo:
1. Revisión bibliográfica
2. Consulta a expertos
3. Observación directa
47
4. Diseño del test: Especificaciones del test y de los
ítems
Determinar la importancia relativa que tiene cada dimensión o variable
Características generales del test y de los ítems
Descripción de la estructura y contenidos del test
Incluye: 1. Porcentaje de importancia de cada dimensión
2. Nº total de ítems en el test
3. Nº ítems para cada dimensión
4. Formato de las preguntas y de las respuestas
48
Especificaciones de un test de ejecución típica
Basado en el modelo de la Conducta Planeada de Ajzen

Likert
Preg. Cerrada Cerrada Likert grado Likert Diferencial
frecuenci Total
abierta nominal ordinal de acuerdo seguridad Semántico
a
10
Actitud 2 8
(26.5%)
6
Norma Subjetiva 6
(15.8%)
Control conductual 6
6
percibido (15.8%)
6
Intención 6
(15.8%)
4
Conducta 1 2 1
(10.6%)
Variables 6
3 1 2
sociodemográficas (15.8%)
38
Total 4 1 2 16 1 6 8
(100%)
49
5. Redacción y análisis preliminar de los ítems
En principio debemos elaborar el doble o el triple de los ítems que finalmente

incluiremos en nuestro test. En el proceso de elaboración de los ítems tendremos
en cuenta:
a) Formato de los ítems
b) Recomendaciones para las preguntas
c) Recomendaciones para las respuestas
d) Errores o problemas asociados a la redacción de las preguntas y de las

respuestas
50
Formato de los ítems. Formato de las preguntas

Abierta Cerrada
Obtener información directa de Obtener datos objetivos de
Objetivo los encuestados con sus propias juicios, opiniones o actitudes
palabras
Nivel cultural medio-elevado y Nivel cultural medio-bajo y sin
Características de los
con conocimientos y opinión conocimientos y opinión sobre
encuestados
sobre el tema el tema
No disponer de las posibles Respuestas previstas.
Forma de hacer las
respuestas. Posibles respuestas
preguntas
muy numerosas.
Posibilidad de categorizar y Descripción cuantitativa de las
Análisis de los resultados analizar respuestas muy respuestas
heterogéneas
Descripción individual de los Información estadística de los
Comunicar los resultados
tipos y categorías de respuestas resultados
51
Formato de los ítems de elección (preguntas cerradas)
a) Dicotómicos: SI/NO; Acuerdo/Desacuerdo
b) Diferencial semántico:
A continuación aparece una frase seguida de seis pares de adjetivos. Pon una X en la casilla que
mejor exprese tu posición (cercana, lejana o intermedia) respecto a los adjetivos que se hallan
en ambos extremos.
Para mí, hacer 20 minutos de ejercicio físico diario es (o sería) algo ...
Agradable|__|__|__|__|__|__|__|__|__|__|__|Desagradable(act1)
Insalubre|__|__|__|__|__|__|__|__|__|__|__|Saludable (act2)
Muy placentero|__|__|__|__|__|__|__|__|__|__|__|Nada placentero (act3)
Incómodo|__|__|__|__|__|__|__|__|__|__|__|Cómodo (act4)
0 1 2 3 4 5 6 7 8 9 10
52
Formato tipo Likert
53
Formato tipo Likert
Suele ser el formato de ítem más utilizado en tests, escalas o inventarios de

personalidad, motivaciones, actitudes, intereses, etc.
El formato prototípico es:
1.Una frase con la que se puede estar de acuerdo o no

2.El sujeto expresa su grado de acuerdo en un rango de respuesta
3.Se utilizan distintos ítems paralelos que miden la misma dimensión y en el mismo grado (TCT)
4.Miden una única dimensión
5.Se suelen intercalar ítems en sentido positivo y negativo
6.Son puntuaciones sumativas (recodificar los ítems enunciados en sentido inverso)
54
Formato tipo Likert
En las respuestas se pueden poner números, palabras o ambos.
a) Muy en desacuerdo
b) En desacuerdo
c) De acuerdo
d) Muy de acuerdo
Casi De vez A Muy a

En el último mes…. Nunca
nunca en cuando menudo menudo
1. ¿Con qué frecuencia ha estado afectado por algo que ha
0 1 2 3 4
ocurrido inesperadamente?
Nunca A veces Siempre

1 2 3 4 5 6 7
55
Formato tipo Likert
Los ítems tipo Likert no solo expresan grado de acuerdo, también pueden expresar
frecuencia, cantidad, probabilidad, …
0 1 2 3 4 5 6
Nunca Alguna vez al Una vez al Algunas veces Una vez por Algunas veces Todos los días
año o menos mes o menos al mes semana por semana
¿Crees que tú tienes posibilidades de contagiarte con el VIH? (Responde rodeando un número de 1 a 7)
Ninguna Muchas
posibilidad posibilidades
1 2 3 4 5 6 7
Expresa tu grado de seguridad rodeando un número desde 1 (Totalmente seguro de que no) hasta 7 (Totalmente
seguro de que sí):
Totalmente Totalmente
seguro de que no seguro de que sí
56
Recomendaciones para la redacción de los ítems
Una sola idea

Claridad, una sola interpretación
No expresar hechos, sino cuestiones sobre las que se
pueda discrepar
Utilizar tiempo presente o condicional, nunca pasado
Evitar la aceptación o rechazo generalizado (TCT)
Estructura gramatical simple (evitar dobles negaciones,
oraciones subordinadas) 57
Recomendaciones para la redacción de los ítems
Enunciados en sentido positivo y negativo (cuidado con los
enunciados negativos)
Evitar ‘a veces’, ‘apenas’, ‘muchas veces’ (diferentes interpretaciones)
Vocabulario entendible por la población a la que va dirigido (ni jerga
ni pedantería)
Evitar los términos sexistas, racistas, ofensivos
Que las preguntas no induzcan las respuestas
Las opciones de respuesta deben ser exhaustivas y mutuamente
excluyentes
‘Siempre’ o ‘Nunca’ son poco recomendadas
Factores que afectan a la fiabilidad y la validez
Aquiescencia
[Enunciados en sentido positivo y negativo]
Tendencia central o evasividad

[Número par de opciones de respuesta]
[Que las etiquetas centrales incluyan más de un valor]
Deseabilidad social
[Asegurar el anonimato]
[Aproximaciones sucesivas]
[Justificar la conducta]
[Incorporar una escala de deseabilidad social]
[Elección forzada]
59
5. Redacción y análisis preliminares de los ítems
Autocrítica:
1. Contenido
a) ¿Es necesaria esta pregunta?
b) ¿Es necesario concretar más la pregunta?
2. Redacción
a) ¿Se podría expresar de un modo más claro?
b) ¿Puede tener varias interpretaciones?
c) ¿Presenta algún sesgo o prejuicio?
d) ¿Las alternativas son exhaustivas?
e) ¿Se solapan las alternativas de respuesta?
A partir del juicio de expertos
1. Congruencia ítem-objetivo: grado de adecuación del ítem al objetivo o contenido

2. Emparejamiento ítem-objetivo: asociación entre ítems y contenidos u objetivos
60
1) Tamaño de la letra
i. Población
ii. Limitaciones de espacio
iii. Espacio entre letras / párrafos /entre preguntas
2) Presentación (carátula de presentación)

i. Aclaración / motivación
ii. Sinceridad / anonimato /deseabilidad social
iii. No mentir / decidir cuánta información dar
63
3) Opciones de respuesta (letras / números)
4) Instrucciones para responder
5) Estructura matricial de las preguntas
6) No romper ítems entre páginas
7) Los ítems que miden un mismo contenido deben ir juntos
8) Ordenados desde los menos hasta los más comprometidos
9) Colocación de las variables sociodemográficas
10) ¿Dónde responden los sujetos?
64
7. Estudio piloto
Muestra representativa
Al final incluir:
• ¿Hay alguna pregunta que no hayas entendido?

• ¿Hay alguna pregunta que te haya molestado?
• El cuestionario te parece….
•… largo
… pesado
•…
… difícil de leer/entender/responder
•…
•… interesante
• Si quieres, puedes opinar acerca del cuestionario o de la temática estudiada
8. Cálculo de las propiedades psicométricas y selección de los ítems

9. Diseñar y realizar estudios de fiabilidad y validez con la forma final del
test
10. Puntuación e interpretación de las puntuaciones del test
11. Manual del test
65
Contenidos
•ANÁLISIS DE ÍTEMS
1. Análisis de ítems en tests de ejecución típica
1.1. Estadísticos descriptivos: media y varianza
1.2. Discriminación del ítem
2. Tests de ejecución máxima
2.1. Dificultad del ítem
2.2 Sistemas de corrección de la adivinación
2.3. Discriminación del ítem
2.4. Análisis de los distractores
66
¿Pero qué tipo de análisis?
¿Para qué?
67
Objetivos:
1. Conocer los criterios psicométricos de calidad de los ítems
2. Saber calcular, comprender e interpretar los parámetros de un

ítem
3. Conocer y comprender la importancia que estas propiedades

psicométricas del ítem tienen sobre la calidad global del test
4. Saber analizar los distractores de los ítems y comprender el

peso que tienen en la calidad del ítem y del test
68
Contenidos:
a)Propiedades de los ítems: dificultad / discriminación / fiabilidad
/ validez
i. Fórmulas, cálculo, interpretación, conclusiones, decisiones
b)Estadísticos del ítem: medias, varianzas, correlaciones
c)Relación entre las propiedades de los ítems y del test (fórmulas)
d)Análisis cuantitativo de los distractores de un ítem de un test de

ejecución máxima (proporciones, porcentajes, diferencias de
proporciones)
69
1º Tests de ejecución típica
Ítems tipo Likert (1-5 // 1-7)
2º Tests de ejecución máxima
Ítems de exámenes
Ítems de elección múltiple
70
Tests de ejecución típica
Análisis de ítems
Variables cuantitativas. Valores de 1 a 5 o de 1 a 7. Valores elevados indican elevada

cantidad de la variable que se mide [¿Recodificación?].
Media: mejor cuanto más centradas.
Varianza: mejor cuanto mayor sea la varianza
Correlación ítem-total: mejor cuanto mayor sea la correlación
Correlación ítem-total corregida: valores mayores 0.30
Cuanto mejores sean los parámetros de cada uno de los ítems, mejor será el test
71
1. Tests de ejecución típica:
1.1. Medias y varianzas X i ; Si2
1.2. Correlación ítem-total ( rxi )
1.3. Índice de discriminación o de homogeneidad:

Correlación ítem-total corregida
rix S x − Si
ri ( x −i ) =
Si2 + S x2 − 2rix S x Si
72
Medias y varianzas
En general, para conocer la media teórica de un ítem, sumamos sus valores

extremos y el resultado lo dividimos por 2.
En una escala de…. La media teórica sería…
1-5 3
0-6 3
0-4 2
1-10 5.5
Mínimo Máximo Media Desv. Típica
Ítem 1 1 8 4.23 1.05
Ítem 2 1 8 2.01 0.67
Ítem 3 1 8 3.08 1.92
Ítem 4 1 8 2.09 2.16
Ítem 5 1 8 2.55 2.12
Ítem 6 1 8 3.00 0.87
Ítem 7 1 8 7.50 0.46
74
i1 i2 i3 i4 total
1 7 6 7 5 25
2 7 3 4 1 15
3 6 5 4 5 20
4 1 1 2 1 5
5 1 2 2 4 9
6 6 6 5 4 21
Correlaciones
total
i1 Correlación de Pearson .879
Sig. (bilateral) .021
75
Correlación ítem-test corregida
Al calcular la correlación entre el ítem y el test (rix) calculamos la correlación entre dos
puntuaciones: i (ítem) y X (puntuación total en el test).
Pero X (puntuación total en el test) contiene a ‘i’. X es la suma de todos los ‘i’
La correlación está inflada porque ‘i’ está en las dos partes
El índice de discriminación de un ítem es la correlación entre ese ítem y la puntuación total

del test una vez que a esa puntuación total le hemos restado la puntuación del ítem
Índice de discriminación correlacional o índice de homogeneidad = ri(x-i)
rix S x − Si
ri ( x −i ) =
Si2 + S x2 − 2rix S x Si
76
Correlación ítem-test corregida
En este caso el índice de discriminación se interpreta como índice de

homogeneidad
Es una expresión de la relación entre un ítem concreto y el resto de ítems

considerados en su conjunto
Cuanto más se asemejan las puntuaciones de un ítem con las puntuaciones

de los demás ítems, más parecidos son –más homogéneos- y aparecerán
más relacionados entre sí.
Cuando construimos una escala desde el enfoque de la TCT intentamos

elaborar varios ítems que miden lo mismo y con la misma intensidad. Así
pues, cuanto más parecidas sean sus puntuaciones, más homogéneos serán
los ítems.
77
Resúmenes de casosa
i1 i2 i3 i4 test
1 4 6 7 3 20
2 2 3 4 5 14
3 6 2 8 9 25
4 4 5 6 7 22
Total N 4 4 4 4 4
a. Limitado a los primeros 100 casos.
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza
i1 4 2 6 4.00 1.633 2.667
i2 4 2 6 4.00 1.826 3.333
i3 4 4 8 6.25 1.708 2.917
i4 4 3 9 6.00 2.582 6.667
test 4 14 25 20.25 4.646 21.583
N válido (según lista) 4
78
Estadísticos de fiabilidad
Alfa de
Cronbach N de elementos
.371 4
Estadísticos total-elemento
Media de la Varianza de Alfa de
escala si se la escala si Correlación Cronbach si
elimina el se elimina elemento-total se eleimina
elemento el elemento corregida el elemento
i1 16.2500 9.583 .923 -.522a
i2 16.2500 26.250 -.428 .800
i3 14.0000 10.000 .802 -.400a
i4 14.2500 12.917 .108 .465
a. El valor es negativo debido a una covarianza promedio entre los
elementos negativa, lo cual viola los supuestos del modelo de
fiabilidad. Puede que desee comprobar las codificaciones de los
elementos.
79
Resúmenes de casosa
i1 i3 i4 test134
1 4 7 3 14.00
2 2 4 5 11.00
3 6 8 9 23.00
4 4 6 7 17.00
Total N 4 4 4 4
a. Limitado a los primeros 100 casos.
N Mínimo Máximo Media Desv. típ. Varianza
i1 4 2 6 4.00 1.633 2.667
i3 4 4 8 6.25 1.708 2.917
i4 4 3 9 6.00 2.582 6.667
test134 4 11.00 23.00 16.2500 5.12348 26.250
80
Estadísticos de fiabilidad
Alfa de
Cronbach N de elementos
.800 3
Estadísticos total-elemento
Media de la Varianza de Alfa de
escala si se la escala si Correlación Cronbach si
elimina el se elimina elemento-total se eleimina
elemento el elemento corregida el elemento
i1 12.2500 12.917 .909 .516
i3 10.0000 14.667 .663 .727
i4 10.2500 10.917 .508 .977
81
1º Tests de ejecución típica
Ítems tipo Likert (1-5 // 1-7)
2º Tests de ejecución máxima
Ítems de exámenes
Ítems de elección múltiple
83
1. Tests de ejecución máxima:
1.1. Índice de dificultad

I.D. = p = A/N A−
E
Índice de dificultad corregida IDC = k − 1
N
Media del ítem corregido [recodificado 0-1]. Varianza del ítem

corregido [recodificado 0-1].
1.2. Índice de discriminación
Índice D = ps – pi
1.3. Análisis de los distractores

Tests de ejecución máxima
Índice de dificultad
A Número de personas que eligen la opción correcta
p = I .D. = Índice de dificultad = =
N Número de personas a las que se aplica el ítem
Proporción de sujetos que responden correctamente al ítem. Se suele expresar en

porcentajes.
pi1 = I.D.i1 = Índice de dificultad del ítem 1 = 0.95; 95%
pi2 = 0.05; 5%
¿Cómo son estos ítems? ¿son buenos? ¿en cualquier situación?
N = ¿Número de personas a las que se presenta el ítem?
N = ¿Número de personas que responden el ítem?
85
9. ¿Cuál de las siguientes es una característica de los modelos organísmicos del desarrollo
humano?
a) Defienden la existencia de estadios en el desarrollo
b) El desarrollo carece de dinámica interna
c) El desarrollo humano tiene carácter teleonómico
d) Las opciones a) y c) son correctas*
i9
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
1 Opción A 20 25.6 25.6 25.6
2 Opción B 10 12.8 12.8 38.5
Válidos 3 Opción C 4 5.1 5.1 43.6
4 Opción D 44 56.4 56.4 100.0
Total 78 100.0 100.0
86
3. ¿Cuáles son las propiedades de los contenidos cerrados de nuestro código genético?
a) Son potencialidades que, a través de la interacción social, se desarrollan
b) Son diferentes de una cultura a otra, y dentro de la misma cultura, de una generación a otra
c) Nos definen como especie*
d) Las opciones a y c son correctas
i3
i3
1 Opción A 14 17.9 21.2 21.2
1 Opción A 14 17.9 21.2 21.2
2 Opción B 5 6.4 7.6 28.8
2 Opción B 5 6.4 7.6 28.8
Válidos 3 Opción C 30 38.5 45.5 74.2
Válidos 3 Opción C 30 38.5 45.5 74.2
4 Opción D 17 21.8 25.8 100.0
4 Opción D 17 21.8 25.8 100.0
Total 66 84.6 100.0
Total 66 84.6 100.0
Perdidos Sistema 12 15.4
Perdidos Sistema 12 15.4
Total 78 100.0
Total 78 100.0 87
i1
Válidos 1 Opción A 8 10.3 10.3 10.3
2 Opción B 7 9.0 9.0 19.2
3 Opción C 7 9.0 9.0 28.2
4 Opción D 56 71.8 71.8 100.0
Total 78 100.0 100.0
En relación a la dificultad del ítem 1 (.72), que aparece en la tabla

anterior, de entre las opciones que se ofrecen, ¿qué podríamos decir
de las personas a las que identifica?
a) Saben la respuesta correcta al ítem
b) Aciertan, por azar, la respuesta correcta
c) Eligen la opción correcta *
Corrección del azar:
El ítem parece más fácil de lo que es
Una proporción de sujetos no sabe la respuesta correcta –no tiene los conocimientos-
pero acierta por azar
Para conocer la verdadera dificultad del ítem debemos restar al porcentaje de personas
que responden corresponden el porcentaje de personas que aciertan al azar
Pero, ¿cuántas personas aciertan por azar?
En la práctica es difícil saberlo, pero EN TEORÍA, para un ítem

de 4 opciones de respuesta, de entre los que no saben la
respuesta correcta, ¿qué porcentaje de ellos aciertan por azar?
N = 1000 Correcta = b Los que no Frecuencias

saben finales
Saben = 600 a) a) 100 a) 100
No saben = 400 b) 600 b)100 b)700
c) c) 100 c) 100
d) d) 100 d) 100
A 700
p = I .D. = Índice de dificultad = = = 0.70; 70%
N 1000
90
E
A−
pc = I .D.c = Índice de dificultad corregida = k −1
N
Siendo:
A = número de personas que eligen la opción correcta
E = número de personas que NO eligen la opción correcta
k = número de opciones de respuesta
E 300
A− 700 -
pc = I .D.c = Índice de dificultad corregida = k −1 = 3 = 0.60; 60%
N 1000
91
E 300
A− 700 -
pc = I .D.c = Índice de dificultad corregida = k −1 = 3 = 0.60; 60%
N 1000
En relación al índice de dificultad corregida (.60), de entre las
opciones que se ofrecen, ¿qué podríamos decir de las personas a las
que identifica?
a) Saben la respuesta correcta al ítem *
b) Aciertan, por azar, la respuesta correcta
c) Eligen la opción correcta
92
N = 1000 Correcta = b Los que no saben Frecuencias finales
Saben = 600 a) a) 100 a) 100
No saben = 400 b) 600 b)100 b)700
c) c) 100 c) 100
d) d) 100 d) 100
Entonces, ¿cuál es la proporción de sujetos que aciertan por azar?
100
= .10;10%
1000
p − p c = I . D . − I . D .c = 0 . 70 − 0 . 60 = 0 . 10
Índice de dificultad − Índice de dificultad corregida = 0.70 - 0.60 = 0.10; 10%
no saben 400 fallan 300

= = = = 100 personas
nº opciones de respuesta 4 (nº opciones de respuesta) - 1 3
93
Un ítem con 3 opciones de respuesta. Índice de
dificultad de 0.84. Los errores no restan.
¿Qué porcentaje de personas han elegido la opción

correcta?
¿Qué proporción de personas han respondido

correctamente el ítem por azar?
¿Qué porcentaje de personas saben, de verdad, la

respuesta correcta al ítem?
94
no saben ?
Azar = = =
nº opciones de respuesta 3
fallan 0.16
= = = 0.8; 8%
(nº opciones de respuesta) - 1 2
Saben = Eligen correcta − Azar = 0.84 − 0.8 = 0.76; 76%
95
i14
1 Opción A 43 55.1 55.1 55.1
2 Opción B 14 17.9 17.9 73.1
4 Opción D 13 16.7 16.7 100.0
Total 78 100.0 100.0
1. ¿Cuál es el valor del índice de dificultad?

2. ¿Cuál es el valor del índice de dificultad corregida?
3. ¿Cuántas personas saben de verdad la respuesta correcta al ítem?
4. ¿Cuántos sujetos acertaron por puro azar?
5. ¿Cuántos sujetos respondieron correctamente al ítem?
6. ¿Qué proporción de sujetos acertaron al azar?
96
Observa la siguiente tabla. En ella aparecen las respuestas de 153 personas a 3 ítems con 4
opciones de respuesta. En negrita y subrayado aparece el número de personas que
eligieron la opción correcta en cada ítem.
Opciones de
Ítem 1 Ítem 2 Ítem 3
respuesta
A 44 89 20
B 32 40 19
C 13 18 94
D 64 6 20
1. ¿Cuál es el índice de dificultad del ítem 2?

2. ¿Cuántas personas aciertan por azar el ítem 3?
3. ¿Cuántos sujetos saben de verdad la respuesta correcta del ítem 1?
4. En teoría, ¿cuál es la probabilidad de que acierte por azar el ítem 2 alguien que no
conoce la respuesta correcta?
5. ¿Cuál es la proporción de personas que responden correctamente al ítem 3?
6. Proporción de aciertos al azar del ítem 2 en esta muestra
7. ¿Para cuál de los tres ítems funcionan mejor los distractores?
Desde un punto de vista práctico, el índice de
dificultad corregida se utiliza poco, siendo el
índice de dificultad el más utilizado.
Desde un punto de vista teórico, la

corrección del azar se utiliza para determinar
el punto de corte en algunas pruebas de
conocimientos.
En la mayoría de vuestros exámenes, el número de

ítems mínimo necesario para aprobar (o punto de
corte o número de ítems que respondería un
alumno con un nivel medio de conocimientos) se
determina a partir de la dificultad de los ítems (y
se supone siempre pc =.50) y de la probabilidad de
acertar por azar
PREGUNTA: Si los errores no restan [y partiendo siempre del

supuesto de que todos los ítems tienen pc = .50], ¿cuántos ítems
debo responder correctamente para aprobar?
RESPUESTA: la mitad de los ítems más la otra mitad dividida

por el número de opciones de respuesta: 30 + (30/3) = 40
Entonces, en un examen de 50 ítems de V/F:

80 ítems de 4 opc.:
80 ítems de V/F:
Ítem 1 (b) Ítem 1 recodificado (I1r)
S1 A 0
S2 B 1
S3
S4
B
C
1
0
X I 1r = pI 1 = I .D.I 1
S5 A 0
S6 B 1
S7 B 1
A 4 ∑ 0 +1+1+ 0 + 0 +1+1 4
p I 1 = = = 0.57 X I 1r =
X I 1r
= = = 0.57
N 7 N 7 7
N Mínimo Máximo Media Desv. típ.

i1r 78 0 1 .72 .453
i2r 78 0 1 .69 .465
i3r 78 0 1 .49 .503
i4r 78 0 1 .44 .499
i5r 78 0 1 .35 .479
i6r 78 0 1 .65 .479
i7r 78 0 1 .49 .503
i8r 78 0 1 .36 .483
i9r 78 0 1 .56 .499
i10r 78 0 1 .71 .459
i11r 78 0 1 .64 .483
i12r 78 0 1 .31 .465
i13r 78 0 1 .24 .432
i14r 78 0 1 .55 .501
i15r 78 0 1 .32 .470
Relación entre la puntuación media en el test y la dificultad de los ítems.
Puntuación en el test = nº de respuestas correctas
Ítem 1 (b) Ítem 2 (c) Ítem 3 (a) Ítem 4 (c) Total (test = X)
S1 A A B C
S2 B C C C
S3 B C C C
S4 C A A A
S5 A C A A
S6 B C C B
S7 B C B C
Calculad: 1º Puntuación total de cada sujeto en el test

2º Media en el test para esta muestra de 7 sujetos
3º Índice de dificultad de cada uno de los ítems
4º Suma de los índices de dificultad de los ítems
103
En nuestro ejemplo de 15 ítems, la media fue de

7.5. En promedio, según la dificultad de los ítems,
¿cómo dirías que son estos 15 ítems?
¿Y si de 30 ítems la media del test fuese 7.5?
¿Y si de 8 ítems la media fuese 7.5?
104
Aunque en la práctica, en TCT, la dificultad de los ítems dependerá del nivel de
conocimientos de la muestra a la que apliquemos la prueba, se intenta que la distribución
de los ítems, en función de la dificultad, sea:
Rango de índices de
Porcentaje de ítems Dificultad
dificultad corregida
5% Muy difíciles .01 - .25
20% Difíciles .25 - .40
50% Intermedios .40 - .60
20% Fáciles .60 - .75
5% Muy fáciles .75 - .99
1. Suponiendo que somos distintos en aquello que miden nuestros ítems. Que existe
variabilidad entre personas.
2. Lo ideal es que nuestros ítems sean capaces de captar toda esa variabilidad. ¿Qué
estadístico nos permite conocer le grado de dispersión o de variabilidad de una variable?
3. La varianza es una medida de lo diferentes que somos. Ya que suponemos que somos
distintos, será bueno que la varianza sea elevada.
4. Manteniendo el resto de condiciones constantes, cuanto mayor sea la varianza de un
ítem mejor es dicho ítem. Mejor discrimina entre los sujetos.
5. Cuando los valores de una variable son 0-1 [como en un ítem corregido], la varianza de
dicho ítem se calcula aplicando la siguiente fórmula:
S = p*q
2
106
i9
1 Opción A 20 25.6 25.6 25.6
2 Opción B 10 12.8 12.8 38.5
4 Opción D 44 56.4 56.4 100.0
Total 78 100.0 100.0
¿Cuál es el valor de la varianza del ítem 9?
107
Índice D de discriminación
Nuestros ítems deben ser tan buenos que nos permitan discriminar entre quienes tienen
conocimientos suficientes para superar la prueba y quienes no los tienen.
Nuestros ítems deben discriminar entre los sujetos que saben y los que no saben.
Y hacerlo no sólo globalmente, en el total del test, sino que cada ítem debe contribuir a esa
discriminación.
Para calcular el valor del índice D de discriminación procederemos como sigue:
1. Identificamos dos grupos el de los más “listos” y el de los más “torpes”

2. Calculamos el porcentaje de “listos” que responden correctamente al
ítem y el porcentaje de “torpes” que responden correctamente al ítem
3. Comparamos dichos porcentajes
108
Tabla de contingencia grupos División de la muestra en 4 grupos (25%, aprox., cada uno) * i8
i8
1 Opción A 2 Opción B * 3 Opción C 4 Opción D Total
1 Grupo inferior 3 1 6 10 20
15.0% 5.0% 30.0% 50.0% 100.0%
2 Grupo intermedio 3 3 8 5 19
15.8% 15.8% 42.1% 26.3% 100.0%
6.3% 43.8% 25.0% 25.0% 100.0%
4 Grupo superior 0 17 3 3 23
.0% 73.9% 13.0% 13.0% 100.0%
Total 7 28 21 22 78
9.0% 35.9% 26.9% 28.2% 100.0%
¿Cuál es el valor del índice D de discriminación del ítem 8?

Tabla de contingencia División de la muestra en 4 grupos (25%, aprox., cada uno) * i13
i13
1 Opción A 2 Opción B* 3 Opción C 4 Opción D Total
15.0% 25.0% 30.0% 30.0% 100.0%
15.8% 21.1% 52.6% 10.5% 100.0%
18.8% 18.8% 43.8% 18.8% 100.0%
34.8% 30.4% 30.4% 4.3% 100.0%
Total 17 19 30 12 78
21.8% 24.4% 38.5% 15.4% 100.0%

¿Cómo se interpreta el índice D de discriminación?
Valor de D Ítem
D ≥ 0.40 Muy bueno
0.30≤ D ≤0.39 Aceptable
0.20≤ D ≤0.29 Regular. Revisar
0≤ D ≤0.19 Malo. Modificar o eliminar
D <0 Muy malo. Problemático
Ítem 1 (b) Ítem 2 (c) Ítem 3 (a) Ítem 4 (c) Total (test = X)
S1 A A B C
S2 B C C C
S3 B C C C
S4 C A A A
S5 A C A A
S6 B C C B


112
Análisis de las alternativas incorrectas
Para que un ítem cumpla su función, es necesario que los distractores –las
alternativas incorrectas- funcionen adecuadamente.
Es decir, han de distraer y confundir a los sujetos que no saben la respuesta

correcta. Si el ítem está bien redactado todas las opciones de respuesta son
igualmente atractivas para los sujetos que no saben.
Si alguna de las alternativas incorrectas no funciona como es de esperar el

índice de dificultad se verá incrementado, la varianza disminuida y el índice
D de discriminación disminuido
113
Las alternativas incorrectas de un ítem funcionan bien si:
1. Son elegidas por el mismo número de sujetos (son igual de

atractivas para los sujetos que no saben)
2. Los sujetos que las eligen tienen una puntuación media en el

test inferior a la de los sujetos que eligen la opción correcta. Y
también inferior a la de toda la muestra.
3. Las opciones incorrectas discriminan en sentido inverso a

como lo hace la alternativa correcta.
114
Tabla de contingencia gruposTests dedeejecución
División máxima
la muestra en 4 grupos (25%, aprox., cada uno) * i8
i8
1 Opción A 2 Opción B * 3 Opción C 4 Opción D Total
15.0% 5.0% 30.0% 50.0% 100.0%
15.8% 15.8% 42.1% 26.3% 100.0%
6.3% 43.8% 25.0% 25.0% 100.0%
.0% 73.9% 13.0% 13.0% 100.0%
Total 7 28 21 22 78
9.0% 35.9% 26.9% 28.2% 100.0%
Informe
aciert15 Nº de aciertos (15 items)

i8 Media N
1 Opción A 5.43 7
2 Opción B 10.00 28
3 Opción C 6.29 21
4 Opción D 6.18 22
Total 7.51 78
Tabla de contingencia División de la muestra en 4 grupos (25%, aprox., cada uno) * i13
i13
1 Opción A 2 Opción B* 3 Opción C 4 Opción D Total
15.0% 25.0% 30.0% 30.0% 100.0%
15.8% 21.1% 52.6% 10.5% 100.0%
18.8% 18.8% 43.8% 18.8% 100.0%
34.8% 30.4% 30.4% 4.3% 100.0%
Total 17 19 30 12 78
21.8% 24.4% 38.5% 15.4% 100.0%
Informe
aciert15 Nº de aciertos (15 items)

i13 Media N
1 Opción A 8.35 17
2 Opción B 7.95 19
3 Opción C 7.50 30
4 Opción D 5.67 12
Total 7.51 78

Transparencias Tema 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Transparencias Tema 1

Cargado por

Copyright:

Formatos disponibles

Psicometría

¿Es posible medir las variables psicológicas?

¿Es necesario medir las variables psicológicas?

¿Es difícil medir las variables psicológicas?

….. Evaluación psicológica

…. Evaluación y diagnóstico en educación

1. Comprender la necesidad, la posibilidad y la transcendencia

2. Conocer y comprender los distintos modelos teóricos de

3. Saber aplicar esos conocimientos teóricos en el proceso de

4. Ser capaz de juzgar la idoneidad de los modelos e

Psicometría: la medida de lo psicológico

a. Encontrar un sistema relacional numérico con una estructura

b. Comparar una cantidad con su respectiva unidad, con el fin

c. Asignar números a los objetos (las propiedades de los

Muñiz (2001, p. 17). Psicometría: conjunto de

Barbero, Vila y Suárez (p. 27). La psicometría es

Fechner: psicofísica – escalamiento de estímulos

Galton: medidas individuales, análisis estadísticos

Binet: pruebas de inteligencia

Yerkes: pruebas Alfa y Beta del ejército

Woodworth: tests psicométricos de personalidad

Spearman, Pearson, Lord, Birnbaum, Rasch

Teoría de la Teoría de los Aplicaciones:

Baja Item 1 Item 2 Item 3 Elevada

Métodos de escalamiento de sujetos.

Métodos de escalamiento conjunto.

Evidencias de fiabilidad y validez

Las conductas observables …

Los números (cantidades) …

Puntuación total en el test

¿Puntuación en el test = Cantidad de atributo? 24

Obtener evidencias externas de la

1. No hay definiciones únicas (variedad de indicadores)

Esas relaciones se suelen expresar en notación matemática.

Permiten interpretar las puntuaciones de los sujetos y conocer el error de medida

Marco teórico que permite el cálculo de fiabilidad y validez

1. Teoría Clásica de los Tests (TCT): X = V+ e

2. Teoría de Respuesta a los Ítems (TRI): P(θ) = 1 / (1+e-D(θ-b))

E= error de medida E = X – V; No observable

2. Análisis de ítems y tests: estadísticos tradicionales:

3. Puntuaciones: suma, puntuaciones Z, percentiles

Item 6 Item 7 Item 2 Item 1 Item 3 Item 5 Item 4

1. Ejecución demandada: ejecución

2. Interpretación de las puntuaciones:

1. Marco general del test

Objetivo: obtener mediciones válidas

Validez: utilidad de las puntuaciones/justificación de las decisiones que

Validación: proceso de obtención de evidencias que justifiquen las

Validez: guía y referente de todas las fases del proceso

Importancia de seguir las fases que se proponen:

2. Evitar la tentación de ponerse a escribir ítems

3. Limitaciones físicas o intelectuales

4. Características sociológicas (ideologías, creencias, etc.)

Aplicación colectiva o individual

Formato: test manipulativo/ papel y lápiz/ ordenador

¿Identificación de sujetos con patrones de respuesta atípicos?

Generación de puntuaciones totales

¿Qué variable hemos de medir para lograr los objetivos

Definición compartida – Replicabilidad

- Definición operativa o semántica

- Definición estructural o sintáctica

Procedimientos para llegar a una buena definición del

Determinar la importancia relativa que tiene cada dimensión o variable

Características generales del test y de los ítems

Muy placentero|||||||||||__|Nada placentero (act3)