Tiri Tema 2 (V3)

Tema 2
Características Técnicas de
los Instrumentos de Medida
J. Estarriaga Ansó
Profesor Tutor Uned -Pamplona
Características Técnicas de los Instrumentos de Medida
1.- Introducción 3.- TRI. Teoría de Respuestas al

Ítem
2.- TCT. Teoría Clásica de los Test
–Índice de dificultad – Supuestos
–Discriminación – Modelos
–Análisis de distractores – Curvas características del Ítem
–Coeficiente de fiabilidad – Función de información.
–Validez 4.- Aplicaciones de la TRI
–Dimensionalidad 5.- Ejemplo

Introducción:
En el capítulo anterior decíamos que medir era asignar números
a las características de los objetos, los constructos.
Las variables psicológicas, pedagógicas o educativas son

abstractas, poseen unos atributos o características que es lo
que medimos de acuerdo con unas reglas
Si medimos la ansiedad medimos el atributo no al sujeto
I
› ... La medición requiere un proceso de abstracción, es
decir, centrarse solo en el atributo que se desea medir.
› ¿Qué pesa más, un Kilo de hierro o un Kilo de paja?
› ¿Quien es más inteligente un maestro , un catedrático ; o un

agricultor?
› ¿Qué ventajas tiene la medida?
› Si no medimos se emiten juicios personales, se cae en la subjetividad ...
› Al medir con arreglo a normas obtenemos:
› Objetividad. No se da lugar al planteamiento de opiniones diversas
› Comunicación. En el intercambio de experiencias hablamos en los mismos

términos y podemos establecer comparaciones.
› Cuantificación. Los resultados los comunicamos de forma exacta.
› Economía. Invertimos tiempo en el diseño de los instrumentos pero a la

larga es rentable... Replicamos las investigaciones
La TCT. Teoría Clásica de los Test
Modelo lineal de Spearman (1904)
1863-1945
› La TCT se desarrolla a partir de las investigaciones

de Galton, Pearson y Spearman.
Tres conceptos o ideas básicas a tener en cuenta:

– Puntuaciones empíricas.
– Puntuaciones verdaderas.
– Puntuaciones debidas al error de medida.
Modelo lineal de Spearman

› Hay que matizar.
› 1.- Que cuando un sujeto responde a un test en un

momento determinado está afectado por diversos
factores que son difíciles de controlar.
› …Éstos factores afectarán a la puntuación empírica

obtenida (X), que no coincidirá con su puntuación
verdadera (V).
› 2.- Aun cuando en la ecuación de Spearman (X=V+E) hay

un solo término de error (E), en él se incluyen todos los
posibles errores aleatorios que puede estar afectando a
las puntuaciones empíricas (X).
› Estas fuentes de error pueden ser del mismo sujeto, y

de los errores de medida del instrumento, como pueden
ser: el tipo de ítems, su formato, el cansancio, el
ambiente …
› 3.- En la TCT la clasificación de los sujetos es de tipo

normativo, en función de su grupo de referencia y de la
puntuación total obtenida en el test; frente a la TRI
donde la unidad de medida es el ítem.
El error de medida
El error de medida
› Uno de los problemas fundamentales que nos
encontramos en cualquier medición es el error de
medida.
› El tamaño de este error depende de que el instrumento

de medición sea fiable, preciso y válido.
› El error de medida es la diferencia entre la puntuación

empírica y la puntuación verdadera. (E=X-V)
Supuestos de la TCT. Modelo lineal de Spearman
Supuestos de la TCT. Modelo lineal de Spearman
› E (X)=V La media de las puntaciones empíricas es igual a la puntuación

verdadera.
› Si a un sujeto se le pasa un test un número infinito de veces, la media de

todas las puntuaciones que obtendríamos sería la Puntuación Verdadera (V).
› ᑭ(V, e)=0 No existe correlación entre la puntuación verdadera y el error

de medida. Es cero.
› ᑭ (ej, ek)=0 La correlación entre los errores de medida es cero

Análisis de los ítems
Su objetivo es:
› Analizar las propiedades psicométricas de cada uno
de los ítems de un test con el fin de seleccionar
aquellos que resulten mas adecuados para la
medición de un constructo o dominio concreto
El proceso a seguir será:
§ Análisis cuantitativo:
§ Índice de Dificultad. (sin corrección del azar; con corrección del azar)
§ Índice de Discriminación. (Grupos extremos, Coeficientes de correlación)
§ Fiabilidad.
§ Validez
§ Distractores
§ Funcionamiento Diferencial
§ Análisis cualitativo:
§ Mediante Jueces o expertos
Índice de Dificultad
› El grado de dificultad de un ítem está en función del número
de sujetos que contestan correctamente al mismo, y de las
características de los individuos y de sus conocimientos
previos.
› Su utilidad está en los test de aptitudes o de rendimiento

donde existen respuestas correctas o incorrectas.
› Desde un punto de vista pedagógico los ítems se ordenan en

dificultad creciente, de menor a mayor…
› Lo ideal es que un test de rendimiento o de aptitudes esté

conformado por ítems de todos los niveles de dificultad, afín
de que se pueda discriminar a todos los sujetos.
Dificultad de los ítems Porcentajes en el test final

Muy fáciles 10%
Fáciles 20%
Normales - Dificultad media 40%
Difíciles 20%
Muy difíciles 10%
(sin corrección del azar)
› El ID es la proporción de sujetos que aciertan un

ítem:
$
› ID =
%
› Donde:
› A= Es el número de sujetos que aciertan un ítem
› N= Es el número de sujetos que intentan responder el ítem.
sin corrección del azar
› Ejemplo:
Barbero García et al
› De los 10 sujetos que han intentado responder el ítem con tres opciones de respuesta
lo aciertan 7
$ (
› !" = &' = = *, (
% )*
›
con corrección del azar
› Se penaliza las respuestas erróneas:
*
#
!"$%& )"
› ID’ = = +
= ,, ..
' &,
0 ,.*
› ID’ =p− = ,. ) − = ,, ..
$"& +
Recordando el índice de dificultad
› Un grupo de 370 individuos responden a un ítem de 3 alternativas
donde la opción correcta es la B. En la tabla vemos las diferentes
puntuaciones. Calcular el ID’
Recordando el índice de dificultad
› El mismo problema podemos resolverlo también

mediante la formula equivalente:
Estaríamos ante un ítem muy difícil .

Índice de Discriminación /Homogeneidad
Índice de discriminación: Tipos de correlación
› Dependiendo del tipo de variables podemos utilizar un tipo u

otro de correlación, aunque el más frecuentemente utilizado
es el de Pearson en la tabla vemos cual puede ser el más
adecuado.
Ítem Test
Nivel de medida Dicotómico Dicotomizado Continuo
• Dicotómico Correlación Ø Correlación Ø Biserial-puntual

• Dicotomizado Tetracórica Biserial
• Continuo Pearson
Índice de discriminación. D
› Capacidad para diferenciar a distintos sujetos con

diferentes capacidades o grados en la característica
que se mide.
› Tenemos dos formas:
› 1.- Mediante grupos extremos (27% superior y 27% inferior)
› 2.- Mediante coeficientes de correlación: IH, Pearson, Phi,

Biserial-puntual, Biserial …depende del tipo de variables.
Basado en grupos extremos
› El Índice de discriminación D (grupos extremos): Se basa en la

proporción de aciertos entre los grupos extremos de aptitud.
Kelly (1939) aconseja tomar el 27% superior e inferior de la
muestra total con el fin de obtener un índice D estable y
sensible.
› El 27% superior está formado por los sujetos que puntúan

por encima del percentil 73 y el inferior por aquellos que
puntúan por debajo del percentil 27.
Basado en grupos extremos
› Una vez obtenido el 27% de cada grupo se calcula la

proporción de respuestas correctas a un determinado ítem
en ambos grupos y aplicamos la siguiente ecuación.
› D= "# − "%
› Donde
› &' es la proporción de acierto en el grupo superior.
› &( es la proporción de aciertos en el grupo inferior.

Basado en Grupos Extremos
› Ejemplo : Un grupo de 370 individuos responden a un ítem de 3

alternativas donde la opción correcta es la B. En la tabla vemos las
diferentes puntuaciones y el 27% del grupo superior y el 27% del
grupo inferior.
› Grupo Superior =100
› Grupo Inferior =100
"#
› Proporción S. = = 0,53
$%&"#&'(
$%
› Proporción I. = = 0,19
-"&$%&$-
› D= 01 − 03 D= 0,53 - 0,19 = 0,34

Índice de discriminación
Basado en correlaciones : Índice de Homogeneidad IH
› El IH nos informa sobre la coherencia de cada uno de los

ítems con el conjunto del test o el total de la prueba.
› Se trata de comprobar que cada ítem mide en cierto modo

una parte del rasgo del conjunto de la prueba, y para ello
calculamos la correlación que existe entre cada uno de los
ítems con los demás, o el conjunto de la prueba
› Hablar de IH o de D es lo mismo.
Basado en correlaciones : Índice de Homogeneidad IH
%∗'()*'(∗') 1∗2*3∗4
!"# = +[%∗'(-*('() -][%∗')-*(')) -]=+(1∗41*3-)(1∗4*4-)
= 0,294

(Σ=)2 72
Σ= 2 − ? 15 − 5
;(2 = = = 1,3
? −1 4

4
X X .Y ;D2 = E ∗ F ; así p=1=0,2 ; q=1-p → q= 1-0,2=0,8 ;
$ $
!" # !
A 2 1 2 4 1
;D2 = E ∗ F = 0,2 ∗ 0,8 = 0,16
B 3 0 0 9 0
C 1 0 0 1 0 ;" = √1,3 = 1,14 ;

D 1 0 0 1 0 ;D =√0,16=0,4
E 0 0 0 0 0

% 7 1 2 15 1 TUV ∗WXYW ],2^_∗4,4_*],_
Z
RS = + = = −0,0594
[ -U\[ -Z *2TUV [ U[ Z √ 4,`\],4a*2∗],2^_∗4,4_∗],_
Basado en correlación de Pearson descontando el ítem
Calcular D ítem 4
!"#$% &% X.Y !' &'
1 1 1 1 1
3 0 0 9 0
1 0 0 1 0
1 0 0 1 0 Este coeficiente va desde -1 a +1
0 0 0 0 0
∑= 6 1 1 12 1
% ∗ Σ() − Σ( ∗ Σ) "∗$%&∗$ %$
!"# =
+[% ∗ Σ(- − (Σ()- ][% ∗ Σ)- − (Σ))- ]
= * *
("∗$)%& )("∗$%$ )
=,,.,/
= −0102
'
Basado en correlación de Biserial-puntual
Ejemplo 1: Se quiere saber cuál es el índice de discriminación de un ítem

dicotomizado. Del total de los examinados, solo el 40% supera
adecuadamente el ítem. La media de éstos en el test es de 70 puntos. El
test tiene una media de 50 puntos y una desviación típica de 25.
›
Basado en correlación de Biserial-puntual
› Ejemplo2: En la siguiente tabla vemos las respuestas de 2 ítems, calcular
el coeficiente de correlación sabiendo que el ítem es una variable
dicotómica y la puntuación en el test continua. (Descontamos el ítem. X-1)
Sujeto. It.1 It.2 X X-1 (" − $)&
A 1 0 7 6 36
B 1 1 9 8 64
C 0 1 6 6 36
D 0 0 2 2 4
E 1 0 4 3 9
F 1 0 5 4 16
∑29 ∑165
Variabilidad y Discriminación
Variabilidad y discriminación
› La variabilidad del test y el índice de discriminación de los

ítems están relacionadas mediante la siguiente ecuación.
Siendo:
Sx= desviación típica del test
Sj= desviación típica del ítem
rjx= índice de discriminación del ítem j
Si no existiera variabilidad no habría discriminación pues todos los sujetos

contestarían lo mismo, así si la varianza !#" o desviación típica !" fuera cero
indicaría que todos los sujetos tendrían la misma puntuación.
Varianza e Índice de dificultad
› Así para que un ítem discrimine necesita variabilidad, es decir,

dispersión entre las personas que lo contestan.
› Si un ítem es dicotómico la varianza es el producto de sus
proporciones de quienes aciertan (p) y de quienes lo fallan (q).
$"% =p.q
!
› Cuando p = "
= 0,5 …su varianza es máxima cuando el ID=0,5
Discriminación e Índice de dificultad
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Índice de dificultad
Varianza e Índice de dificultad
› Ejemplo: Con los datos de la tabla
de tres ítems, calcular las varianzas
y sus desviaciones típicas.
› Como se trata de ítems dicotómicos calculamos
para cada ítem:
– p= proporción de aciertos.
– q= proporción de fallos.
Sujetos Ítem A Ítem B Í1em C

A 0 0 1
B 1 1 1
C 1 0 0
D 1 1 1
E 1 1 1
Probab = 0,8 0,6 › 0,8
Análisis de Distractores
Análisis de distractores
› Los distractores son las respuestas incorrectas de un ítem.
›
› Lo que se pretende es controlar que los distractores sean
equiprobables, es decir que tengan las mismas opciones o
probabilidad de ser elegidos por aquellos sujetos que no conozcan
la respuesta correcta.
› Todas las respuestas han de resultar igual de atractivas.
› Éste análisis lo realizamos mediante la prueba del Chi-

Cuadrado
($%&$'))
χ" =∑ $' ; con k-1 gl.; siendo k el número de categorías
incorrectas.
› Ejemplo1: (del libro) Un ítem con cuatro alternativas es contestado por 300
sujetos, siendo al alternativa D la correcta. De los 300, 198 fallan las
respuestas que se distribuyen de acuerdo con lo representado en la tabla.
A B C
85 40 73
› Con un nivel de confianza del 95%, ¿podemos afirmar la independencia de
las respuestas en función de la alternativa?
› !" : Hay igualdad en las respuestas, es decir, son independientes .

Solución: La tabla nos presenta las respuestas observadas. Las esperadas
en cada opción es la media de los fallos, así que:
Rechazamos !" en
el sentido de que NO
son independientes
› Ejemplo2: Sospechamos que las alternativas incorrectas de un ítem de un
examen no son equiprobables, es decir, no son igual de atractivas. En la tabla
vemos la frecuencia de respuesta de los sujetos siendo la B la correcta.
Necesitamos saber si las alternativas incorrectas son igual de atractivas.
A B C
37 200 51
FE= (37+51)/2=44;
!" = [(37-44)2 + (51-44)2]/44 = 2,223
!" Teórico para k-1 gl (2-1=1) y un α 0.05= 3,841
Como !" empírico < !" teórico aceptamos $% en el sentido de que
las alternativas incorrectas son igualmente atractivas .
Error típico de medida
Error típico de medida
› Precisión, fiabilidad absoluta y error de medida.
› La fiabilidad absoluta de un instrumento está determinada por el error

típico de medida.
› Si fuéramos capaces de pasar un test de forma infinita a un sujeto

obtendríamos infinitas puntuaciones empíricas que se distribuyen según una
curva normal, su media sería la puntuación verdadera. PV =  (PE). En este
caso el error sería = 0
› Si se calcula la Desviación Típica de esta distribución obtenemos el Error

Típico de Medida. (ETM)
Aplicaciones del Error Típico de Medida
› 1.- Determinar los límites “Intervalos de Confianza” entre

los que esperamos que se encuentren las P.V. de los sujetos.
› 2.- Comparar las puntuaciones de varios sujetos en el mismo

instrumento, o del mismo sujeto en diferentes instrumentos
de medición.
› Vemos ejemplos:
Determinación de los limites entre los que esperamos se
encuentren las puntuaciones verdaderas de los sujetos
› Hemos aplicado una prueba a un grupo y obtenemos los siguientes

resultados. =30; !" =8; #"" =0,82 y un sujeto obtiene un puntuación de 28.
Determinar los limites entre los que esperamos que se encuentre la
puntuación verdadera con un nivel del confianza del 95%.
La puntuación verdadera del sujeto se

encuentra entre los limites calculados.
Cómo calcular Puntuación Z

Cálculo de Z⍺/2
Comparación de las puntuaciones de varios sujetos en el mismo
instrumento, o del mismo sujeto en distintos instrumentos
En este tipo de comparación se establece una proporción entre las diferentes

puntuaciones y el error de medida. Al resultado le llamamos RC (razón crítica).
Datos: Sujeto A:34 puntos, Sujeto B:32 ; Sx= 8 ; !""= 0,82; nivel de confianza
95%, α=0,05. Calcular si existen o no diferencias significativas entre las puntuaciones de
los individuos. Solución
Ecuaciones
Interpretación: Como la ´RC 0,41 está por debajo de

Z α/2=1,96 la diferencia de puntuaciones se debe a
causas aleatorias, no existen diferencias significativas.
Fiabilidad
Fiabilidad
› Fiabilidad equivale a exactitud.
› Un instrumento es fiable si está libre de error. Cuando
realizamos mediciones se pueden cometer dos tipos de error
› 1.- Aleatorio (depende del azar)
› 2.- Sistemático (depende del instrumento de medición)
› Hay dos tipos de fiabilidad:

› 1.- Absoluta: Se refiere al error cometido con el instrumento de medida.
› 2.- Relativa:
– Como Estabilidad,
– Como Equivalencia.
– Como Consistencia Interna
– La medimos mediante el cálculo de coeficientes de correlación
Fiabilidad
› El coeficiente de fiabilidad es la probabilidad de fallo de un

instrumento, o también, el grado de exactitud con que es capaz
de medir… es la correlación ( !"" ) entre los resultados que nos
proporcionan dos pruebas paralelas de un test. ( # ) y (#´ )
› De los supuestos anteriores podemos deducir la ecuación

para la cuantificación del coeficiente de fiabilidad de un test
con formas paralelas.
Estimación del coeficiente de fiabilidad
Estimación del coeficiente de fiabilidad
› Estimaciones empíricas del coeficiente de fiabilidad:
– 1.- Fiabilidad como Equivalencia. Formas paralelas

– 2.- Fiabilidad como Estabilidad. Test-retest
– 3.- Fiabilidad como Consistencia Interna. Covariación entre los ítems.
Fiabilidad como: Equivalencia (Formas paralelas)
Estabilidad (Test-retest)
› Formas Paralelas: Dos instrumentos son equivalentes cuando

miden lo mismo. Los dos test se pasan a una misma muestra
representativa de la población a la que va dirigido.
› Test-retest: Un mismo test se pasa en dos momento diferentes.
› MÉTODOS
› F. Como Equivalencia, formas paralelas : Pearson y Kappa

› F. como Estabilidad, test-retest: Pearson
Coeficiente de fiabilidad formas paralelas (equivalencia)
y test-retest (estabilidad)
› Ejemplo1: Hemos pasado dos test paralelos de 20 ítems a 10 sujetos,
calcular el coeficiente de fiabilidad. En la tabla adjunta tenemos los datos.
› La estructura de presentación de los datos en la tabla sería la misma.
Coeficiente de fiabilidad como Consistencia Interna
procedimiento de las dos mitades
› Partimos de la base que un instrumento tiene como objetivo medir un
rasgo o característica concreta a través del conjunto de sus ítems, si lo
dividimos en dos mitades (pares-impares) podemos pensar que miden el
mismo rasgo o parte del mismo. Es la coherencia interna.
Calculamos Pearson y
corregimos mediante
Spearman-Braun
Coeficiente de Fiabilidad, Coeficiente de Kappa de Cohen K
(Metodología Observacional)
› Este Coeficiente (K) es uno de los más utilizados cuando se pretende

estimar el nivel de acuerdo, fiabilidad entre observadores o jueces. Se
puede utilizar cuando se clasifica a los sujetos en dos más categorías.
#$%&'
!=
( −#*
Fc=frecuencia observada clasificaciones coincidentes Pc= Proporción de clasificaciones coincidentes en ambas
formas
Fa=frecuencias coincidentes esperadas por azar
Pa= Proporción de clasificaciones conincidentes esperadas.
N =número total de personas de la muestra
Ejemplo 1 Coeficiente Kappa
en función de frecuencias absolutas
OBSERVADOR 2
C1 C2 C3 C4 ni
C1 3 0 1 0 4
OBSERVADOR 1
C2 1 2 0 0 3
C3 0 0 2 0 2
C4 0 0 0 1 1
nj 4 2 3 1 10
Resultados ordenados para su análisis
› Fc=3+2+2+1= 8 (clasificaciones coincidentes observadas)

!∗!#$∗%#%∗$#&∗&
› Fa= = 2,9 (coincidencias esperadas por azar (con las marginales)
&'
()*,,
› K= = 0,718
-.)*,,
Ejemplo2 : Coeficiente Kappa
en función de la proporción de las clasificaciones
OBSERVADOR 2
C1 C2 C3 C4 ni
C1 3 0 1 0 4
OBSERVADOR 1
C2 1 2 0 0 3
C3 0 0 2 0 2
C4 0 0 0 1 1
nj 4 2 3 1 10
Resultados ordenados para su análisis
!"#"#"$ &∗&"!∗#"#∗!"$∗$
› Pc= = 0,8 Pa= = 0,29
$% $%#
%,)%*%,#+
› K= =0,718
$*%,#+
Coeficiente de fiabilidad como Estabilidad
Fiabilidad como Estabilidad
Test- - Retest
› La estabilidad se refieres a que cuando se evalúa un rasgo

en distintas ocasiones, siempre y cuando las condiciones
sean parecidas y el rasgo no haya cambiado, se obtengan
unos resultados similares.
› Es semejante a las formas paralelas. Por tanto se calcula

mediante el Coeficiente de Correlación de Pearson en la
forma que ya hemos visto.
› En un instrumento que mide un determinado rasgo hemos de

pensar que cada ítem mide una parte del mismo y que por
tanto tiene que haber una coherencia entre ellos
› El índice de fiabilidad (IF) de un ítem viene dado por el índice

de discriminación y la desviación típica de forma que:
› IF= Si*Di
Calcular el IF de los ítems:

7, 9, 11.
Item7 =0.570*0,5036 = 0.287

Ítem9 =0,399*0,3452= 0,137
Ítem11=0,092*0,4911= 0,045
› El estadístico más utilizado para el cálculo del coeficiente de

fiabilidad como consistencia interna de un test completo es
el Alfa de Cronbach
– Siendo:
– n=número de ítems
– ∑ !" j=Sumatorio de las varianzas de los ítems
– !" X = Varianza del test

Ejemplo de cálculo del α de Cronbach:
Varianzas
El Alfa de Cronbach es un coeficiente que se mueve entre

0 y 1 y se considera que una buena consistencia interna es
a partir de 0,7- 0,8. En nuestro caso un coeficiente tan bajo
se debe a lo escaso de la muestra . Lo laborioso de su
calculo en un test exige el empleo de paquetes informáticos
Factores que afectan a la fiabilidad:
La Longitud del test

La variabilidad del test
Factores que afectan a la fiabilidad
La fiabilidad de un test se ve afectada tanto:
– Por la longitud como por la variabilidad de la muestra.
– En el caso de la longitud adaptamos la formula de
Spearman-Brown que nos permite estimar cual será el
coeficiente de fiabilidad ( !"" ) de un test que se forma con

“n” veces un test inicial que tiene un determinado
coeficiente de fiabilidad (#$$ )
Fiabilidad y longitud
– Ejemplo: Un grupo obtiene en una prueba de 25 ítems un !"" = 0,60. Si

añadimos 75 ítems al test inicial, ¿Cual sería su fiabilidad final (("" ) ?
– Solución:
– Primero calculamos n que es las veces que se alarga el test. El test

final tendría 100 ítems por tanto: n=100/25=4
› Podemos plantearnos también, cuantas veces se debe alargar un test
para obtener un determinado coeficiente de fiabilidad.
› Ejemplo: Supongamos que un test inicial de 25 ítems tiene un !"" de 0,6
y nos interesa que tenga un coeficiente nuevo ()) de 0,86 ¿Cuántos
ítems hemos de añadir?.
› Luego si multiplicamos por 4 la longitud inicial, el test ha de tener

25*4=100 ítems, así que hay que añadir 75. (100-25=75)
Fiabilidad y variabilidad
› La variabilidad de una muestra también aumenta la fiabilidad

de un test.
› Si conocemos la fiabilidad de una población también podemos
calcular la fiabilidad de otra población, aplicando la ecuación
› Ejemplo: Un pedagogo pasa un determinado test a un grupo de sujetos y

obtiene un desviación típica de 2 y un coeficiente de correlación de 0,80.
¿Cuál sería el coeficiente de fiabilidad en otro grupo que hubiera obtenido
una varianza doble?
› Solución: Como nos da la desviación típica calculamos la varianza. 2" = 4

y su doble = 8.
#
ᑭxx= 1-[ (1-0,80) ]= 0,9
$
Validez
Validez
› Decimos que un instrumento es válido “si mide aquello que dice

medir”
› Tipos de validez:
– De contenido. En tanto en cuanto los ítems representan el constructo
– Predictiva. Capacidad para inferir el constructo que se investiga. El índice
de validez del ítem (o del test) viene dado por la correlación entre el ítem
(o el test) y el criterio: IV= !"# (siendo ” j“ el ítem e “y” el criterio)

– Concurrente. Se deriva de la predictiva y se diferencia de ella en que la
información es recogida de manera simultánea. (test y criterio)
Validez
› El índice o coeficiente de validez lo calculamos mediante la
Correlación de Pearson sin corrección.
› Por ejemplo: (examen reserva septiembre 2014/15)
Ítems
Criterio X Y X2 Y2 X*Y
Suj.
i1 i2 i3 i4 Y
2 4 4 16 8
A 1 0 0 1 4
B 1 1 1 0 2 3 2 9 4 6
C 0 0 1 0 4 1 4 1 16 4
D 1 0 0 0 1 1 1 1 1 1
Σ 7 11 15 37 19
Validez y longitud
Validez y longitud
› Además de la fiabilidad, también la validez se ve afectada por la longitud
de la prueba, se relacionan a través de la siguiente ecuación.
%"# √' -.
› !"#$ n=
() '*( %"" -/
›
› Donde:
› 012 = 34 56789 :97;<:<75=7 >7 8?4<>7@
› A12 = El coeficiente de validez primitivo
› A11 = El coeficiente de fiabilidad
› n= el número de veces que se aumenta o disminuye el test.
Validez y longitud
› Ejemplo: El coeficiente de fiabilidad de un test de 25 ítems es de 0,60

aplicado a un grupo con una varianza de 20, Si añadimos 7 ítems
paralelos a los que tiene el test ¿Cuál sería el nuevo coeficiente de
validez?
$,&$√(,)*
!"# = =0,628
(+ (,)*,( $,&$
-)
).
= 1,28
Validez y longitud
› Cual será la longitud de un test de 25 ítems cuyo coeficiente de

fiabilidad es de 0,60 si queremos que alcance un índice de validez de
0,628.
!"#$$ !"(,*(
› n= sustituyendo n= = 1,278
#%
$$ "# (,*%
"(,*
&$' $$ (,*%+%
› El test aumenta 1,28 veces 25 x 1,28=32 Ítems

Dimensionalidad
Dimensionalidad
› El objetivo de los test es medir variables, éstas variables

pueden estar representadas por una o varias dimensiones, y
uno de los objetivos en su construcción es la
unidimensionalidad.
› Para medir la unidimensionalidad hay que realizar un análisis

factorial para conocer en que factores o grupos se
concentran los ítems.
Teoría de Respuesta al Ítem – TRI -
› La TRI es un modelo más complejo que la TCT., y permite

obtener información precisa de las variables medidas y de sus
propiedades psicométricas.
› Tanto en la TCT como en la TRI el objetivo es cuantificar el

error que cometemos a la hora de medir las variables
psicológicas o pedagógicas siguiendo sus modelos
matemáticos.
› Hay tres diferencia entre la TCT y la TRI:
› 1.- La unidad de análisis; en la TCT es el test y en la TRI el ítem.
› 2- La TRI incorpora a sus modelos las características psicométricas

de los ítems (discriminación, dificultad y azar) además del nivel de
habilidad del sujeto Ø (Theta)
› 3.- Los supuestos sobre los que descansa el modelo son la

unidimensionalidad (rasgo latente Ø), y la independencia local.
› Unidimensionalidad: La prueba mide únicamente una
característica o rasgo latente (Ø) que es el valor que un

sujeto alcanza en una variable . No permite obtener la
probabilidad de respuesta a un ítem.
› Independencia local: La respuesta a un ítem no influye

sobre las respuesta a otro ítem.
Modelos de la TRI
› A) El resultado de un individuo en un ítem se puede explicar
por el rasgo latente o aptitud (Ø)
› B) La relación entre respuesta y rasgo se explica por la CCI. A

medida que aumenta la habilidad del sujeto aumenta la
probabilidad de respuesta al ítem. (función monótona creciente)
representada por la CCI.
› C) Las estimaciones de la aptitud (Ø) son iguales con ítems

diferentes; y la estimación de los parámetros son iguales con
diferentes muestras de sujetos
Modelos de la TRI
› ML1p
› ML2p
› ML3p
P(Ø) = Probabilidad de acertar el ítem. e = número e; D= constante 1,7; b= I. Dificultad;

a=I Discriminación; c= pseudoazar
ML1p. Modelo de Rasch:
› Suponiendo un rasgo (Ø) de 2,5 ¿Cuál es la probabilidad de que un sujeto

acierte un ítem con un índice de dificultad (b)=0,5 y una constante D=1,7
! ",$(&,'(),')
› P(2,5)= = 0,967
+,! ",$(&,'(),')
ML2p:
› Suponiendo un rasgo (Ø) de 1,5 ¿Cuál es la probabilidad de que un sujeto

acierte un ítem con un índice de dificultad (b) =0,75, un índice de
discriminación a= 0,75 y una constante D=1,7
! ",$∗&,$'(",')&,$')
› P(1,5)= ",$∗&,$'(",')&,$') =0,72
+,!
ML3p.
› Suponiendo un rasgo (Ø) de 1 ¿Cuál es la probabilidad de que un sujeto

acierte un ítem con un índice de dificultad (b) =0,60; un índice de
discriminación a=0,75; índice de pseudoazar de 0,25 y una constante D=1,7
! ",$∗&,$'(")&,*&)
› P(1)=0,25+(1-0,25) = 0,72
,-! ",$∗&,$'(")&,*&)
CCI (ML3p)
(Curva Característica del Ítem)
› Ejemplo: Construir la CCI en el intervalo (-3, +3), con los siguientes parámetros:
› a= 1,25; b=0 y c=0,2; D=1,7. Interpretar sus resultados.
› 1.- Calculamos para cada nivel de Ø (-3, -2, -1, 0, 1, 2, 3) su P(Ø)
P(-3)= 0,201
Conforme aumenta la habilidad aumenta
P(-2)= 0,211 la p de acertar el ítem.
P(-1)= 0,285 Los sujetos de baja habilidad (-2) su

acierto es por azar.
P(0)= 0,600
P(1)= 0,915 Los de alta habilidad (+2) todos aciertan
P(2)= 0,989 La tasa de cambio en la CCI es alta

para valores de -2 a +2; lo determina
P(3)= 0,999 el parámetro de discriminación que es
proporcional a la pendiente
Interpretación de la CCI
› 1.- El desplazamiento de la curva a la derecha o izquierda indica la mayor o menor dificultad de un ítem.
› 2.- La mayor o menor pendiente de la curva indica mayor o menor capacidad de discriminación
Interpretación de la CCI
› En la figura de la izquierda ¿qué ítem es más fácil ?

› En la figura de la derecha ¿qué ítem discrimina menos?
Residuos Estandarizados (RE)
Calibración del modelo
› Un RE es la diferencia entre las respuestas dadas y las
observadas que podemos ver en una tabla de contingencia.
› El calculo no deja de ser largo y complejo, por eso se

requiere de programas informáticos, tipo SPSS, R, Bilog-MG3,
Logist...
› En la bibliografía básica tenemos un ejemplo (pág. 80)

Calcular RE y calibrar el modelo
› Establecemos como criterio que ningún RE supere el
valor absoluto de Z=1,96 y calculamos para cada
nivel de habilidad su P(Ø) y según los parámetros a=0,5;
b=0,6, c=0,1 y D=1,7
› P(-2,5)=0,1602; P(-1,5)=0,2293; P(-0,5)=-0,3537; P(0,5)=0,5308;

P(1,5)=0,7141; P(2,5)=0.8506
› Calculamos el RE de cada una de las P.

› Q=1-P = 1-0,1602=0,84
!,#$!%&!,'
› RE= =-1,205 (y así con cada uno de ellos…y
!,#$!%%($∗!,*+/#!
como el RE no supera 1,96, se ajusta al ML3p)
Calculo de RE con R
comparación con el procedimiento manual anterior
Función de Información del Ítem
Qué cantidad de información aporta un ítem
› La FII cuantifica la precisión con que un ítem contribuye a

estimar del conjunto de ellos la habilidad (Ø) o rasgo latente
de un sujeto.
ML1p ML2p
ML3p
Qué cantidad de información aporta un ítem
=0,65
#,%& ∗(,%& ∗(,)* [(,,*-(,)]&

Q=1-P(Ø)=1-0,65=0,35 I(Ø) =0,191
(,,*∗ (#-(,))&
Función de Información Máxima del Ítem (IM)
Cálculo de la habilidad (Ø) que maximiza la
información
› En los Ml1p y ML2p la información
máxima de un ítem se produce
cuando el índice de dificultad de
un ítem coincide con la nivel de
habilidad del sujeto ( Ø ), sin
embargo en el ML3p ha de
calcularse mediante las siguientes
ecuaciones.
Función de Información del Test
› Viene dada por: IT(Ø) = ∑%"#$ &" (Ø)
› Siendo el resultado de la suma de la información de todos
los ítems que lo componen.. La FIT es importante para la
construcción de los test y selección de los ítems …
Aplicaciones de la TRI ¿Para qué sirve?
› Construcción de un banco de ítems calibrados

› Conocer las puntuaciones verdaderas de los sujetos
› Seleccionar ítems para la construcción de test en
función de nuestras necesidades
› Funcionamiento diferencial de los items entre sujetos
Aplicaciones de la TRI ¿Para qué sirve?

Tiri Tema 2 (V3)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tiri Tema 2 (V3)

Cargado por

Copyright:

Formatos disponibles

Tema 2

1.- Introducción 3.- TRI. Teoría de Respuestas al

–Análisis de distractores – Curvas características del Ítem

–Coeficiente de fiabilidad – Función de información.

–Validez 4.- Aplicaciones de la TRI

–Dimensionalidad 5.- Ejemplo

Las variables psicológicas, pedagógicas o educativas son

› ¿Qué pesa más, un Kilo de hierro o un Kilo de paja?

› ¿Quien es más inteligente un maestro , un catedrático ; o un

› Si no medimos se emiten juicios personales, se cae en la subjetividad ...

› Al medir con arreglo a normas obtenemos:

› Objetividad. No se da lugar al planteamiento de opiniones diversas

› Comunicación. En el intercambio de experiencias hablamos en los mismos

› Cuantificación. Los resultados los comunicamos de forma exacta.

› Economía. Invertimos tiempo en el diseño de los instrumentos pero a la

› La TCT se desarrolla a partir de las investigaciones

Tres conceptos o ideas básicas a tener en cuenta:

Modelo lineal de Spearman

› Hay que matizar.

› 1.- Que cuando un sujeto responde a un test en un

› …Éstos factores afectarán a la puntuación empírica

› 2.- Aun cuando en la ecuación de Spearman (X=V+E) hay

› Estas fuentes de error pueden ser del mismo sujeto, y

› 3.- En la TCT la clasificación de los sujetos es de tipo

› El tamaño de este error depende de que el instrumento

› El error de medida es la diferencia entre la puntuación

› E (X)=V La media de las puntaciones empíricas es igual a la puntuación

› Si a un sujeto se le pasa un test un número infinito de veces, la media de

› ᑭ(V, e)=0 No existe correlación entre la puntuación verdadera y el error

› ᑭ (ej, ek)=0 La correlación entre los errores de medida es cero

› Su utilidad está en los test de aptitudes o de rendimiento

› Desde un punto de vista pedagógico los ítems se ordenan en

› Lo ideal es que un test de rendimiento o de aptitudes esté

Dificultad de los ítems Porcentajes en el test final

› El ID es la proporción de sujetos que aciertan un

› Se penaliza las respuestas erróneas:

› El mismo problema podemos resolverlo también

Estaríamos ante un ítem muy difícil .

› Dependiendo del tipo de variables podemos utilizar un tipo u

Nivel de medida Dicotómico Dicotomizado Continuo

• Dicotómico Correlación Ø Correlación Ø Biserial-puntual

› Capacidad para diferenciar a distintos sujetos con

› 2.- Mediante coeficientes de correlación: IH, Pearson, Phi,

› El Índice de discriminación D (grupos extremos): Se basa en la

› El 27% superior está formado por los sujetos que puntúan

› Una vez obtenido el 27% de cada grupo se calcula la

› &( es la proporción de aciertos en el grupo inferior.

› Ejemplo : Un grupo de 370 individuos responden a un ítem de 3

› D= 01 − 03 D= 0,53 - 0,19 = 0,34

› El IH nos informa sobre la coherencia de cada uno de los

› Se trata de comprobar que cada ítem mide en cierto modo

Ejemplo 1: Se quiere saber cuál es el índice de discriminación de un ítem

Sujeto. It.1 It.2 X X-1 (" − $)&

› La variabilidad del test y el índice de discriminación de los

Si no existiera variabilidad no habría discriminación pues todos los sujetos

› Así para que un ítem discrimine necesita variabilidad, es decir,

Sujetos Ítem A Ítem B Í1em C

› Todas las respuestas han de resultar igual de atractivas.

› Éste análisis lo realizamos mediante la prueba del Chi-

› !" : Hay igualdad en las respuestas, es decir, son independientes .

› La fiabilidad absoluta de un instrumento está determinada por el error

› Si fuéramos capaces de pasar un test de forma infinita a un sujeto

› Si se calcula la Desviación Típica de esta distribución obtenemos el Error