Está en la página 1de 110

Tema 2

Características Técnicas de
los Instrumentos de Medida
J. Estarriaga Ansó
Profesor Tutor Uned -Pamplona
Características Técnicas de los Instrumentos de Medida

1.- Introducción 3.- TRI. Teoría de Respuestas al


Ítem
2.- TCT. Teoría Clásica de los Test
–Índice de dificultad – Supuestos

–Discriminación – Modelos

–Análisis de distractores – Curvas características del Ítem

–Coeficiente de fiabilidad – Función de información.

–Validez 4.- Aplicaciones de la TRI

–Dimensionalidad 5.- Ejemplo


Características Técnicas de los Instrumentos de Medida

Introducción:
En el capítulo anterior decíamos que medir era asignar números
a las características de los objetos, los constructos.

Las variables psicológicas, pedagógicas o educativas son


abstractas, poseen unos atributos o características que es lo
que medimos de acuerdo con unas reglas
Si medimos la ansiedad medimos el atributo no al sujeto
Características Técnicas de los Instrumentos de Medida
I
› ... La medición requiere un proceso de abstracción, es
decir, centrarse solo en el atributo que se desea medir.

› ¿Qué pesa más, un Kilo de hierro o un Kilo de paja?

› ¿Quien es más inteligente un maestro , un catedrático ; o un


agricultor?
Características Técnicas de los Instrumentos de Medida
› ¿Qué ventajas tiene la medida?

› Si no medimos se emiten juicios personales, se cae en la subjetividad ...

› Al medir con arreglo a normas obtenemos:

› Objetividad. No se da lugar al planteamiento de opiniones diversas

› Comunicación. En el intercambio de experiencias hablamos en los mismos


términos y podemos establecer comparaciones.

› Cuantificación. Los resultados los comunicamos de forma exacta.

› Economía. Invertimos tiempo en el diseño de los instrumentos pero a la


larga es rentable... Replicamos las investigaciones
La TCT. Teoría Clásica de los Test
Modelo lineal de Spearman (1904)

1863-1945
La TCT. Teoría Clásica de los Test

› La TCT se desarrolla a partir de las investigaciones


de Galton, Pearson y Spearman.

Tres conceptos o ideas básicas a tener en cuenta:


– Puntuaciones empíricas.
– Puntuaciones verdaderas.
– Puntuaciones debidas al error de medida.
La TCT. Teoría Clásica de los Test

Modelo lineal de Spearman


La TCT. Teoría Clásica de los Test

› Hay que matizar.

› 1.- Que cuando un sujeto responde a un test en un


momento determinado está afectado por diversos
factores que son difíciles de controlar.

› …Éstos factores afectarán a la puntuación empírica


obtenida (X), que no coincidirá con su puntuación
verdadera (V).
La TCT. Teoría Clásica de los Test

› 2.- Aun cuando en la ecuación de Spearman (X=V+E) hay


un solo término de error (E), en él se incluyen todos los
posibles errores aleatorios que puede estar afectando a
las puntuaciones empíricas (X).

› Estas fuentes de error pueden ser del mismo sujeto, y


de los errores de medida del instrumento, como pueden
ser: el tipo de ítems, su formato, el cansancio, el
ambiente …
La TCT. Teoría Clásica de los Test

› 3.- En la TCT la clasificación de los sujetos es de tipo


normativo, en función de su grupo de referencia y de la
puntuación total obtenida en el test; frente a la TRI
donde la unidad de medida es el ítem.
El error de medida
El error de medida
› Uno de los problemas fundamentales que nos
encontramos en cualquier medición es el error de
medida.

› El tamaño de este error depende de que el instrumento


de medición sea fiable, preciso y válido.

› El error de medida es la diferencia entre la puntuación


empírica y la puntuación verdadera. (E=X-V)
Supuestos de la TCT. Modelo lineal de Spearman
Supuestos de la TCT. Modelo lineal de Spearman

› E (X)=V La media de las puntaciones empíricas es igual a la puntuación


verdadera.

› Si a un sujeto se le pasa un test un número infinito de veces, la media de


todas las puntuaciones que obtendríamos sería la Puntuación Verdadera (V).

› ᑭ(V, e)=0 No existe correlación entre la puntuación verdadera y el error


de medida. Es cero.

› ᑭ (ej, ek)=0 La correlación entre los errores de medida es cero


Análisis de los ítems
Análisis de los ítems

Su objetivo es:
› Analizar las propiedades psicométricas de cada uno
de los ítems de un test con el fin de seleccionar
aquellos que resulten mas adecuados para la
medición de un constructo o dominio concreto
Análisis de los ítems
El proceso a seguir será:

§ Análisis cuantitativo:
§ Índice de Dificultad. (sin corrección del azar; con corrección del azar)
§ Índice de Discriminación. (Grupos extremos, Coeficientes de correlación)
§ Fiabilidad.
§ Validez
§ Distractores
§ Funcionamiento Diferencial

§ Análisis cualitativo:
§ Mediante Jueces o expertos
Índice de Dificultad
Índice de Dificultad
› El grado de dificultad de un ítem está en función del número
de sujetos que contestan correctamente al mismo, y de las
características de los individuos y de sus conocimientos
previos.

› Su utilidad está en los test de aptitudes o de rendimiento


donde existen respuestas correctas o incorrectas.

› Desde un punto de vista pedagógico los ítems se ordenan en


dificultad creciente, de menor a mayor…
Índice de Dificultad

› Lo ideal es que un test de rendimiento o de aptitudes esté


conformado por ítems de todos los niveles de dificultad, afín
de que se pueda discriminar a todos los sujetos.

Dificultad de los ítems Porcentajes en el test final


Muy fáciles 10%
Fáciles 20%
Normales - Dificultad media 40%
Difíciles 20%
Muy difíciles 10%
Índice de Dificultad
(sin corrección del azar)

› El ID es la proporción de sujetos que aciertan un


ítem:

$
› ID =
%
› Donde:
› A= Es el número de sujetos que aciertan un ítem
› N= Es el número de sujetos que intentan responder el ítem.
Índice de Dificultad
sin corrección del azar

› Ejemplo:

Barbero García et al

› De los 10 sujetos que han intentado responder el ítem con tres opciones de respuesta
lo aciertan 7

$ (
› !" = &' = = *, (
% )*


Índice de Dificultad
con corrección del azar

› Se penaliza las respuestas erróneas:

Barbero García et al

*
#
!"$%& )"
› ID’ = = +
= ,, ..
' &,
0 ,.*
› ID’ =p− = ,. ) − = ,, ..
$"& +
Recordando el índice de dificultad
› Un grupo de 370 individuos responden a un ítem de 3 alternativas
donde la opción correcta es la B. En la tabla vemos las diferentes
puntuaciones. Calcular el ID’

Barbero García et al
Recordando el índice de dificultad

› El mismo problema podemos resolverlo también


mediante la formula equivalente:

Estaríamos ante un ítem muy difícil .


Índice de Discriminación /Homogeneidad
Índice de discriminación: Tipos de correlación

› Dependiendo del tipo de variables podemos utilizar un tipo u


otro de correlación, aunque el más frecuentemente utilizado
es el de Pearson en la tabla vemos cual puede ser el más
adecuado.
Ítem Test

Nivel de medida Dicotómico Dicotomizado Continuo

• Dicotómico Correlación Ø Correlación Ø Biserial-puntual


• Dicotomizado Tetracórica Biserial

• Continuo Pearson
Índice de discriminación. D

› Capacidad para diferenciar a distintos sujetos con


diferentes capacidades o grados en la característica
que se mide.
› Tenemos dos formas:
› 1.- Mediante grupos extremos (27% superior y 27% inferior)

› 2.- Mediante coeficientes de correlación: IH, Pearson, Phi,


Biserial-puntual, Biserial …depende del tipo de variables.
Índice de discriminación. D
Basado en grupos extremos

› El Índice de discriminación D (grupos extremos): Se basa en la


proporción de aciertos entre los grupos extremos de aptitud.
Kelly (1939) aconseja tomar el 27% superior e inferior de la
muestra total con el fin de obtener un índice D estable y
sensible.

› El 27% superior está formado por los sujetos que puntúan


por encima del percentil 73 y el inferior por aquellos que
puntúan por debajo del percentil 27.
Índice de discriminación. D
Basado en grupos extremos

› Una vez obtenido el 27% de cada grupo se calcula la


proporción de respuestas correctas a un determinado ítem
en ambos grupos y aplicamos la siguiente ecuación.

› D= "# − "%
› Donde
› &' es la proporción de acierto en el grupo superior.

› &( es la proporción de aciertos en el grupo inferior.


Índice de discriminación. D
Basado en Grupos Extremos

› Ejemplo : Un grupo de 370 individuos responden a un ítem de 3


alternativas donde la opción correcta es la B. En la tabla vemos las
diferentes puntuaciones y el 27% del grupo superior y el 27% del
grupo inferior.
› Grupo Superior =100
› Grupo Inferior =100
"#
› Proporción S. = = 0,53
$%&"#&'(
$%
› Proporción I. = = 0,19
-"&$%&$-

› D= 01 − 03 D= 0,53 - 0,19 = 0,34


Índice de discriminación
Basado en correlaciones : Índice de Homogeneidad IH

› El IH nos informa sobre la coherencia de cada uno de los


ítems con el conjunto del test o el total de la prueba.

› Se trata de comprobar que cada ítem mide en cierto modo


una parte del rasgo del conjunto de la prueba, y para ello
calculamos la correlación que existe entre cada uno de los
ítems con los demás, o el conjunto de la prueba

› Hablar de IH o de D es lo mismo.
Índice de discriminación
Basado en correlaciones : Índice de Homogeneidad IH

%∗'()*'(∗') 1∗2*3∗4
!"# = +[%∗'(-*('() -][%∗')-*(')) -]=+(1∗41*3-)(1∗4*4-)
= 0,294

(Σ=)2 72
Σ= 2 − ? 15 − 5
;(2 = = = 1,3
? −1 4

4
X X .Y ;D2 = E ∗ F ; así p=1=0,2 ; q=1-p → q= 1-0,2=0,8 ;
$ $
!" # !

A 2 1 2 4 1
;D2 = E ∗ F = 0,2 ∗ 0,8 = 0,16
B 3 0 0 9 0
C 1 0 0 1 0 ;" = √1,3 = 1,14 ;

D 1 0 0 1 0 ;D =√0,16=0,4
E 0 0 0 0 0

% 7 1 2 15 1 TUV ∗WXYW ],2^_∗4,4_*],_
Z
RS = + = = −0,0594
[ -U\[ -Z *2TUV [ U[ Z √ 4,`\],4a*2∗],2^_∗4,4_∗],_
Índice de discriminación
Basado en correlación de Pearson descontando el ítem

Calcular D ítem 4
!"#$% &% X.Y !' &'

1 1 1 1 1
3 0 0 9 0
1 0 0 1 0
1 0 0 1 0 Este coeficiente va desde -1 a +1
0 0 0 0 0
∑= 6 1 1 12 1

% ∗ Σ() − Σ( ∗ Σ) "∗$%&∗$ %$
!"# =
+[% ∗ Σ(- − (Σ()- ][% ∗ Σ)- − (Σ))- ]
= * *
("∗$)%& )("∗$%$ )
=,,.,/
= −0102
'
Índice de discriminación
Basado en correlación de Biserial-puntual

Ejemplo 1: Se quiere saber cuál es el índice de discriminación de un ítem


dicotomizado. Del total de los examinados, solo el 40% supera
adecuadamente el ítem. La media de éstos en el test es de 70 puntos. El
test tiene una media de 50 puntos y una desviación típica de 25.


Índice de discriminación
Basado en correlación de Biserial-puntual
› Ejemplo2: En la siguiente tabla vemos las respuestas de 2 ítems, calcular
el coeficiente de correlación sabiendo que el ítem es una variable
dicotómica y la puntuación en el test continua. (Descontamos el ítem. X-1)

Sujeto. It.1 It.2 X X-1 (" − $)&

A 1 0 7 6 36

B 1 1 9 8 64

C 0 1 6 6 36

D 0 0 2 2 4

E 1 0 4 3 9

F 1 0 5 4 16

∑29 ∑165
Variabilidad y Discriminación
Variabilidad y discriminación

› La variabilidad del test y el índice de discriminación de los


ítems están relacionadas mediante la siguiente ecuación.

Siendo:
Sx= desviación típica del test
Sj= desviación típica del ítem
rjx= índice de discriminación del ítem j

Si no existiera variabilidad no habría discriminación pues todos los sujetos


contestarían lo mismo, así si la varianza !#" o desviación típica !" fuera cero
indicaría que todos los sujetos tendrían la misma puntuación.
Varianza e Índice de dificultad

› Así para que un ítem discrimine necesita variabilidad, es decir,


dispersión entre las personas que lo contestan.
› Si un ítem es dicotómico la varianza es el producto de sus
proporciones de quienes aciertan (p) y de quienes lo fallan (q).

$"% =p.q
!
› Cuando p = "
= 0,5 …su varianza es máxima cuando el ID=0,5
Discriminación e Índice de dificultad

1
0,9

Índice de discriminación
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Índice de dificultad
Varianza e Índice de dificultad
› Ejemplo: Con los datos de la tabla
de tres ítems, calcular las varianzas
y sus desviaciones típicas.
› Como se trata de ítems dicotómicos calculamos
para cada ítem:
– p= proporción de aciertos.
– q= proporción de fallos.

Sujetos Ítem A Ítem B Í1em C


A 0 0 1
B 1 1 1
C 1 0 0
D 1 1 1
E 1 1 1
Probab = 0,8 0,6 › 0,8
Análisis de Distractores
Análisis de distractores
› Los distractores son las respuestas incorrectas de un ítem.

› Lo que se pretende es controlar que los distractores sean
equiprobables, es decir que tengan las mismas opciones o
probabilidad de ser elegidos por aquellos sujetos que no conozcan
la respuesta correcta.

› Todas las respuestas han de resultar igual de atractivas.

› Éste análisis lo realizamos mediante la prueba del Chi-


Cuadrado
Análisis de distractores

($%&$'))
χ" =∑ $' ; con k-1 gl.; siendo k el número de categorías
incorrectas.

› Ejemplo1: (del libro) Un ítem con cuatro alternativas es contestado por 300
sujetos, siendo al alternativa D la correcta. De los 300, 198 fallan las
respuestas que se distribuyen de acuerdo con lo representado en la tabla.
A B C

85 40 73
Análisis de distractores
› Con un nivel de confianza del 95%, ¿podemos afirmar la independencia de
las respuestas en función de la alternativa?

› !" : Hay igualdad en las respuestas, es decir, son independientes .


Solución: La tabla nos presenta las respuestas observadas. Las esperadas
en cada opción es la media de los fallos, así que:
Rechazamos !" en
el sentido de que NO
son independientes
Análisis de distractores
› Ejemplo2: Sospechamos que las alternativas incorrectas de un ítem de un
examen no son equiprobables, es decir, no son igual de atractivas. En la tabla
vemos la frecuencia de respuesta de los sujetos siendo la B la correcta.
Necesitamos saber si las alternativas incorrectas son igual de atractivas.
A B C
37 200 51

FE= (37+51)/2=44;
!" = [(37-44)2 + (51-44)2]/44 = 2,223
!" Teórico para k-1 gl (2-1=1) y un α 0.05= 3,841
Como !" empírico < !" teórico aceptamos $% en el sentido de que
las alternativas incorrectas son igualmente atractivas .
Error típico de medida
Error típico de medida
› Precisión, fiabilidad absoluta y error de medida.

› La fiabilidad absoluta de un instrumento está determinada por el error


típico de medida.

› Si fuéramos capaces de pasar un test de forma infinita a un sujeto


obtendríamos infinitas puntuaciones empíricas que se distribuyen según una
curva normal, su media sería la puntuación verdadera. PV =  (PE). En este
caso el error sería = 0

› Si se calcula la Desviación Típica de esta distribución obtenemos el Error


Típico de Medida. (ETM)
Aplicaciones del Error Típico de Medida

› 1.- Determinar los límites “Intervalos de Confianza” entre


los que esperamos que se encuentren las P.V. de los sujetos.

› 2.- Comparar las puntuaciones de varios sujetos en el mismo


instrumento, o del mismo sujeto en diferentes instrumentos
de medición.
› Vemos ejemplos:
Determinación de los limites entre los que esperamos se
encuentren las puntuaciones verdaderas de los sujetos

› Hemos aplicado una prueba a un grupo y obtenemos los siguientes


resultados. =30; !" =8; #"" =0,82 y un sujeto obtiene un puntuación de 28.
Determinar los limites entre los que esperamos que se encuentre la
puntuación verdadera con un nivel del confianza del 95%.

La puntuación verdadera del sujeto se


encuentra entre los limites calculados.

Cómo calcular Puntuación Z


Cálculo de Z⍺/2
Comparación de las puntuaciones de varios sujetos en el mismo
instrumento, o del mismo sujeto en distintos instrumentos

En este tipo de comparación se establece una proporción entre las diferentes


puntuaciones y el error de medida. Al resultado le llamamos RC (razón crítica).

Datos: Sujeto A:34 puntos, Sujeto B:32 ; Sx= 8 ; !""= 0,82; nivel de confianza
95%, α=0,05. Calcular si existen o no diferencias significativas entre las puntuaciones de
los individuos. Solución
Ecuaciones

Interpretación: Como la ´RC 0,41 está por debajo de


Z α/2=1,96 la diferencia de puntuaciones se debe a
causas aleatorias, no existen diferencias significativas.
Fiabilidad
Fiabilidad
› Fiabilidad equivale a exactitud.
› Un instrumento es fiable si está libre de error. Cuando
realizamos mediciones se pueden cometer dos tipos de error
› 1.- Aleatorio (depende del azar)
› 2.- Sistemático (depende del instrumento de medición)

› Hay dos tipos de fiabilidad:


› 1.- Absoluta: Se refiere al error cometido con el instrumento de medida.
› 2.- Relativa:
– Como Estabilidad,
– Como Equivalencia.
– Como Consistencia Interna
– La medimos mediante el cálculo de coeficientes de correlación
Fiabilidad

› El coeficiente de fiabilidad es la probabilidad de fallo de un


instrumento, o también, el grado de exactitud con que es capaz
de medir… es la correlación ( !"" ) entre los resultados que nos
proporcionan dos pruebas paralelas de un test. ( # ) y (#´ )

› De los supuestos anteriores podemos deducir la ecuación


para la cuantificación del coeficiente de fiabilidad de un test
con formas paralelas.
Estimación del coeficiente de fiabilidad
Estimación del coeficiente de fiabilidad

› Estimaciones empíricas del coeficiente de fiabilidad:

– 1.- Fiabilidad como Equivalencia. Formas paralelas


– 2.- Fiabilidad como Estabilidad. Test-retest
– 3.- Fiabilidad como Consistencia Interna. Covariación entre los ítems.
Fiabilidad como: Equivalencia (Formas paralelas)
Estabilidad (Test-retest)

› Formas Paralelas: Dos instrumentos son equivalentes cuando


miden lo mismo. Los dos test se pasan a una misma muestra
representativa de la población a la que va dirigido.

› Test-retest: Un mismo test se pasa en dos momento diferentes.

› MÉTODOS

› F. Como Equivalencia, formas paralelas : Pearson y Kappa


› F. como Estabilidad, test-retest: Pearson
Coeficiente de fiabilidad formas paralelas (equivalencia)
y test-retest (estabilidad)
› Ejemplo1: Hemos pasado dos test paralelos de 20 ítems a 10 sujetos,
calcular el coeficiente de fiabilidad. En la tabla adjunta tenemos los datos.
› La estructura de presentación de los datos en la tabla sería la misma.
Coeficiente de fiabilidad como Consistencia Interna
procedimiento de las dos mitades
› Partimos de la base que un instrumento tiene como objetivo medir un
rasgo o característica concreta a través del conjunto de sus ítems, si lo
dividimos en dos mitades (pares-impares) podemos pensar que miden el
mismo rasgo o parte del mismo. Es la coherencia interna.

Calculamos Pearson y
corregimos mediante
Spearman-Braun
Coeficiente de Fiabilidad, Coeficiente de Kappa de Cohen K
(Metodología Observacional)

› Este Coeficiente (K) es uno de los más utilizados cuando se pretende


estimar el nivel de acuerdo, fiabilidad entre observadores o jueces. Se
puede utilizar cuando se clasifica a los sujetos en dos más categorías.

#$%&'
!=
( −#*
Fc=frecuencia observada clasificaciones coincidentes Pc= Proporción de clasificaciones coincidentes en ambas
formas
Fa=frecuencias coincidentes esperadas por azar
Pa= Proporción de clasificaciones conincidentes esperadas.
N =número total de personas de la muestra
Ejemplo 1 Coeficiente Kappa
en función de frecuencias absolutas
OBSERVADOR 2
C1 C2 C3 C4 ni

C1 3 0 1 0 4

OBSERVADOR 1
C2 1 2 0 0 3

C3 0 0 2 0 2

C4 0 0 0 1 1

nj 4 2 3 1 10
Resultados ordenados para su análisis

› Fc=3+2+2+1= 8 (clasificaciones coincidentes observadas)


!∗!#$∗%#%∗$#&∗&
› Fa= = 2,9 (coincidencias esperadas por azar (con las marginales)
&'

()*,,
› K= = 0,718
-.)*,,
Ejemplo2 : Coeficiente Kappa
en función de la proporción de las clasificaciones
OBSERVADOR 2

C1 C2 C3 C4 ni

C1 3 0 1 0 4

OBSERVADOR 1
C2 1 2 0 0 3

C3 0 0 2 0 2

C4 0 0 0 1 1

nj 4 2 3 1 10
Resultados ordenados para su análisis

!"#"#"$ &∗&"!∗#"#∗!"$∗$
› Pc= = 0,8 Pa= = 0,29
$% $%#

%,)%*%,#+
› K= =0,718
$*%,#+
Coeficiente de fiabilidad como Estabilidad
Fiabilidad como Estabilidad
Test- - Retest

› La estabilidad se refieres a que cuando se evalúa un rasgo


en distintas ocasiones, siempre y cuando las condiciones
sean parecidas y el rasgo no haya cambiado, se obtengan
unos resultados similares.

› Es semejante a las formas paralelas. Por tanto se calcula


mediante el Coeficiente de Correlación de Pearson en la
forma que ya hemos visto.
Coeficiente de fiabilidad como Consistencia Interna
Coeficiente de fiabilidad como Consistencia Interna

› En un instrumento que mide un determinado rasgo hemos de


pensar que cada ítem mide una parte del mismo y que por
tanto tiene que haber una coherencia entre ellos

› El índice de fiabilidad (IF) de un ítem viene dado por el índice


de discriminación y la desviación típica de forma que:
› IF= Si*Di
Coeficiente de fiabilidad como Consistencia Interna

Calcular el IF de los ítems:


7, 9, 11.

Item7 =0.570*0,5036 = 0.287


Ítem9 =0,399*0,3452= 0,137
Ítem11=0,092*0,4911= 0,045
Coeficiente de fiabilidad como Consistencia Interna

› El estadístico más utilizado para el cálculo del coeficiente de


fiabilidad como consistencia interna de un test completo es
el Alfa de Cronbach

– Siendo:
– n=número de ítems
– ∑ !" j=Sumatorio de las varianzas de los ítems

– !" X = Varianza del test


Coeficiente de fiabilidad como Consistencia Interna

Ejemplo de cálculo del α de Cronbach:

Varianzas

El Alfa de Cronbach es un coeficiente que se mueve entre


0 y 1 y se considera que una buena consistencia interna es
a partir de 0,7- 0,8. En nuestro caso un coeficiente tan bajo
se debe a lo escaso de la muestra . Lo laborioso de su
calculo en un test exige el empleo de paquetes informáticos
Factores que afectan a la fiabilidad:

La Longitud del test


La variabilidad del test
Factores que afectan a la fiabilidad
La fiabilidad de un test se ve afectada tanto:
– Por la longitud como por la variabilidad de la muestra.
– En el caso de la longitud adaptamos la formula de
Spearman-Brown que nos permite estimar cual será el

coeficiente de fiabilidad ( !"" ) de un test que se forma con


“n” veces un test inicial que tiene un determinado
coeficiente de fiabilidad (#$$ )
Fiabilidad y longitud
Fiabilidad y longitud

– Ejemplo: Un grupo obtiene en una prueba de 25 ítems un !"" = 0,60. Si


añadimos 75 ítems al test inicial, ¿Cual sería su fiabilidad final (("" ) ?
– Solución:

– Primero calculamos n que es las veces que se alarga el test. El test


final tendría 100 ítems por tanto: n=100/25=4
Fiabilidad y longitud
› Podemos plantearnos también, cuantas veces se debe alargar un test
para obtener un determinado coeficiente de fiabilidad.
› Ejemplo: Supongamos que un test inicial de 25 ítems tiene un !"" de 0,6
y nos interesa que tenga un coeficiente nuevo ()) de 0,86 ¿Cuántos
ítems hemos de añadir?.

› Luego si multiplicamos por 4 la longitud inicial, el test ha de tener


25*4=100 ítems, así que hay que añadir 75. (100-25=75)
Fiabilidad y variabilidad
Fiabilidad y variabilidad

› La variabilidad de una muestra también aumenta la fiabilidad


de un test.
› Si conocemos la fiabilidad de una población también podemos
calcular la fiabilidad de otra población, aplicando la ecuación
Fiabilidad y variabilidad

› Ejemplo: Un pedagogo pasa un determinado test a un grupo de sujetos y


obtiene un desviación típica de 2 y un coeficiente de correlación de 0,80.
¿Cuál sería el coeficiente de fiabilidad en otro grupo que hubiera obtenido
una varianza doble?

› Solución: Como nos da la desviación típica calculamos la varianza. 2" = 4


y su doble = 8.

#
ᑭxx= 1-[ (1-0,80) ]= 0,9
$
Validez
Validez

› Decimos que un instrumento es válido “si mide aquello que dice


medir”
› Tipos de validez:
– De contenido. En tanto en cuanto los ítems representan el constructo
– Predictiva. Capacidad para inferir el constructo que se investiga. El índice
de validez del ítem (o del test) viene dado por la correlación entre el ítem

(o el test) y el criterio: IV= !"# (siendo ” j“ el ítem e “y” el criterio)


– Concurrente. Se deriva de la predictiva y se diferencia de ella en que la
información es recogida de manera simultánea. (test y criterio)
Validez
› El índice o coeficiente de validez lo calculamos mediante la
Correlación de Pearson sin corrección.
› Por ejemplo: (examen reserva septiembre 2014/15)

Ítems
Criterio X Y X2 Y2 X*Y
Suj.
i1 i2 i3 i4 Y

2 4 4 16 8
A 1 0 0 1 4

B 1 1 1 0 2 3 2 9 4 6

C 0 0 1 0 4 1 4 1 16 4

D 1 0 0 0 1 1 1 1 1 1

Σ 7 11 15 37 19
Validez y longitud
Validez y longitud
› Además de la fiabilidad, también la validez se ve afectada por la longitud
de la prueba, se relacionan a través de la siguiente ecuación.

%"# √' -.
› !"#$ n=
() '*( %"" -/

› Donde:
› 012 = 34 56789 :97;<:<75=7 >7 8?4<>7@
› A12 = El coeficiente de validez primitivo
› A11 = El coeficiente de fiabilidad
› n= el número de veces que se aumenta o disminuye el test.
Validez y longitud

› Ejemplo: El coeficiente de fiabilidad de un test de 25 ítems es de 0,60


aplicado a un grupo con una varianza de 20, Si añadimos 7 ítems
paralelos a los que tiene el test ¿Cuál sería el nuevo coeficiente de
validez?
$,&$√(,)*
!"# = =0,628
(+ (,)*,( $,&$

-)
).
= 1,28
Validez y longitud

› Cual será la longitud de un test de 25 ítems cuyo coeficiente de


fiabilidad es de 0,60 si queremos que alcance un índice de validez de
0,628.

!"#$$ !"(,*(
› n= sustituyendo n= = 1,278
#%
$$ "# (,*%
"(,*
&$' $$ (,*%+%

› El test aumenta 1,28 veces 25 x 1,28=32 Ítems


Dimensionalidad
Dimensionalidad

› El objetivo de los test es medir variables, éstas variables


pueden estar representadas por una o varias dimensiones, y
uno de los objetivos en su construcción es la
unidimensionalidad.

› Para medir la unidimensionalidad hay que realizar un análisis


factorial para conocer en que factores o grupos se
concentran los ítems.
Teoría de Respuesta al Ítem – TRI -
Teoría de Respuesta al Ítem – TRI -

› La TRI es un modelo más complejo que la TCT., y permite


obtener información precisa de las variables medidas y de sus
propiedades psicométricas.

› Tanto en la TCT como en la TRI el objetivo es cuantificar el


error que cometemos a la hora de medir las variables
psicológicas o pedagógicas siguiendo sus modelos
matemáticos.
Teoría de Respuesta al Ítem – TRI -

› Hay tres diferencia entre la TCT y la TRI:

› 1.- La unidad de análisis; en la TCT es el test y en la TRI el ítem.

› 2- La TRI incorpora a sus modelos las características psicométricas


de los ítems (discriminación, dificultad y azar) además del nivel de
habilidad del sujeto Ø (Theta)

› 3.- Los supuestos sobre los que descansa el modelo son la


unidimensionalidad (rasgo latente Ø), y la independencia local.
Teoría de Respuesta al Ítem – TRI -

› Unidimensionalidad: La prueba mide únicamente una

característica o rasgo latente (Ø) que es el valor que un


sujeto alcanza en una variable . No permite obtener la
probabilidad de respuesta a un ítem.

› Independencia local: La respuesta a un ítem no influye


sobre las respuesta a otro ítem.
Modelos de la TRI
› A) El resultado de un individuo en un ítem se puede explicar
por el rasgo latente o aptitud (Ø)

› B) La relación entre respuesta y rasgo se explica por la CCI. A


medida que aumenta la habilidad del sujeto aumenta la
probabilidad de respuesta al ítem. (función monótona creciente)
representada por la CCI.

› C) Las estimaciones de la aptitud (Ø) son iguales con ítems


diferentes; y la estimación de los parámetros son iguales con
diferentes muestras de sujetos
Modelos de la TRI
› ML1p

› ML2p

› ML3p

P(Ø) = Probabilidad de acertar el ítem. e = número e; D= constante 1,7; b= I. Dificultad;


a=I Discriminación; c= pseudoazar
ML1p. Modelo de Rasch:

› Suponiendo un rasgo (Ø) de 2,5 ¿Cuál es la probabilidad de que un sujeto


acierte un ítem con un índice de dificultad (b)=0,5 y una constante D=1,7

! ",$(&,'(),')
› P(2,5)= = 0,967
+,! ",$(&,'(),')
ML2p:

› Suponiendo un rasgo (Ø) de 1,5 ¿Cuál es la probabilidad de que un sujeto


acierte un ítem con un índice de dificultad (b) =0,75, un índice de
discriminación a= 0,75 y una constante D=1,7

! ",$∗&,$'(",')&,$')
› P(1,5)= ",$∗&,$'(",')&,$') =0,72
+,!
ML3p.

› Suponiendo un rasgo (Ø) de 1 ¿Cuál es la probabilidad de que un sujeto


acierte un ítem con un índice de dificultad (b) =0,60; un índice de
discriminación a=0,75; índice de pseudoazar de 0,25 y una constante D=1,7

! ",$∗&,$'(")&,*&)
› P(1)=0,25+(1-0,25) = 0,72
,-! ",$∗&,$'(")&,*&)
CCI (ML3p)
(Curva Característica del Ítem)

› Ejemplo: Construir la CCI en el intervalo (-3, +3), con los siguientes parámetros:
› a= 1,25; b=0 y c=0,2; D=1,7. Interpretar sus resultados.
› 1.- Calculamos para cada nivel de Ø (-3, -2, -1, 0, 1, 2, 3) su P(Ø)

P(-3)= 0,201
Conforme aumenta la habilidad aumenta
P(-2)= 0,211 la p de acertar el ítem.

P(-1)= 0,285 Los sujetos de baja habilidad (-2) su


acierto es por azar.
P(0)= 0,600
P(1)= 0,915 Los de alta habilidad (+2) todos aciertan

P(2)= 0,989 La tasa de cambio en la CCI es alta


para valores de -2 a +2; lo determina
P(3)= 0,999 el parámetro de discriminación que es
proporcional a la pendiente
Interpretación de la CCI

› 1.- El desplazamiento de la curva a la derecha o izquierda indica la mayor o menor dificultad de un ítem.
› 2.- La mayor o menor pendiente de la curva indica mayor o menor capacidad de discriminación
Interpretación de la CCI

› En la figura de la izquierda ¿qué ítem es más fácil ?


› En la figura de la derecha ¿qué ítem discrimina menos?
Residuos Estandarizados (RE)
Calibración del modelo
› Un RE es la diferencia entre las respuestas dadas y las
observadas que podemos ver en una tabla de contingencia.

› El calculo no deja de ser largo y complejo, por eso se


requiere de programas informáticos, tipo SPSS, R, Bilog-MG3,
Logist...

› En la bibliografía básica tenemos un ejemplo (pág. 80)


Calcular RE y calibrar el modelo
› Establecemos como criterio que ningún RE supere el
valor absoluto de Z=1,96 y calculamos para cada
nivel de habilidad su P(Ø) y según los parámetros a=0,5;
b=0,6, c=0,1 y D=1,7

› P(-2,5)=0,1602; P(-1,5)=0,2293; P(-0,5)=-0,3537; P(0,5)=0,5308;


P(1,5)=0,7141; P(2,5)=0.8506

› Calculamos el RE de cada una de las P.


› Q=1-P = 1-0,1602=0,84

!,#$!%&!,'
› RE= =-1,205 (y así con cada uno de ellos…y
!,#$!%%($∗!,*+/#!
como el RE no supera 1,96, se ajusta al ML3p)
Calculo de RE con R
comparación con el procedimiento manual anterior
Función de Información del Ítem
Función de Información del Ítem
Qué cantidad de información aporta un ítem

› La FII cuantifica la precisión con que un ítem contribuye a


estimar del conjunto de ellos la habilidad (Ø) o rasgo latente
de un sujeto.

ML1p ML2p

ML3p
Función de Información del Ítem
Qué cantidad de información aporta un ítem

=0,65

#,%& ∗(,%& ∗(,)* [(,,*-(,)]&


Q=1-P(Ø)=1-0,65=0,35 I(Ø) =0,191
(,,*∗ (#-(,))&
Función de Información Máxima del Ítem (IM)
Cálculo de la habilidad (Ø) que maximiza la
información
› En los Ml1p y ML2p la información
máxima de un ítem se produce
cuando el índice de dificultad de
un ítem coincide con la nivel de
habilidad del sujeto ( Ø ), sin
embargo en el ML3p ha de
calcularse mediante las siguientes
ecuaciones.
Función de Información del Test
› Viene dada por: IT(Ø) = ∑%"#$ &" (Ø)
› Siendo el resultado de la suma de la información de todos
los ítems que lo componen.. La FIT es importante para la
construcción de los test y selección de los ítems …
Aplicaciones de la TRI ¿Para qué sirve?

› Construcción de un banco de ítems calibrados


› Conocer las puntuaciones verdaderas de los sujetos
› Seleccionar ítems para la construcción de test en
función de nuestras necesidades
› Funcionamiento diferencial de los items entre sujetos
Aplicaciones de la TRI ¿Para qué sirve?

También podría gustarte