Tema 8

TEMA 8: ANLISIS DE LA CALIDAD MTRICA DE LOS TEMS
2. PROPIEDADES PSICOMTRICAS DE LOS TEMS

3. PARMETROS DE LOS TEMS
3.1. DIFICULTAD DEL TEM
3.1.1 Correccin de la dificultad en tems de eleccin mltiple
3.2. DISCIMINACIN DEL TEM
3.2.1. El ndice de discriminacin D
3.2.2. Los coeficientes de discriminacin
a) Correlacin biserial Puntual
b) Correlacin biserial
c) Coeficiente phi
3.2.3.
Discriminacin de los tems en diseos pre post test

a) ndice de discriminacin D
b) Mtodo Brennan
c) Procedimiento Saupe
3.2.4.
Poder discriminativo de los tems en las escalas de actitudes
3.3. FIABILIDAD Y VALIDEZ DE TEM

3.4. COMPARACIN DE LAS RESPUESTAS A LOS TEMS
4. ANLISIS DE DISTACTORES
5. EL FUNCIONAMIENTO DIFERENCIAL DEL TEM
5.1. IMPACTO Y FUNCIONAMIENTO DIFERENCIAL DEL TEM
5.2. EL PROCEDIMIENTO DE MANTEL-HAENSZEL
2. PROPIEDADES PSICOMTRICAS DE LOS TEMS
La calidad mtrica de los tems se puede evaluar con el anlisis de las RR de los sujetos a 2
elem. del tem:
a) Alternativa correcta: ofrecen ms inf. sobre la calidad y su relacin con el tem. Se
estudia:
1. Dificultad del tem: se establece a priori y est en funcin de contenido. Inf. los
que deben ser eliminados
2. Discriminacin del tem: diferencia a los sujetos de distintos niveles de 1 VD
3. La fiabilidad y validez del tem
b) Alternativa incorrecta: anlisis de distractores
3. PARMETROS DE LOS TEMS

3.1. DIFICULTAD DEL TEM
Estadstico p:
a) Es el ms utilizado y segn el cual la dificultad del tem viene dada por la proporcin
de sujetos que contestan correctamente al tem
A = n de sujetos que responden correctamente
B = n de sujetos que responden al tem
A
P=
N
b) Normalmente se multiplica por 100 para su interpretacin

c) Oscila entre p = 0 (tem muy difcil) y p = 1 (tem muy fcil). Los tems de estos
extremos deben descartarse
d) Si se calcula en tems dicotmicos, el valor de p coincide con la puntuacin media de
los sujetos en el tem
e) Permite la comparacin de tems que miden diferentes dominios o constructos y son
aplicados a los mismos sujetos (depende de la muestra utilizada)
f) Un mismo tem puede dar 1 valor diferente en p, dependiendo del nivel medio de la
muestra, por lo que depende tanto de la muestra como de las caract. del tem
g) Si 1 cjto. de tems difciles se contestan mayoritariamente correctamente o al
contrario, debe plantearse si tienen valor significativo o evalan bien el contenido
3.1.1. Correccin de la dificultad en tems de eleccin mltiple
En tems de eleccin mltiple o V-F, se debe hacer 1 correccin que controle el azar en el
clculo de la dificultad del tem
E
E
A
A
pc = p p azar =
k1
k-1
=
Pc = dificultad del tem corregida

P = dificultad del tem sin corregir
Pazar = proporcin de RR correctas al azar
E = n de R incorrectas
K = n de alternativas del tem
La diferencia es mayor entre p y pc en los tems ms difciles
La dificultad de los tems afecta a la variabilidad de las puntuaciones en el test y en la
precisin con la que las puntuaciones discrimina entre diferentes grupos de sujetos
Influencia de p sobre la variabilidad de las puntuaciones en el test. Formalmente:
n
i<j
i<j
Sx = Si + 2 cov ( i,j) = pi qi + 2 cov (i,j)
Sx = varianza de las puntuaciones del test

Si = varianza del tem i (i = 1., n)
cov (i,j) = covarianza entre el tem i y el tem j
La media de las puntuaciones de un test tambin est relacionada con la dificultad:

__ n
X = pi
I= 1
Pi = dificultad del tem i
n = n de tems
3.2. DISCRIMINACIN DEL TEM
3.2.1.
Es la capacidad de 1 tem para diferenciar a los sujetos de baja, media y a la puntuacin en

1 criterio
a) Criterio es interno: si el test o tem miden el mismo constructo, se espera que los
sujetos con puntuacin alta en el tem tambin lo hagan en el test (ndice de
homogeneidad)
b) Criterio externo: es 1 medida del g de validez del tem ref. a ese criterio y su valor
es proporcional al ndice de validez del tem
El ndice de discriminacin D
Se basa en la inf. que da la comparacin del rendimiento de los grupos extremos (alto y
bajo) en las puntuaciones el test
Para el clculo se forman los grupos extremos (27 % de sujetos con alta y baja puntuacin
del test) y se calcula el n de RR correctas
Aalto Abajo
D=
Ng
Aalto , Abajo = n de sujetos que responden correctamente en los grupos alto y bajo
Ng = n de sujetos correspondientes al 27 % de la muestra
l ndice dar valores altos (poder discriminatorio del tem) cuando los sujetos del grupo alto
obtengan ms RR correctas que los del bajo
D = 0 se obtendr si Aalto y Abajo estuviesen prximas entre s, reflejando que el tem no
discrimina entre los sujetos de diferente nivel de aptitud
1 ndice de discriminacin negativo se da en tems que cubren contenidos complejos en test
de opcin mltiple
Tabla de valores D y su interpretacin:
ndice de Discriminacin
D 0,40
Interpretacin
El tem presenta gran discriminacin
0,30 D < 0,39

0.20 D < 0,29
0,30 < D 0,19
La discriminacin del tem es aceptable

El tem discrimina poco y necesita revisin
tems no adecuados que deben modificarse o
eliminarse del test
tems que deben eliminarse directamente
D 0,0
3.2.2.
Los coeficientes de discriminacin

G de discriminacin medido a travs del coeficiente de correlacin
Requiere considerar a todos los sujetos de la muestra (no slo el 27%)
a) Correlacin Biserial Puntual:

1. Correlacin entre el tem y 1 variable criterio (VD) cuantitativa continua
2. La puntuacin al test es 1 variable dicotmica con valores (0,1)
3. Pueden oscilar entre 1 y + 1
__ __
(Xc X)
rbp =
Xc = media de las puntuaciones del criterio por los sujetos que han
Sx
__ respondido correctamente
X = media de las puntuaciones en el criterio calculado con todos los sujetos de la muestra
Sx = desviacin tpica de las puntuaciones en el criterio con todos los sujetos
P = dificultad del test
q=1p
4.
p
q
Si se quiere estudiar el g de homogeneidad del tem (criterio interno) en relacin

con el resto de tems y segn la aplicacin de la rbp presenta 1 problema : la
puntuacin se ha calculado considerando al tem bajo estudio, lo que conlleva
dependencia a priori y 1 relacin esprea. Se subsana calculando la puntuacin total
sin el tem. Tambin se puede calcular la correlacin sin descontar l tem:
rbp(c) = correlacin entre el tem y el test tras descontar tem

rbp = correlacin entre el tem y el test con el tem incluido
Sx = desviacin tpica del test
Si = desviacin tpica del tem i
rbpSx - Si
rbp(c) =
Si + Sx - 2rbp Si Sx
5. Cuanto mayor es el n de tems menor g de correccin

6. Su pral. ventaja es que refleja la contribucin del tem al funcionamiento del test
b) Correlacin biserial:
1. Se aplica es 1 variable continua normalmente y que se ha dicotomizado
2. Es 1 correlacin producto momento entre 1 variable continua dicotomizada y 1
medida de criterio int./ext. continuo
__ __
(Xc X )
Rb =
Sx
y
4
__
Xc = media de puntuacin obtenidas en el criterio por los sujetos que han respondido
__ correctamente
X = media de las puntuaciones en el criterio calculado con todos los sujetos de la muestra
Sx = desviacin tpica de las puntuaciones en el criterio con todos los sujetos
p = dificultad del tem
y = valor de la ordenada que le corresponde a la puntuacin tpica en la curva normal que deja
debajo 1 rea igual a p
3. La relacin entre la correlacin biserial y la biserial puntual, matemticamente:
rbp = rb
y
____
pq
____
4. Como el valor de la ordenada y en al curva normal es menor que pq el valor

de la correlacin biserial es mayor que la puntual
5. Est menos influenciada por la dificultad del tem y no vara entre aplicaciones
c)
Coeficiente phi:
1. Calcula la relacin entre la ejecucin en 1 tem y 1 criterio ext. que es 1 variable
dicotmica (criterio y test son dicotmicos)
2. Para el calculo se ordenan los datos en 1 tabla de contingencia 2x2:
CRITERIO
Apto
No
apto
ITEM
Apt No
o
apto
a
b
c
a +c
b +d
a+
b
c+d
3. Su clculo es:
bc ad
(a + b) (a +c) (c +d) (b +
3.2.3.
d)
Discriminacin de los tems en diseos pre post test
a) ndice de discriminacin D: Diferencia entre la proporcin de sujetos que contestan 1

deter. tem correctamente antes y despus de su instruccin
5
D = P post - Ppre
b) Mtodo Brennan:
1. Considera las puntuaciones de ambos grupos, 1 con instruccin
2. Sus valores oscilan entre 1 y + 1
U = n de sujetos por encima del punto de corte que aciertan el tem
L = n de sujetos por debajo del punto de corte que aciertan el tem
n1 = n de sujetos que puntan por encima del punto de corte
n2 = n de sujetos que puntan por debajo del punto de corte
U
B=
n1
n2
c) Procedimiento de Saupe:
1. Deter. que tems discriminan mejor entre grupos que han recibido instruccin de los
que no
2. Cada tem se administra pre y pos test
3. La puntuacin final de 1 sujeto para 1 deter. tem: di = yi xi
4. La puntuacin final de 1 sujeto en 1 test: D = Y X
5. Para calcular la contribucin de 1 tem al cambio en la puntuacin total:
rxx + ryy + rxy + ryx

rdD =
2 1 - rxy
- 2
1 - rxy
6. Se seleccionan los tems que presentan 1 valor rdD alto y se rechazan los bajos
3.2.4.
Poder discriminativo de los tems en las escalas de actitudes

Hay varios procedimientos para averiguar el poder discriminativo de los tems
1. Correlaciones entre las puntuaciones de los sujetos en cada elem. y las de la
escala total.
a) El ms adecuado es la correlacin momento producto de Pearson
NJX - JX
Rjx =
[ NJ (J)] [ X (X)]
N = n de sujetos de la muestra
J = suma de las puntuaciones de los sujetos en el elem. J
X = suma de las puntuaciones de los sujetos en la escala total
Rjx = correlacin entre las puntuaciones de los sujetos en el elem. J y en la escala total
b) Es necesaria 1 correccin ya que en la puntuacin total (X) est incluida la
puntuacin en el elem. J y lo que se pretende es la correlacin entre el elem. J y el
resto de los elem. Por lo que se aplica esta frmula al resultado anterior:
RJxSx - SJ
RJ(x J) =
Sx + Sj - 2RJx SxSJ
2. En otro procedimiento se eligen grupos extremos de actitud a partir de las
puntuaciones de los sujetos en la escala total
a) Se ordenan las puntuaciones de mayor a menor y se separan el 25 -27% de sujetos
con puntuacin total ms alta ( de 25%) y el 25-27% de puntuacin ms baja
( de 25%)
b) En la escala final slo se mantienen los elem. que discriminen bien entre los 2
grupos
c) T de Student se puede utilizar para saber si 1 elem. es discriminativo:
__ __
Xsj X ij
T=
(ns 1)Ssj + (ni 1)Sij
ns + ni 2
1
ns
1
ni
__
Xsj = media de las puntuaciones en el elem. J por los sujetos que, en la escala total, obtuvieron
__ puntuaciones ms altas ( de 25%)
Xij = media de ls puntuaciones en el elem. J por los sujetos que, en la escala total, obtuvieron
puntuaciones ms bajas ( de 25%)
Ssj = varianza de las puntuaciones en el elem. J por los del grupo sup.
Sij = varianza de las puntuaciones en el elem. J por los del grupo inf.
ns y ni = respectivamente el n de sujetos de los grupos sup. e inf.
d) U de Mann Whitney: Si se sospecha que no se cumplen condiciones de
normalidad y/o igualdad entre las poblaciones de las que proceden las muestras de
sujetos se utiliza esta prueba no paramtrica, donde se puede averiguar si las
puntuaciones de ambas muestras en el elem. son estadsticamente distintas. Los
datos deben transformarse en ordinales. Forma de proceder:
1. Ordenacin cjta. de sujetos de los grupos inf. y sup., asignando 1 a la
puntuacin ms baja
2. Si 2 o ms datos tienen igual valor se halla la media de los rdenes que le
corresponderan y se les asigna el valor resultante
3. Se suman por separado los rdenes de cada grupo y se halla la U a cada 1
aplicando la siguiente frmula:
ns (ns + 1)
Us = nsni +
__ Rs
2
ni (ni + 1)
Ui = nsni +
7
Ri
Rs y Ri = sumas de los rdenes de los grupos sup. e inf. respectivamente

4. Para comprobar si hay diferencias significativas se acude a las tablas U de
Mann Whitney y se averigua, a 1 deter. nivel de significacin, cul es el
valor crtico. Si el valor ms peq. de las U obtenido es mayor que el de las
tablas, la diferencia es significativa
e) Chi - cuadrado: separados ambos grupos se ordenan las puntuaciones desde
la menor a la mayor y se halla la mediana cjta. y se forma 1 tabla de
contingencia de 2x2 y se aplica la frmula:
+ Mediana - Mediana
Grupo superior a
b
Grupo inferior c
d
a = n de sujetos del g. sup. con puntuaciones en el elem. J sup. a la Md cjta.
b = n de sujetos del g. sup. con puntuaciones en el elem. J inf. a la Md cjta.
c = n de sujetos del g. inf. con puntuaciones en el elem. J sup. a la Md. cjta
d = n de sujetos del g. inf. con puntuaciones en el elem. J inf. a la Md. cjta
N [ | ad cb | N/2 ]
X =
(a + b) (c + d) (a + c) (b + d)
* ver el ejemplo del libro (pg. 445-450).

De acuerdo con Likert, consideramos que el 1 procedimiento es ms adecuado ya que
utiliza la inf. de todos los datos y en el 2 utiliza i inf. parcial
3.3. FIABILIDAD Y VALIDEZ DE LOS TEMS
Son funcin de la S del tem y de su correlacin con el criterio:

a) Criterio interno
- ndice de Fiabilidad del tem (IF): es 1 medida de la precisin con la que mide
el constructo (ej. puntuacin en el test)
IF =
Si = desviacin tpica del tem i
Rix = correlacin del tem i con la puntuacin en el test o ndice de homogeneidad. Se puede
calcular con la correlacin biserial y la puntual
-
ndice de la fiabilidad del test:

k
Si
n
=
i=1
n -1
k
n
=
n =1
Si
1
i=1
Sirix
IFi
i=1
i=1
b)
Criterio externo:
- ndice de Validez del tem (IV): su clculo es:
IV =
riy = correlacin entre el tem y el criterio ext. Y. Si es 1 variable continua se utilizar la biserial o
la puntual si hay 1 habilidad latente distribuida normalmente en la ejecucin del tem. Si es
dicotmica se emplea la
-
Coeficiente de validez de 1 test:

n
Sirbp(y,i)
IVi
i=1
i=1
rxy =
=
Sirbp(x,i)
IFi
3.4. COMPARACIN DE LAS RESPUESTA A LOS TEMS
Estudiar la similitud de las RR dadas por 1 grupo, a 2 tems que presentan caract.
similares , para por ejemplo desarrollar 1 test desde 1 banco de tems
a) Para estudiar si 2 tems miden lo mismo (g de homogeneidad):
ITEM 1
n (ad cb)
ITEM 2 ACIERTO
ERROR
ACIERTO
a
b
X =
ERROR
c (a + b) (c +d)
d (b + d) (a + d)
n = n de sujetos de la muestra
a,b,c,d, = frecuencia de cada casilla
- Para interpretar los resultados se acude a las tablas
b) Para analizar el g o intensidad de dicha homogeneidad
(a +
a y d = frecuencia de sujetos que aciertan dichos tems
b)
n = n de sujetos de la muestra
p=
c) Para saber si el g de dificultad en los 2 tems es igual (si las diferencias
encontradas son peq. debidas a errores de muestreo o son estadsticamente
significativas)
9
( |b c| - 1)
X =
b+c
4. ANLISIS DE DISTRACTORES
Si se comprueba que el contenido y redaccin son adecuados se analizarn las alternativas

incorrectas como distractores, que al ser eliminados y reemplazados, mejoraran la
discriminacin del tem
El anlisis de los distractores es til para deter. la utilidad y eficacia de las alternativas
incorrectas en cada tem
El objetivo del distractor es atraer la atencin de los sujetos con nivel medio o bajo
Se consideran distractores eficaces:
a) Son elegidas por 1 mn. de sujetos
se cumplen estos 2 criterios si hay
b) Son aprox. igual de atractivas para los sujetos
ms del 10% y con diferencias mn.
c)
d)
El rendimiento medio en el test de los sujetos en cada distractor sea inf. al de los que
han contestado correctamente y a la media gral. de todos los sujetos (se puede calcular
la media en las puntuaciones del test en cada distractor y comprobar que la correcta es
sup.)
Que discrimine entre los sujetos de baja, media y alta puntuacin, pero al contrario
como lo hace la alternativa correcta (se puede utilizar el ndice de discriminacin y
el coeficiente de correlacin)
5. EL FUNCIONAMIENTO DIFERENCIAL DEL TEM
Cuando se ha llevado a cabo el anlisis y seleccin de los tems y se dispone de 1 test final
la pregunta es si todos miden de igual forma a todos los grupos a los que se les ha
administrado el test
Sesgo:
a) En la T de los Test se conoce como la diferencia entre grupos en los tests de
rendimiento y aptitudes cuando sujetos de igual nivel de competencia tiene
puntuaciones diferentes, estando causado por factores ajenos que afectan los resultados
b) El objetivo de su estudio consiste en deter. si las diferencias son reales o son generadas
por el instrumento de medida
c) Anlisis del fundamento diferencial del tem (FDI): es 1 herramienta til para su
estudio
d) Un tem presenta FDI si al comparar grupos de sujetos en 1 caract. sociodemogrfica,
ext. a la variable medida en el test, se observa que sujetos con igual nivel en la misma
variable medida tienen diferentes posibilidades de xito.
e) El mt. ms utilizado para identificar el FDI es el Mantel Haenszel
10
5.1. IMPACTO Y FUNCIONAMIENTO DIFERENCIAL DEL ITEM
Impacto: un tem lo presenta cuando existen diferencias en la puntuacin media de ese

tem por 2 grupos de sujetos con distinto nivel en rasgo o caract. que mide el test (p.e.
hombres y mujeres)
Funcionamiento diferencial: cuando existen diferencias en la puntuacin media de ese
tem por 2 grupos diferentes pero con igual nivel de rasgo (p.e. hombres y mujeres con
igual aptitud matemtica)
5.2. EL PROCEDIMIENTO DE MANTEL HAENSZEL
Pasos a seguir:
1. Seleccionar la variable ext. que se sospeche que genera funcionamiento diferencial en
ciertos tems. Slo 2 grupos a comparar:
a) Grupo de referencia (GR): grupo mayoritario o socialmente favorecido y el que
tericamente se beneficia del funcionamiento diferencial
b) Grupo focal (GF): grupo minoritario en el que se centra la atencin y el que se
cree que est perjudicado por el funcionamiento diferencial
2. Subdividir a los sujetos en ambos grupos segn la puntuacin emprica obtenida en el
subtets de habilidad homognea
3. Calcular el n de RR correctas e incorrectas por cada grupo y nivel de habilidad k
Correctas Incorrectas
Grupo de Referencia (GR)
AK
BK
Grupo Focal (GF)
4.
CK
N1
DK
N0
NR
NF
NK
Estimar la cant. de funcionamiento diferencial segn la expresin:
AkDk
k=1
Nk
BkCk
MH =
k=1
5.
Nk
Interpretar los resultados: los valores de MH oscila entre 0 y . Valores mayores de

1 favorecen al GR y los menores al GF y si est prx., no presenta funcionamiento
diferencial
* ver ejemplo del tema (pg. 461 463)
11
12

Tema 8

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 8

Cargado por

Copyright:

Formatos disponibles

TEMA 8: ANLISIS DE LA CALIDAD MTRICA DE LOS TEMS

2. PROPIEDADES PSICOMTRICAS DE LOS TEMS

Discriminacin de los tems en diseos pre post test

Poder discriminativo de los tems en las escalas de actitudes

3.3. FIABILIDAD Y VALIDEZ DE TEM

3. PARMETROS DE LOS TEMS

b) Normalmente se multiplica por 100 para su interpretacin

Pc = dificultad del tem corregida

Sx = Si + 2 cov ( i,j) = pi qi + 2 cov (i,j)

Sx = varianza de las puntuaciones del test

La media de las puntuaciones de un test tambin est relacionada con la dificultad:

Pi = dificultad del tem i

3.2. DISCRIMINACIN DEL TEM

Es la capacidad de 1 tem para diferenciar a los sujetos de baja, media y a la puntuacin en

0,30 D < 0,39

La discriminacin del tem es aceptable

Los coeficientes de discriminacin

a) Correlacin Biserial Puntual:

Si se quiere estudiar el g de homogeneidad del tem (criterio interno) en relacin

rbp(c) = correlacin entre el tem y el test tras descontar tem

5. Cuanto mayor es el n de tems menor g de correccin

4. Como el valor de la ordenada y en al curva normal es menor que pq el valor

a) ndice de discriminacin D: Diferencia entre la proporcin de sujetos que contestan 1

rxx + ryy + rxy + ryx

Poder discriminativo de los tems en las escalas de actitudes

Rs y Ri = sumas de los rdenes de los grupos sup. e inf. respectivamente

* ver el ejemplo del libro (pg. 445-450).

3.3. FIABILIDAD Y VALIDEZ DE LOS TEMS

Son funcin de la S del tem y de su correlacin con el criterio:

ndice de la fiabilidad del test:

Coeficiente de validez de 1 test:

3.4. COMPARACIN DE LAS RESPUESTA A LOS TEMS

Si se comprueba que el contenido y redaccin son adecuados se analizarn las alternativas

5. EL FUNCIONAMIENTO DIFERENCIAL DEL TEM

5.1. IMPACTO Y FUNCIONAMIENTO DIFERENCIAL DEL ITEM

Impacto: un tem lo presenta cuando existen diferencias en la puntuacin media de ese

5.2. EL PROCEDIMIENTO DE MANTEL HAENSZEL

Estimar la cant. de funcionamiento diferencial segn la expresin:

Interpretar los resultados: los valores de MH oscila entre 0 y . Valores mayores de

* ver ejemplo del tema (pg. 461 463)

También podría gustarte