Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Items
Analisis de Items
X IDi
i 1
Interpretacin: a medida que el ID aumenta, el tem es ms fcil (en propiedad habra que
llamarlo ndice de facilidad); adems, en muchos tests no tiene sentido de hablar de ID, ej., los
cuestionarios de personalidad, que no tienen respuestas acertadas o errneas
Limitaciones: el ID no es una propiedad intrnseca del tem, su valor depende de la muestra de
sujetos a la que se aplique (la solucin la da la Teora de Respuesta a los tems)
En tems de eleccin mltiple, para corregir los efectos del azar, se suele utilizar la frmula:
A E /( K 1)
ID
N
donde:
A: Nmero de sujetos que aciertan el tem
E: Nmero de sujetos que fallan el tem
K: Nmero de alternativas del tem
N: Nmero de sujetos que intentan resolver el tem
La varianza de un tem puede expresarse en trminos de su ID: j2 = PjQj, donde Pj sera la
proporcin de sujetos que aciertan el tem (su ID) y Qj = (1 Pj). (la dificultad media de los
tems maximiza su varianza)
4.2. ndice de discriminacin
Un tem tiene poder discriminativo si distingue entre los sujetos que puntan alto y los que
puntan bajo en el test (si permite distinguir entre sujetos eficaces frente a ineficaces)
ndice de discriminacin = correlacin entre las puntuaciones de los sujetos en el tem y sus
puntuaciones en el test
4.2.1. Clculo
Correlacin biserial-puntual (bp) (aplicacin de la correlacin de Pearson entre una
variable dicotmica y otra cuantitativa; frmula:
p x p
bp
q
x2
donde:
p: media en el test de los sujetos que aciertan el tem
x: media del test
x: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
q : (1 p).
Al calcular el ndice de discriminacin, a la puntuacin total del test hay que descontarle
el tem cuyo ndice de discriminacin se pretende hallar (X j); en caso contrario, se
puede usar la siguiente correccin:
jx x j
j ( x j )
2j x2 2 jx j x
donde:
Correlacin biserial (b): se usa cuando una variable no dicotmica se dicotomiza (se
pierde informacin)
p x p
b
x
y
donde:
p: media en el test de los sujetos que aciertan el tem
x: media del test
x: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
y: ordenada correspondiente al valor de la puntuacin tpica en la curva normal
que deja por debajo un rea igual a p
Notas: es una estimacin de la correlacin de Pearson, y puede dar valores superiores a
1 si alguna de las variables es platicrtica o bimodal.
La relacin entre bp y b viene dada por:
d = Pc Pi
donde:
Pc: proporcin de sujetos competentes (puntan > Md) que aciertan el tem
Pi: proporcin de sujetos incompetentes que tambin aciertan el tem
4.2.2. Relacin con algunos parmetros del test
a) Variabilidad: la desviacin tpica del test est estrechamente relacionada con el ndice de
discriminacin de los tems
n
x j j ( x j )
j 1
donde:
X: desviacin tpica del test
j: desviacin tpica del tem j
j(x-j): ndice de discriminacin del tem j
si los tems son dicotmicos, su desviacin tpica vendr dada por:
n
Pj Q j
Pj (1 Pj )
sustituyendo: x Pj Q j j ( x j )
j 1
n
2j
1
n 1
j j ( x j ) 2
Pj (1 Pj )
n
1
2
n 1
jX Pj (1 Pj )
En suma, los parmetros de los tests, poder discriminativo (x) y fiabilidad () pueden
expresarse en trminos del ndice de dificultad de los tems (Pj) y de su ndice de discriminacin
(jX)
xy
jY
jX
j 1
n
j 1
donde:
xy: coeficiente de validez del test
n: nmero de tems del test
j: desviacin tpica del tem j
jY: ndice de validez del tem j
jX: ndice de discriminacin del tem j
si los tems son dicotmicos, entonces: j
n
xy
j 1
jY
Pj (1 Pj )
jX
Pj (1 Pj )
j 1
Pj Q j
Pj (1 Pj )
y por tanto:
la frmula anterior es muy importante, pues expresa el coeficiente de validez del test en funcin
de tres parmetros de los tems: dificultad (Pj), discriminacin (jX) y validez (jY)
Una paradoja clsica: al maximizar la fiabilidad del test eligiendo tems con ndices de
discriminacin elevados se rebaja el coeficiente de validez del test (cuanto mayores son los
ndices de validez de los tems del test menores son sus ndices de discriminacin)
Comentarios finales:
1) no confundir ndice de validez con la validez factorial de los tems
2) ponderacin de tems: puede ser interesante a veces ponderar tems: regresin mltiple
3) en el proceso de seleccin de tems que van a constituir el test definitivo:
(i)
se da mayor error si se eligen tems con ndices de discriminacin y validez
elevados
(ii)
el ndice de discriminacin de un tem es la correlacin tem-test y depende no slo
del tem sino del resto de tems: seleccin de tems en pasos o etapas
1
(1 r ) p
Prohibicin de omisiones
Si se instruye a los sujetos para que contesten todos los tems (prctica poco recomendable), la
frmula anterior no tiene sentido, ya que entonces E = N A (siendo N el n de tems).
Ahora bien, si bajo las instrucciones de no omitir ningn tem alguien s lo hace, su puntuacin
global ha de corregirse con la frmula: P = A + O / n (siendo O las omisiones)
4.6. Calificacin del conocimiento parcial
La psicometra ha tratado de calificar por diversos caminos el conocimiento que los sujetos
tienen de los tems; entre los enfoques destacaremos:
Juicios de seguridad: se pide a los sujetos que adems de responder a tem emitan un juicio
del grado de confianza o seguridad que tienen de acertarlo; aqu influyen aspectos orcticos
(motivacionales) y se desconoce la influencia sobre importantes parmetros del test.
Responder-hasta-acertar: se indica al sujeto cundo ha acertado un tem, que se punta
penalizando el nmero de respuestas necesarias para alcanzar la solucin correcta.
Ponderacin de las alternativas del tem: comn en mbitos educativos, aunque no hay datos
concluyentes sobre sus beneficios.
4.7. Sesgo
Concepto
Un tem/test est sesgado si sujetos igualmente competentes y pertenecientes a distintas
subpoblaciones no tienen la misma probabilidad de superar el tem/test.
Tiene serias implicaciones sociales (de gnero, etnia, cultura, etc.), sobre todo si el grupo
dominante es el que construye los tests para todos.
Las fuentes del sesgo son mltiples: bagaje cultural, social, econmico, etc.
No hay pruebas del todo exentas de sesgo; se trata de detectar la cantidad de sesgo tolerable.
Hoy da se ha dejado de usar la expresin sesgo de los tems en favor de funcionamiento
diferencial de los tems (FDI), puesto que la tcnica no dice nada acerca de la causa del
funcionamiento diferencial
El anlisis del FDI es slo un primer paso para averiguar las razones psicolgicas, educativas,
culturales, sociales, actitudinales, etc. Que hacen que un tem (o test) no funcione igual para los
grupos estudiados.
Se reserva el trmino sesgo para el estudio ms amplio que sigue a la deteccin del FDI, y que
intenta explicarlo.
De la existencia de FDI no se sigue automticamente la existencia de sesgo.
Evaluacin
Se han propuesto diferentes mtodos, pero aqu slo vamos a tratar el de Manter-Haenszel
El planteamiento general es claro y sencillo: un tem no tiene funcionamiento diferencial si el
cociente entre quienes lo aciertan y lo fallan es el mismo para los grupos comparados en cada
categora o nivel que constituye el test:
Aj C j
H0 :
Aciertos (1)
Aj
Cj
n1j
Errores (0)
Bj
Dj
n0j
Marginales
nRj
nFj
Nj
2
MN
A j j E ( A j ) 0'5
Var ( A j )
donde:
2
MN
: se distribuye segn 2 con 1 grado de libertad
j A j : representa la suma de los valores de A para cada una de las categoras j
MH
Nj
B jC j
Nj
Los valores de MH van de cero a infinito; valores mayores que 1 indican que el tem favorece
al grupo de referencia, y menores al focal.
Una sencilla transformacin permite expresar el valor de MH en una escala simtrica con
origen cero:
MH 2,35 ln( MH )
donde MH es la nueva mtrica y ln el logaritmo neperiano de ( MH )
Deben hacerse tantas categoras como tiene el test ms 1. A medida que se reduce el nmero de
categoras tiende a aumentar la probabilidad de catalogar tems con funcionamiento diferencial,
cuando en realidad no lo tienen (aumenta el error tipo I)
Limitaciones:
1) No conviene utilizar el mtodo de Manter-Haenszel cuando uno de los grupos (focal o
referencia) tienen menos de 200 sujetos;
2) No detecta cuando existe funcionamiento diferencian no uniforme; la solucin es dividir la
muestra en dos grupos, por encima y por debajo de la media total, y hacer los clculos por
separado para cada grupo
Comentarios finales
Adems de los clculos, hay que representar grficamente los datos, pues ello permite distinguir
entre el funcionamiento diferencial del tem y las posibles diferencias reales de los grupos en el
tem: el impacto; los tems han de descartarse cuando estn sesgados, no cuando hay impacto.
Las tcnicas del tipo de la descrita se denominan internas, pues el criterio de contraste para
analizar los tems es interno al test; en cambio, se habla de FDI externo cuando el criterio de
contraste es externo al test; la estrategia habitual en este caso es calcular la recta de regresin
del criterio externo sobre el test para la muestra total y para cada grupo (focal y referencia); hay
cue observar que las tcnicas externas apenas se usan.
Estas tcnicas tambin seran condicionales, en que los aciertos en el tem estudiado se
contrastan condicionalmente para cada categora (en las incondicionales no se establecen
categoras, sino que se usan las puntuaciones globales de los grupos focal y de referencia).
Otros muchos mtodos para el estudio del FDI: SIBTEST, tcnicas de anlisis de tablas de
contingencia (modelos loglineales, logit, regresin logstica), TRI
4.8. Confeccin de los tems
Consideraciones generales sobre escritura de tems:
Definicin clara y precisa del constructo a medir
Estimar el nmero aproximado y formato que van a tener los tems
Confeccionar el doble o triple de tems que va a tener el test definitivo
Muestreo adecuado de todas las facetas de la variable a medir (validez de contenido),
fijando a priori un nmero de tems para cada faceta relevante
Formatos posibles: verdadero-falso, eleccin mltiple, relacionar, completar, respuesta
corta, ensayo (ste difcil de objetivar las puntuaciones, por inconsistencia entre jueces y
dificultad de prever todas las posibilidades de respuesta)
El ms utilizado es el de eleccin mltiple, ya que es rpido, objetivo y flexible (adecuado
para lograr validez de contenido); al elaborar las alternativas se tendr en cuenta:
- las alternativas del tem sern lo ms homogneas posible (longitud, relevancia)
- evitar negaciones dobles, como negacin en enunciado general y alternativa
- evitar reiteraciones innecesarias
- si se utilizan cifras, presentarlas ordenadas
- evitar usar todas las anteriores o ninguna de las anteriores, pues dan pistas
- la ubicacin de la alternativa correcta se ha de establecer al azar
Adems, una vez elaborados, conviene que los tests sean supervisados por expertos ajenos al
constructor