Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Incluso después que se aplica y califica una prueba el examinador no puede estar seguro de
que ésta haya cumplido su cometido. Esta es una de las razones por las que las pruebas que se
distribuyen en forma comercial se aplican primero (pruebas piloto) a una muestra de 50
personas más o menos que son representativas del grupo al que se dirige. Cualquiera que sea
el tipo de prueba un análisis posterior de los resultados es necesario. Entre las preguntas que
deben responderse están: ¿Los límites de tiempo fueron adecuados?, ¿Los sujetos entendieron
las instrucciones?, ¿Las condiciones del entorno fueron apropiadas?, ¿Las emergencias se
manejaron en forma apropiada?
1
yp y nn p
r
s n n n 1
p
Donde:
n = Cantidad total de sujetos.
np = Sujetos que pasan el reactivo.
Yp = Media de las calificaciones de criterio de quienes pasan el reactivo.
Y = Media de todas las calificaciones de criterio.
S = Desviación estándar de todas las calificaciones de criterio.
Cuanto más alto sea el índice de validez para un reactivo (correlación de criterios de
reactivos), éste será más útil para predecir el criterio. El hecho de si un reactivo va a
conservarse o no depende del tamaño del índice de validez. A pesar de que los reactivos con
índices de validez tan bajos como 0.20 pueden contribuir a la predicción del criterio, se
prefieren los índices de validez más altos. Desde luego, un reactivo con un índice de validez
cercano a .00 o negativo deben de revisarse o descartarse. La utilidad de un reactivo para
predecir un criterio específico depende no sólo del índice de validez, sino también de la
correlación del reactivo con otros reactivos de la prueba. Los reactivos que tienen índices de
validez altos, pero correlaciones bajas son los mejores porque realizan una contribución
independiente a la predicción de las calificaciones de criterio.
Las medidas de discriminación de los reactivos indican qué tan adecuadamente separa o
discrimina un reactivo a quienes obtienen puntuaciones altas y quienes obtienen puntuaciones
bajas en una prueba. Cuanto más alto sea el valor de d, el reactivo es más efectivo al
discriminar entre los individuos con calificaciones altas y bajas en la prueba como un todo.
Consiste en dividir los sujetos en tres grupos de acuerdo con las calificaciones que obtienen
en la prueba como un todo: un grupo superior que consta de 27% de que obtiene las
calificaciones más altas, un grupo inferior del 27% de que obtiene las calificaciones más bajas
y el 46% restante en el grupo intermedio. Cuando la cantidad de sujetos es reducida, pueden
emplearse grupos superiores e inferiores del 50% de las calificaciones totales de la prueba. en
cualquier caso, los índices estadísticos siguientes se calculan a partir de las calificaciones de
los grupos superior e inferior:
U p Lp 2 U p Lp
d
U L U
y
Donde:
Up y Lp= Cantidades de sujetos en los grupos superior e inferior que pasan el reactivo.
U y L = Cantidad total de sujetos en los grupos superior e inferior.
p = Índice de dificultad del reactivo.
d = Índice de discriminación del reactivo.
El índice de dificultad de los reactivos tiene un rango de 0.00 a 1.00. Un reactivo cuyo p = .00
es aquel que ningún sujeto contestó correctamente y un reactivo con p = 1.00 es aquel que
todos los sujetos respondieron de manera correcta. El valor óptimo p para un reactivo depende
de varios factores, que incluyen los propósitos de la prueba y la cantidad de opciones de
respuesta. Si el propósito de una prueba es identificar o seleccionar sólo a un porcentaje
reducido de los mejores solicitantes, entonces la prueba debe ser lo suficiente difícil y tener
un valor medio bajo de p. Si la prueba está diseñada para observar sólo a unos cuantos
solicitantes inferiores, entonces es mejor un valor elevado de p.
Cuando el índice de discriminación (d) es 1.00, todos los sujetos en el grupo superior en las
calificaciones totales de la prueba y ninguno del grupo inferior respondió el reactivo en forma
correcta. Sin embargo, rara vez d es igual a 1.00 y, por lo regular, un reactivo se considera
aceptable si su índice d es .30 o más alto. No obstante, d y p no son índices independientes y
el valor mínimo aceptable de d varía de acuerdo con el valor de p. Un valor de d que es poco
menor que .30 es aceptable conforme p aumenta o disminuye cada vez más con respecto del
valor óptimo, sobre todo cuando el tamaño de los grupos de comparación superior e inferior
es grande. Además, un reactivo que tiene un índice d bajo no se descarta de manera
automática; quizá sea posible conservarlo si se modifica. La elaboración de reactivos de
prueba adecuados es un proceso que lleva tiempo, de modo que aquellos que son defectuosos
deben revisarse siempre que sea posible.
3
PRÁCTICA DE COEFICIENTE BISERIAL PUNTUAL
1. Supongamos que el total de las calificaciones de un grupo de 30 personas tiene una media
de 75 y una desviación estándar de 10. También supongamos que la media de las
calificaciones de los 17 sujetos que contestaron cierto reactivo de manera correcta es de
80. Al sustituir tenemos:
2. Del total de las calificaciones de un grupo de 50 personas tiene una media de 84 y una
desviación estándar de 11. También supongamos que la media de las calificaciones de los
21 sujetos que contestaron cierto reactivo de manera correcta es de 87. Al sustituir
tenemos:
3. Pensemos que el total de las calificaciones de un grupo de 35 personas tiene una media de
70 y una desviación estándar de 9. También supongamos que la media de las
calificaciones de los 15 sujetos que contestaron cierto reactivo de manera correcta es de
78. Al sustituir tenemos:
4
PRÁCTICA DE LOS ÍNDICES DE DIFICULTAD Y
DISCRIMINACIÓN DE LOS REACTIVOS
1. Supongamos que 50 personas se presentan en la prueba y 14 personas pertenecen al grupo
superior, de las cuales sólo 12 pasan el reactivo A y 14 personas pertenecen al grupo
inferior sólo 7 pasan el reactivo A. Entonces cual es el índice de dificultad y
discriminación.
5
PRÁCTICA DE LA VALIDEZ ÍTEM – TEST
Items
S. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X X2 Y Y2 XY
1 1 3 2 1 3 1 2 3 1 2 3 1 3 1 2
2 1 2 3 1 3 2 2 3 3 1 2 3 3 3 2
3 3 2 1 3 3 1 3 1 2 3 3 2 3 3 3
4 3 1 1 2 2 3 3 3 2 3 2 3 2 1 3
5 3 2 3 3 1 2 2 1 2 3 2 2 3 3 3
6 3 3 3 3 2 1 3 3 3 2 3 3 2 2 3
7 1 3 1 2 1 3 1 3 3 2 1 3 1 3 2
8 3 3 3 1 2 1 2 1 3 1 2 3 3 3 3
9 2 2 1 3 3 3 1 3 2 3 3 3 3 3 2
1
1 1 2 3 3 2 3 1 3 2 3 2 2 3 3
0
xy x y
rxy
2
x 2 x y 2 y 2
6
CONFIABILIDAD DE LA PRUEBA
xy x y
r
½½
2
x 2 x y 2 y 2
Spearman Brown:
2r
r ½½
11 1 r
½½
r = ___________________
7
r11 = ___________________
A B C D
PD PC PD PC PD PC PD PC
N 100 SUJETOS N
X X
DS DS
Pasos:
1º Establecer el puntaje directo máximo alcanzado en la prueba.
2º Establecer la frecuencia (es la cantidad de veces que ocurre el fenómeno) f.
3º Establecer las frecuencias acumuladas (es la suma de las frecuencias que nos permiten
decir cuantas veces se repite. Fa.
4º Establecer la frecuencia acumulada punto medio (es para establecer una columna). La
fórmula es la siguiente:
fcpm 0.5 xf fa
fcpmx100
%cpm
N
8
Ejemplo
Prueba de Adaptación Familiar (Pj. Máx. 25 puntos)
N = 214
PD F Fa Fcpm %fcpm Rp NIVELES
25 13
24 17
23 32
22 26
21 31
20 22
19 19
18 17
17 9
16 8
15 5
14 4
13 1
12 4
11 2
10 2
9 1
8 1
7
6
5
A
D 4
I 3
E 2
1
CUADRO DE CATEGORIAS BAREMALES
Rp CATEGORIAS
76 – 99 ALTO
26 – 75 MEDIO
1 – 25 BAJO
9
MEDIA Y DESVIACIÓN STANDARD
fx
X
N
DS fx 2
X
2
PD PM Frecuencias Fx Fx2
23 –25 24
20 – 22 21 PD PC
17 – 19 18
14 – 16 15
11 – 13 12 N N
08 – 10 9 X X
DS DS