Está en la página 1de 10

ANÁLISIS DE LOS REACTIVOS

Incluso después que se aplica y califica una prueba el examinador no puede estar seguro de
que ésta haya cumplido su cometido. Esta es una de las razones por las que las pruebas que se
distribuyen en forma comercial se aplican primero (pruebas piloto) a una muestra de 50
personas más o menos que son representativas del grupo al que se dirige. Cualquiera que sea
el tipo de prueba un análisis posterior de los resultados es necesario. Entre las preguntas que
deben responderse están: ¿Los límites de tiempo fueron adecuados?, ¿Los sujetos entendieron
las instrucciones?, ¿Las condiciones del entorno fueron apropiadas?, ¿Las emergencias se
manejaron en forma apropiada?

Pruebas de Referencia de Criterio y de Dominio


El procedimiento que se emplea para evaluar la efectividad de los reactivos en las pruebas
depende hasta cierto punto de los propósitos de ésta. El propósito de las pruebas con
referencia de criterios no es descubrir las calificaciones de las personas en relación con las
calificaciones de otros individuos, sino más bien determinar la posición de cada persona con
respecto de ciertos objetivos educativos. Un tipo particular de prueba con referencia de
criterios diseñada para medir el logro de un rango limitado de capacidades cognoscitivas se
conoce como prueba de dominio. Las calificaciones que obtiene una prueba de dominio, o en
cualquier otra con referencia de criterios, se expresa como porcentaje de la cantidad total de
reactivos respondidos correctamente; una calificación perfecta indica un dominio del 100%
del material de la prueba.

Diferencias Individuales y Validez de los Reactivos:


Por lo general es difícil llegar a un acuerdo sobre qué tanto debe saber un individuo acerca de
una materia en particular o qué constituye el dominio de la materia, casi siempre la
calificación en una prueba psicológica o educativa se interpreta al compararla con las
calificaciones de otras personas. Las pruebas psicológicas se crearon sobre todo para evaluar
las diferencias individuales con respecto de las características cognoscitivas y afectivas,
dichas diferencias ayudan a tener una alta predicción del comportamiento de los sujetos.
Para evaluar la utilidad de un reactivo como medida de diferencias individuales en las
características de habilidad o personalidad, quienes aplican las pruebas necesitan cierta
medida de criterio externo. Si una prueba se elabora para predecir el desempeño en un trabajo,
entonces un criterio externo apropiado es una medida de desempeño en el trabajo (las
calificaciones de los supervisores).
La validez de un reactivo para predecir la medida de criterio externo particular puede
determinarse por medio del cálculo de la correlación entre las calificaciones en el reactivo (0’
y 1’s) y las calificaciones de la medida de criterio. Con este propósito, se han empleado
distintos tipos de coeficientes de correlación, siendo el más común el coeficiente biserial
puntual, cuya fórmula es:

1
yp  y nn p
r
s  n  n  n  1
p

Donde:
n = Cantidad total de sujetos.
np = Sujetos que pasan el reactivo.
Yp = Media de las calificaciones de criterio de quienes pasan el reactivo.
Y = Media de todas las calificaciones de criterio.
S = Desviación estándar de todas las calificaciones de criterio.

Cuanto más alto sea el índice de validez para un reactivo (correlación de criterios de
reactivos), éste será más útil para predecir el criterio. El hecho de si un reactivo va a
conservarse o no depende del tamaño del índice de validez. A pesar de que los reactivos con
índices de validez tan bajos como 0.20 pueden contribuir a la predicción del criterio, se
prefieren los índices de validez más altos. Desde luego, un reactivo con un índice de validez
cercano a .00 o negativo deben de revisarse o descartarse. La utilidad de un reactivo para
predecir un criterio específico depende no sólo del índice de validez, sino también de la
correlación del reactivo con otros reactivos de la prueba. Los reactivos que tienen índices de
validez altos, pero correlaciones bajas son los mejores porque realizan una contribución
independiente a la predicción de las calificaciones de criterio.

Índices de Dificultad y Discriminación de los Reactivos:


El procedimiento estadístico conocido como “índice de dificultad del reactivo” en el contexto
de las pruebas de rendimiento puede ser un “índice de aprobación del reactivo” en otros
contextos, como las pruebas de personalidad. Aquí, la estadística no proporciona una medida
del porcentaje de personas que aprueban el reactivo sino una medida del porcentaje de
personas que dijeron “sí”, que estuvieron de acuerdo o que de alguna u otra manera aprobaron
el reactivo.

Las medidas de discriminación de los reactivos indican qué tan adecuadamente separa o
discrimina un reactivo a quienes obtienen puntuaciones altas y quienes obtienen puntuaciones
bajas en una prueba. Cuanto más alto sea el valor de d, el reactivo es más efectivo al
discriminar entre los individuos con calificaciones altas y bajas en la prueba como un todo.

Consiste en dividir los sujetos en tres grupos de acuerdo con las calificaciones que obtienen
en la prueba como un todo: un grupo superior que consta de 27% de que obtiene las
calificaciones más altas, un grupo inferior del 27% de que obtiene las calificaciones más bajas
y el 46% restante en el grupo intermedio. Cuando la cantidad de sujetos es reducida, pueden
emplearse grupos superiores e inferiores del 50% de las calificaciones totales de la prueba. en
cualquier caso, los índices estadísticos siguientes se calculan a partir de las calificaciones de
los grupos superior e inferior:

U p  Lp 2 U p  Lp
 d
U L U
y

Donde:
Up y Lp= Cantidades de sujetos en los grupos superior e inferior que pasan el reactivo.
U y L = Cantidad total de sujetos en los grupos superior e inferior.
p = Índice de dificultad del reactivo.
d = Índice de discriminación del reactivo.

El índice de dificultad de los reactivos tiene un rango de 0.00 a 1.00. Un reactivo cuyo p = .00
es aquel que ningún sujeto contestó correctamente y un reactivo con p = 1.00 es aquel que
todos los sujetos respondieron de manera correcta. El valor óptimo p para un reactivo depende
de varios factores, que incluyen los propósitos de la prueba y la cantidad de opciones de
respuesta. Si el propósito de una prueba es identificar o seleccionar sólo a un porcentaje
reducido de los mejores solicitantes, entonces la prueba debe ser lo suficiente difícil y tener
un valor medio bajo de p. Si la prueba está diseñada para observar sólo a unos cuantos
solicitantes inferiores, entonces es mejor un valor elevado de p.

Cuando el índice de discriminación (d) es 1.00, todos los sujetos en el grupo superior en las
calificaciones totales de la prueba y ninguno del grupo inferior respondió el reactivo en forma
correcta. Sin embargo, rara vez d es igual a 1.00 y, por lo regular, un reactivo se considera
aceptable si su índice d es .30 o más alto. No obstante, d y p no son índices independientes y
el valor mínimo aceptable de d varía de acuerdo con el valor de p. Un valor de d que es poco
menor que .30 es aceptable conforme p aumenta o disminuye cada vez más con respecto del
valor óptimo, sobre todo cuando el tamaño de los grupos de comparación superior e inferior
es grande. Además, un reactivo que tiene un índice d bajo no se descarta de manera
automática; quizá sea posible conservarlo si se modifica. La elaboración de reactivos de
prueba adecuados es un proceso que lleva tiempo, de modo que aquellos que son defectuosos
deben revisarse siempre que sea posible.

3
PRÁCTICA DE COEFICIENTE BISERIAL PUNTUAL
1. Supongamos que el total de las calificaciones de un grupo de 30 personas tiene una media
de 75 y una desviación estándar de 10. También supongamos que la media de las
calificaciones de los 17 sujetos que contestaron cierto reactivo de manera correcta es de
80. Al sustituir tenemos:

2. Del total de las calificaciones de un grupo de 50 personas tiene una media de 84 y una
desviación estándar de 11. También supongamos que la media de las calificaciones de los
21 sujetos que contestaron cierto reactivo de manera correcta es de 87. Al sustituir
tenemos:

3. Pensemos que el total de las calificaciones de un grupo de 35 personas tiene una media de
70 y una desviación estándar de 9. También supongamos que la media de las
calificaciones de los 15 sujetos que contestaron cierto reactivo de manera correcta es de
78. Al sustituir tenemos:

4
PRÁCTICA DE LOS ÍNDICES DE DIFICULTAD Y
DISCRIMINACIÓN DE LOS REACTIVOS
1. Supongamos que 50 personas se presentan en la prueba y 14 personas pertenecen al grupo
superior, de las cuales sólo 12 pasan el reactivo A y 14 personas pertenecen al grupo
inferior sólo 7 pasan el reactivo A. Entonces cual es el índice de dificultad y
discriminación.

2. Calculemos que 60 personas se presentan en la prueba y 20 personas pertenecen al grupo


superior, de las cuales sólo 18 pasan el reactivo B y 20 personas pertenecen al grupo
inferior sólo 11 pasan el reactivo B. Entonces cual es el índice de dificultad y
discriminación.

3. Calculemos que 45 personas se presentan en la prueba y 18 personas pertenecen al grupo


superior, de las cuales sólo 14 pasan el reactivo C y 18 personas pertenecen al grupo
inferior sólo 10 pasan el reactivo C. Entonces cual es el índice de dificultad y
discriminación.

5
PRÁCTICA DE LA VALIDEZ ÍTEM – TEST

Items
S. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X X2 Y Y2 XY
1 1 3 2 1 3 1 2 3 1 2 3 1 3 1 2
2 1 2 3 1 3 2 2 3 3 1 2 3 3 3 2
3 3 2 1 3 3 1 3 1 2 3 3 2 3 3 3
4 3 1 1 2 2 3 3 3 2 3 2 3 2 1 3
5 3 2 3 3 1 2 2 1 2 3 2 2 3 3 3
6 3 3 3 3 2 1 3 3 3 2 3 3 2 2 3
7 1 3 1 2 1 3 1 3 3 2 1 3 1 3 2
8 3 3 3 1 2 1 2 1 3 1 2 3 3 3 3
9 2 2 1 3 3 3 1 3 2 3 3 3 3 3 2
1
1 1 2 3 3 2 3 1 3 2 3 2 2 3 3
0

Producto Momento de Pearson:

  xy   x y
rxy 
 
2
 x 2   x  y 2    y  2

CONSOLIDADO DE REACTIVOS SEGÚN LA VALIDEZ ÍTEM-TEST

Ítem r Interpretación Ítem r Interpretación


1 9
2 10
3 11
4 12
5 13
6 14
7 15
8

6
CONFIABILIDAD DE LA PRUEBA

Producto Momento de Pearson:

  xy   x y
r 
½½
  2
 x 2   x  y 2    y 2

Spearman Brown:

2r
r  ½½
11 1  r
½½

PRÁCTICA DE CONFIABILIDAD POR EL METODO DE LAS


MITADES
ITEMS PAR PAR2 IMP IMP2
S. XY
123456789 10 X X2 Y Y2
1 112123131 2
2 112312333 2
3 333233233 3
4 323232321 3
5 332232233 3
6 333323322 3
7 121321313 2
8 312312333 3
9 231233333 2
10 1 3 3 3 2 3 2 2 3 3

r = ___________________
7
r11 = ___________________

TIPIFICACIÓN DE UNA PRUEBA

 Es importante en una prueba psicológica.


 Baremos: Son tablas de referencia. Proceso de normalización
 Normas: Puntos de referencia para la calificación e interpretación.
 Deben realizarse una para cada sexo, indicador y edad.
 Estandarización: Proceso dentro de la validez que permite normalizar la prueba en un
determinado contexto, incluso se platea los criterios de evaluación, calificación,
interpretación y usos que se le debe dar al instrumento.
 Tipificación: Las normas que se aplican a una prueba criterios de uso, aplicación,
interpretación, calificación. A todos se mide por igual.
 Objetividad: Datos objetivos, mensurable, medidas operacionalizados.
 Adaptación: Construir los reactivos de una prueba ya elaborada a una población
determinada, utilizando criterios de la misma realidad. Consiste en reelaborar los ítems o
cambiar los ítems con una misma connotación a la original, pero con otros términos. Una
vez reelaborada se aplica la prueba piloto para a parir de ello ensamblarla y luego
nuevamente se aplica la prueba para establecer su validez y fiabilidad.

A B C D
PD PC PD PC PD PC PD PC

N 100 SUJETOS N
X X
DS DS

Pasos:
1º Establecer el puntaje directo máximo alcanzado en la prueba.
2º Establecer la frecuencia (es la cantidad de veces que ocurre el fenómeno) f.
3º Establecer las frecuencias acumuladas (es la suma de las frecuencias que nos permiten
decir cuantas veces se repite. Fa.
4º Establecer la frecuencia acumulada punto medio (es para establecer una columna). La
fórmula es la siguiente:

fcpm  0.5 xf  fa

5º Establecer el porcentaje acumulado del punto medio.

fcpmx100
%cpm 
N

6º El rango percentilar (redondeo) Rp o Pc


7º Establecer los niveles.

8
Ejemplo
Prueba de Adaptación Familiar (Pj. Máx. 25 puntos)
N = 214
PD F Fa Fcpm %fcpm Rp NIVELES
25 13
24 17
23 32
22 26
21 31
20 22
19 19
18 17
17 9
16 8
15 5
14 4
13 1
12 4
11 2
10 2
9 1
8 1
7
6
5
A
D 4
I 3
E 2
1
CUADRO DE CATEGORIAS BAREMALES

Rp CATEGORIAS
76 – 99 ALTO
26 – 75 MEDIO
1 – 25 BAJO

9
MEDIA Y DESVIACIÓN STANDARD

1º Los puntajes directos se agrupan en intervalos de clase (categorías que se emplean en un


mismo intervalo de frecuencias).
 Datos menores de 100 puntos intervalo de clase 2
 Datos mayores de 100 puntos intervalo de clase 3
 Datos mayores de 500 puntos intervalo de clase 4 y 5
2º Se obtiene el punto medio de cada intervalo.
3º Se establecen las frecuencias de acuerdo a los puntajes directos.
4º Multiplicar el punto medio por la frecuencia fx.
5º Multiplicar la columna fx por los puntos medios y se obtiene una columna que llamaremos
fx2.
6º Se determina la media de la distribución con la fórmula de datos agrupados.

fx
X 
N

7º Se eleva la media al cuadrado.


8º Aplicar la fórmula de la desviación Estándar para datos agrupados. Porque establecen las
frecuencias cuando los datos están agrupados en una distribución de frecuencias se procede
así.

DS   fx 2

X
2

PD PM Frecuencias Fx Fx2
23 –25 24
20 – 22 21 PD PC
17 – 19 18
14 – 16 15
11 – 13 12 N N
08 – 10 9 X X
DS DS

Dr. Carlos Borrego Rosas


Psicólogo
C.Ps.P. 9448
10