Está en la página 1de 23

NORMAS Y

CONFIABILIDAD
NORMAS Y ESTANDARIZACIÓN DE LAS
PRUEBAS

 Puntuaciones naturales
 Conceptos estadísticos esenciales
 Transformación de las puntuaciones
naturales
 Selección de un grupo normativo
 Pruebas referidas al criterio
Grupo normativo

■ Un grupo normativo consiste en una


muestra de individuos examinados
que son representativos de la
población hacia la cual se dirige la
prueba.
Distribución de
frecuencias

■ Es útil para representar la


distribución de las puntuaciones de
prueba dentro de ciertos intervalos
de puntuación para un grupo
normativo.
Histograma

■ Es la representación gráfica de una


distribución de frecuencias.
Medidas de tendencia
central

■ Las medidas de tendencia central para conjuntos


de puntuaciones incluyen la media (o el promedio
aritmético), la mediana o calificación que se ubica
a la mitad de las puntuaciones ordenadas, y la
moda, que es la puntuación que se presenta con
mayor frecuencia.
■ La distribución de puntuaciones de prueba
de grandes grupos de individuos
heterogéneos se asemeja con frecuencia a
la distribución normal, que es una curva
simétrica, definida en términos
matemáticos y con forma de campana.

■ Los psicólogos prefieren tratar con


puntuaciones de prueba que se distribuyen
normalmente, debido a que las
características estadísticas de la
distribución normal son muy conocidas.
■ Una distribución asimétrica es aquella en
la que las puntuaciones se agrupan en el
extremo inferior (asimetría positiva) o en el
extremo superior (asimetría negativa).

■ En las pruebas psicológicas, la causa más


común de asimetría positiva es la
presencia de muy pocos reactivos fáciles,
mientras que la causa más común de
asimetría negativa es el hecho de que la
prueba tenga muy pocos reactivos
difíciles.
■ Un percentil expresa el
porcentaje de personas dentro de
la muestra de estandarización
que obtuvieron puntuaciones por
debajo de cierta puntuación
natural.

■ Los percentiles van de 0 a 100.

■ Es importante distinguir entre el


percentil (una medida relativa) y
el porcentaje de respuestas
correctas (una medida absoluta).
■ Una puntuación estándar expresa la puntuación
natural de una persona examinada en términos de
su distancia respecto a la media en unidades de
desviación estándar.
■ El método más común para
seleccionar un grupo normativo es a
través del muestreo aleatorio
estratificado.

■ En este procedimiento, se estratifica


o clasifica la población meta de
acuerdo con importantes variables
antecedentes (por ejemplo, edad,
género, raza, clase social, nivel
educativo) y después se elige al azar
un porcentaje adecuado de
personas dentro de cada estrato.
■ Para muchas pruebas, es importante
establecer normas independientes por edad y
grado escolar.

■ Las normas por edad son necesarias para


características que cambian rápidamente con
el desarrollo, como las capacidades
intelectuales en la niñez.

■ Las normas por grado suelen utilizarse en


entornos educativos cuando se informa sobre
los niveles de aprovechamiento de niños en
edad escolar.
■ Las normas locales y de subgrupo pueden
ser valiosas si en una prueba un subgrupo
identificable tiene un desempeño evidente
que es mejor o peor que el de la muestra
de estandarización definida en términos
más generales.
CONCEPTOS DE CONFIABILIDAD
Teoría clásica de pruebas y fuentes de error de medición
Fuentes de error de medición
Error de medición y confiabilidad
Coeficiente de confiabilidad
Coeficiente de correlación
Coeficiente de correlación como coeficiente de confiabilidad Confiabilidad
como estabilidad temporal
Confiabilidad como consistencia interna
Teoría de la respuesta al reactivo
Las nuevas reglas de medición
Circunstancias especiales en la estimación de la confiabilidad
Interpretación de los coeficientes de confiabilidad Confiabilidad y error
estándar de medición
■ Se reconocen cuatro niveles de medición:

■ Las escalas nominales constituyen la mera


nominación o categorización;

■ Las escalas ordinales permiten el


ordenamiento;

■ Las escalas de intervalo poseen intervalos


iguales;

■ y las escalas de razón incorporan todas las


características anteriores y, además,
introducen un punto cero absoluto.
■ Existen docenas de métodos de
escalamiento.

■ Algunos ejemplos representativos


incluyen el método de escalamiento
absoluto, en que la dificultad del
reactivo se localiza sobre un eje o línea
base y se mide en unidades.
■ Las escalas Likert, que presentan reactivos con cinco respuestas ordenadas sobre un
continuo de acuerdo/desacuerdo; y el método racional, en que los reactivos derivados
de manera racional se correlacionan con las puntuaciones totales obtenidas en la
prueba.
■ La elaboración de los reactivos es un
procedimiento laborioso que requiere de
mucho tiempo.

■ Los creadores de la prueba deben tratar de


evitar los efectos de límites superior e
inferior.

■ En un efecto de límite superior, una


cantidad importante de examinados obtiene
puntuaciones perfectas o casi perfectas.

■ En un efecto de límite inferior, cantidades


significativas de examinados obtienen
puntuaciones en la parte inferior, o cerca de
la parte inferior, de la escala.
■ La tabla de especificaciones presenta
la información y las tareas
cognoscitivas que se pretende evaluar
en los examinados.

■ En el caso de las pruebas de


aprovechamiento y de habilidades, los
redactores por lo regular trabajan a
partir de una tabla de especificaciones
para asegurarse de que el instrumento
resultante se base en la mezcla
deseada de procesos cognoscitivos y
contenido de los reactivos.
■ Los reactivos de la prueba pueden escribirse
en muchos formatos distintos, incluyendo los
de opción mültiple, de respuesta abierta, de
verdadero o falso y de elección forzada.

■ Las preguntas de aparejamiento, que son


comunes en los exámenes realizados dentro
del aula, son cuestionables desde el punto de
vista psicométrico porque las opciones no
son independientes entre sí.
■ El objetivo del análisis de reactivos es
determinar qué reactivos iniciales deberían
conservarse, cuáles ameritan corrección y
cuáles deben eliminarse.

■ Se dispone de muchos procedimientos


estadísticos para el análisis de reactivos,
incluyendo el índice de dificultad, la curva
característica y el índice de discriminación
del reactivo.
■ El término validación cruzada
se refiere a la práctica de volver
a validar una prueba con una
nueva muestra de examinados.

■ La reducción de la validez se
refiere al fenómeno común en
que una prueba predice el
criterio relevante con menos
precisión en una muestra nueva
que en la muestra original.
■ Las pruebas deben ser sencillas de usar para
recibir gran aceptación por parte de los psicólogos y
educadores.

■ Por ejemplo, resultan especialmente deseables las


carpetas de anillos que en un lado muestran las
instrucciones y en el otro presentan los estímulos
de prueba.

■ Los usuarios también agradecen un manual técnico


detallado que resuma los datos técnicos y la
investigación de validación.

También podría gustarte