Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mientras que la mayoría de los atributos físicos (altura, peso, color de piel, etc.) resultan
directamente medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa (Garrido, Olea,
Ponsoda, & Abad, 2006). Los tests, cuestionarios o inventarios inciden para poder cuantificar
dichos atributos. En estos tests, se toma en consideración el tipo de prueba y los propósitos de
esta. La planeación de una prueba incluye varios aspectos como es el de definiciones claras de
las variables o constructos que van a medirse, descripción de las personas que serán evaluadas,
el ambiente e información concerniente a la calificación, interpretación de puntuaciones y el
uso de los resultados. En la tabla 1, le mostraré las diferentes pruebas y su parámetro.
Tabla 1 Características de pruebas
Planeación de una prueba
Pruebas de observación
Análisis detallado de las actividades
Incluir incidentes cruciales
Se trabaja con una muestra de los comportamientos necesarios
Pruebas de Inteligencia
Reunir reactivos acordes al constructo "inteligencia"
Reactivos deben ser elaborados en base a una teoría específica del constructo
Pruebas de rendimiento
El resultado no se limita a la motivación y evaluación de estudiantes
Proporciona información concierne a la medida de objetivos
Para crear una buena planificación es necesario tener claro en primer lugar: el área de
aprendizaje; en segundo lugar, que los objetivos estén correctamente planteados; en tercer
lugar, las herramientas de evaluación sean las adecuadas y por último determinar las
actividades a realizar. También es necesario considerar cuestiones practicas como el costo, el
tiempo disponible para la administración, la disposición de los reactivos y las condiciones de
la prueba. Un sistema estándar es el conocido como la “Taxonomía de objetivos cognoscitivos”
de Bloom donde los objetivos se presentan de más simple a complejo (Conocimiento,
comprensión, aplicación, análisis, síntesis y evaluación). Otra taxonomía es la de Gerlach y
Sullivan donde se enfatiza la conducta del examinado en la identificación (pertenecer a una
categoría); nominación (etiqueta verbal para un referente); descripción (reportar categorías
relevantes de objetos, eventos, propiedades o relaciones); elaboración (crear un producto
específico); ordenamiento (ordenar dos o más referentes); demostración (realizar acciones para
cumplir una tarea específica). Otra taxonomía es la del dominio psicomotriz de Harrow que
son movimientos reflejos, básicos fundamentales, hábiles, habilidades perceptuales, físicas y
comunicación discursiva. La aplicación de estas taxonomías debe ayudar al planificador a ir
más allá de una simple evaluación de reconocimiento o memoria, pero más orientado a medir
los objetivos de orden superior y reflexivos. Hay que reconocer que algunos reactivos son
apropiados para medir aspectos específicos por lo que, los reactivos de respuesta corta pueden
medir el conocimiento de la terminología, pero incapaces de medir habilidades cognoscitivas
de orden superior. Por esto, el uso de una tabla en base a las taxonomías oportunas es una
recomendación.
La preparación de los reactivos de los tests tiene una meta y es la de preparar un esquema
detallado de como el de la tabla de especificaciones que servirá como guía para poder elaborar
los reactivos con los que se evaluará los objetivos. Existen varios métodos para clasificar los
reactivos como son en completamiento o llenado contra selección, recuerdo contra
reconocimiento, y construcción de respuesta contra identificación. Otra clasificación es el de
reactivos de ensayo (son del tipo de completamiento o llenado, donde la respuesta se construye
en lugar de identificar) contra objetivo (puede ser llenado o selección, pero depende de la
instrucción de la prueba si se construye o selecciona la mejor respuesta) y este último tiene un
rasgo de ser objetivo al momento de calificarse. A continuación, mostraré una tabla con los
reactivos de los tipos de pruebas.
Tabla 2 Ventajas y desventajas
Reactivos de pruebas
Pruebas Ventajas Desventajas
Insuficiente para determinar
Medir habilidad personal;
conocimiento de la materia;
Ensayo menos tiempo de elaborar;
susceptibles al engaño;
reduce la adivinación
calificación subjetiva
Inapropiados para medir
Elaboración sencilla; objetivos complejos;
Respuesta corta
respuesta rápida calificaciones no es 100%
objetiva
Escritura y lectura rápida; Alienta la memorización;
Verdadero y falso muestreo amplio del ambiguos y no miden objetivos
contenido de la materia instruccionales complejos
Elaboración sencilla; cubre Usualmente solo miden la
Aparejamiento
material de manera eficiente memorización de acontecimiento
Versátiles; miden logros de Difíciles de elaborar; enfatizan el
aprendizaje simples y reconocimiento más que el
Opción múltiple
complejos; adivinación es recuerdo; mas tiempo de
reducida respuesta
1
Cuando el planteamiento de uno proporciona una señal para la respuesta del otro.
2
Cuando es necesario conocer la respuesta a uno de ellos para llegar a la respuesta correcta del otro.
importantes, evitar negativismo, ambigüedad y reactivos capciosos. Para los reactivos de
aparejamiento se debe ordenar los troncos de forma clara y lógica, dos o 3 opciones de
respuestas, y de sebe colocar el reactivo en una sola pagina. En el caso de reactivos de opción
múltiple, hay un factor importante aparte de seguir los lineamientos (moderar expresiones,
todos los reactivos deben ser del mismo extensor, 4 o 5 opciones, evitar preguntas literales de
textos) que es la experiencia, que incluso haber realizado una buena investigación sobre el tema
no garantiza una elaboración optima.
De igual forma, para la elaboración de reactivos de opción múltiple hay que reconocer
elementos como son los distractores (opciones incorrectas) que, en dado caso, deben emplearse
con un enfoque racional (demanda que el profesional formular juicios personales concernientes
a distractores apropiados) y a diferencia está en enfoque empírico (consiste en seleccionar
distractores más populares de las respuestas incorrectas). Las opciones como todas las
anteriores, dos de las anteriores son maneras de poder dificultar la elección del examinado.
Todas estas técnicas están para facilitar el proceso de elección correcta de reactivos.
Antes de formar una prueba, debe tomarse decisiones a varios asuntos como se muestra en el
siguiente cuadro:
Tabla 3 Formación y reproducción de una prueba
Consideraciones para la formación de una prueba
Extensión de la prueba
Cantidad de reactivos función tiempo, grado y nivel de lectura
Conceder un minuto a cada reactivo
Las características individuales para predecir el tiempo de prueba
Ordenamiento de los reactivos
Opción múltiple Ordenar sin llevar un patrón, alfabéticamente
Aparejamiento o reordenamiento Proporcionar espacio suficiente para las respuestas
Prueba total Agrupar reactivos del mismo tipo
Hojas de respuestas
Utilizar un cuadernillo de respuestas o SCANTRON
Instrucciones en los tests
Se deben colocar al inicio de la prueba de manera específica para cada parte de la prueba
Leer en voz alta las instrucciones, el propósito de la prueba, tiempo, calificación y el tipo
de ayuda
Permitir preguntas a fines; sugerencias a respuestas
Las pruebas orales son muy consideradas por los profesores de idiomas, arte u otra formación
que requiera la voz, pero estas pruebas son subjetivas, resultas ineficientes y su principal fuente
de error son los examinadores o evaluadores. Una de las ventajas es:
1. Interacción social
2. Reduce fraude
3. Fomenta el proceso cognitivo y comunicativo
4. Tiempo de preparación de la prueba es menor a la escrita
Es cierto que las pruebas orales, escritas, de ensayo, y demás pueden proporcionar
información indirecta de una habilidad de una persona, pero el conocimiento de como hacer
algo no es lo mismo que poseer una destreza para ello, por lo que una prueba de desempeño
sería factible en estos casos. En este caso, una prueba de ejecución3. Es útil elaborar una lista
de conductas deseadas, debe concentrarse en el producto final y en la forma en que se realiza
y estas requieren mas tiempo que la escritas.
Capítulo IV
“Análisis de reactivos y estandarización de pruebas”
Participante: Manuel Hernández 2019-00021
Facilitadora: Beantnik Dotel
Materia: Teoría de los Tests
Mayo 15, 2020.
Al momento de diseñar una prueba, hay que analizar si los reactivos son ineficientes o
adecuados para ser considerado como hábiles para una evaluación de un criterio en específico,
reconocer el propósito de esta (pruebas de dominio) y tener presente que las habilidades y la
personalidad difieren entre personas. Para lograr esto, se puede implementar una prueba piloto
que muestre los resultados de una muestra y luego se determina si los reactivos funcionan
adecuadamente. Los objetivos de realizar un análisis son
1. Contribuir a mejorar la prueba.
2. Proporcionar información diagnóstica sobre lo que saben los no examinados.
El análisis conlleva a determinar el porcentaje de examinados que contestan correctamente un
reactivo con referencia al criterio a medir reconociendo el índice de dificultad4 y
discriminación5 del reactivo que dado caso de que este último sea bajo, debería ser descartado.
Uno de los mecanismos para determinar si un reactivo funciona puede ser la curva
característica del reactivo (CCI). Esto ayuda a conseguir detalladamente el nivel de dificultad
y el índice de discriminación del reactivo a evaluar.
Dentro de los factores que afectan el funcionamiento de los reactivos están los sesgos, las
características de los examinados (etnicidad, genero, edad, situación socioeconómica). De igual
forma, los reactivos deben ser consistentes con el criterio a evaluar en el caso de que se utilice
una fuente externa. Otro aspecto para considerar en el análisis son los distractores, que estos
en término básico serían las respuestas incorrectas en un examen de selección múltiple. El
método más sencillo para determinar si un distractor funciona es contar la cantidad de veces
que se ha seleccionado como respuesta y, que deben ser elegidos por una cantidad considerada
de personas.
3
Son aquellas en la que los estudiantes son instados a realizar una determinada actividad motora para
comprobar el dominio de ciertas habilidades, destrezas y competencias, así como la aplicación de los
conocimientos adquiridos (Ministerio de Educación Pública, 2020).
4
Indica la facilidad o dificultad de un reactivo para un grupo de individuos.
5
Medida de efectividad con que un reactivo discrimina entre los examinados quienes obtiene altas o bajas
calificaciones.
Como se apreció en la clase pasada, hay diversas pruebas tanto estandarizadas como no
estandarizadas y cada una de ellas llevan una normativa. Las pruebas estandarizadas tienen un
objetivo inicial que es el de determinar la distribución de puntuaciones crudas6 en la muestra
de estandarización y también medir un número cuantioso de individuos con el propósito de
interpretar calificaciones. Estas calificaciones varían dependiendo de edad, grado, y rangos.
Según Aiken, “Las normas calculadas a partir de las puntuaciones de prueba obtenidas
conforman un marco de referencia para interpretar puntuaciones alcanzadas por personas que
después se someten a la prueba” (Aiken, 2003). Estas normas se la detallaré más adelante.
Las normas indican la posición de una persona referente a la calificación tomando en cuenta la
edad cronológica, el grado, sexo u otros atributos. Para niños especiales se le aplica una prueba
fuera de nivel que posee normas distintas como la batería de Kaufman.
Luego de obtener las calificaciones de la muestra, hay que identificar los atributos o
características de dicho grupo (edad, sexo, etnicidad, nivel socioeconómico, cultura,
educación) con referencia a las normas y a la fecha en que se realizó la prueba. La manera en
que se selecciona una prueba varía desde una forma sencilla a compleja, como son:
Tabla 4 Opciones para seleccionar una muestra
Tipos de muestreos
Muestreo aleatorio sencillo
Todos tienen la misma probabilidad de ser seleccionados
Esto no garantiza representatividad
Muestreo aleatorio estratificado
Se categoriza la población por sexo, edad, región, economía
Se reduce el sesgo o una muestra atípica
Mejor interpretación de calificaciones
Muestreo por grupos
Mejor forma de representar una muestra
Económico
También se ha propuesto otras formas como es el muestreo de reactivos que consiste en aplicar
muestras de reactivos a muestras distintas de personas seleccionadas al azar y resulta ser
eficiente ya que las normas obtenidas por este método son similares al proceso tradicional. A
continuación, le mostraré los tipos de normas.
Normas de edad y grado
Edad: Edad cronológica; Grado: Nivel de grado específico
La edad se expresa en 12 intervalos de un mes y el grado en 10 intervalos de un mes. Ambos
tienen desventajas como es la desigualdad en progresos cognoscitivos, psicomotores y
afectivos; errores en la consistencia de evolución de capacidades al próximo año escolar y, en
el grupo de grado, se tiende a omitir las calificaciones en función de la edad modal.
Normas percentiles: permiten ubicar el rendimiento de un individuo en relación con la muestra.
Normas de calificación estándar: representan una medición en intervalos y las puntuaciones
son convertidas con la media y la desviación estándar deseada.
6
Número real de respuestas dadas o de puntos obtenidos por un grupo o individuo.
Dentro de estas normas están:
Calificación 𝓏: compara resultados de distintas poblaciones. Sencillamente es la diferencia o
!"!̅
distancia entre la media de un grupo y cualquiera de las calificaciones individuales. 𝑥 = 𝒮
Calificación Z: es más fácil de calcular que la z y es producto de la multiplicación de z por una
constante. 𝑍 = 10𝓏 + 50
Calificación CEEB: es producto de la multiplicación de z por 100 y opera con una media de
500 y desviación de 100. 𝐶𝐸𝐸𝐵 = 100𝓏 + 500
Calificación Wechsler: se obtiene un puntaje bruto, estándar, CI y coeficiente de eficiencia
con una operación de media 10 y desviación de 3 en caso específico. 𝐶𝑖 = 15𝓏 + 100
Calificación estándar normalizada: Método de transformación de puntuación para comparar
resultados.
Otra escala de calificación es la estanina, aunque no es una verdadera escala de calificación,
esta posee una ventaja que representa rangos7 más que puntos específicos, dígase, contribuye
a que se equilibre la forma de medición. Esto reconoce que las calificaciones de evaluaciones
psicológicas o educativas no son en su totalidad exactas, mas bien están sujetas a errores.
En otro ámbito, pero similar, en ocasiones es necesario realizar una versión de prueba distinta
de reactivos, pero similares en tamaño con el propósito por lo que se conoce como vinculación
según la IRT. Dentro de este modelo, se puede igualar pruebas por dos métodos, el
equipercentil (convierte las unidades de calificación de una prueba en unidades de otra paralela
en rangos percentirlares) y por igualación horizontal y vertical (proceso de igualar o comparar
dos pruebas del mismo nivel).
7
La posición relativa de una calificación cruda a lo largo de la curva normal.
“Teoría de respuesta a los ítems”
Participante: Manuel Hernández 2019-00021
Facilitadora: Beantnik Dotel
Materia: Teoría de los Tests
Mayo 17, 2020.