1. administración, aplicación y calificación de los tests Sin importar qué tan cuidadosamente se elabore una prueba, los resultados no tienen ningún valor si no se administra y califica ésta en forma adecuada. La necesidad de contar con procedimientos y guías establecidos para administrar y calificar pruebas psicológicas y educativas es reconocida por todas las organizaciones profesionales dedicadas a la evaluación de personas. Una fuente importante de estos recursos son los Standards for Educational and Psychological Testing (American Educational Research Association, American Psychological Association y National Council on Measurement in Education, 1999), una serie de 264 normas para construir, evaluar, administrar y calificar pruebas y otros instrumentos psicométricos, y para interpretar y usar los resultados. Las 16 normas que conciernen específicamente a la administración, calificación y registro de pruebas ponen énfasis en la importancia de tener instrucciones claras para que la administración y calificación se sigan con todo cuidado. Las normas también hacen hincapié en que los materiales de las pruebas deben conservarse seguros, los fraudes han de detectarse y controlarse, y la interpretación de los resultados debe ser clara al leerla.
2. aplicación de los tests
El procedimiento que debe seguirse para aplicar una prueba o cualquier otro instrumento psicométrico depende del tipo de que se trate (individual o colectiva, con tiempo predeterminado o sin éste, cognoscitiva o afectiva), lo mismo que de la edad cronológica, la educación, los antecedentes culturales y el estado físico y mental de los examinados. Cualesquiera que sean el tipo de prueba y las características de quienes se someten a ella, el desempeño también puede alterarse por factores como disposición y motivación del examinado, cantidad de sueño durante la noche previa a la prueba, molestias físicas, angustia relativa a la prueba, otros problemas emocionales, y medicamentos que se estén consumiendo. No sólo la disposición, la habilidad para resolver pruebas y la motivación de los examinados afectan el desempeño, sino también la apariencia y el
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
comportamiento de quien aplica la evaluación, así como la situación. Sobre todo, en el caso de pruebas individuales, son importantes la habilidad y la personalidad del examinador. Quienes administran la mayoría de las pruebas individuales deben tener un título o certificado formal expedido por un organismo gubernamental apropiado o ser supervisados por otro examinador certificado. Estos requisitos contribuyen a garantizar que los examinadores cuenten con el conocimiento y la capacidad necesarios para administrar, calificar e interpretar diversos tipos de instrumentos psicométricos. 3. calificación de los tests Los diseñadores profesionales de tests no esperan a que se elabore y administre una prueba antes de decidir qué procedimiento de calificación usarán. En una prueba realizada por maestros consistente en varias partes que incluyen distintos contenidos o tipos de reactivos, es posible que el maestro quiera obtener calificaciones separadas de las diversas partes, así como un resultado general de la prueba en su conjunto. También debe decidirse si se restará una corrección por adivinar, si se asignarán distintos pesos a la calificación de los diversos reactivos o secciones y si se entregarán los resultados en forma directa o convertidos a otras escalas numéricas. Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones. Las hojas de respuestas pueden calificarse a máquina, y aun cuando se califiquen a mano, pueden usarse plantillas de calificación, proporcionadas por el editor de las pruebas, de acuerdo con las instrucciones incluidas en el manual. 4. análisis de reactivos y estandarización de pruebas Este capítulo aborda dos temas en cierta medida técnicos, pero importantes: el análisis de reactivos y la estandarización de pruebas. Ambos temas tienen que ver con el cálculo de ciertos análisis estadísticos que deben revisarse con detalle para determinar si todos los reactivos de una prueba están funcionando como deberían, y cómo pueden interpretarse las calificaciones de las pruebas. El análisis de reactivos se centra en el funcionamiento de reactivos individuales, mientras que la estandarización de pruebas se ocupa de la interpretación normativa de los resultados de la prueba en su conjunto o de algunas de las partes o subpruebas que la integran. Los temas de este capítulo y del siguiente se
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
tratan, sobre todo, desde la perspectiva de la teoría clásica (tradicional) sobre pruebas, pero no se dejan de lado los enfoques más recientes de la teoría de respuesta al ítem. Tanto la teoría clásica sobre pruebas (CTT) como la teoría de la respuesta a los ítemes (IRT) son útiles para el desarrollo, el análisis y las aplicaciones de pruebas y, dependiendo de la tarea específica, ambas han recibido apoyo. 5. análisis de reactivos Incluso después de haber sido administrada y calificada una prueba, no siempre es seguro que haya funcionado bien. Cuando se pilotea una prueba en un principio, es posible que surjan varios problemas. Ésta es una de las razones de que las pruebas que se distribuyen comercialmente se administren primero a una muestra de personas representativas del grupo que las pruebas están destinadas a medir. Entonces pueden analizarse las respuestas de esa muestra piloto para determinar si los reactivos están funcionando de manera adecuada. Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de los resultados es tan necesario como en medicina o en cualquier otra empresa humana. Entre las preguntas que es preciso contestar figuran las siguientes: ¿fueron adecuados los límites de tiempo? ¿Los examinados entendieron las instrucciones? ¿Fueron apropiadas las condiciones en que se administró la prueba? ¿Se manejaron de manera adecuada las situaciones de emergencia? Es inusual que puedan anticiparse todos los problemas o contingencias que surgen durante un piloteo, pero un análisis posterior puede proporcionar información y motivación para prever y manejar situaciones similares al administrar pruebas en el futuro. El cuestionario de la forma 4.1, que responden los examinados inmediatamente después de haberse sometido a una prueba de aprovechamiento, puede ofrecer información cualitativa sobre las percepciones en cuanto a la imparcialidad de la prueba, si se sentían preparados para ella, si cumplió con sus expectativas o cómo respondieron a los reactivos individuales. 6. estandarización y normas de las pruebas Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en quienes se basa el diseño de un instrumento, son útiles para
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
propósitos de interpretación de calificaciones. Con el fin de cumplir esta tarea, deben estandarizarse la prueba, el inventario, la escala de clasificación y cualquier otro instrumento psicométrico. Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que deben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo. La estandarización también incluye aplicar la prueba a una muestra grande de personas (la muestra de estandarización) seleccionada como representante de la población meta a la que está destinada la prueba. El principal propósito de estandarizar una prueba es determinar la distribución de puntuaciones crudas en la muestra de estandarización (grupo norma). Las calificaciones crudas obtenidas se transforman entonces en alguna forma de calificaciones derivadas o normas. Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y calificaciones estándar. La mayoría de los manuales de pruebas contiene tablas de normas con puntuaciones crudas y cierto tipo de calificaciones convertidas correspondientes.
7. igualación de las pruebas
En muchas situaciones que implican la aplicación y la investigación de
pruebas psicológicas, se requiere más de una versión de prueba. Las formas paralelas de una prueba son equivalentes en el sentido de que pueden contener los mismos tipos de reactivos de igual dificultad y que están altamente correlacionadas. Por lo tanto, las calificaciones que se obtienen en una forma son muy similares a las obtenidas por los mismos examinados en una segunda forma en el mismo nivel de edad o de grado que la primera forma. Desafortunadamente, elaborar pruebas paralelas es un proceso bastante caro y laborioso. Empieza con la preparación de dos pruebas, con el mismo tipo y número de reactivos, que originan las mismas medias y desviaciones estándar cuando se estandarizan en el mismo grupo de personas. Las formas paralelas producidas se igualan convirtiendo las calificaciones de una forma a las mismas unidades que las de la otra forma. Esto puede lograrse, por ejemplo, mediante el método
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
equipercentil de cambiar las puntuaciones en cada forma a rangos percentilares. Entonces se prepara una tabla de calificaciones equivalentes sobre las dos formas equiparando el rango percentilar de p sobre la primera forma a la calificación del rango percentilar p sobre la segunda forma. Al proceso de igualar, o más bien de hacer comparables, dos pruebas del mismo nivel de dificultad (por ejemplo, el mismo grado) se le conoce como igualación horizontal. Esto también puede realizarse verticalmente, como cuando se igualan las calificaciones de dos pruebas con distintos niveles de dificultad (grados diferentes). En general, el proceso de igualar incluye sujetar las pruebas a reactivos comunes o a un banco, como se realizó cada año con la Prueba de Aptitud Académica (SAT) estadounidense. Al usar un conjunto de reactivos en común que eran los mismos que un subconjunto de reactivos en por lo menos una forma anterior de la prueba, las calificaciones de cada forma nueva de la SAT que se aplicaba cada año se igualaban estadísticamente a formas previas en la prueba. 8. confiabilidad y validez Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida con- sistente, o confiable. En consecuencia, una de las primeras cosas que será necesario determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente confiable como pa- ra medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no sea lo suficien- temente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones so- bre su conducta. Hablando en términos estrictos, más que ser una característica de una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas (Thompson, 1994). Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una característica relativamente estable. A diferencia de la inestabili- dad, la falta de confiabilidad es resultado de errores de medición producidos por estados
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
inter- nos temporales, como la baja motivación o la falta de disposición, o de condiciones externas como un ambiente de prueba incómodo o con distracciones.
VALIDEZ
De manera tradicional, la validez se ha definido como el grado en que una
prueba mide lo que está diseñada para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba mide lo que se supone debe medir.
9. utilización de tests en latomade decisiones del personal
Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en determinados puestos para realizar varias tareas. Sin embargo, con frecuencia los procedimientos seguidos para seleccionar, clasificar y ubicar personal han sido azarosos y asistemáticos. Se ha empleado gran variedad de procedimientos para la selección y valoración de personal, muchos de los cuales se basan en la observación casual y la intuición. Por ejemplo, en un tiempo se asignó gran importancia a rasgos físicos como la forma de la cabeza, los movimientos oculares y la apariencia corporal general. El origen étnico, la posición social y las conexiones sociales también influyeron en la determinación de quién era designado para ocupar cierto puesto, contratado para un trabajo específico o aceptado en determinado programa educativo.
10. pruebas de aprovechamiento estandarizadas
Las pruebas de aprovechamiento, definido como el nivel de conocimiento, habilidad o logro en un área de desempeño, son los instrumentos psicométricos más populares. Si consideramos todas las pruebas aplicadas en el salón de clases que elaboran los profesores y todas las pruebas estandarizadas vendidas a las escuelas y a otras organizaciones,
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
el número de pruebas de aprovechamiento aplicadas sobrepasa con facilidad a todos los otros tipos de pruebas psicológicas y educativas. En Estados Unidos, la mayoría de los 50 estados ha establecido como obligatorio que los estudiantes presenten pruebas de aprovechamiento en algunos grados. La mayoría de las pruebas estandarizadas de aprovechamiento aplicadas en las escuelas estadounidenses corresponde a las áreas de lectura y lenguaje, aunque cada año se invierten también millones de dólares en pruebas de matemáticas, ciencia, ciencias sociales y otras materias.
11. fundamentos de los tests de aprovechamiento
Cualquier prueba de habilidad (inteligencia general, habilidades especiales, aprovechamiento) en realidad mide lo que la gente ha logrado. Los reactivos de las pruebas de inteligencia y habilidades especiales, como los de las pruebas de aprovechamiento, requieren que los examinados demuestren algún logro. Las calificaciones en las pruebas de aprovechamiento se utilizan para muchos de los mismos propósitos que las calificaciones en otras pruebas de habilidades generales o específicas. Esos propósitos incluyen evaluación global y diagnóstica de las habilidades del individuo, así como evaluación de la efectividad de los programas educativos y sociales. Las pruebas de aprovechamiento educativo a menudo son mejores predictores de las notas escolares que las pruebas de inteligencia y de habilidades especiales, pero no pueden reemplazarlas por completo. Los logros medidos por las pruebas de inteligencia general son más amplios y son producto de experiencias de aprendizaje menos formales y, por lo regular, menos recientes que los logros medidos por las pruebas estandarizadas de aprovechamiento. La mayoría de las pruebas de aprovechamiento evalúa el conocimiento de algo que ha sido enseñado de manera explícita, por lo que las calificaciones en esas pruebas tienden a estar más influidas por la asesoría que las calificaciones en las pruebas de inteligencia y de habilidades especiales. También puede hacerse una distinción entre las pruebas de aprovechamiento y otras medidas de habilidades cognoscitivas en términos de sus diferentes énfasis. Las pruebas de aprovechamiento se
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
concentran más en el presente, es decir, en lo que la persona sabe y puede hacer ahora. Por otro lado, las pruebas de inteligencia y de habilidades especiales se concentran en el futuro: miden la aptitud para el aprendizaje, es decir, lo que una persona deberá ser capaz de hacer con educación y entrenamiento ulteriores.
12. tipos y selección de los tests de aprovechamiento
estandarizados
Existen cuatro tipos de pruebas de aprovechamiento estandarizadas:
baterías de pruebas de estudio, pruebas de estudio en materias especiales, pruebas de diagnóstico y pruebas de pronóstico. Algunas son pruebas individuales diseñadas para aplicarse a una persona a la vez, pero la gran mayoría son pruebas colectivas que pueden aplicarse a cualquier número de personas al mismo tiempo. El mercado para pruebas muy especializadas en un área temática particular es más bien limitado, por lo que las pruebas estandarizadas de aprovechamiento por lo regular cubren áreas amplias de contenido y tratan con materias de conocimiento general. Debido a que el currículo se vuelve más especializado en los niveles superiores, la administración de pruebas estandarizadas de aprovechamiento es menos común después de la secundaria. 13. baterías de tests de aprovechamiento Las baterías de pruebas de aprovechamiento representan esfuerzos por medir las amplias capacidades y habilidades cognoscitivas cultivadas por las experiencias educativas en áreas centrales. Estas baterías de pruebas de niveles múltiples evalúan destrezas básicas en lectura, matemáticas, lenguaje y, a los niveles apropiados, habilidades de estudio, ciencias sociales y ciencia. Es posible encontrar descripciones de baterías de pruebas de aprovechamiento que están comercialmente disponibles en las diversas ediciones de The Mental Measurements Yearbook, Tests in Print, Tests y Test Critiques, así como en los catálogos de los editores de pruebas. Tales baterías fueron diseñadas para evaluar el aprovechamiento educativo
DAMASIS MARIA FELIZ PACHECO- 2020-3100562.
formal de estudiantes desde el jardín de niños hasta bachillerato, con énfasis en los años de primaria y secundaria. Los programas de exámenes de muchas escuelas se basan en las baterías de pruebas de aprovechamiento aplicadas en otoño y primavera a sus alumnos con el propósito de medir el logro y el progreso educativo general. Los resultados de estas pruebas son de interés para los maestros, padres, personal administrativo, miembros de los consejos escolares, líderes políticos y, por supuesto, para los estudiantes. Una limitación del uso de baterías es que algunas de las pruebas pueden no corresponder a los objetivos particulares de la escuela o sistema escolar. Además, no todas las pruebas en una batería determinada tienen igual confiabilidad o la misma validez de contenido.
14. tests de aprovechamiento en áreas específicas
La aplicación de una batería de pruebas de aprovechamiento tiene
prioridad en un programa escolar de pruebas típico. Cuando se necesita más información sobre el desempeño del estudiante en una materia particular, el procedimiento usual es administrar una prueba específica en esa materia luego de la batería. Esas pruebas específicas de aprovechamiento tienen ciertas ventajas sobre pruebas comparables en una batería. Por ejemplo, el que una prueba específica contenga más reactivos y una temática más amplia que la prueba de una batería de aprovechamiento, le da mayor probabilidad de representar de manera más adecuada los objetivos instruccionales de una amplia gama de aulas y de escuelas. Además, debido a su extensión, probablemente sea más confiable que una prueba comparable en una batería de aprovechamiento.
Calidad metodológica y estándares de publicación de ensayos clínicos en salud y psicología: Teoría y una experiencia de evaluación de calidad de investigaciones