Está en la página 1de 7

Conceptos bsicos sobre Anlisis de tem, Datos Estadsticos y Calificacin Sustractiva Introduccin

En la tcnica de evaluacin mediante pruebas objetivas del tipo multiple-choice, se sabe que la dificultad mayor recae en la construccin de tems que respondan a la necesidad de evaluar objetivos de alto nivel cognoscitivo. Es necesario dedicar tiempo y creatividad para que los tems logren reflejar cabalmente el grado de instruccin alcanzado por nuestros alumnos, mas an en aquellos objetivos que implican la comprensin, la aplicacin, el anlisis y an la evaluacin de determinados conceptos por parte de ellos. Sin embargo, luego de un poco de prctica y con la utilizacin de tcnicas que simplifican este proceso, se est en condiciones de redactar muy buenos exmenes de este tipo. Como ayuda en este sentido, podemos decir aqu lo que muchos autores consideran como elementos esenciales a tener en cuenta al momento de redactar este tipo de exmenes: a. b. c. d. e. f. g. Restringir adecuadamente al rea de contenidos especficos a evaluar en cada tem No utilizar tems triviales, ambiguos o gramticamente incorrectos Redactar el tallo del tem en forma positiva, evitando los negativos Proporcionar alternativas plausibles, de similar longitud y estilo en cada tem Asegurar que cada tem posea una inequvoca mejor respuesta para aquellos alumnos que alcanzan el objetivo En lo posible, construir tems que puedan responderse previamente sin necesidad de recurrir a las opciones Utilizar como distractores aquellas respuestas que habitualmente dan los alumnos que no estn suficientemente preparados, tales como: errores conceptuales, fallas de procedimiento, omisin de pasos, equivocaciones comunes, etc.

Al poco tiempo, estaremos convencidos que nuestros tems evalan con gran precisin lo que buscamos. Pero..., es esto cierto?, cmo podemos saber si realmente cumplen con nuestras expectativas, ms all de nuestros deseos?, existen herramientas que nos indiquen, en forma objetiva y simple la calidad de nuestro trabajo? La respuesta es S: Existen instrumentos muy eficaces que permiten conocer, a ciencia cierta, si nuestro trabajo est funcionando como nosotros lo desebamos y, adems, nos brindan pistas sobre cmo hacer para mejorar, en caso de que no colmara nuestras expectativas. Uno de esos instrumentos se llama: Anlisis de tem. Utilizado en forma correcta, le permitir al docente conocer aspectos que antes ignoraba, o que, si lo haca, le demandaban un arduo trabajo obtener. Ahora, gracias a feedbacK, con simplemente pulsar un botn, nuestra computadora se encargar de realizar todos esos clculos que posibilitarn un continuo perfeccionamiento en los mtodos y tcnicas de evaluacin que utilizamos. Para poder entender bsicamente de qu se trata, tenemos que partir basados en la idea que: Ningn tem es perfecto. No importa cunto tiempo y consideracin ste reciba. An aquellos tems cuidadosamente preparados son susceptibles de error humano y, en funcionamiento, pueden comportarse en forma ambigua para los estudiantes, ser muy simples o sumamente dificultosos, o sin potencial de discriminacin (incapaces de medir la diferencias individuales, cuando sea ste el propsito del examen). Razones que impulsan el Anlisis de tem. Los procedimientos de anlisis de tem permiten al profesor descubrir tems que son: ambiguos mal construidos muy fciles o muy difciles no discriminativos El Anlisis de tem puede mejorar la calidad tcnica de un examen al marcar las opciones que estn funcionando en forma incorrecta y deben ser mejoradas o eliminadas. Es, en realidad, un examen al examen. Otro propsito adicional de este instrumento es el de facilitar la instruccin en clase. En exmenes de diagnstico, por ejemplo, el Anlisis de Item identifica las reas donde los estudiantes poseen fallas, proporcionando informacin para el remedio de la situacin. De qu se trata? Si definimos como "calidad de un tem" a la capacidad que posee cada tem para discriminar entre aquellos alumnos que alcanzan el objetivo buscado y aquellos que no lo hacen, el Anlisis de tem nos permite determinar fcilmente el grado con el que esta propiedad se cumple. Pero, adems de esto, permite extraer, utilizando tcnicas estadsticas, muchas otras conclusiones respecto del desempeo de los alumnos y del tem mismo. En qu consiste, bsicamente? En determinar el funcionamiento real de cada uno de los tems o preguntas en un examen, y la frecuencia con que cada una de las posibles respuestas fue elegida por los alumnos. Para ello, divide la clase en tres grupos (Alto, Medio y Bajo) segn las notas obtenidas en ese examen y contabiliza la seleccin efectuada por cada uno de los grupos. Al hacerlo, permite hallar el perfil de alumnos que realizaron una determinada eleccin. A partir de all, deriva las conclusiones que veremos a continuacin.

Debe destacarse, sin embargo que, para que todo esto pueda ser realizado eficazmente, los tems a analizar debern ser elementos vlidos para la medicin de los objetivos educativos que quieren ser realmente evaluados. Adems, cada tem deber ser, fundamentalmente, un elemento de diagnstico, ya que, el conocer cules de las opciones han sido preferiblemente elegidas por los alumnos, ser una pista sobre qu tipo de errores conceptuales poseen esos alumnos, y permitir, de esa manera, generar la accin correctiva apropiada. (Se deduce de lo anterior que, cada opcin distractora, deber no slo ser plausible para quienes no alcanzan ese objetivo sino, adems, reflejar los errores comunes cometidos por ellos). Interpretacin de los datos obtenidos del Anlisis de tem
Vale destacar aqu que todos los parmetros obtenidos mediante feedbacK pueden referirse tanto a un examen determinado (cuando se usa la vista Anlisis de tem en un examen y unidad particular:...

...o, ms general, a lo largo de todos los exmenes en que un determinado tem se us, (en la vista desde el Banco de tems), con el fin de determinar el funcionamiento del tem, sus posibles cambios y la posibilidad de inclusin en futuros exmenes:

He aqu una breve explicacin de cada uno: Grado de dificultad El nivel o grado de dificultad de un tem est determinado por la proporcin de alumnos, respecto del total, que responden en forma correcta una determinada pregunta. Este ndice nos muestra qu tan fcil (valores cercanos a 1) o difcil (valores cercanos a 0) ha resultado la pregunta para el total de esos alumnos.

En forma matemtica:
Grado Dificultad = Cantidad aciertos Total de Alumnos

Vale destacar aqu que feedbacK automticamente detecta el Total de Alumnos que realmente responde los tems para cada Unidad Temtica y, sobre la base de esto, calcula el parmetro. Asimismo, obtiene el Grado de Dificultad para el Grupo Alto y para el Bajo, considerando estos grupos separadamente. Desde el punto de vista didctico, son convenientes tems con Grado de Dificultado entre 0,2 y 0,8. El resto debera rescribirse o descartarse. ndice de discriminacin Otra muy importante caracterstica de un tem es su capacidad para discriminar entre estudiantes de distinto nivel, respecto del objetivo que est siendo evaluado. Este ndice mide qu tan capaz es un tem para medir las diferencias individuales, desde el punto de vista del objetivo evaluado. O sea: ndice Discrimina cin = G. Dif . Grupo Alto G. Dif . Grupo Bajo Observe aqu que un tem puede discriminar en forma negativa. Esto es, el grupo de alumnos con menor calificacin pudo responderlo correctamente en mayor proporcin que aquellos ms capacitados. Esto es una contradiccin en s misma y, debe alertarnos sobre la calidad de ste tem. Se considerarn aceptables tems que posean un ndice de Discriminacin positivo y mayor a 0,30. Varianza El parmetro que determina la capacidad de un tem en separar o dividir un grupo de alumnos segn sus conocimientos, respecto del objetivo o tema evaluado, se denomina Varianza. Se calcula as: 2 = Proporcin Respuestas Correctas Proporcin Respuestas Incorrectas Y, por lo tanto, su valor estar comprendido entre 0 (lo que implica que todos los alumnos contestaron el tem en forma correcta o, que todos lo hicieron en forma incorrecta diferenciacin nula) y 0,25 (cuando la mitad lo hizo en forma correcta y la otra mitad incorrecta mxima diferenciacin). Aqu es conveniente que los tems logren un valor de 0,16 o mayor. Ambigedad Una muestra de la ambigedad de un tem sucede cuando los estudiantes pertenecientes al grupo alto seleccionan una opcin incorrecta con la misma, o con mayor frecuencia, que la correcta. La ambigedad definida de esta forma es la imposibilidad para los estudiantes ms preparados en discriminar entre una alternativa correcta y otra u otras, juzgadas por el profesor, como incorrectas. Un tem ambiguo puede tambin ser definido como aquel que permite que ms de una alternativa sea juzgada como correcta por un grupo de expertos. Desafortunadamente, el Anlisis de Item no puede revelar si la ambigedad resulta como consecuencia de una falta de conocimientos sobre el objetivo evaluado o del hecho de que el tem est mal construido. Cuando los estudiantes del grupo alto seleccionan una opcin correcta y una incorrecta con aproximadamente la misma frecuencia, el tem es ambiguo, ya sea porque los estudiantes no alcanzan el objetivo o porque las opciones son escritas en forma inadecuada. Cul de estas razones es aplicable a un tem dado, puede determinarse al examinar las opciones incorrectas ms frecuentemente elegidas, y analizar si ms que una respuesta puede ser justificada o hallada como correcta. A continuacin, puede ver una de las pantallas que utiliza feedbacK para detectar esto:

Error en la asignacin de la respuesta correcta ste es otro error comn que debe ser corregido antes de devolver la clasificacin a los estudiantes. Una forma de detectar errores potenciales de este tipo, es examinar las respuesta de los estudiantes del grupo alto de la clase. Una opcin incorrecta seleccionada por un gran nmero de estos estudiantes sugiere un error y, debe verificarse para diferenciarlo de una falla ms grave, cual sera la existencia de un error conceptual en aquellos alumnos con mejores notas. Respuesta al azar Algunas veces los tems inadvertidamente contienen informacin que los estudiantes an no han adquirido, otras veces pueden ser muy difciles o demasiado triviales de modo que los estudiantes no tienen idea de cmo responder. Cuando alguna de estas condiciones ocurren, los estudiantes del grupo alto de la clase son impulsados a responder al azar, dado que todas las alternativas se muestran igualmente plausibles para ellos. Si los estudiantes no tienen idea de la respuesta correcta, ellos tienden a distribuir sus elecciones, con aproximadamente igual frecuencia entre todas las alternativas. ste tipo de respuesta puede ayudar a los profesores a detectar tpicos que no son claramente entendidos por los estudiantes. Funcionamiento de las opciones distractoras Con exmenes del tipo en cuestin, nosotros no conocemos si los distractores funcionan correctamente hasta no realizar un anlisis luego de corregir el examen. La frecuencia con que cada opcin correcta es seleccionada por los alumnos es una medida de la dificultad el tem y ya ha sido presentada. Nosotros estamos interesados ahora en determinar la frecuencia de seleccin que poseen las opciones distractoras, o sea, las incorrectas. Si un distractor es seleccionado muy pocas veces o no es seleccionado, esto puede ser indicativo de que el distractor no est funcionando como distractor y deber ser reemplazado por una opcin ms atractiva. Por otra parte, si algn distractor es seleccionado con demasiada frecuencia, esto causar que el tem sea muy dificultoso. Dicha opcin deber revisarse, disminuyendo su "atraccin" o aumentando la de alguna o algunas de las otras opciones, con el fin de solucionar el problema. Funcionamiento del Examen en su conjunto Existen varios parmetros que permiten obtener pistas sobre la calidad de TODO el examen. De entre ellos, feedbacK obtiene los siguientes (para cada examen o unidad temtica en el que ste se ha dividido): Dificultad Media Es el promedio de los valores del Grado de Dificultad de los tems del examen o unidad considerado. Nos brinda una idea rpida sobre qu tan fcil o difcil ha sido todo este examen para los alumnos. Un valor adecuado estara entre 0,30 y 0,70. Discriminacin Media Es el promedio de los valores de ndice de Discriminacin de los tems del examen o unidad considerado. Rpidamente nos muestra, en forma global, qu tan bien ha discriminado el examen entre alumnos del grupo alto respecto del bajo. Valores aceptables para este parmetro son aquellos positivos y mayores a 0,40. ndice de Confiabilidad ste ndice tiene que ver con la estabilidad de los resultados obtenidos. Puede ser empricamente establecido mediante la administracin de un nuevo examen y la correlacin de ambos resultados. Sin embargo, esto no es posible habitualmente, por lo que se utilizan tcnicas estadsticas para hallar este valor. Por ser una de las ms precisas, feedbacK estima la confiabilidad de un examen mediante el mtodo de KUDER RICHARDSON denominado K-R 20, cuya frmula es: p q k 1 K R 20 = 2 k 1 en donde: k es la cantidad de tems; p es la proporcin de respuestas que son correctas para cada tem; q es la proporcin de incorrectas y 2 es la varianza. Se considera aceptable un ndice de Confiabilidad mayor a 0,64. Una de las formas en que este ndice puede ser mejorado en el futuro es aumentando el nmero de tems incluidos en el examen. Otras de las formas es el de restringir el nmero de objetivos evaluados en un mismo examen.

Se han presentado solo algunas de las posibilidades que brinda esta tcnica en el perfeccionamiento de la interpretacin y construccin de los exmenes. Para mayor informacin, consulte la bibliografa o contacte al fabricante 6

Estadsticas
A continuacin, describiremos otra de las herramientas disponibles: Las Estadsticas Descriptivas Bsicas del Examen. Ellas nos ayudarn a determinar la calidad general de cada uno de nuestros exmenes. Tambin nos permitirn situar a cada alumno en forma relativa respecto del resto de la clase. En el Sistema feedbacK esto puede hacerse tambin por cada Unidad Temtica. Cada vez que un examen es corregido, el sistema realiza el clculo de los siguientes parmetros estadsticos: Los siguientes parmetros nos permiten obtener una estimacin de la tendencia central o promedio del curso en cada evaluacin: Calificacin Promedio Obviamente, permite conocer la media aritmtica de las calificaciones y, por lo tanto, conocer rpidamente si un alumno se encuentra por arriba o por debajo de sta. Mediana Si ordensemos las notas obtenidas de menor a mayor, aquella nota que se encuentra en la mitad de ese ordenamiento se denomina Mediana. En otras palabras, el punto donde la mitad de las notas estn por debajo y por arriba de ella. Esta nos da una mejor idea sobre el promedio cuando existen algunas notas que estn en los extremos, ya que minimizan su influencia.

Moda Esta es la calificacin tpica o ms comn del examen o unidad. Es la nota ms representativa de ese grupo de exmenes. Los siguientes son parmetros que permiten conocer la variabilidad o dispersin entre las calificaciones obtenidas: Rango: Es la diferencia entre las calificaciones extremas obtenidas: La nota mayor menos la menor. Es una simple muestra de la dispersin de los resultados. Desviacin Estndar: Es una indicacin de cun diferentes o separados son los valores de las calificaciones obtenidas respecto del promedio. Es otra manera de encontrar la dispersin de los resultados. Valores cercanos a 0 indican resultados muy similares entre s. Por el contrario, a mayor valor, mayor dispersin. El siguiente es un grfico que permite conocer la frecuencia de distribucin de las calificaciones obtenidas: Histograma Es un grfico que muestra la relacin entre las calificaciones obtenidas y la cantidad de veces que cada una ellas se obtuvo.

Aclaracin: La altura de las barras es proporcional a la frecuencia de obtencin de cada nota. Podr obtenerse respecto de un examen o unidad particular, respecto de todos los exmenes y, como el caso que se muestra, las de un alumno en particular, respecto del resto del curso. (Las calificaciones se consideran de 10 en 10, sobre una base de 100 puntos). Tiene como objetivo el detectar el tipo de distribucin de las calificaciones. En un caso normal, debera producirse una distribucin del tipo campana de Gauss. Si este no es el caso, puede deberse a que la evaluacin fue muy fcil y obtenga un histograma con forma de J o, muy difcil, si posee la forma aproximada de una L.

Calificaciones:
Finalmente, analizaremos la influencia que tiene el azar en las calificaciones obtenidas mediante este tipo de exmenes. Para contrarrestarlo, poseemos la tcnica de la Calificacin Sustractiva. Supongamos que construimos un examen de 100 preguntas con tems del tipo Verdadero Falso, y se lo administramos a un grupo de monos. An sin tener la menor idea del contenido del examen, cualquier grupo (an los monos), es perfectamente probable que obtenga un puntaje de 50, al responder correctamente la mitad de las preguntas. Esto, claro est, porque esa es precisamente la probabilidad de acertar al azar este tipo de tests, con slo dos opciones. Supongamos ahora que utilizamos un sistema de calificacin que tenga en cuenta la probabilidad de acertar al azar. El que adoptaremos se denomina calificacin sustractiva y consiste en asignar un punto por cada respuesta correcta y restar una cantidad dependiente del nmero de alternativas, por cada respuesta incorrecta dada, para compensar la respuesta al azar. Para el caso del ejemplo anterior, se otorgara 1 punto por cada respuesta correcta y se restara 1 por cada incorrecta. Siendo as, un alumno preparado obtendra 100% y, en cambio, uno sin preparacin, contestando al azar, 0%. Todos los intermedios lograran resultados entre esos porcentajes. Esto, considerado tems de dos alternativas. A medida que la cantidad de stas aumenta, disminuye, en la misma proporcin, la probabilidad de acertar al azar. (Por ej., para una evaluacin tpica con el Sistema feedbacK, de 25 preguntas con 5 opciones cada una, la probabilidad de aprobar este examen (obtener 60 puntos), suponiendo un puntaje uniforme, es de una en 30.000 millones!) Esto se ve reflejado con este mtodo, en el hecho de una menor cantidad a restar por cada respuesta incorrecta. Por ejemplo, en el caso de tres alternativas, podra otorgarse 2 puntos por respuesta correcta y restarse 1 por incorrecta. Y as sucesivamente, tendramos la manera de obtener la calificacin segn el nmero de alternativas de cada tem:
Puntaje final = Respuestas correctas C Respuestas incorrectas C n1

Siendo C el valor asignado a cada respuesta correcta y n el nmero de alternativas de cada tem. (Por supuesto, feedbacK obtiene sta y la calificacin normal en forma automtica. Es el docente quien decide su empleo.)

Aqu una muestra de cmo se presenta en el programa:

Conclusin
Como se ha visto, todos son, en esencia, instrumentos que nos proveen de informacin y, como se sabe, a mayor informacin, mejor decisin. Est en nosotros, los docentes, hacer un uso apropiado de estas tcnicas, aprendiendo continuamente a instrumentarlas y a perfeccionar sus conclusiones, en el objetivo permanente de lograr un mejor nivel en nuestras evaluaciones. Las herramientas comentadas brevemente aqu forman parte de feedbacK, Sistema de Generacin y Correccin Automtica de Exmenes escritos, un software y hardware que, por su muy bajo costo, est disponible para cualquier docente que desee obtener toda esta informacin con el mnimo esfuerzo. Los exmenes son ledos en forma automtica y, todo el trabajo de clculo y presentacin lo realiza la computadora, de modo que el docente puede ahora dedicar mayor tiempo a la interpretacin y anlisis de los resultados obtenidos, con el fin de mejorar continuamente sus evaluaciones. Con este fin, el programa se vale de mltiples grficos y tablas que configurables para su mejor visualizacin e impresin. En un formato de muy simple uso, con una pantalla por accin (a modo de Asistente), el programa lo gua, paso a paso, por cada tarea. Los creadores del sistema han tenido en mente todos estos objetivos que, estn seguros, contribuirn a una mejora sustancial en la manera en que nuestros docentes evalan los conocimientos de sus educandos.

Bibliografa y forma de contactarse


CORTADA DE KOHAN, Nuria: Teoras Psicomtricas y Construccin de Tests. Bs As, 1999. Lugar Editorial DELGADO, Kenneth: Evaluacin y Calidad de la Educacin. Bogot, 1996. Coop. Editorial Magisterio RODRGUEZ ARIAS, R.: Psicometra. Teora de los Tests Psicolgicos y Educativos. Madrid, 1995. Sntesis. TYLER, A. : Tests and Measurments. NY, 1959. Prentice Hall EMSLIE, J. and G.: Using Statistical Criteria to Improve Classroom Multiple-Choice Tests. Toronto, 2002. Para mayor informacin, enve un mensaje a: sistema_feedback@arnet.com.ar o vaya a www.sistemafeedback.com.ar , donde encontrar las ltimas novedades.

A continuacin, las caractersticas salientes del Sistema feedbacK: Utilidad. Integracin de los mdulos para facilitar al mximo la tarea de administracin de los exmenes y tests: Diseo de Preguntas, Creacin de Exmenes, Impresin, Correccin y Anlisis de Resultados. Todos los datos permanecen almacenados y disponibles para uso futuro. Celeridad. Permite corregir en forma automtica las evaluaciones de un curso completo en menos de 5 min! Accesibilidad. Muy bajo costo. Est pensado para que todo docente pueda utilizarlo. Mltiples configuraciones facilitan la adquisicin a cualquier interesado. ptima relacin Costo/Beneficio. Primer sistema de estas caractersticas realmente accesible al usuario individual. Simplicidad. Uso intuitivo. Pantallas con guas paso a paso para cada una de las tareas, a modo de Asistente. Una pantalla por accin. Ayuda contextual en forma grfica. Completo y prctico Manual del Usuario. Multiplicidad de Anlisis. Adems de las calificaciones, podr obtener, en segundos, estadsticas tales como: Media, Mediana, Moda, Rango, Mximo, Mnimo, Desviacin Estndar, Histogramas; Rendimiento sobre cada Tema u Objetivo y Taxonoma Cognitiva para cada alumno y para el curso completo, Seguimiento Cronolgico de Calificaciones; Anlisis de tem: Dificultad y Discriminacin Medias del examen, ndice de Confiabilidad K-R 20; de Dificultad, de Discriminacin y Varianza de cada tem; grficos de proporcin de eleccin de cada alternativa y mucho ms... Interactividad. Las diversas bases de datos son actualizadas simultneamente luego de cada evaluacin. Evolucin Continua. Posibilita un mejoramiento progresivo de las evaluaciones ya que, luego de cada examen, en forma automtica se actualiza la informacin referente al funcionamiento de cada uno de los reactivos empleados. Esto le permite detectar las fallas, corregirlas y adoptar a futuro los de mejor desempeo. Modularidad. Permite adaptar sus capacidades a la medida de las necesidades de cada usuario en particular. Adaptabilidad. Puede usarse en forma individual o compartida con otros docentes de la institucin. Funcionalidad. El software funciona an sin el Dispositivo Lector y en una PC propia o compartida. Seguridad. Todos los datos estn protegidos y son confidenciales.

Compruebe stas y muchas otras ventajas que nuestro sistema le brinda! Descargue el programa y prubelo SIN CARGO!
Podr tambin consultar otros artculos tales como: Consejos para redactar tems; Ventajas y desventajas de este tipo de exmenes, Cmo evaluar niveles de actividad intelectual ms elevado y otros que seguramente sern de su inters.

No deje de visitarnos. Lo esperamos en www.sistemafeedback.com.ar