Está en la página 1de 18

Universidad de Concepcin. Facultad de Educacin. Departamento de Currculo e Instruccin.

Gua de Estudio sobre Anlisis de Resultados.

Mdulo: Evaluacin Educacional. Material basado en:


Gagn y Brigge, La planificacin de la enseanza, Editorial Trillas, 1972. Herrera.S Guas de estudio sobre anlisis de resultados. U. de Talca, 1986, F. Kerlinger, Foundations of Behavieral Reseach, 1964. J. Best, Cmo investigar en educacin. Editorial Moravia, 1967. W. James Popham, Problemas y tcnicas de la evaluacin educativa , 1980. Apuntes, guas de estudio sobre la temtica, de la docente del mdulo. Captulo Interpretacin de datos ,

ANLISIS DE RESULTADOS
INTRODUCCIN.
El proceso de anlisis de los resultados de la evaluacin, tendr distinto sentido, si lo hacemos desde la perspectiva tradicional psicomtrica o normativa, que si desarrollamos este mismo proceso desde la perspectiva edumtrica, criterial o formativa.
-1-

En el primer caso importar revisar, grados de dificultad de los temes aplicados, como as tambin la confiabilidad y la discriminacin entre otros. Aspectos que son aplicables fundamentalmente a instrumentos tradicionales como las pruebas escritas, pues stos eran los procedimientos ms caractersticos del enfoque psicomtrico. En consecuencia no son necesariamente coherentes con la gran variedad de procedimientos e instrumentos de evaluacin que se sugiere aplicar desde una perspectiva formativa y comunicativa de la evaluacin. En este ltimo caso interesa ms bien la validez de contenido y esencialmente la validez cognitiva. Por otra parte, existe una diferencia sustancial entre la finalidad que persigue el anlisis de resultados dependiendo del enfoque que lo gue. En el psicomtrico se orienta a comparar el rendimiento del alumno segn su grupo (norma) y en el edumtrico y formativo, se compara el rendimiento del alumno con un criterio preestablecido, basado en lo que se espera que logre (criterial) y se toman decisiones para mejorar el proceso de enseanza aprendizaje en su conjunto, en donde, el instrumento aplicado es un elemento ms. Bien, hechas todas estas precisiones, es el momento de introducirnos en el estudio de esta gua que versar sobre el anlisis de resultados desde la perspectiva psicomtrica, puesto que durante el ao en curso, ya hemos trabajado con ms nfasis una evaluacin de proceso orientado a tomar decisiones para mejorarlo.

Anlisis de resultados en las pruebas tradicionales.

En relacin a la prueba escrita es posible: calcular el grado de dificultad de los temes, conocer la distribucin de nuestros alumnos con respecto a los objetivos verificados en la prueba, saber la nota promedio del curso calculando medidas de tendencias central, planillar la prueba con la finalidad de observar los temes que presentaron mayor o menor dificultad, y entonces analizar si estn mal construidos, si sirven o no para nuestro propsito y, de esta manera, descartarlos y no volver a usarlos, o, en caso contrario, si son adecuados los podemos volver a utilizar con confianza. Una vez realizados los anlisis anteriores, se obtendr informacin sobre el desempeo de los alumnos en la prueba y tambin si el instrumento estuvo bien construido o no.
-2-

Lo anterior en situaciones evaluativas de diagnstico y sumativas, y en las pruebas de clasificacin y seleccin. Sin embargo tambin podemos darle un nfasis formativo al anlisis de estos resultados, an tratndose de herramientas cuantitativas, por ejemplo se puede tomar decisiones en referencia a los objetivos que no fueron logrados por los alumnos, efectuando una evaluacin formativa retroactiva, reforzando con estrategias de enseanza adicionales para enfatizar en aspectos deficitarios con aquellos alumnos cuyo rendimiento no alcanza lo requerido, adems se pueden efectuar mejoras en el material didctico y la metodologa desarrollada por el profesor, pues los malos resultados pudieran deberse a esto y no a que los temes estn mal construidos. En otro orden, tambin se puede efectuar una evaluacin formativa proactiva con aquellos alumnos de altos rendimientos, para afianzar y/o profundizar los conocimientos ya adquiridos.

1.

Distribucin de los alumnos.

Una vez corregida la prueba, el profesor puede preparar usando los resultados, una distribucin de frecuencia. El ejemplo siguiente pertenece a un curso de 40 alumnos que obtuvieron cinco resultados diferentes. Ejemplo: Notas 0 2 4 6 8 2 4 6 8 10 N de alumnos 2 8 20 7 3 40 alumnos

-3-

Con estos datos es posible construir un polgono de frecuencias.


N de alumnos

24 20 16 8 7 3 2 1 2 4 6 Notas de los alumnos 8 10

Figura 1. Cuando obtenemos una curva como la que muestra la figura 1, nos encontramos con una distribucin normal. La curva se llama normal o curva de Gauss. Esta curva no se desva a ningn lado; esto significa que el 50% de los alumnos tuvieron notas distribuidas alrededor de la media aritmtica, 25% por debajo de la media y 25% por encima. Los profesores, podran considerar estos resultados normales, sin embargo si la finalidad es conseguir que todos o la gran mayora de los alumnos alcance el dominio del aprendizaje, se esperara que a lo menos un 80% del curso logre un dominio del aprendizaje, con altas calificaciones, el resultado presentado en la figura 1 ya no sera normal y esperado sino mediocre. Un resultado como el de la figura 1 es ms esperable en la Universidad; no as en la escuela o liceos en donde se espera que todos logren buenos dominios. Un mejor resultado sera el siguiente:

-4-

Notas 0 2 4 6 8 2 4 6 8 10

N de alumnos 1 2 6 19 12 40 alumnos

Polgono de Frecuencia 24 19 16 12 8 6 2 1 0 Figura 2 Tenemos en la Figura 2 una curva desviada hacia la derecha, mostrando que la mayor frecuencia est por encima de 5; esto es, que la mayora de los alumnos obtuvo notas altas. Esta curva puede ser interpretada pedaggicamente de la manera siguiente: los contenidos contemplados en la prueba fueron muy bien enseados por el profesor; la estrategia empleada para que el alumno alcanzara el aprendizaje dio el resultado esperado; pero tambin cabe otro tipo de anlisis referido a que los temes de la prueba pudieron estar mal construidos y tener un grado de dificultad mnimo o ser muy fciles de responder. Este ltimo punto se puede verificar calculando la dificultad de cada tem, como se ejemplificar ms adelante, o usando temes ya validados en otras ocasiones. Realice el siguiente ejercicio! 1 2 4 6 8 10

-5-

Con los datos que aparecen a continuacin, construya un polgono de frecuencia y comente los resultados desde una perspectiva formativa y psicomtrica. Notas 0 2 4 6 8 2 4 6 8 10 N de alumnos 12 15 10 2 1

Finalmente, y en relacin a la distribucin de los resultados de los alumnos, es preciso mencionar que existe otro tipo de curvas, como la bimodal, la que ofrece dos zonas bien delimitadas de concentracin de notas. Esto ocurre cuando el curso es heterogneo con dos grupos de alumnos diferentes en cuanto a rendimiento, localizndose un grupo de notas muy bajas y otro de notas altas. Cuando esto ocurre es necesario atenuar estas diferencias de rendimiento dedicndole ms tiempo y enseanza alternativa al grupo ms dbil, y dando otras tareas que elijan los propios alumnos del grupo avanzado. Lo que en trminos ms actualizados se denominara evaluacin formativa retroactiva en el primer caso y evaluacin formativa proactiva en la segunda situacin.

2. Anlisis de temes.

Al analizar con atencin los temes o mnima parte de una prueba, es posible observar en qu medida han sido resueltos, cunta dificultad han presentado; si sirvieron a su propsito o no; si son fciles o difciles, o si deben descartarse o mejorarse. 2.1. Lo anterior es factible de descubrir al confeccionar una planilla o matriz, adems se obtendr informacin sobre el nmero de objetivos logrados o no logrados y cules son los alumnos que estn en cada situacin.

-6-

Matriz
N.N 1. vila 2. CAris 3. Durn 4. Encina 5. Fresa 6. Grece 7. Hews 8. Krupp 9. Lamas 10. Mari 11. Neira 12. Osorio 13. Prez 14. Quepe Incorrectos 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 0 0 0 1 1 1 1 1 1 1 0 4 4a 1 1 1 1 0 0 1 1 1 1 1 0 1 1 3 4b 1 1 1 1 1 0 1 1 1 1 1 0 1 1 2 4c 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 5a 0 0 0 0 0 0 1 0 0 0 0 0 1 0 12

temes
5b 1 0 0 0 0 0 1 0 0 1 1 0 1 0 9 6 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 7 1 1 1 1 1 0 1 1 1 1 1 0 1 1 2 8 1 1 1 1 1 0 1 1 1 1 1 0 1 1 2 9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 10 1 1 1 1 0 0 1 1 0 1 1 0 1 0 5 Total correc. 12 11 11 10 8 4 13 11 9 12 12 5 13 8

Anlisis de la planilla o matriz. En esta prueba el nmero de temes es 13. Y se ha obtenido que de 14 alumnos que contestaron la prueba, la que tena un criterio de un 60%, 8 puntos, 12 alumnos lograron ese criterio, es decir, un 92% del grupo (o curso). Los temes N5a y 5b son los que presentaron mayor dificultad; definitivamente el objetivo que estas preguntas pretendan medir, no fue logrado por el curso, ya que incluso el alumno vila, que tiene la casi totalidad de la prueba correcta, contest errneamente esos reactivos. El problema tambin puede presentarse en que las instrucciones estn mal redactadas o bien definitivamente la pregunta est mal formulada. Si el ejemplo que aparece en la planilla presentada perteneciera a una prueba hecha con propsitos de Diagnstico o bien para un curso de nivelacin, la informacin que nos entrega sera la siguiente:
-7-

a. Sabramos quines necesitan el reforzamiento o nivelacin (evaluacin retroactiva). b. Cules son los objetivos no logrados, para remediar ese tipo de aprendizajes. c. Qu alumnos necesitan ciertas actividades retroalimentadoras y luego estaran en condiciones de continuar su aprendizaje. Todos los datos anteriores son de importancia bsica para la planificacin, o las decisiones, de un curso de nivelacin o para dar un reforzamiento. En el caso de una prueba formativa, esta matriz nos aclara : a. b. c. d. El logro parcial, total o ninguno de los objetivos. Objetivos que necesitan ms actividades por parte de los alumnos. El estado total del curso y del proceso. Analizar en conjunto con los alumnos a qu se debe, desde su perspectiva, el no logro de algunos objetivos y planear en conjunto acciones remediales en la metodologa de enseanza (profesor) o en los mtodos de estudio (alumnos). ndice de dificultad. Cualquier tem, reactivo o pregunta de una prueba objetiva puede ser evaluada en su grado de dificultad.

2.2.

El parmetro para la dificultad de un tem es de 0. a .. 1; se consideran: temes temes temes temes temes fciles de de dificultad de dificultad de dificultad de dificultad Ejemplo: Si una prueba tiene: 30% de temes fciles. 40% de temes de relativa y mediana dificultad. 30% de temes difciles.
-8-

relativa de media de media de alta de

0 a .. 0.31 0.41 0.61 0.71

0.30 0.40 0.60 para educacin media. 0.70 para educacin superior. 1

Es considerada una prueba muy difcil para cualquier tipo de alumnos. 2.2.1. Clculo del ndice de dificultad: I Dificultad = E e + o (por tem) N Ee +0 N Ejemplo! El tem N5 de una prueba, fue contestado correctamente por 20 alumnos de 30 Qu ndice de dificultad present el tem? I. de dificultad = E e+0 10+0 = 10 = 0,33 N 30 30 * El tem tuvo un ndice de dificultad relativa. = suma de respuestas erradas. = ms omitidas. = poblacin total

2.3. Discriminacin: En el contexto en que estamos trabajando la discriminacin se refiere al grado de diferenciacin producido por una variable o factor. En el caso de un tem, es el grado en que ste permite diferenciar a los alumnos de altos puntajes y rendimientos, de los alumnos de puntajes inferiores, es decir de bajos rendimientos, con el fin de seleccionar a los mejores, esto es con orientacin jerarquizadora. Este tipo de ndice no se utiliza con fines formativos ni procesuales; se trata de clasificar no de mejorar. * El parmetro para este ndice es de -1. 0 .. +1 Un ndice igual o superior a 0.30; significa que tiene poder discriminativo.

-9-

A continuacin aprenderemos a calcular la discriminacin usando el 27% de la poblacin. Se utilizn trminos dicotmicos: correcto (p), incorrecto (q). * Pasos para el clculo del grado de discriminacin de un tem: N 1. 2. 3. 4. 5. 6. 7. 8. = 36 alumnos. Se calcula el 27% de 36 = 9.72 = 10. Se compara el grupo superior con el inferior en cuanto a puntajes. El grupo inferior se determina a partir del puntaje menor de la distribucin. Se contabiliza un total de 10 personas; si hay dos puntajes 9 se cuenta uno de ellos. Se toman en cuenta los casos, no los puntajes, 10 casos no 10 puntajes, los casos representan a las personas que obtuvieron los puntajes ms bajos. El grupo superior se determina desde el puntaje ms alto, en el ejemplo 24. Si hay dos puntajes 24, se toma solamente uno ya que se considera el puntaje de corte. El resto de la poblacin se guarda. SI 27% de N

In/discriminacin =

S = grupo superior. I = grupo inferior. N = poblacin total. Ejemplo: tem N5 S I In/disc. = 10 2 = 0.8 10 Total 10 2 In/disc. = 0.8

En este caso la discriminacin del tem es considerada buena; es alta, se acerca a 1. Este clculo le sirve en especial al profesor que desea tener un banco de temes que discriminen con el propsito de seleccionar los mejores alumnos.

- 10 -

3. Confiabilidad.

Para calcular la confiabilidad se tomarn en cuenta dos aspectos. a. La consistencia de la medicin: Es necesario determinar que la ejecucin del estudiante, al responder o completar un cierto tem elaborado para evaluar un cierto objetivo, sea consistente con su ejecucin en otros temes dirigidos al mismo objetivo; por ejemplo: A un alumno puede pedrsele en una prueba que demuestre su dominio de una regla aritmtica mediante el tem 3m + 2m = 25 m = x Para que la prueba y el tem sean consistentes se necesitan otros temes de la misma clase; por ejemplo: 4m + 3m = 21, 5m + 1m = 36, etc. Si contamos con a lo menos tres temes de la misma naturaleza disponemos de un medio seguro para tomar una decisin confiable acerca del dominio de un determinado objetivo. Es fcil, en algunos casos, emplear ms temes, pero tres parece ser un mnimo razonable, aunque se considera a cinco temes como el nmero ideal para fundamentar una evaluacin confiable de dominio. b. Consistencia temporal: Se refiere a la consistencia de la medida en diferentes ocasiones a travs del tiempo. Se trata de verificar que el desempeo del alumno no sea algo pasajero, sino que forme parte de un aprendizaje permanente. Esto se logra, con eficacia, reiterando los temes en pruebas globales, sumativas e incluso de repeticin. Para determinar este aspecto de la confiabilidad en una prueba, se aplica nuevamente, el mismo instrumento con un intervalo de das o semanas, respecto a la primera administracin de la prueba. Un elevado grado de correspondencia entre las puntuaciones nos indica que la prueba tiene consistencia temporal. 3.1. Clculo de la confiabilidad: para calcular la confiabilidad se trabaja el instrumento como tal; ya no estamos centrados en los temes. Recordemos que la confiabilidad es el grado de consistencia en la medicin.

- 11 -

Kuder y Richardson, psiclogos norteamericanos, idearon procedimientos tiles para el clculo de la confiabilidad, sin tener que optar por repetir dos veces el mismo test, o pasar formas paralelas del test; procedimientos que requieren mucho tiempo de parte del profesor-evaluador. Estos psiclogos inventaron frmulas con las cuales se puede calcular la confiabilidad con una sola aplicacin de la prueba. Estas frmulas se conocen como KR20 y KR21. La base de sustentacin de la KR20 est en el anlisis de la varianza y covarianza existente entre los temes de una prueba. Se parte de las S2 de los puntajes obtenidos por los alumnos en la prueba y el producto total de las pq de todos los temes. Frmula:

K p*q KR20= _____ [ 1- _________ ] k-1 S2

K = Nmero de temes. P = Respuestas acertadas. Q = Respuestas errneas. S2= Varianza de toda la prueba (se obtiene con el puntaje de todos los alumnos). 3.1.1 Procedimiento. 1. Se construye una matriz con los puntajes totales de la prueba por cada uno de los alumnos con lo que calculamos S2. 2. Se determinan las p y las q de cada tem. 3. Se calcula p x q lo que nos dar pq 4. Cada p y cada q se divide por N total.

3.1.2 Observaciones. 1. La matriz debe tener claramente sealado correcto 1, incorrecto 0 (0 + -).
- 12 -

2. Se deben verificar muy cuidadosamente las sumatorias. 3. Tanto p como q se deben aproximar a dos dgitos y verificar la suma de ambos la que debe dar siempre 1 (en caso contrario est mal el clculo). 4. El producto de pq debe expresarse con 4 dgitos, porque ambos estn planteados en trminos de dos decimales. 5. La aplicacin de la frmula depender de los resultados que se obtengan en la matriz. * La confiabilidad se expresa de 0.. a 1 b. Si la confiabilidad es cercana a 1 (0.98 por ejemplo) habr que analizar primero si la prueba efectivamente est correctamente elaborada, o los clculos estn incorrectos. Si el resultado es superior a 1, todo el clculo est incorrecto. c. Puede aparecer un resultado negativo, en tal caso se rechaza el instrumento. d. A nivel de aula de clases , lo comn es aceptar un 0.60 como una buena confiabilidad. e. En el caso de instrumentos de clasificacin y seleccin , como lo es la Prueba de Seleccin Universitaria, la confiabilidad debe ser superior a 0.90. f. La confiabilidad nos sirve, adems, para calcular el Error de Medicin.

4. Validez de los temes.

Si hay concordancia entre el tem y el objetivo que se quiere medir, entonces el tem ser vlido y podremos hablar de validez de la prueba o de bondad de ajuste entre tem y objetivos. Se puede establecer la bondad de ajuste haciendo la siguiente pregunta: es igual la ejecucin que se requiere durante la evaluacin a la descrita en el objetivo, o es lo ms parecida posible en cuanto en cuanto a situacin? Si la respuesta es claramente afirmativa, entonces el tem ser vlido.

El procedimiento para garantizar la validez de una prueba, debe partir de una buena decodificacin del objetivo, en este sentido cobra relevancia la validacin a travs de jueces o expertos que revisamos en clase, que preferentemente deben ser docentes de la misma especialidad.
- 13 -

5. Medidas de tendencia central.

Otro de los clculos que podemos hacer al planillar la prueba, tiene que ver con las medidas de tendencia central. Estas medidas son una manera de interpretar resultados sintticamente y constituyen diferentes mtodos para obtener lo que comnmente se denomina promedio. Una vez calculado el promedio, podemos usarlo para describir el conjunto de datos del cual ha sido tomado; si el conjunto de estos datos fuese representativo de un grupo mayor de dichas calificaciones, es factible usar el promedio para inferir la calificacin tpica de ese grupo. Las medidas de tendencia central son un intento de identificar la calificacin ms caracterstica o tpica de un grupo de calificaciones. Existen tres medidas de tendencia central: la moda, la Mediana y la Media aritmtica o promedio. 5.1. La moda: sta es la medida ms fcil de obtener, pero es la menos til ya que est expuesta a ms fluctuaciones cuando cambian los valores de algunos puntajes. La moda es la calificacin ms repetida en una distribucin.

Ejemplo: Calificaciones 9 8 7 6 5 4 3 2 1 Frecuencia 1 1 3 1 2 3 3 4 2

* La calificacin o puntaje 2 es la moda ya que la obtuvieron 4 personas. 5.2. La mediana: es aquel punto de una escala debajo del cual queda el 50% de los casos. Esta medida no corresponde a una calificacin sino que es un punto que divide la mitad superior de la mitad inferior de los casos de la escala.
- 14 -

Se puede calcular ordenando los puntajes de mayor a menor y seleccionando el valor que separa los puntajes en dos mitades. La mediana no es afectada por los puntajes extremos, por ello es ms exacta que la media y mucho ms precisa an que la Moda. La frmula para calcular la mediana en datos agrupados es la siguiente: G. Sax, 1974, p. 599) Md = L+ (N/2 E fb) Fm Donde: L Efb Fm i N/2 = = = = = Lmite inferior del intervalo que contiene la Mediana. Suma de las frecuencias bajo el intervalo que contiene la mediana. Frecuencia del intervalo que contiene la mediana. Los puntos del intervalo. El puntaje medio. i

Ejemplo: Puntajes 95 99 90 94 85 89 80 84 75 79 70 74 65 69 60 64 55 59 Frecuencia 1 2 4 2 4 4 5 5 4

30

- 15 -

50 54 45 49 40 44 35 39 30 34 25 29 20 24

10 7 3 2 3 2 2 N = 60

Se asume que las frecuencias estn igualmente divididas en cada intervalo y que cada intervalo es de 5 puntos. Un cuarto del intervalo 55*59 es veces 5 = 1.25. No olvide que el punte 54.5 representa el lmite inferior del intervalo que contiene la mediana, ya que los puntajes son variables continuas. Agregando 1.25 a 54.5 obtenemos la mediana que es 55.75. Si aplicamos la frmula a los datos anteriormente tenemos que: 54.5 + (30 29) 5 ( 54.5 + 4 (0.25) ) 5

54.5 + 1.25 = 55.75 Mediana = 55.75

5.3. La media aritmtica: conocido ms como promedio, es la medida que ms se aproxima a lo que comnmente entendemos por promedio. Es la medida de tendencia central ms ampliamente usada y es tambin la ms laboriosa de calcular, ya que se debe calcular con todos los puntajes o calificaciones de la distribucin. Se puede definir como la suma de todas las calificaciones en la distribucin dividida por el nmero total de calificaciones (o nmero de casos).

- 16 -

Frmula : X = Ex N Donde: X x E N = = = = media aritmtica. calificaciones. sumatoria.(el smbolo sumatoria slo lo encontr en ppt, por eso lo escribo as) nmero de casos.

Ejemplo: X 4 12 5 3 9 3 10 7

Ex = 53 N =8

53 = 6.63 8

Total 8 casos

5.4. Anlisis de resultados a travs de las medidas de tendencia central. Al calcular estas medidas el profesor puede darse cuenta de la distribucin de notas en el curso. Puede usar criterios relativos, si as lo desea, referidos a estas medidas. Ejemplo: puede tomar la media como nivel mnimo de eficiencia. El profesor tambin utiliza estas medidas para tomar algunas decisiones respecto a reforzamientos, trato especial al curso o a ciertos alumnos, revisin de toda su estrategia en caso que la distribucin no sea normal o est inclinada negativamente. Tambin, estas medidas le sirven para entregar informacin en Consejos Generales, ante la Direccin del establecimiento donde trabaja, etc. Si la distribucin no es normal y est ligeramente inclinada a la derecha (positivamente inclinada) o a la izquierda (negativamente inclinada), la moda, la media y la mediana tienen diferentes valores; la media tiende a estar localizada hacia el final de la distribucin.

- 17 -

Bibliografa.

Gagn y Brigge, La planificacin de la enseanza, Editorial Trillas, 1972. Herrera.S Guas de estudio sobre anlisis de resultados. U. de Talca, 1986. F. Kerlinger, Foundations of Behavieral Reseach, 1964. J. Best, Cmo investigar en educacin. Captulo Interpretacin de datos , Editorial Moravia, 1967. - W. James Popham, Problemas y tcnicas de la evaluacin educativa, 1980. - Apuntes, guas de estudio sobre la temtica, de la docente del mdulo.

- 18 -

También podría gustarte