Está en la página 1de 9

Traducido del inglés al español - www.onlinedoctranslator.

com

Predicción temprana y dinámica del rendimiento estudiantil en cursos


de aprendizaje electrónico utilizando redes neuronales

Ioanna Lykourentzou, Ioannis Giannoukos, George Mpardis, Vassilis Nikolopoulos y Vassili


Loumos
Laboratorio de tecnología multimedia, Escuela de Ingeniería Eléctrica e Informática, Universidad Técnica
Nacional de Atenas, Campus Zographou, 15773 Atenas, Grecia. Correo electrónico: {ioanna, igiann, gmpardis,
vnikolop}@medialab.ntua.gr; loumos@cs.ntua.gr

La creciente popularidad del e-learning ha creado la necesidad de introduciendo herramientas y métodos innovadores. Estas
mecanismos precisos de predicción del rendimiento de los innovaciones pueden incluir mecanismos para adaptar el nivel de
estudiantes, que permitan a los instructores mejorar la eficiencia de
dificultad de los ejercicios, organizar a los estudiantes en grupos
sus cursos al abordar las necesidades específicas de sus estudiantes
homogéneos y motivarlos de acuerdo con su nivel de desempeño
en una etapa temprana. En este documento, se presenta un método
de predicción del rendimiento de los estudiantes aplicado a un previsto.
curso de aprendizaje electrónico de nivel introductorio de 10 Estos mecanismos requieren un método capaz de predecir con precisión
semanas. El método propuesto utiliza múltiples redes neuronales de el rendimiento de los estudiantes lo antes posible. Este artículo describe la
retroalimentación para predecir dinámicamente el logro final de los
implementación de dicho método, utilizando redes neuronales y datos de
estudiantes y agruparlos en dos grupos virtuales, de acuerdo con su
pruebas de opción múltiple para estimar las calificaciones finales de los
desempeño. Las calificaciones de las pruebas de opción múltiple se
utilizaron como el conjunto de datos de entrada de las redes. Se estudiantes de e-learning. Las redes neuronales fueron elegidas por su
prefirió esta forma de prueba por su objetividad. Los resultados eficiencia en la aproximación de funciones (en nuestro caso, la función que
mostraron que es posible una predicción precisa en una etapa relaciona las calificaciones finales de los estudiantes con sus calificaciones en
temprana, más específicamente en la tercera semana del curso de
las pruebas durante el curso) y por su generalización. Las pruebas de opción
10 semanas. Además, cuando los estudiantes estaban agrupados,
múltiple se consideran un método objetivo para la calificación de los
las bajas tasas de extravío demostraron la idoneidad del enfoque.
Los resultados del método propuesto se compararon con los de la estudiantes y, como tales, formaron el conjunto de datos de este estudio. Los
regresión lineal y se encontró que el enfoque de redes neuronales resultados del método se utilizan para agrupar dinámicamente a los
era más eficaz en todas las etapas de predicción. Se espera que la estudiantes de e-learning en dos grupos según su nivel de rendimiento
metodología propuesta ayude a los instructores a brindar mejores
previsto. Este mecanismo de agrupamiento puede ser utilizado por el
servicios educativos, así como asistencia personalizada de acuerdo
instructor para seleccionar material educativo adecuado a las habilidades de
con el nivel de desempeño previsto de los estudiantes.
cada grupo de estudiantes. La predicción del rendimiento de los estudiantes
también puede ayudar a identificar a los aprendices débiles en las primeras
etapas y ayudarlos adecuadamente a hacer frente mejor a los requisitos del
Introducción
curso.
La aparición del e-learning introdujo mejoras significativas Este artículo está estructurado de la siguiente manera: Primero,
en la forma en que se imparten y se imparten los cursos, lo que describimos los resultados y las limitaciones de la literatura de
hace que esta nueva forma de educación sea ampliamente investigación relevante. A continuación, se presenta el método
aceptada. Al contrario del enfoque clásico, el e-learning no propuesto, incluyendo una descripción del curso, al que se aplicó el
requiere la presencia física de los estudiantes en un aula; es método, y una introducción a las bases teóricas de las redes neuronales
más flexible y menos costoso, y facilita la gestión de un gran feed-forward. A continuación, se presentan los resultados
número de estudiantes, como establecen Karlovcec, Skala y experimentales obtenidos con este nuevo enfoque, se comparan con el
Saina (2005). método de regresión lineal y se discuten. El artículo concluye con los
La adopción generalizada del e-learning introdujo nuevas principales hallazgos de este estudio, las aplicaciones potenciales y el
posibilidades y nuevos desafíos. La investigación actual se trabajo futuro.
centra en mejorar la calidad de este tipo de educación.

Recibido el 28 de enero de 2008; revisado el 1 de julio de 2008; aceptado27 de agosto de 2008


Literatura relevante

© 2008ASIS & T • Publicado en línea el 30 de octubre de 2008 en Wiley InterScience Se han realizado estudios relativos basados en redes neuronales a
(www.interscience.wiley.com). DOI: 10.1002 / asi.20970 partir de datos de la escuela, la universidad y la educación a distancia.

REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN, 60 (2): 372–380, 2009


cursos, con el objetivo de predecir el rendimiento de los estudiantes. de Atenas, Grecia (Medialab, 2007). El curso se imparte a través de
Junemann, Lagos y Arriagada (2007) utilizaron redes neuronales para la plataforma Moodle (Moodle, 2007), un sistema de gestión de
predecir el rendimiento escolar futuro de los estudiantes en función de aprendizaje de código abierto.
las características familiares, sociales y de riqueza de los estudiantes. El Los datos provienen de un curso de 10 semanas que se ofreció dos
trabajo mencionado anteriormente se centró en predecir el rendimiento veces: en la primavera de 2006 y la primavera de 2007. El número total
de los estudiantes de 15 años en los cursos de lectura, matemáticas y de estudiantes matriculados en el curso de primavera de 2006 fue de 37,
ciencias. Wang y Mitrovic (2002) utilizaron redes neuronales para estimar de los cuales 32 completaron con éxito el curso. El número de
el número de errores que cometerá un alumno en función de los estudiantes matriculados en el curso de primavera de 2007 fue de 28, de
atributos específicos del problema y el nivel actual de los alumnos. Sin los cuales 25 lo completaron con éxito. El contenido del curso está
embargo, esta predicción se aplicó en un solo examen para optimizar la predeterminado y fijo, por lo que no se realizaron cambios significativos
selección de los problemas que se le pidió al estudiante que resolviera de un semestre a otro. El hecho de que todos los atributos del curso
en los últimos pasos del mismo examen. Cripps (1996) estudió la permanezcan sin cambios permite que el método propuesto produzca
predicción del rendimiento académico, utilizando datos de estudiantes resultados válidos cuando se aplique en semestres posteriores.
universitarios. En este trabajo, varias características demográficas (edad, En lo que respecta al material de prueba, los estudiantes
género, y raza), así como los resultados de los exámenes de ingreso a la completaron cuatro pruebas de opción múltiple de 20 preguntas cada
universidad, se utilizaron para entrenar una red neuronal con el fin de semestre. Estas pruebas se realizaron en la primera, tercera, cuarta y
estimar la finalización del programa del estudiante y la calificación final. sexta semana, luego de completar cada uno de los cuatro capítulos
No obstante, no se utilizaron nuevos datos que reflejaran lo que ocurrió principales en los que se dividió el curso. Al final de cada curso de 10
a lo largo del progreso de los estudiantes para actualizar dinámicamente semanas, se llevó a cabo una prueba final de opción múltiple de 40
esta estimación. Sheel, Vrooman, Renner y Dawsey (2001) compararon preguntas, como una evaluación general de la comprensión de los
las redes neuronales y el modelado estadístico para agrupar a los estudiantes de todo el contenido del curso.
estudiantes en dos grupos utilizando una única prueba de nivel Finalmente, los estudiantes tuvieron la opción de abandonar el
matemático. Kalles y Pierrakeas (2006) y Kotsiantis, Pierrakeas y Pintelas curso y retomarlo en el próximo semestre sin costo adicional.
(2004) utilizaron los datos de los estudiantes derivados de la educación a
distancia para predecir el éxito o el fracaso en los exámenes finales a
Redes neuronales de avance
través de múltiples técnicas, incluidas las redes neuronales. Los datos
cubrieron las características demográficas, las calificaciones de las Las redes neuronales se han aplicado con éxito a varios campos
tareas asignadas y los niveles de asistencia a las reuniones plenarias. de investigación e industria para realizar tareas que incluyen
pronósticos, clasificación de datos y análisis de regresión.
Los estudios antes mencionados se refieren a diferentes tipos de Una red neuronal de retroalimentación típica (FFNN), como la
educación, como la educación clásica y la educación a distancia. Sin describe Haykin (1999), consta de una o más capas ocultas de
embargo, no se centraron en los atributos distintivos del e-learning y, neuronas. En este tipo de red, las conexiones neuronales, llamadas
más concretamente, en sus características totalmente informatizadas, sinapsis, no forme un ciclo dirigido. La información solo avanza,
así como en la interactividad ampliada entre instructores y alumnos que desde los nodos de entrada a los de salida. Durante su fase de
presentan estos cursos. Estos estudios también se basaron en aprendizaje, la red se presenta con un conjunto de ejemplos, que
características demográficas y asignaciones de tareas a menudo forman el conjunto de formación de la red. Cada ejemplo consta de
corregidas por diferentes instructores, introduciendo, en consecuencia, un vector de entrada y el vector de salida correspondiente. El
una cierta subjetividad. objetivo del entrenamiento FFNN es minimizar una función de
Por otro lado, el método de predicción propuesto puede costo típicamente definida como un error cuadrático entre sus
integrarse fácilmente en un sistema de gestión de e-learning y, salidas reales y objetivo, ajustando los pesos sinápticos de la red y
mediante la técnica de agrupación dinámica de estudiantes, los sesgos neuronales. Más específicamente, estos parámetros de
promover aún más la interactividad. Además, este estudio se basa red se ajustan basándose en el algoritmo de retropropagación
en datos de pruebas de opción múltiple, que se consideran (Rumelhart, Hinton y Williams, 1986a, 1986b). Según este
objetivos en términos de calificación. algoritmo, la información se transmite desde los nodos de entrada,
a través de las capas ocultas, a los nodos de salida, y se calcula el
error entre la respuesta deseada y la real de la red. Luego, esta
Métodos
señal de error se propaga hacia atrás a las neuronas de entrada,
El método propuesto se aplica a los resultados de pruebas de opción ajustando los pesos y sesgos de la red. Este proceso se repite para
múltiple de un curso de aprendizaje electrónico. A diferencia de la cada ejemplo en el conjunto de entrenamiento. Tan pronto como
calificación de las tareas escritas, la corrección de las pruebas de opción todo el conjunto de entrenamiento se ha presentado a la red, ha
múltiple es inequívoca y objetiva, según lo establecido por Haladyna transcurrido una época. La fase de entrenamiento puede constar
(2004), lo que minimiza los factores externos que podrían influir en los de varias épocas. Un enfoque popular para optimizar el
datos. rendimiento de la retropropagación es el algoritmo de Levenberg-
Este estudio se basa en un curso de aprendizaje electrónico de Marquardt (Hagan & Menhaj, 1994), que se ha encontrado que
nivel introductorio sobre redes informáticas y comunicaciones. El aumenta la velocidad de convergencia y la eficacia del
curso es impartido por el equipo de e-learning del Laboratorio de entrenamiento de la red.
Tecnología Multimedia de la Universidad Técnica Nacional.

REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 373


DOI: 10.1002 / asi
Durante su entrenamiento, una FFNN puede terminar memorizando los Sin embargo, además de sus fortalezas, las redes
datos de entrenamiento y, por lo tanto, perder su capacidad de generalizar a neuronales también presentan ciertas limitaciones. Primero, en
partir de las muestras de entrenamiento a una población invisible. Este problemas donde la relación entre los datos es lineal con poco
fenómeno se llamasobreajuste, y se puede evitar utilizando un conjunto de ruido, es posible que no funcionen mejor que los métodos
datos separado llamado conjunto de validación. Los parámetros FFNN se estadísticos lineales (Zhang, Patuwo y Hu, 1998).
estiman basándose únicamente en el conjunto de entrenamiento, y el En segundo lugar, las redes neuronales suelen requerir más tiempo
rendimiento de la red se evalúa calculando el error cuadrático medio en el para el entrenamiento que los métodos lineales debido al número de
conjunto de validación. Cuando se encuentra que el rendimiento de la red se iteraciones necesarias para lograr su predicción óptima. Más
deteriora, lo que significa que se produjo un ajuste excesivo, el entrenamiento específicamente, mientras se minimiza la función de costo durante el
se detiene y se almacenan los pesos y sesgos de la red mejor entrenada entrenamiento, pueden quedar atrapados en mínimos locales, sin lograr
previamente. La fase de entrenamiento se puede terminar alcanzando un la solución óptima. Para superar esto, suelen tener lugar múltiples
mínimo en la función de costo, cumpliendo con el objetivo de desempeño o iteraciones de entrenamiento y se selecciona la red entrenada más
detectando que el conjunto de validación produjo un error cuadrático medio eficientemente (Iyer y Rhinehart, 1999).
creciente. Otra limitación que presentan las redes neuronales es su
Finalmente, una vez finalizada la formación, tiene lugar la fase de prueba dependencia del tamaño y la calidad de los datos utilizados para su
de la red. Durante esta fase, los datos invisibles se presentan a la red entrenamiento (Haykin, 1999). Cuanto más indicativos sean los
capacitada para evaluar su desempeño. Estos datos componen el conjunto de ejemplos del problema que se les presenta, más precisas serán las
prueba, que es inconexo tanto con el conjunto de datos de entrenamiento predicciones que se espera que hagan. Además, aunque pueden
como con el de validación. inferir una solución correcta basándose en datos ruidosos, tienen
dificultades para hacer predicciones correctas sobre datos
contradictorios con los utilizados para su entrenamiento.
Fortalezas y limitaciones
Finalmente, las redes neuronales son métodos de caja negra.
Las redes neuronales presentan varias fortalezas que las hacen Como tales, no pueden analizarse con gran detalle como los
adecuadas para el análisis de regresión y las tareas de predicción. modelos lineales, y la relación de datos a la que se acercan no
Una de sus principales ventajas es que son aproximadores de puede describirse fácilmente (Andrews, Diederich y Tickle, 1995).
funciones universales. Pueden aproximarse a funciones continuas
arbitrarias con cualquier grado de precisión (Cybenko, 1989;
Funahashi, 1989; Hornik, 1991, 1993; Hornik, Stinchcombe y White, Resultados experimentales y su interpretación
1989). Como resultado, las redes neuronales tienen la capacidad de
Redes neuronales para la predicción del rendimiento de los estudiantes
mapear de manera eficiente relaciones no lineales entre su entrada
y salida. En este artículo, se implementaron tres redes neuronales de
Además, en función de la función que han aproximado, pueden retroalimentación para predecir el rendimiento de los estudiantes, mediante
generalizar. Una red neuronal puede aprender de ejemplos y predecir la aproximación de la función que asigna los puntajes de las pruebas iniciales
correctamente la salida de unseendata, incluso si su conjunto de de los estudiantes a su calificación de prueba final. Para implementar las
entrenamiento contiene información ruidosa. La robustez de las redes redes se utilizó la plataforma MATLAB 2007b (MATLAB, 2007).
neuronales, en presencia de ruido en los datos de entrada, es una de El procedimiento incluyó los siguientes pasos: Primero, el conjunto
sus ventajas más significativas (Thrun, 1994). de datos que se alimentaría a las redes neuronales se extrajo de la base
Otra fortaleza que presentan las redes neuronales es que se de datos del sistema de gestión del aprendizaje. Dado que el vector de
basan en datos en lugar de en modelos. Esto significa que no salida de las redes neuronales consiste en los resultados de la prueba
asumen a priori un modelo de relación explícito entre los datos, final de opción múltiple completada por los estudiantes al final del
como lo hacen los métodos lineales o no lineales basados en curso, solo se utilizaron los datos de los 57 estudiantes que completaron
modelos. En cambio, hacen sus predicciones basándose en el con éxito los cursos de primavera de 2006 y primavera de 2007. El
modelo real que existe entre los datos del problema. conjunto de datos anterior se dividió luego en tres conjuntos separados,
Los problemas del mundo real a menudo no son lineales y la relación a saber, el conjunto de entrenamiento, validación y prueba. El conjunto
entre sus datos es difícil de describir analíticamente. Por lo general, en de capacitación en red consistió en el 85% de los datos de calificaciones
tales problemas, la única información disponible son los datos pasados, de los estudiantes de la primavera de 2006, lo que corresponde a 27
y la predicción del rendimiento futuro puede hacerse asumiendo el estudiantes seleccionados al azar. El 15% restante, es decir, datos de 5
modelo de datos o acercándose a él utilizando una técnica de estudiantes, se utilizó como conjunto de validación. El conjunto de
aprendizaje automático, como las redes neuronales. Las características pruebas de red consistió en datos de los 25 estudiantes que
únicas que presentan estos últimos —aproximación de funciones completaron con éxito el curso de primavera de 2007.
arbitrarias, no linealidad, capacidad de generalización— a menudo los
hacen apropiados para aplicaciones del mundo real. 2007) para la fase de prueba se eligió para examinar si las redes
Finalmente, las redes neuronales entrenadas pueden hacer predicciones neuronales son capaces de predecir datos de estudiantes no vistos de
rápidamente sobre datos invisibles. Esta característica, junto con su alto un semestre diferente.
grado de precisión, los hace adecuados para aplicaciones en las que es A continuación, tuvo lugar la fase de formación. Durante esta fase se
necesario realizar entrenamientos esporádicamente pero las predicciones construyeron tres redes neuronales de alimentación directa X-4-1, como
deben hacerse en tiempo real. se muestra en la Figura 1. Estas redes se recibieron como entrada (X)

374 REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 DOI: 10.1002 / asi
HIGO. 1. Las tres redes neuronales utilizadas.

las calificaciones de las dos primeras (mc1 y mc2), tres (mc1, mc2 y mc3) curso en un semestre siguiente, mientras que los estudiantes que logran
y cuatro (mc1, mc2, mc3 y mc4) pruebas de opción múltiple, calificaciones altas persisten y lo completan con éxito. Como resultado, la
respectivamente. No se construyó una red neuronal separada usando mayoría de los datos de prueba disponibles oscilan entre 16 y 20 en una
como entrada sólo las primeras calificaciones de prueba de opción escala de 0 a 20.
múltiple (mc1) porque en ese punto del curso, sería demasiado pronto A continuación, en la Tabla 1 se presentan seis ejemplos indicativos de
para extraer resultados confiables. La capacitación se realizó utilizando desempeño de la red. El Estudiante 1 es un ejemplo de buen desempeño de
el algoritmo Levenberg-Marquardt implementado en MATLAB Neural los estudiantes que fue predicho con precisión por el método propuesto. Este
Network Toolbox. Durante los experimentos, para cada una de las tres estudiante obtuvo 20, 19,67, 17 y 19 en las cuatro pruebas de opción múltiple
redes, se realizaron 100 iteraciones de entrenamiento y se mantuvo la durante el curso y logró una puntuación total de 19,66 en la prueba final. Las
red mejor entrenada. El tiempo computacional para la fase de tres predicciones de redes neuronales de su desempeño estuvieron muy
entrenamiento de cada red, en un PC con un procesador Intel de 3GHz, cerca de la puntuación real del estudiante: 19,91, 19,49 y 19,76. El segundo
no superó 1 minuto. estudiante, como se muestra en la Tabla 1, tuvo un desempeño moderado.
Las redes, como se muestra en la Figura 2 (a – c), fueron eficientes en Este estudiante puntuó
minimizar el criterio de desempeño (error cuadrático medio) entre su 18, 17, 14.17 y 17.5 durante el curso y logró un total de 14.67
respuesta y la calificación final de la prueba de los examinados. En estas en la prueba final de opción múltiple. En este caso también, el
figuras, el eje vertical corresponde al error de un cuadrado y el método propuesto identificó correctamente el desempeño del
horizontal a las épocas necesarias para que el entrenamiento termine. estudiante, estimándolo en 15,75 (NN1), 15,11 (NN2) y
14,9 (NN3). El alumno 3 es un ejemplo de rendimiento deficiente de
Finalmente, a las redes neuronales entrenadas se les presentó el conjunto los alumnos. Durante el curso, este estudiante logró puntajes de
de datos de prueba para examinar la calidad de su entrenamiento. El tiempo 16, 11,34, 13 y 12, y su puntuación en el examen final fue de 9,58.
computacional durante la fase de prueba para cada red fue de menos de 1 También en este caso, las redes neuronales fueron precisas al
segundo. El rendimiento de las redes durante la fase de prueba se muestra en estimar la calificación final del estudiante en 9.13 (NN1),
la Figura 3 (a – c). Estas cifras representan la relación entre la respuesta de la 8,72 (NN2) y 9,5 (NN3). El método de red neuronal propuesto también
red neuronal (eje vertical) y la respuesta deseada (eje horizontal). Los logró predecir a los estudiantes con variaciones en su desempeño. Por
resultados mostraron que la predicción de las calificaciones de los estudiantes ejemplo, el Estudiante 4 obtuvo una buena puntuación (20 y 18,67) en
es posible en una etapa temprana, es decir, la tercera semana del curso, las dos primeras pruebas de opción múltiple del curso. Sin embargo, en
logrando un coeficiente de correlaciónR valor igual a .9154. Se encontró que la tercera prueba de opción múltiple, el rendimiento del estudiante cayó
la tercera prueba de opción múltiple era la más representativa de la repentinamente a 12,5 y volvió a subir a 16 en la cuarta prueba. A pesar
calificación de logro final de los alumnos, dado que agregar los resultados de de las variaciones durante el curso, el rendimiento final del alumno fue
esta prueba a la entrada de la red aumentó su rendimiento aR =.9453. La muy bueno, 19,5. En este caso, la primera red neuronal (NN1) predijo
prueba de la sexta semana ajustó con precisión la salida de la última red que el rendimiento final del estudiante sería 19,4. Luego, incluso si el
neuronal para lograr una predicción de rendimiento del estudiante se redujo, la predicción de la segunda red
neuronal (NN2) también fue muy precisa (18,66). La tercera red (NN3)
R =.9521. predijo que la calificación del estudiante sería 19.87, que también está
En el curso de e-learning en estudio, los estudiantes con cerca de la calificación real alcanzada. También se puede observar que
calificaciones mediocres y bajas tienden a abandonar para retomar el aunque

REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 375


DOI: 10.1002 / asi
HIGO. 2 (a) - (c). Entrenamiento de redes neuronales.

El rendimiento del alumno parece deteriorarse en las dos últimas pruebas de La estimación del nivel de desempeño de los estudiantes y
opción múltiple, las predicciones realizadas por las redes neuronales fueron en consecuencia las acciones de aprendizaje adecuadas
precisas a lo largo del curso. De manera similar, el método de la red neuronal para cada uno de ellos es más difícil. El método propuesto
calculó con precisión las calificaciones finales de la mayoría de los estudiantes. puede ayudar al instructor a estimar de manera eficiente el
nivel de desempeño de cada estudiante, reduciendo así la
Sin embargo, las redes neuronales no pudieron predecir con carga de trabajo del instructor y asegurando que se tomen
precisión ejemplos específicos de desempeño irregular de los las acciones de aprendizaje apropiadas para cada
estudiantes. La Tabla 1 muestra dos de estos ejemplos, a saber, los estudiante. Estas acciones pueden incluir adaptar
Estudiantes 5 y 6. El Estudiante 5 obtuvo un buen desempeño, con una dinámicamente el material del curso a las necesidades
puntuación de 19, 20, 16,5 y 17 en las cuatro pruebas de opción específicas de cada estudiante a medida que avanza el
múltiple, pero logró 17,67 en la prueba final. Con base en este buen curso, alentar a los estudiantes débiles a aumentar su
desempeño durante el curso, la calificación final mediocre del esfuerzo y motivar a los estudiantes de alto rendimiento a
estudiante fue difícil de predecir. Posteriormente, la nota final predicha seguir progresando en sus estudios. Además, la amplia
por las tres redes neuronales fue 19,89 (NN1), 19,76 (NN2) y 20 (NN3). El adopción de redes neuronales con fines científicos y
estudiante 6 demuestra el desempeño opuesto, logrando calificaciones comerciales ha llevado a la disponibilidad de una variedad
moderadas en las pruebas, a saber, 17, 16.67, 15.5 y 15, pero recibiendo de herramientas, lo que facilita la implementación y el uso
una calificación final alta de 19. Las tres redes neuronales (NN1-3) en por parte de los instructores del método FFNN propuesto.
este caso aproximaron el logro del estudiante a 18.83 ,
16.98 y 16.73, recibiendo como entrada las primeras dos, tres y cuatro 2.02 y Neural Network Toolbox de MATLAB 2007b. Usando la
pruebas de opción múltiple, respectivamente. La mejora repentina del interfaz gráfica de usuario de una de las herramientas
rendimiento del estudiante en la prueba final no fue consistente con sus mencionadas, el instructor puede entrenar las redes de manera
resultados mediocres de las primeras cuatro pruebas y, por lo tanto, no fácil y rápida (en los experimentos mencionados en este estudio, el
pudo predecirse con precisión. tiempo de entrenamiento para cada red no superó 1 minuto). Esta
Como muestran los resultados, la técnica propuesta capacitación debe realizarse solo una vez, al comienzo de cada
demuestra un alto grado de precisión incluso en las primeras semestre, y en consecuencia no aumenta significativamente la
etapas del curso. En los cursos de e-learning, que carecen de carga de trabajo del instructor. Luego, a lo largo del semestre, el
comunicación presencial entre el instructor y los estudiantes, el instructor puede utilizar las redes capacitadas para estimar

376 REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 DOI: 10.1002 / asi
HIGO. 3 (a) - (c). Pruebas las redes neuronales.

TABLA 1. Ejemplos indicativos de predicción del desempeño de los estudiantes del Aunque las redes neuronales generalmente requieren algo de tiempo
Primavera Equipo de prueba 2007.
para completar su entrenamiento, esto no se considera un inconveniente
importante para los propósitos de esta aplicación específica. Más
Estudiante 1 Estudiante 2 Estudiante 3 Estudiante 4 Estudiante 5 Estudiante 6
específicamente, los instructores de e-learning necesitan entrenar las redes
Mc1 20 18 dieciséis 20 19 17 solo una vez, al comienzo de cada semestre, utilizando datos de cursos
Mc2 19,67 17 11.34 18,67 20 16,67
anteriores. Luego, para monitorear las calificaciones de los estudiantes
Mc3 17 14,17 13 12,5 16,5 15,5
durante el curso, las redes capacitadas se pueden usar para producir
Mc4 19 17,5 12 dieciséis 17 15
Final 19,66 14,67 9.58 19,5 17,67 19 estimaciones rápidamente.
NN1 19,91 15,75 9.13 19,4 19,89 18,83 Sin embargo, durante los experimentos, la técnica propuesta no
NN2 19.49 15.11 8,72 18,66 19,76 16,98 pudo predecir con precisión el desempeño de ciertos estudiantes. Esto
NN3 19,76 14,9 9.5 19,87 20 16,73
sucede porque el conjunto de capacitación carece de ejemplos similares
de desempeño de los estudiantes o incluye ejemplos de estudiantes
contradictorios. No obstante, a medida que se recopilan y utilizan más
datos para reentrenar las redes neuronales, al comienzo de cada
rendimiento en el curso en curso de forma eficiente y rápida (el
semestre del curso, se espera que el método arroje resultados cada vez
tiempo de prueba experimental no superó 1 segundo).
mejores.
También se encontró que el método produce resultados efectivos sin requerir
un gran conjunto de datos. Esto fue verificado por los experimentos llevados a cabo
Comparación entre redes neuronales y regresión
utilizando los datos del curso de la primavera de 2006 para entrenar las redes
lineal múltiple
neuronales y los datos de la primavera de 2007 para probarlas. Por lo tanto, en caso
de que cambie la estructura del curso, las predicciones se pueden hacer Para evaluar los resultados de la red, se comparó el
nuevamente en un corto período de tiempo. método propuesto con la técnica comúnmente utilizada

REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 377


DOI: 10.1002 / asi
TABLA 2. Red neuronal (NN) y lineal múltiple regresión (LR) TABLA 3. Resultados de la agrupación de estudiantes de los métodos NN y LR en la primavera
resultados. Equipo de prueba 2007.

NN1 LR1 NN2 LR2 NN3 LR3 Grupo Total de estudiantes Colocación NN1 LR1 NN2 LR2 NN3 LR3

R . 9154 . 8100 . 9453 . 7613 . 9521 . 7691 A 18 Correcto 15 12 dieciséis 10 17 10


Error absoluto medio 0,74 1,30 0,67 1,48 0,63 1,44 Incorrecto 3 6 2 8 1 8
B 7 Correcto 5 4 5 5 6 5
Incorrecto 2 3 2 2 1 2
de regresión lineal múltiple (Beck & Wolf, 2000; Feng,
Heffernan y Koedinger, 2005; Kotsiantis et al., 2004). De manera similar al
método de la red neuronal, las primeras dos, tres y cuatro pruebas de esencial para ayudar ellos logran su rendimiento óptimo
primavera de 2006 se utilizaron como variables independientes para construir y mejorar aún más su motivación para aprender. Por el contrario, la

tres modelos lineales múltiples (LR1, LR2 y LR3) para aproximar el agrupación no homogénea puede resultar en un bajo rendimiento y

rendimiento final de los estudiantes. Luego, los parámetros de las variables motivación de los estudiantes. Tan pronto como tenga lugar una

calculadas se utilizaron para predecir las calificaciones finales de las pruebas agrupación exitosa, se pueden tomar una serie de acciones para

de la primavera de 2007. Las estimaciones de regresión lineal se realizaron mejorar aún más el proceso de aprendizaje, como proponen Oakley,

utilizando Statistics Toolbox de la plataforma MATLAB 2007b. Tanto el tiempo Brent, Felder y Elhajj (2004).

de estimación como el de predicción para este método no excedieron 1 En el curso de e-learning en estudio, se distinguen dos grupos

segundo. La Tabla 2 presenta la regresión lineal múltiple y los resultados virtuales, A y B, en función de las calificaciones finales de rendimiento de

correspondientes de la red neuronal. los estudiantes. El umbral de gradoT Los instructores determinaron que

Según los resultados de la comparación entre los entre los dos grupos era 18,5 en una escala de 1 a 20, ya que el nivel del

métodos NN y LR, las redes neuronales se comportaron curso era introductorio y, por lo tanto, se consideró que era

mejor que la regresión lineal múltiple en cada etapa de relativamente fácil para los estudiantes. Por lo tanto, un estudiante es

predicción en términos de coeficiente de correlación (R) y asignado al Grupo A si su calificación de prueba final excede

error absoluto medio. Más específicamente, en T, de lo contrario, se considera que este estudiante pertenece al Grupo

comparación con el enfoque de regresión lineal múltiple, se B. La ubicación del estudiante en cada grupo se realizó previamente

encontró que las redes neuronales presentan una mayor durante el curso utilizando los resultados de predicción de la regresión

correlación entre sus resultados de predicción y las lineal. En esta sección, el método propuesto se compara con la

calificaciones finales de los estudiantes. La regresión lineal regresión lineal en términos de eficiencia de agrupamiento de

tiende a disminuir (.81, estudiantes y se discuten sus resultados.

. 7613, .7691), mientras que la correlación respectiva lograda por la La Tabla 3 muestra las ubicaciones correctas e incorrectas de los

solución de red neuronal aumenta (0.9154, 0.9453, 0.9521). estudiantes realizadas por ambos métodos para los Grupos A y B. El

Además, el error absoluto medio del método de predicción de la red Grupo A consta de 18 del total de 25 estudiantes del conjunto de

neuronal fue aproximadamente la mitad del correspondiente error de pruebas, mientras que el Grupo B consta de 7. Inicialmente, NN1 logró

regresión lineal múltiple en las tres etapas del proceso. Este resultado un estudiante relativamente preciso clasi fi cación, ya que 15 de los 18

indica que la técnica de la red neuronal fue más eficiente en el mapeo estudiantes del Grupo A y 5 de los 7 del Grupo B fueron colocados

de las no linealidades que relacionan el desempeño de los estudiantes correctamente. LR1, por otro lado, tuvo 1 más desplazamiento en el

durante el curso con su logro final y, por lo tanto, proporciona una Grupo B, pero el número de estudiantes desplazados en el Grupo A fue

estimación considerablemente más precisa de las calificaciones finales el doble. El rendimiento del método de la red neuronal mejoró aún más

de los estudiantes. en la segunda predicción (NN2), donde el número de estudiantes

En lo que respecta al tiempo de ejecución del método, la estimación colocados correctamente en el Grupo A llegó a 16, mientras que la

de los parámetros de regresión lineal fue más rápida (menos de un estimación de LR2 respectiva se redujo a 10. Finalmente, NN3 sintonizó

segundo) que la fase de entrenamiento de la red neuronal con precisión la red neuronal método, agrupando correctamente a 23

(aproximadamente 1 minuto) por etapa de predicción. Sin embargo, del total de 25 estudiantes participantes. La e fi ciencia de LR3 en este

dado que las redes neuronales producen resultados de predicción caso se mantuvo sin cambios.

significativamente mejores y que necesitan ser entrenadas solo una vez El método propuesto tuvo más éxito en colocar correctamente a los

al comienzo de cada curso, su mayor costo computacional durante el estudiantes en el grupo al que pertenecen que la regresión lineal,

entrenamiento no las vuelve imprácticas. Finalmente, al hacer incluso en una etapa temprana. A medida que avanzaba el curso y los

predicciones basadas en nuevos datos durante el curso, ambos métodos estudiantes tomaban más pruebas de opción múltiple, las clasi fi

proporcionaron resultados aproximadamente a la misma velocidad. caciones correctas de NN aumentaban gradualmente, mientras que las
clasi fi caciones de LR correctas disminuían. Además, a pesar de que los
dos métodos funcionaron por igual en la determinación del Grupo B, LR
Agrupación dinámica de estudiantes
agregó incorrectamente a ese grupo muchos estudiantes del Grupo A,
Después de completar cada prueba de opción múltiple, haciéndolo menos homogéneo.
los resultados de la predicción se pueden usar para La agrupación no homogénea puede resultar en brindar menos
agrupar dinámicamente a estudiantes con habilidades asistencia a los estudiantes mediocres o débiles, obstruir el progreso de
similares, con el fin de identificar y cumplir de manera los estudiantes que se desempeñan bien y aumentar la carga de trabajo
eficiente los requisitos de cada grupo. su habilidad es del instructor. Por otro lado, la asignación precisa

378 REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 DOI: 10.1002 / asi
HIGO. 4 (a) - (b). Ubicaciones de redes neuronales en los grupos A y B.

HIGO. 5 (a) - (b). Ubicaciones de regresión lineal en los grupos A y B.

de estudiantes en grupos, en función de su desempeño, puede ser error. En lo que respecta al Grupo A, LR tuvo significativamente más
beneficioso para el proceso de aprendizaje, ya que conduce a una clasificaciones erróneas de estudiantes, además de un error de
capacitación enfocada para satisfacer las necesidades de cada grupo. predicción considerablemente mayor.
Las Figuras 4 y 5 muestran a los estudiantes que los dos Con base en el análisis de agrupación de estudiantes anterior, se
métodos ubicaron en los Grupos A y B en cada etapa de predicción. puede concluir que, de acuerdo con el método propuesto, es posible
Las Figuras 4 (a) y (b) corresponden al método NN y las Figuras 5 (a) una agrupación de estudiantes precisa en una etapa temprana, más
y (b) al método LR. En estas cifras, se muestran cuatro calificaciones específicamente, en la tercera semana del curso. Los instructores
para cada estudiante, una para cada predicción y otra que pueden utilizar los resultados de esta técnica de agrupamiento para
representa la calificación final de la prueba del estudiante. Existe determinar las acciones de aprendizaje más apropiadas para cada grupo
una línea vertical en cada figura que representa el umbral de grado de estudiantes y brindarles más asistencia adaptada a sus necesidades.
T (18.5) entre los dos grupos. Esta línea también forma una barrera
entre las predicciones correctas e incorrectas. Más específicamente,
en las Figuras 4 (a) y 5 (a), las marcas colocadas en el lado derecho
Conclusiones y trabajo futuro
de la línea representan las ubicaciones correctas en el GrupoA,
mientras que las marcas en el lado izquierdo son predicciones En este estudio, se utilizan tres redes neuronales de retroalimentación
incorrectas. Lo contrario ocurre en las Figuras 4 (b) y 5 (b), donde se para predecir gradualmente las calificaciones finales de los estudiantes que
presentan las ubicaciones correctas e incorrectas para cada alumno tomaron un curso de aprendizaje electrónico de nivel introductorio. El
en el Grupo B. conjunto de datos de entrada de cada red consistió en los resultados de las
Las redes neuronales agruparon correctamente a la mayoría de los pruebas de opción múltiple completadas durante el curso, mientras que la
estudiantes de ambos grupos, conservando valores de error bajos. Por otro salida objetivo de la red fue la prueba final de opción múltiple completada al
lado, LR tuvo aproximadamente los mismos resultados de clasificación en el final del curso. Se utilizaron pruebas de opción múltiple para garantizar la
Grupo B, pero presentó una estimación de calificaciones más alta. objetividad.

REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 379


DOI: 10.1002 / asi
Este método se utilizó luego para agrupar dinámicamente a los Haladyna, TM (2004). Desarrollo y validación de pruebas de opción múltiple
estudiantes de e-learning en dos grupos virtuales, de acuerdo con elementos. Mahwah, Nueva Jersey: Erlbaum.

Haykin, S. (1999). Redes neuronales: una base integral (2ª ed.).


su logro previsto, con el fin de ayudar a los instructores a abordar
Upper Saddle River, Nueva Jersey: Prentice-Hall.
las necesidades específicas de cada grupo y adaptar la capacitación
Hornik, K. (1991). Capacidades de aproximación del feed-forward multicapa
de los estudiantes en consecuencia. rendimiento de los estudiantes redes (Vol. 4, págs. 251-257). Oxford, Reino Unido: Elsevier. Hornik, K. (1993).
y mayor motivación. Algunos resultados nuevos sobre la aproximación de redes neuronales.
Los resultados del método propuesto se compararon con los de la Redes neuronales, 6, 1069–1072.
Hornik, K., Stinchcombe, M. y White, H. (1989). Alimentación multicapa
regresión lineal en términos de correlación y error absoluto medio
las redes directas son aproximadores universales. Redes neuronales, 2,
alcanzado. Las redes neuronales alcanzaron una mayor correlación en
359–366.
todas las etapas de predicción, mientras que su error fue Iyer, MS y Rhinehart, RR (1999). Un método para determinar el requerido
aproximadamente la mitad del error de la regresión lineal. En número de repeticiones de entrenamiento de redes neuronales. Transacciones IEEE en

consecuencia, las redes neuronales pueden hacer predicciones precisas redes neuronales, 10, 427–432.
Junemann, MAP, Lagos, PAS y Arriagada, RC (2007). Red neuronal
de calificaciones en una etapa temprana, más específicamente en la
trabaja para predecir el éxito / fracaso escolar. En J. Mira & JR Álvarez (Eds.),
tercera semana de un curso de 10 semanas. En lo que respecta a la
Lecture Notes in Computer Science, Vol. 4528: Métodos de resolución de
agrupación dinámica de estudiantes, el método propuesto también problemas inspirados en la naturaleza en la ingeniería del conocimiento (págs.
resultó ser más eficiente que la regresión lineal. Presentó menores tasas 571–579). Berlín: Springer.
de falla, que disminuyeron aún más durante el curso, mientras que las Kalles, D. y Pierrakeas, C. (2006). Analizar el desempeño de los estudiantes en
aprendizaje a distancia con algoritmos genéticos y árboles de decisión.
respectivas tasas de regresión lineal aumentaron.
Inteligencia artificial aplicada, 20, 655–674.
Para concluir, el método propuesto puede ser una herramienta útil
Karlovcec, N., Skala, T. y Saina, S. (octubre de 2005). Ciencia informática
para predecir el desempeño final de los estudiantes y agruparlos educación en ciencias: diferencias entre el e-learning y el enfoque clásico.
dinámicamente, utilizando pruebas de opción múltiple realizadas Documento presentado en la Conferencia Mundial sobre E-Learning en Empresas,
durante el curso. Por lo tanto, se espera que brinde una solución Gobierno, Salud y Educación Superior, Vancouver, Canadá. Kotsiantis, S.,
Pierrakeas, C. y Pintelas, P. (2004). Predecir el desempeño de los estudiantes
efectiva especialmente para los cursos de e-learning, donde los
formación en el aprendizaje a distancia utilizando técnicas de aprendizaje automático.
instructores tienen menos medios para estimar el desempeño futuro de
Inteligencia artificial aplicada, 18, 411–426.
los estudiantes debido a la distancia que conlleva este proceso MATLAB. (2007). MATLAB Environment, de http: //www.mathworks.
educativo. El trabajo futuro se centrará en probar el método en un com / products / matlab /

mayor número de estudiantes e incorporarlo en la plataforma de un Medialab. (2007). Laboratorio de Tecnología Multimedia, servicios de E-Learning.
Universidad Tecnológica Nacional de Atenas. Obtenido el 23 de enero de 2007 de
sistema de gestión del aprendizaje.
http://elearn.medialab.ntua.gr/
Moodle. (2007). Moodle LMS. Obtenido el 16 de octubre de 2008, de
http://moodle.org/
Referencias
Oakley, B., Brent, R., Felder, R. y Elhajj, I. (2004). Estudiante de turno
Andrews, R., Diederich, J. y Tickle, AB (1995). Encuesta y crítica de grupos en equipos efectivos. Revista de aprendizaje centrado en el estudiante, 2 (1), 9–34.
técnicas para extraer reglas de redes neuronales artificiales entrenadas. Sistemas
basados en el conocimiento, 8, 373–389. Rumelhart, DE, Hinton, GE y Williams, RJ (1986a). Aprendiendo
Beck, JE y Woolf, BP (2000). Modelado de estudiantes de alto nivel con máquina representaciones internas por propagación de errores. En DE Rumelhart y
aprendiendo. En G. Goos, J. Hartmanis y J. van Leeuwen (Eds.), Lecture JL McClelland (Eds.), Procesamiento distribuido paralelo: Exploraciones en
Notes in Computer Science, vol. 1839: Sistemas de tutoría inteligente (págs. la microestructura de la cognición, Vol. 1: Fundaciones (págs. 318–362).
584–593). Berlín: Springer. Cambridge, MA: MIT Press.
Cripps, A. (1996, febrero). Usando redes neuronales artificiales para predecir académicos Rumelhart, DE, Hinton, GE y Williams, RJ (1986b). El aprendizaje representa
rendimiento. Documento presentado en el Simposio ACM sobre Computación representaciones por errores de retropropagación. Nature, 323, 533–536.
Aplicada de 1996, Filadelfia, PA. Sheel, SJ, Vrooman, D., Renner, RS y Dawsey, SK (2001). Un comparador
Cybenko, G. (1989). Aproximación por superposiciones de un sigmoide ison de redes neuronales y análisis discriminante clásico en la predicción de los puntajes
función. Matemáticas de control, señales y sistemas (MCSS), 2, 303–314. de los exámenes de colocación de matemáticas de los estudiantes. InV.N. Alexandrov,
JJ Dongarra, BA Juliano, RS Renner y CJK Tan (Eds.), Lecture Notes in
Feldhusen, J. y Moon, S. (2004). Agrupación de estudiantes superdotados: problemas y Computer Science, Vol. 2074: Computational Science — ICCS 2001 (págs.
preocupaciones. En Linda E. Brody (Ed.), Prácticas de agrupación y aceleración en 952–957). Berlín: Springer.
la educación para superdotados (págs. 81–90). Thousand Oaks, CA: Corwin Press. Thrun, SB (1994). Extraer reglas comprobablemente correctas de neuronas artificiales.
Feng, M., Heffernan, N. y Koedinger, K. (julio de 2005). Buscando fuentes redes (No. IAI-TR-93-5). Bonn, Alemania: Institut for Informatik III
de error en la predicción del conocimiento del estudiante. Documento presentado en el Universitat Bonn.
Taller AAAI sobre minería de datos educativos, Pittsburgh, PA. Wang, T. Y Mitrovic, A. (2002, diciembre). Uso de redes neuronales para predecir
Funahashi, K.-I. (1989). Sobre la realización aproximada de continuos rendimiento de los estudiantes. Documento presentado en la Conferencia Internacional sobre
mapeos por redes neuronales. Redes neuronales, 2, 183-192. Computadoras en la Educación, Auckland, Nueva Zelanda.
Hagan, MT y Menhaj, MB (1994). Capacitación de redes de retroalimentación con Zhang, G., Patuwo, BE y Hu, MY (1998). Pronóstico con neu-
el algoritmo de Marquardt. Transacciones IEEE en redes neuronales, 5, 989– redes ral: El estado del arte. International Journal of Forecasting, 14, 35–62.
993.

380 REVISTA DE LA SOCIEDAD AMERICANA DE CIENCIA Y TECNOLOGÍA DE LA INFORMACIÓN — febrero de 2009 DOI: 10.1002 / asi

También podría gustarte