Está en la página 1de 4

2017 VI Congreso Internacional IIAI de Informática Aplicada Avanzada

Detección temprana de estudiantes en riesgo


Uso de aprendizaje automático basado en datos de registro de LMS

Nobuhiko Kondo Midori Okubo Toshiharu Hatanaka


Centro de Educación Universitaria Escuela de Ingeniería Departamento de Ciencias de la Información

Universidad Metropolitana de Tokio Universidad de Osaka y Tecnología


Tokio, Japón Osaka, Japón Universidad de Osaka

kondo@tmu.ac.jp midori.okubo@ist.osaka-u.ac.jp Osaka, Japón


hatanaka@ist.osaka-u.ac.jp

Resumen - La analítica en educación se ha recibido mucho el nivel institucional o político [2]. En la analítica académica, la garantía de la calidad de
atención durante la última década. Es necesario mantener una alta tasa de retención en la educación o la responsabilidad de la universidad se centran más en la perspectiva del
cualquier institución de educación superior, por lo que se han realizado varios intentos de aprendizaje o la enseñanza, por lo que los resultados del aprendizaje o la retención de
aplicación de analíticas para este problema. Para detectar temprano a los estudiantes con alto los estudiantes son objetivos de la analítica. La analítica académica tiene una estrecha
riesgo de deserción escolar e intervenirlos de manera efectiva, puede ser útil utilizar el big data relación con el punto de vista de la gestión de la matrícula en la investigación
educativo. En este artículo, se considera un método de detección automática de estudiantes en
institucional (RI). Para las instituciones educativas, especialmente los colegios o
riesgo académico mediante el uso de datos de registro de los sistemas de gestión del
universidades, es necesario que se mantenga una alta tasa de retención, por lo que la
aprendizaje. Se utilizan algunos métodos de aprendizaje automático bien conocidos para
gestión de la matrícula es importante.
construir un modelo predictivo del desempeño de los estudiantes evaluado por GPA. Mediante
el uso de un conjunto de datos real, investigamos la disponibilidad del método propuesto y
discutimos su capacidad para la detección temprana del comportamiento fuera de la tarea. Los En estudios recientes, por ejemplo, en este contexto se ha considerado la
resultados experimentales indicaron que algunas características del comportamiento sobre el detección temprana de estudiantes en riesgo con análisis de aprendizaje [3]. Para
aprendizaje que afectan los resultados del aprendizaje pueden detectarse solo con los datos de detectar temprano a los estudiantes que tienen un alto riesgo de deserción e
registro en línea. Además, la importancia comparativa de las variables explicativas obtenidas intervenirlos de manera efectiva, puede ser útil utilizar el big data educativo. Varios
por el enfoque ayudaría a estimar qué variable afecta comparativamente al resultado del
estudios también investigaron la correlación entre el resultado del aprendizaje y el uso
aprendizaje y se puede utilizar en la investigación institucional.
del sistema de gestión del aprendizaje (LMS) [4], y los datos de registro de LMS se han
vuelto útiles para analizar el comportamiento de aprendizaje de los estudiantes.

Palabras clave: análisis del aprendizaje; gestión de inscripciones; investigación institucional; En este estudio, se propone un enfoque para la detección de estudiantes en riesgo
detección de estudiantes en riesgo; aprendizaje automático; Datos de registro de LMS académico mediante el uso de métodos de aprendizaje automático basados en datos de
registro del sistema de gestión del aprendizaje. Luego se mostrarán los resultados de algunos
experimentos numéricos con datos reales implementados para investigar el desempeño del
Yo NTRODUCCIÓN enfoque.

Durante la última década, ha surgido la palabra "big data" y se ha utilizado ampliamente


en muchas áreas, como investigación de mercados, servicios de atención médica, negocios, II. mi XPERIMENTAL D ATA
análisis de redes sociales, desarrollo de medicamentos, etc. El uso de "big data", la toma de
En este estudio, se utilizan los datos de los estudiantes de una universidad,
una decisión adecuada, la búsqueda de patrones o conjuntos de reglas útiles, la detección de
denominada “universidad X” en este artículo. La universidad X es una universidad privada
fallas o cambios y el descubrimiento de oportunidades se prueban con algunas técnicas
de artes liberales en Japón. Los datos utilizados son registros de 202 estudiantes
estadísticas.
admitidos en el departamento Y de la universidad X en 2015.

La analítica de big data en la educación se ha estudiado activamente desde


En la universidad X, se utiliza un LMS en toda la universidad. Los alumnos
aproximadamente el año 2000. En particular, la analítica del aprendizaje ha sido uno de los
deben utilizar el LMS para gestionar su propio aprendizaje en varias clases, para
principales campos de investigación sobre la analítica en la educación. La analítica del
comprobar alguna información de la universidad, utilizar un sistema de e-portfolio,
aprendizaje se definió de la siguiente manera [1]:
aprender con algunos contenidos de autoaprendizaje, etc. Se espera que utilicen el
La analítica del aprendizaje es la medición, recopilación, análisis y
LMS lo suficiente a lo largo de su vida escolar. El LMS registra un archivo de registro
presentación de informes de datos sobre los alumnos y sus contextos, con el
cada vez que los estudiantes lo operan. Un registro contiene la identificación del
fin de comprender y optimizar el aprendizaje y los entornos en los que ocurre.
estudiante, la fecha de operación y el tipo de operación. Aunque el LMS no se usa
con mucha frecuencia en algunas clases, se espera que un nivel de uso refleje un
También se propuso un concepto de analítica académica a finales de la década de 2000 nivel de compromiso con
desde el punto de vista de una aplicación de la analítica en

978-1-5386-0621-6 / 17 $ 31.00 © 2017 IEEE DOI 111999888

10.1109 / IIAI-AAI.2017.51
aprendizaje en la universidad, porque los estudiantes necesitan usarlo para pasar su vida TABLA I. V ARIABLES U SED IN T SU S TUDY

escolar sin problemas.


Escribe Variables Fuente de datos

En el experimento, se utilizaron todos los archivos de registro de un período Respuesta


(1) GPA Datos de calificación
entre el 1 de abril y el 5 de agosto de 2015. El número de registro fue 200,979. variables
Cada registro contiene el tipo de operación. Por ejemplo, los tipos de
(2) Tasa de asistencia Datos de asistencia
operaciones son iniciar o cerrar sesión, iniciar el reproductor de e-learning,
(3) # de arrancar el reproductor (4)
iniciar o finalizar la lección, enviar una tarea, etc. En este estudio, algunas
Night Act
características se extrajeron de los datos de registro de LMS. Estas
Explicativo
características y la tasa de asistencia a clases obligatorias offline en el primer (5) # de inicios de sesión
variables Datos de registro de LMS
semestre se utilizaron como variables explicativas, y luego se consideró el (6) # de comenzar una lección

problema de predecir un GPA del primer semestre. (7) # de finalización del envío (8) Duración del

tiempo de inicio de sesión

Las variables explicativas utilizadas en este estudio se muestran en la Tabla I. “(1)


del modelo de aprendizaje conjunto. El modelo de bosque aleatorio contiene algunos
GPA” es una variable binaria. Dejar μ sé el malo y deja σ ser la desviación estándar del
árboles de decisión simples como aprendices débiles y genera el valor como el voto
GPA de todos los estudiantes, "(1) GPA" de un estudiante determinado debe ser 1
promedio o mayoritario de los resultados de los árboles de decisión. Se sabe que el
cuando el GPA de él / ella es mayor que μ - σ, o debe ser 0 en caso contrario. “(1)
modelo de bosque aleatorio tiene algunas ventajas, como robustez frente al ruido,
GPA” = 0 significa que el estudiante ha estado fuera de la tarea y está
rapidez de aprendizaje, facilidad para establecer el hiperparámetro, etc.
académicamente en riesgo. Se consideraron siete tipos de variables explicativas como
se muestra en la Tabla I. “(2) Tasa de asistencia” es la tasa de asistencia a clases
obligatorias fuera de línea en el primer semestre. (3) - (8) son las variables extraídas Los experimentos numéricos fueron implementados por Python
de los datos de registro de LMS. Estas variables expresan varias perspectivas de la 3.6.0 y el paquete scikit-learn se utilizaron para la construcción de los modelos
acción del estudiante en el LMS. “(3) N.º de arranques del reproductor” se refiere al predictivos con métodos de aprendizaje automático.
número total de arranques del reproductor de cualquier contenido de aprendizaje
electrónico. “(4) Night Act” es el número total de operaciones durante la noche (de 0 a. B. Detección temprana de estudiantes en riesgo
M. A 5 a. M.). “(5) # de inicios de sesión” es el número total de inicios de sesión en el
A partir del propósito de este estudio, un método de detección de estudiantes en
LMS. "(6) # de iniciar una lección" es el número total de iniciar una función para un
riesgo debe tener la capacidad de detectar a dichos estudiantes lo antes posible. Por
resultado de aprendizaje, y “(7) # de finalización de envío” se refiere a completar dicha
lo tanto, realizamos un experimento para investigar cómo cambia la capacidad de
actividad de salida. “(8) Duración del tiempo de inicio de sesión” es el valor estimado
detección para cada semana en el primer semestre. El período de clases por
de la duración total del inicio de sesión en el LMS.
semestre de la universidad de destino es de 15 semanas. En este experimento, las
métricas de clasificación para cada semana se calcularon con todos los datos
obtenidos por cada semana. Usamos métricas comunes como precisión, recuperación
y medida F. Se implementó una validación cruzada de 10 veces 10 veces y se
promedió cada métrica.

III. norte UMERICAL mi XPERIMENTOS


En la Fig. 1 a la Fig. 6 se muestra un cambio semanal de los valores de la métrica de
clasificación para tres métodos de aprendizaje automático. La semana “0” es la semana en
A. Modelado predictivo con aprendizaje automático
la que se implementa una serie de orientación para estudiantes de primer año. Fig. 1 a Fig.
El aprendizaje automático es el enfoque para dar a las computadoras la capacidad de
3 muestran el caso de la “(2) Tasa de asistencia” incluida, y Fig. 4 a Fig. 6 muestran los
aprender automáticamente como seres humanos. Los métodos de aprendizaje automático
resultados sin la “(2) Tasa de asistencia”.
tienen algún tipo de algoritmos que descubren patrones o reglas a partir de datos reales, y el
modelo aprendido adecuadamente puede predecir correctamente los datos invisibles. Los
métodos se utilizan a menudo en varios campos, como el reconocimiento de patrones, el En la última parte del período, la capacidad de detección del modelo de regresión
diagnóstico médico, los motores de búsqueda, la robótica, etc. En los campos de la analítica logística fue relativamente mayor que la de los otros modelos. Por otro lado, el modelo de
en educación, los métodos de aprendizaje automático se utilizan con frecuencia para la bosque aleatorio puede detectar más estudiantes en riesgo en la etapa inicial,
construcción de modelos predictivos de alumnos. En este estudio, utilizamos métodos de especialmente hasta la tercera semana. Además, el modelo de bosque aleatorio parece
aprendizaje automático bien conocidos [5], que son regresión logística, máquina de vectores tener el comportamiento más estable y una buena cenefa de precisión y recuerdo. El
de soporte y bosque aleatorio, para predecir el GPA mediante las variables explicativas que modelo SVM tenía valores de alta precisión, pero comparativamente tenía valores bajos
se muestran en la Tabla I. de recuperación.

Aunque los rendimientos de detección en el caso de no usar “(2) Tasa de asistencia” fueron

La regresión logística es una especie de modelo lineal generalizado y se utiliza a más bajos que en el caso de usarlo, el modelo de bosque aleatorio funcionó relativamente bien con

menudo como clasificador de dos clases. Debido a su facilidad de manejo y aplicabilidad, se solo los datos de registro de LMS. Como se muestra en la figura 6, la recuperación en la semana 0

ha utilizado en varios campos. La máquina de vectores de soporte (SVM) es una máquina de fue de aproximadamente 0,3 y la recuperación en la semana 3 fue de aproximadamente 0,4. Por lo

kernel ampliamente utilizada para la clasificación de patrones y problemas de regresión. tanto, el modelo de bosque aleatorio puede detectar aproximadamente el 30% de los estudiantes en

Como se dice que SVM tiene una alta capacidad de generalización, se ha utilizado riesgo hasta la primera semana y puede detectar aproximadamente el 40% de los estudiantes en

ampliamente al igual que la regresión logística. El bosque aleatorio es uno riesgo hasta la cuarta semana.

111999999
1 1
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0.4 0.4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 1 2 3 45 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 78 9 10 11 12 13 14 15
semanas semanas

Precisión Recordar Fmedida Precisión Recordar Fmedida

Fig. 1. Métricas de clasificación para regresión logística con datos de asistencia. Fig. 4. Métricas de clasificación para regresión logística sin datos de asistencia.

1 1
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0.4 0.4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 1 2 3 45 6 7 8 9 10 11 12 13 14 15 0 1 23 4 5 6 78 9 10 11 12 13 14 15
semanas semanas

Precisión Recordar Fmedida Precisión Recordar Fmedida

Fig. 2. Métricas de clasificación para SVM con datos de asistencia. Fig. 5. Métricas de clasificación para SVM sin datos de asistencia.

1 1
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0.4 0.4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 1 23 4 5 6 7 8 9 10 11 12 13 14 15 0 1 23 4 5 6 78 9 10 11 12 13 14 15
semanas semanas

Precisión Recordar Fmedida Precisión Recordar Fmedida

Fig. 3. Métricas de clasificación para bosque aleatorio con datos de asistencia. Fig. 6. Métricas de clasificación para bosque aleatorio sin datos de asistencia.

222000000
100% Los valores de las métricas de clasificación también eran cada vez más altos. En la
90% semana 10, los valores de la métrica de clasificación aumentaron
80%
considerablemente, y la importancia del tiempo de registro también aumentó y la
70% duración del registro se redujo. Este fenómeno indica que las actividades
60%
importantes se pueden inferir observando atentamente el cambio semanal de la
50%
importancia comparativa de las variables, y nos ayuda a evaluar el currículo y la
40%
estrategia de apoyo al estudiante desde la perspectiva de la investigación
30%
institucional.
20%

10%

0%
0 12345678 9 10 11 12 13 14 15 IV. C ONCLUSIÓN
semanas En este estudio, se consideró el método de detección automática para estudiantes
en riesgo. Examinamos las técnicas típicas de aprendizaje automático para estos
noche acceso sumisión comienzo hora jugador asistencia
estudiantes en función de los datos de registro reales de LMS e investigamos su
rendimiento.
Fig. 7. Cambio semanal de la importancia comparativa de las variables explicativas con los datos
de asistencia. El modelo de bosque aleatorio mostró el comportamiento más estable y una buena
cenefa de precisión y recuerdo. El modelo puede detectar alrededor del 40% de los
estudiantes en riesgo al final de la tercera semana del primer semestre con solo los datos de
100%
registro de LMS. Como el enfoque puede detectar un signo de comportamiento fuera de la
90%
tarea de los estudiantes con solo los datos de registro que se almacenarán automáticamente
80%
en el LMS, se muestra un cierto nivel de aplicabilidad del enfoque. Se indica que algunas
70%
características del comportamiento sobre el aprendizaje que afectan los resultados del
60%
aprendizaje pueden detectarse solo con los datos de registro en línea.
50%

40%

30%

20%
Además, la clasificación de la importancia comparativa de las variables
10%
explicativas obtenidas por el enfoque ayudaría a estimar qué variable afecta
0%
comparativamente al resultado del aprendizaje en un momento dado. Al
012 34 5 6 7 8 9 10 11 12 13 14 15
observar la importancia de la variable constantemente, se espera que una
semanas
estrategia de intervención sea más adaptativa y se pueda considerar la
noche acceso sumisión comienzo hora jugador
planificación de las clases, el plan de estudios y el apoyo al estudiante en base
a la información.

Fig. 8. Cambio semanal de la importancia comparativa de las variables explicativas sin los datos
de asistencia.

A AGRADECIMIENTO

Este trabajo fue apoyado por JSPS KAKENHI Grant Number


JP16K16331 y JP16H03082.
C. Cambio semanal de importancia comparativa de variables
Sería preferible investigar qué variable afecta fuertemente la capacidad de
clasificación. Dado que el modelo de bosque aleatorio puede calcular la importancia
R EFERENCIAS
comparativa de las variables con base en el índice de Gini, investigamos el cambio
semanal de la importancia de las variables como un enfoque para abordar ese [1] La 1ra Conferencia Internacional sobre Análisis y Conocimiento del Aprendizaje, Convocatoria
Para Documentos, julio 22, 2010. [En línea]. Disponible:
problema.
https://tekri.athabascau.ca/analytics/call-papers. [Accedido: 7 de abril,

2017].
La importancia comparativa de las variables para cada semana se muestra
en las Figuras 7 y 8. Estas cifras corresponden a la Fig. 3 y la Fig. 6 [2] JP Campbell y DG Oblinger, “Análisis académico”, EDUCAUSE Review, 2007.

respectivamente. Aunque una proporción de importancia cambió en una semana


[3] SM Jayaprakash, EW Moody, EJM Lauria, JR Regan y JD Baron, "Alerta temprana de
determinada, la variable “(2) Tasa de asistencia” fue la más importante para todas
estudiantes académicamente en riesgo: una iniciativa de análisis de código abierto", Journal
las semanas excluyendo la semana de orientación en el caso de utilizar la “(2) of Learning Analytics, vol. 1, no. 1, págs.
Tasa de asistencia”. En otro caso de no utilizar la “(2) Tasa de asistencia”, parece 47, 2014.
que algunos tiempos de cambio relativamente significativo correspondían a los [4] M. Andergassen, F. Mödritscher y G. Neumann, "Práctica y repetición durante la preparación
tiempos de cambio de los valores de la métrica de clasificación. Por ejemplo, de exámenes en cursos de aprendizaje mixto: correlaciones con los resultados del
durante las semanas 0 a 3, el número de inicios de sesión era cada vez más aprendizaje", Journal of Learning Analytics, vol.
1, no. 1, págs. 48–74, 2014.
importante y el
[5] CM Bishop, reconocimiento de patrones y aprendizaje automático, Springer,
2006.

222000111

También podría gustarte