Documentos de Académico
Documentos de Profesional
Documentos de Cultura
por
Riley _
Facultad de Ciencias
agosto 2019
iii
Declaración de autoría
Yo, Riley WEAGANT, por la presente declaro que esta tesis consiste en un trabajo
original del que soy autor. Esta es una copia fiel de la tesis, incluidas las revisiones finales
requeridas, según lo aceptado por mis examinadores. Autorizo a Ontario Tech University
a prestar esta tesis a otras instituciones o individuos con el propósito de investigación
académica. Además, autorizo a la Universidad Tecnológica de Ontario a reproducir esta
tesis mediante fotocopias o por otros medios, en su totalidad o en parte, a pedido de
otras instituciones o personas con fines de investigación académica. Entiendo que mi
tesis estará disponible electrónicamente para el público.
Firmado:
Fecha:
Machine Translated by Google
IV
Estado de Contribuciones
Por la presente certifico que soy el único autor de esta tesis y que ninguna
parte de esta ha sido publicada o enviada para su publicación. He utilizado
prácticas de referencia estándar para reconocer ideas, técnicas de investigación
u otros materiales que pertenecen a otros. Además, por la presente certifico
que soy la única fuente de los trabajos creativos y/o conocimiento inventivo
descritos en esta tesis.
Machine Translated by Google
Agradecimientos
En primer lugar, quisiera agradecer a mi supervisor, el Dr. Christopher Collins, por su
inquebrantable apoyo y orientación a través de obstáculos tanto personales como académicos.
El Dr. Collins siempre me permitió trabajar a mi propio ritmo y siempre estuvo disponible para
ayudarme cuando lo necesitaba.
También me gustaría agradecer al Dr. Adam Bradley por sus comentarios honestos y sus
innumerables charlas de ánimo a lo largo del camino. Su actitud positiva y franqueza siempre
fueron apreciadas.
También debo agradecer a mis compañeros de laboratorio por su invaluable experiencia.
experiencia y retroalimentación, y aliento durante mis peores días.
Por último debo expresar mi profundo agradecimiento a mis padres y hermanos, amigos
más cercanos y mi pareja por su apoyo incondicional. Este logro no hubiera sido posible sin
ellos. Gracias.
Machine Translated by Google
vi
Resumen
Facultad de Ciencias
Maestro de la ciencia
análisis visual
Las instituciones postsecundarias tienen una gran cantidad de datos de estudiantes a su disposición.
Estos datos se han utilizado recientemente para explorar un problema que ha prevalecido en el ámbito
investigadores intentan abordar mediante el aprendizaje automático. Esta tesis describe nuestro intento
de usar datos académicos de la Universidad Tecnológica de Ontario para predecir la probabilidad de que
un estudiante se retire de la universidad después del próximo semestre. Utilizamos datos académicos
recopilados entre 2007 y 2011 para entrenar un modelo de bosque aleatorio que predice si un estudiante
abandonará o no la escuela. Por último, utilizamos el nivel de confianza de la predicción del modelo para
viii
Contenido
Estado de Contribuciones IV
Agradecimientos v
Resumen vi
1. Introducción 1
1.1 Motivación. . . . . . . . ............. . . . . . . . . . 2
1.2 Aportaciones. . . . . . ............. . . . . . . . . . 3
2 Antecedentes 4
2.1 Retención de estudiantes . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Panel de retención 9
viii
5 Diseño de aplicaciones 36
5.1 Diseño iterativo. . . . .............. . . . . . . . . . 36
5.2 Interfaz. . . . . . . . .............. . . . . . . . . . 37
5.2.1 Selección de visualización. . . . . . . . . . . . . . . . . . . 38
Escalando la Trama. . . . . . . . . . . . . . . . . . . . . . . 38
Coloreando los Puntos. . . . . . . . . . . . . . . . . . . . 40
5.2.2 Diseño de interacción. . . . . . . . . . . . . . . . . . . . . 40
5.3 Back-end. . . . . . . . .............. . . . . . . . . . 43
6 Conclusión y Discusión 45
6.1 Discusión. . . . . . . .............. . . . . . . . . . 45
6.1.1 Estudio de caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.2 Estudio de caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1.3 Estudio de caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Contribuciones. . . . . .............. . . . . . . . . . 53
6.3 Supuestos y limitaciones. . . . . . . . . . . . . . . . . . . 53
6.3.1 Escasez de datos. . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2 Homogeneidad de nuestra Muestra. . . . . . . . . . . . . . . 54
6.3.3 Implementación del lado del servidor. . . . . . . . . . . . . . . . 54
6.3.4 Factores externos. . . . . . . . . . . . . . . . . . . . . . . 54
6.4 Trabajo futuro. . . . . . .............. . . . . . . . . . 54
6.5 Conclusión. . . . . . . .............. . . . . . . . . . 56
Datos de un estudiante 57
Machine Translated by Google
ix
Lista de Figuras
6.8 Estudio de caso 3: Parcela de enjambre de abejas filtrada con la optativa de Psicología 52
Machine Translated by Google
xi
Lista de tablas
xi
lista de abreviaciones
Capítulo 1
Introducción
FIGURA 1.1: Tasas de retención universitaria de Ontario de 2016 para estudiantes que pasan del
primer al segundo año. Ontario Tech University es la segunda barra desde la izquierda con una tasa
de retención de poco más del 80 %.
2 Capítulo 1 Introducción
Los datos más recientes disponibles sobre la tasa de retención de Common University
Data Ontario (CUDO) son de 2016, Figura 1.1. Las estadísticas de 2016 incluyen a los
estudiantes de primer año que fueron admitidos en 2008 y los siguen hasta la graduación.
Aproximadamente el 19% de los estudiantes admitidos en la universidad no regresaron
para su segundo año. Cuando se incluyen los estudiantes que se retiraron algún tiempo
después de su segundo año, esta tasa de retiro aumenta al 25%. Apoyar el éxito de los
estudiantes es importante en todos los niveles de estudio, ciertamente más en el año 1.
1.1 Motivación
La identificación de los factores de riesgo de la deserción estudiantil ha sido bien
investigada durante muchos años y continúa siendo un área activa de investigación [18].
Vincent Tinto diseñó un modelo teórico de comportamiento de abandono (Figura 1.2) que
intenta describir la decisión de retirarse como una combinación de integración social,
rendimiento académico y nivel de compromiso con las metas personales y el
Machine Translated by Google
1.2. Contribuciones 3
institución [22]. En 2010, Tinto escribió que estos modelos teóricos se enfocan más en describir
que tienen un bajo rendimiento académico corren el riesgo de ser despedidos si no alcanzan
ciertos umbrales de GPA. Se coloca a un estudiante en período de prueba académica si su
GPA total acumulativo cae por debajo de 2.0. Mantener un GPA semestral superior a 2.0 evitará
que el estudiante sea suspendido, pero permanecerá en período de prueba hasta que su GPA
acumulativo general sea superior a 2.0. Muchos sistemas de predicción de retención apuntan a
notificar al estudiante o asesor que el estudiante corre el riesgo de retirarse de la institución [6]
[12]. Estos “Sistemas de Alerta Temprana” juegan un papel importante en el éxito de los
estudiantes. En general, los sistemas de alerta temprana señalan que es probable que un
estudiante entrante o de primer año se retire por algún motivo.
Nuestro objetivo era tomar el concepto del sistema de alerta temprana y mejorarlo para
describir la probabilidad de éxito de los estudiantes en cualquier nivel de estudio. Presentamos
visualizaciones e interacciones para permitir un análisis más allá de la señalización inicial que
podría ayudar al estudiante a recuperarse y ver algunos posibles caminos positivos en el futuro.
1.2 Contribuciones
Las principales contribuciones de este trabajo son las siguientes:
• Un sistema de análisis visual que utiliza niveles de confianza de los predictores para
representar la probabilidad de éxito dado el conjunto de cursos elegido para un determinado
semestre.
Machine Translated by Google
Capitulo 2
Fondo
En este capítulo revisaré algunas áreas de trabajo que están estrechamente relacionadas con mi
disciplinas desde la década de 1940 [18]. En estos casos, tanto académicos como
Razones para interrumpir los estudios Señalando que hay una diferencia significativa
entre los estudiantes que se dan de baja por fracaso académico frente a los que se dan de baja de
forma voluntaria [22]. Los modelos descritos en este documento tienen como objetivo diferenciar entre
que definir métricas procesables. Estos conceptos teóricos han dado lugar a métricas que pueden
Sin embargo, muchos de estos conceptos se enfocan en factores externos como la integración entre
Los esfuerzos para predecir la deserción mediante el aprendizaje automático han aumentado en los últimos años.
amplia gama de problemas. Los investigadores tienden a centrarse en la predicción como un tipo de
herramienta de análisis mientras que los estudiantes con predicciones similares son analizados para encontrar
similitudes y diferencias significativas que podrían explicar su resultado similar. Un ejemplo de este
Tesis doctoral [16]. Pittman compara varias técnicas de aprendizaje automático con el objetivo de
estudiantes de tiempo completo como de tiempo parcial en todos los niveles de año. como el trabajo
presentado aquí, Pittman tiene como objetivo cambiar el enfoque de la retención de estudiantes de
que elegimos para probar los algoritmos de aprendizaje automático que hicimos: lineal
Se han utilizado varias metodologías diferentes para tratar de abordar el problema de la retención
que se derivó de una red social [4]. Cada uno de estos sistemas agregó
una nueva dimensión a los enfoques existentes, pero todos ellos se basaron en información que fue
información utilizada para estos modelos significa que son más adecuados para analizar
Sweeney et al. propuso un sistema que predice las calificaciones que obtendrá un estudiante
entrar en las asignaturas cursadas en el próximo trimestre [21]. Este trabajo es más similar a
el nuestro, ya que utiliza algunos datos de transcripciones históricas para predecir un resultado para el
6 Capítulo 2. Antecedentes
la minería y el aprendizaje automático se han centrado en los datos de estos cursos en línea.
Machine Translated by Google
Los datos demográficos y de compromiso de los MOOC son fundamentalmente diferentes de los
datos recopilados a través de instituciones que operan en un entorno de campus más tradicional. Si
estar formado por profesionales que quieran actualizar sus habilidades y madurar
aprendices Las tasas de deserción de los MOOC también son significativamente más altas que las de un
campus tradicional y acercarse al 90% [15]. En consecuencia, los resultados de los estudios
Los estudios que se centran en la retención en los campos STEM son frecuentes en la literatura,
específicamente con los abandonos de STEM significa que los modelos de análisis y los resultados no
Gerben W. Dekker et. Alabama. intentar predecir si los estudiantes de ingeniería eléctrica
factores específicos del programa de Ingeniería Eléctrica [7]. Las pruebas del clasificador simple dieron
como resultado precisiones entre el 75% y el 80% que los autores
Más recientemente, Lovenoor Aulck et. Alabama. basaron sus predicciones en un solo
término de datos académicos. Las características del curso fueron condensadas y representadas por
Departamento. Las calificaciones de los cursos del departamento se separaron en una variable que
cursos de primer año en física, química, biología y matemáticas que son típicamente
cursado en dos semestres (es decir, Física I y Física II, Cálculo I y Cálculo II, etc.). Estas variables del
Ampliando este trabajo, Aulck et. Alabama. introdujo el concepto de “Afinidades STEM” [2]. Las
afinidades STEM intentan describir el nivel de compromiso que tiene un estudiante con el material del
8 Capítulo 2. Antecedentes
estudiante está tomando y si continúa o no en un camino académico STEM. A medida que un estudiante
su afinidad STEM cae. El modelo de afinidades STEM se correlaciona con la "intención STEM" y puede
cuando es más probable que los estudiantes abandonen los estudios o cambien de un camino STEM.
para comprender e interpretar. Las personas a menudo necesitan tomar decisiones basadas en
datos que es una tarea difícil cuando se presentan con tablas de datos y resumen
información.
Miettinen realizó una encuesta sobre técnicas de visualización para apoyar la toma de decisiones con
criterios múltiples [14]. Cubren varias técnicas en detalle, incluidos gráficos de barras, gráficos de telaraña,
indicando qué visualización es apropiada para diferentes tipos de información. Mencionan a lo largo del
la visualización o los datos podrían obstaculizar en lugar de ayudar a la toma de decisiones pro
impuesto.
intenta mejorar el rendimiento del modelo analizando los datos de entrada y tratando de interpretar la "caja
trazando las estimaciones de probabilidad de clase y coloreando el fondo rectangular en consecuencia [11].
por el usuario Si bien este método no es nuevo, proporcionaron detalles sobre cómo
estimados. Nuestro trabajo utiliza estimaciones de probabilidad de clase para interpretar el clasificador
resultados, aunque de otra manera. Nuestro enfoque utiliza las probabilidades de clase en
un intento de representar la incertidumbre de nuestro modelo predictivo como una probabilidad de éxito
para un estudiante.
Machine Translated by Google
Capítulo 3
Panel de retención
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
lun mar mie jue vie Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
08:00
a 09:30
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
09:30
a
las 12:30
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
12:30
a 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
las 15:30
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
15:30
a
las 18:30 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
18:30
a
las 21:30
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
W W W W W W W W W W W
Universidad. Un objetivo específico del proyecto era centrarse en revelar los factores que
podrían ser influenciados por la institución.
Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
W W W W W W W W W W W
El selector de año le permite al usuario ver a los estudiantes como una cohorte o grupo. El
término "año" en este caso significa específicamente el año en que un estudiante fue admitido
en la universidad. Como se muestra en la Figura 3.2, al visualizar la distribución de los
estudiantes que se retiraron (abajo, se graduaron o aún asisten a la universidad), podemos ver
el crecimiento general del programa y enfocarnos en una cohorte con una tasa de retiro más
alta. También podemos use estas barras apiladas como un selector para filtrar a los estudiantes
según su estado de retiro.
Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
W W W W W W W W W W W
eje que muestra el GPA del estudiante en la graduación, si corresponde. Cada línea de
estudiante se cruza con cada eje en la posición correspondiente. Incluso cuando se aplican
filtros, la cantidad de estudiantes que se muestra en el gráfico de coordenadas paralelas
puede ser abrumadora. Como se muestra en la Figura 3.3, el cuadro está abarrotado
cuando se completa con estudiantes admitidos en el programa de Psicología Forense en 2011.
Implementamos dos interacciones para minimizar el efecto del desorden:
• Desplazamiento de línea
Como se muestra en la Figura 3.4, el pincel de eje se usa para seleccionar un rango
de GPA. Todo el tablero se filtra de acuerdo con esta interacción de pincel. Se puede llamar
la atención sobre un solo estudiante al pasar el puntero del mouse sobre su línea. Esta
interacción de desplazamiento no filtra el tablero, ya que profundizar en un solo estudiante
podría afectar el anonimato.
3.2.3 Horario
La visualización del horario muestra los intervalos de tiempo del curso organizados en una
cuadrícula. Las columnas de la cuadrícula indican el día de la semana (lunes a viernes) y el
Machine Translated by Google
08:00
a
09:30
09:30
a
12:30
12:30
a
las 15:30
15:30
a
18:30
18:30
a
las 21:30
FIGURA 3.5: Visualización de horario poblado con estudiantes admitidos a Ingeniería Nuclear
en 2009. Cada cuadro representa un intervalo de tiempo de tres horas durante las cuales los
estudiantes tomaron cursos. Dentro de cada cuadrado hay una distribución de calificaciones
recibidas en ese intervalo de tiempo. La barra superior (gris claro) representa las A, la segunda
barra (blanca) las B, la barra del medio (gris oscuro) las C, la siguiente barra (azul oscuro) las D
y la barra inferior (azul claro) representa las F. Podemos notar una distribución mucho mayor de
D y F los miércoles por la mañana, y una distribución mucho mayor de A y B los martes y jueves
por la mañana.
las filas se dividen en franjas horarias de 3 horas. Cada sección se completa para mostrar la distribución de
calificaciones obtenidas por los estudiantes que tomaron un curso durante ese intervalo de tiempo.
El objetivo de esta visualización era explorar las distribuciones de calificaciones en todos los intervalos
de tiempo para ver si había áreas problemáticas o tendencias en torno a cuándo se ofrecieron los cursos,
las calificaciones obtenidas y las tasas de abandono. Como se muestra en la Figura 3.5, la distribución de
calificaciones en la franja horaria del viernes de 18:30 a 21:30 es muy diferente a las otras franjas horarias.
Aproximadamente la mitad de las calificaciones recibidas en este intervalo de tiempo son D y F. Se necesita
más análisis, pero este tipo de información podría motivar cambios de programación en el futuro.
Se puede hacer clic en los intervalos de tiempo individuales y filtrar todo el tablero para
mostrar los estudiantes que tomaron un curso en ese intervalo de tiempo. También se puede hacer clic en
cada barra de calificación individual y filtra el tablero para mostrar a los estudiantes que obtuvieron la
3.3 Resultados
A través del tablero pudimos confirmar que el rendimiento académico es una de las
principales motivaciones para retirarse. Ya sea que ese bajo rendimiento académico se
deba a la falta de compromiso o a problemas personales,
no sabemos. Aunque no podemos especular sobre la razón del bajo rendimiento
académico, podemos ver que una tendencia general a la baja en las calificaciones a menudo
precede a la retirada.
Machine Translated by Google
15
Capítulo 4
Los asesores académicos son el punto de contacto para los estudiantes que tienen dificultades
el logro de sus objetivos académicos. Aprendimos a través de nuestras reuniones con asesores que
sus recomendaciones a menudo provienen del conocimiento de las estadísticas y dificultad del curso,
la experiencia y el ajuste basado en el progreso del estudiante. Los estudiantes pueden dudar en
seguir los consejos para reducir la carga del curso o
semestre por temor a posponer la graduación. Los asesores creen que tener
una herramienta que podría mostrar los resultados potenciales de escenarios de cursos futuros que
Nuestro sistema propuesto intenta predecir la probabilidad de que un estudiante tenga éxito en el
usar un método de muestreo estadístico para generar los conjuntos de calificaciones que un estudiante
es más probable que le den su historial de calificaciones pasadas. Con esta muestra de calificaciones,
conjuntos de calificaciones generados. El clasificador binario de bosque aleatorio usa esta información
puntuación que nos dice qué tan seguro está el modelo en su predicción. Nuestro sistema
dieciséis
Capítulo 4. Predicción del éxito estudiantil
270 444
TABLA 4.1: El tamaño y la forma de nuestras tablas de base de datos, y la vista final que es
consultado por nuestro sistema. Debido a la gran cantidad de columnas, nos vimos obligados a dividir
el historial del curso en grupos. Course_history_a_b contiene registros para el curso
códigos que comienzan con la letra A o B. Course_history_c contiene registros para
códigos de cursos que comienzan con la letra C. Course_history_f_i contiene registros para
códigos de curso que comienzan con la letra F, G, H o I. El resto sigue en el mismo
Moda. Tenga en cuenta que no hay tabla de curso_historial_d porque no hay ningún curso
códigos que comienzan con la letra D. Se realizan una serie de operaciones de unión en el
tablas de historial de curso y retención_sin procesar para generar la vista de consulta
estudiantedata_view.
Se nos dio acceso a los datos de los estudiantes de 2003 a 2015. Adquirimos el
datos en formato de valores separados por comas (CSV) que se cargaron directamente
a una base de datos MySQL. Las tablas finales de la base de datos se describen en la Tabla 4.1.
como características para los datos de entrenamiento. El formato actual de los datos de grado es uno
fila para cada curso que toma cada estudiante. La información que se introduce en el
modelo predictivo es un vector de estudiante. Decidimos utilizar todos los cursos ofrecidos
el valor de la característica es 0. Nuestro modelo predictivo solo acepta valores numéricos. Para
Machine Translated by Google
A+ 4.3
A 4.0
A- 3.7
B+ 3.3
B 3.0
B- 2.7
do+ 2.3
C 2.0
D 1.0
F 0.0
TABLA 4.2: Calificaciones con letras de Ontario Tech y valor GPA equivalente. Las calificaciones con letras
fueron reemplazados con su GPA equivalente en nuestro conjunto de datos.
Por esta razón, todas las calificaciones con letras en el conjunto de datos se convirtieron a su
valor de GPA numérico. Como se muestra en la Tabla 4.2, el GPA equivalente a la letra
el grado F es 0. Esto planteó un problema para vectorizar los datos. 0 representará
tanto reprobar un curso como no tomar un curso. Necesitábamos una manera de diferenciar entre
los dos casos. Se nos ocurrieron tres posibles soluciones:
curso. Implementamos una columna indicadora para cada curso con valor 1
si el estudiante tomó el curso, y 0 en caso contrario. Surgieron varios problemas derivados de
este enfoque. El primer problema fue que el indicador
las columnas duplicaron el tamaño del conjunto de datos, lo que condujo a un entrenamiento del modelo más largo
tiempos y problemas de portabilidad de datos. El segundo problema fue que el modelo predictivo
prefirió las columnas de indicadores. Se volvió insensible a los cambios.
en el valor de GPA y dependía en gran medida de si un estudiante tomó o no un curso
en lugar de la calificación que obtuvieron.
Machine Translated by Google
TABLA 4.3: Un estudiante con cinco semestres de datos separados por semestre. los
las columnas son ID de fila (R_ID), ID de estudiante (S_ID), GPA de admisión (GPA de administrador),
Número de semestre (Sem #), Persister (Per.) y Curso 1–Curso 5 (C1–C5). En
semestre 1, este estudiante tomó un curso, C3. En el semestre 2, este estudiante tomó una
curso, C1. Tenga en cuenta que los cursos tomados en el semestre anterior tienen valores de calificación en
semestres subsiguientes, y el S_ID, Adm GPA y Per. los valores son consistentes. los
Los datos de capacitación no incluyen la identificación del estudiante o el número de semestre.
Nuestra siguiente opción fue reemplazar cada 0 que representa un curso no tomado
con un valor diferente. Cada estudiante ha tomado muchos menos cursos
que se ofrecen en la institución lo que significa que la mayoría de los valores en
cada vector de estudiante son 0s. Reemplazar cada valor 'no tomó' sería
requiere mucho tiempo y es visualmente confuso, ya que 0 tiende a representar una falta de
información, especialmente cuando se utilizan matrices y vectores dispersos.
Cambiar la representación numérica de F significa reemplazar la letra
grado F con un número que no sea su GPA equivalente a 0. Elegimos usar
-4.3 para representar F en nuestros datos en lugar de 0. Teóricamente, podríamos usar cualquier
valor en lugar de 0 ya que el modelo predictivo es, en esencia, un árbol de decisión basado en
reglas que no hace suposiciones sobre la escala y la magnitud de
datos entrantes. Elegimos -4.3 porque representa lo contrario de A+ (4.3
promedio).
El año académico se divide en tres secciones de cuatro meses. En Ontario Tech University,
los tres semestres se denominan semestre de otoño.
(septiembre-diciembre), semestre de invierno (enero-abril) y semestre de verano
(mayo-agosto). Dado que nuestra aplicación está diseñada para predecir el éxito de
el estudiante en base a un hipotético próximo semestre, decidimos dividir el
conjunto de datos por semestre. El primer paso en este proceso fue asignar un semestre
Machine Translated by Google
número para cada curso. Del conjunto de datos, tenemos un código de término asociado con
cada instancia del curso. El código del término se compone de un año y un código de semestre,
que es el número del mes en el que comienza el semestre.
Por ejemplo, el código de término para un curso tomado en el semestre de otoño de 2009 es
200909. Convertimos esta fecha en un número entero ordenando los códigos de término
secuencialmente. En este punto, tenemos todos los semestres numerados del 1 al 38. Para
cada estudiante, convertimos este número de semestre general en un número de semestre
relativo. El número relativo del semestre comienza en 1 y aumenta
secuencialmente por cada semestre que el estudiante haya asistido a la universidad. Este valor
de número de semestre no se usa para entrenar el modelo. Se utiliza para realizar consultas y
agrupar a los estudiantes para la evaluación del modelo.
Para crear los vectores de estudiantes, el conjunto de datos del historial del curso, incluidos
los números de los semestres, se transformó de un formato largo, donde los códigos del curso y
las calificaciones tienen sus propias columnas, a un formato ancho, donde los códigos del curso
son los nombres de las columnas y la calificación es el valor. Los vectores de estudiantes
también incluyen una columna de GPA de admisión a la escuela secundaria y una columna
persistente. De acuerdo con un análisis de correlación lineal realizado en el conjunto de datos,
el GPA de admisión tiene una alta correlación lineal con la retención. La columna persistente es
una columna binaria que indica si el estudiante en el conjunto de datos se retiró o no.
modelo no relacionaría tomar más cursos con tener éxito. Si bien es cierto que los estudiantes
de los años superiores tienen menos probabilidades de retirarse, también es cierto que los
estudiantes exitosos de los años superiores alguna vez fueron estudiantes exitosos de primer y
segundo año. Queríamos incluir tantas muestras de éxito como fuera posible en el conjunto de
datos utilizado para entrenar el modelo. Para lograr esto, decidimos tomar cada
estudiante y elimine los semestres uno por uno para crear instantáneas de cada estudiante
después de cada semestre. Por ejemplo, un estudiante que se graduó después de ocho
semestres tendrá una fila con las calificaciones del semestre 1, una fila con las calificaciones
del semestre 1 y el semestre 2, una fila con las calificaciones del semestre 1, el semestre 2 y el
semestre 3, etc. El valor de la columna persistente sigue siendo el mismo en un solo estudiante.
Los vectores resultantes para un solo estudiante se muestran en la tabla 4.3. Usando este
enfoque, podemos aumentar el número de muestras con
Machine Translated by Google
TABLA 4.4: Métricas de rendimiento de cada uno de nuestros algoritmos probados: logística
regresión, bosque aleatorio, red neuronal MLP y Naïve Bayes. En general, el
bosque aleatorio se desempeñó mejor con una precisión del 89,8% y una precisión de
91,7%.
Como parte de la evaluación de nuestro modelo, generamos una matriz de confusión. La matriz
de confusión muestra el número de muestras clasificadas correcta e incorrectamente etiquetadas
como ”Verdadero positivo”, ”Falso positivo”, ”Verdadero negativo” y ”Falso
Negativo". En este caso, nuestros datos tenían una etiqueta de 1 (Retenido) y 0 (Retirado).
Un verdadero positivo es una muestra con una etiqueta original de 1 y una etiqueta predicha
de 1. Un verdadero negativo es una muestra con una etiqueta original de 0 y un
etiqueta de 0. Un falso positivo y falso negativo es una muestra etiquetada como 0 y
predicho como 1, o etiquetado como 1 y predicho como 0 respectivamente.
Machine Translated by Google
Precisión Precisión
En términos de los datos del estudiante, un estudiante etiquetado como 0 y predicho como 1
(falso positivo) es nuestro peor escenario y debe minimizarse. Este
reduciría el número de estudiantes en riesgo a los que se muestran resultados que pueden
hacerles creer que no están en riesgo. Un estudiante que se predijo que
retirar (0), con una etiqueta real de 1 no es ideal en términos de precisión del modelo,
pero es preferible decirle a un estudiante que tendrá éxito cuando
probable que se retire voluntaria o involuntariamente. La precisión es una métrica que se
relaciona directamente con la tasa de falsos positivos, Precisión = TruePositive/(TruePositive +
Falso positivo). Una puntuación de alta precisión se correlaciona con una baja tasa de falsos positivos.
TABLA 4.6: Métricas del modelo general probado en semestres individuales. General
la precisión se calculó utilizando una validación cruzada de 10 veces. Exactitud, precisión y
el recuerdo para cada semestre se calcularon usando datos de prueba.
del 90% mejora ligeramente este modelo ya que la tasa de falsos positivos sigue siendo baja.
La red neuronal MLP funcionó razonablemente bien con nuestro conjunto de datos.
La exactitud fue del 84%, con una precisión del 85%. La precisión ligeramente mejor
que el modelo de regresión logística, pero la puntuación de precisión sufrió.
Los bosques aleatorios son conocidos como un buen algoritmo de aprendizaje automático
de "propósito general", y por su rendimiento en conjuntos de datos relativamente pequeños con un
alto número de características. El modelo de bosque aleatorio se desempeñó mejor con
una precisión del 90% y una precisión del 92%. Siendo ambos valores
el más alto entre los algoritmos probados, decidimos usar un bosque aleatorio
clasificador como nuestro modelo predictivo. Ante los problemas de portabilidad del modelo con
KN IME, implementamos el modelo de bosque aleatorio en Python utilizando el
Biblioteca SciKit-Learn.
Con base en la literatura, los modelos previos de predicción de estudiantes han sido más
exitoso cuando se entrena en los últimos 5 años de datos académicos en lugar de
todo el conjunto de datos históricos [16]. Esto se puede explicar simplemente cambiando
tiempo extraordinario. Los instructores, el contenido del curso, los horarios y los estudiantes cambian
tiempo extraordinario. Estos cambios conducen a cambios en los promedios de calificaciones y distribuciones,
Machine Translated by Google
TABLA 4.7: La clase dividida de los datos usados para entrenar cada modelo semestral, y la
número de muestras utilizadas para entrenar y probar cada modelo.
La cantidad de datos que cada estudiante tiene varía a lo largo del conjunto de datos. Eso
tendría sentido que los estudiantes con 1 semestre de datos tengan menos información
ción que un estudiante con 8 semestres que ha tomado más cursos. Sin embargo, debido a
que separamos a cada estudiante en sus filas acumulativas de semestres, un estudiante con
8 semestres también tiene una fila con 7 semestres de información, 6 semestres y así
sucesivamente. Esto significa que se usaron más muestras para entrenar el modelo del
semestre 1 en comparación con los modelos del semestre 7 u 8. El número de muestras de
entrenamiento y prueba, y la división de clase de los datos se informan en la Tabla 4.7. Cada
modelo semestral se entrenó utilizando una validación cruzada de 10 veces y la exactitud, el
recuerdo y la precisión se informan en la Tabla 4.5. Inicialmente pensamos que dado que el
número de estudiantes que se retiran después del semestre 1 o 2 es significativamente mayor
que el número de estudiantes que se retiran después del semestre 6 o 7, la precisión de los
modelos de semestre superior sería mucho mayor. Como se muestra en la Tabla 4.5, nuestras
suposiciones eran correctas. Queríamos saber si el modelo general mostraría una tendencia
similar en precisión cuando se probara en grupos semestrales. La exactitud, precisión y
recuperación de estas pruebas se pueden encontrar en la Tabla 4.6. Como puede ver, no se
perdió mucha precisión en comparación con un modelo entrenado específicamente en ese
grupo semestral.
Si bien PCA redujo el tamaño de nuestro conjunto de datos y la precisión se mantuvo
constante, hubo problemas significativos con el uso de PCA. En primer lugar, la reducción
de la dimensión lidad eliminó un nivel de explicabilidad de nuestro modelo en el que confiamos
en nuestro sistema. Con dimensiones reducidas, es imposible decir qué características
individuales (cursos) contribuyeron al modelo entrenado. Las funciones con la clasificación de
importancia de modelo más alta pueden interpretarse como los cursos que mejor predicen el
éxito. También perdimos un nivel de precisión. Incluso con una pequeña reducción en el
número de características (es decir, 1501 características a 1450 características), el modelo
simplemente predijo la división de clases. En otras palabras, predijo que todos tendrían éxito,
asegurando que sería correcto el 85% de las veces. Una precisión del 85% es buena, pero
solo cuando el clasificador está tomando una decisión informada que se demuestra mediante
las puntuaciones de precisión y recuperación.
Hicimos más pruebas combinando las estrategias de entrenamiento en los últimos 5 años
de datos, reducción de dimensionalidad y agrupación por semestre. Todas las pruebas que
utilizaron reducción de dimensionalidad arrojaron los mismos resultados y problemas de
precisión que las pruebas anteriores que utilizaron PCA. Además, la agrupación por semestre
una vez más resultó innecesaria. La única agrupación que resultó eficaz
Machine Translated by Google
crecimiento
Para seleccionar los mejores parámetros para nuestros datos, escribimos un python
script para probar diferentes combinaciones de diferentes valores para cada parámetro.
El rango de valores utilizados para probar cada parámetro se describe en la Tabla 4.9. Este
n_estimadores 50–1000 50 50
criterio gini/entropía N/A gini
max_leaf_nodes 10–960 50 860
min_samples_split 2–10 1 9
min_samples_leaf 2–10 1 9
TABLA 4.9: Valores probados y finales para los parámetros de nuestro modelo predictivo. Nosotros
decidido sobre los valores finales basados en el modelo con la mayor precisión de prueba
entre aquellos con la mayor precisión de entrenamiento.
Machine Translated by Google
BUSI1450U Estadísticas 6
HLSC2460U Fisiopatología I 7
BIOL1020U Biología II 10
TABLA 4.10: Las diez características más importantes clasificadas por nuestro modelo predictivo.
Entre los mejores cursos están las optativas populares (Sociología y Psicología), y
cursos tomados por la mayoría de los estudiantes de ingeniería y ciencias (ecuaciones diferenciales,
Comunicaciones Técnicas y Estadísticas). Sabíamos que el GPA de admisión era
correlacionado con la retención, por lo que no sorprende ver que ocupa el puesto número 9.
Es importante tener en cuenta que estos modelos se entrenaron en una versión anterior de
nuestro conjunto de datos. Redefinimos nuestros conjuntos de entrenamiento y prueba por admisión
año, y 11 de las 1510 funciones de entrenamiento utilizadas para probar los valores de los parámetros
fueron eliminados después del proceso de selección de funciones. Estas características representaban
conjunto de características, sin embargo, había más de una forma de lograrlo. Los primeros 3 o 4
caracteres de un código de curso de Ontario Tech indican el departamento que ofrece el curso.
Consideramos agrupar cursos por este código de departamento para disminuir el número total de
funciones. Sin embargo, perderíamos un importante nivel de información. Si agrupamos por código de
departamento, el valor de la característica podría ser la calificación promedio del estudiante en esos
cursos, o el número de cursos tomados en ese departamento, o algún otro valor calculado. Esto
significa que perdemos información a nivel de grado individual, e incluso información como el nivel de
Otra opción era agrupar por código de departamento y nivel de año. En los códigos de curso de
Ontario Tech, el nivel de año de un curso se indica mediante el primer dígito que sigue al código de
departamento. Agrupar cursos por código de departamento y nivel de año nos brinda un nivel adicional
de información en comparación con solo agrupar por código de departamento, pero aún necesitamos
usar algún tipo de promedio o resumen como valor. Dado que estábamos interesados en el rendimiento
del curso y queremos que el modelo sea sensible a diferentes valores de calificación, decidimos no
agrupar los cursos y usar cada curso individual como una característica.
Decidimos incluir una característica adicional con los cursos, GPA de admisión. El GPA de
admisión es el GPA promedio de los cursos de grado 12 del estudiante utilizados para la admisión a la
retención_sin procesar (Tabla 4.1), sabemos que junto con el GPA del primer semestre y el GPA del
primer año, el GPA de admisión está correlacionado con la retención. Decidimos no incluir el GPA del
primer semestre y el GPA del primer año como características porque esos valores se pueden calcular
El modelo de bosque aleatorio entrenado asigna un nivel de importancia a cada una de las
FIGURA 4.1: Cada vector de estudiante está compuesto por la información académica
existente del estudiante y un escenario generado. En este caso, el estudiante tiene dos
semestres de datos. Eligieron tres cursos para tomar en su tercer semestre: INFR1310U
(Diseño gráfico I), CSCI1200U (Computadoras y medios) y CSCI2010U (Principios de
informática). Se seleccionaron conjuntos de calificaciones probables y se asignaron a los
tres cursos usando el algoritmo descrito en la Sección 4.5.1 para crear cinco terceros
semestres hipotéticos. Estos terceros semestres se combinan con la información del semestre
1 y el semestre 2 para crear cinco vectores de estudiantes, que cuando se introducen en el
modelo devuelven un valor de probabilidad de éxito.
Machine Translated by Google
• Demasiada información
• Escenarios irrelevantes
Mostrar todos los escenarios posibles tiene un alto potencial para abrumar a los
usuario y hacer que el gráfico se sobresature. Sobresaturar el gráfico
podría impedir que el usuario interprete el gráfico correctamente como los diferentes colores
se vuelven menos aparentes y el espacio visual se distorsiona. Una posible solución a esto
es una muestra aleatoria del conjunto completo. El problema con el muestreo aleatorio es
que la muestra no se adaptaría a las necesidades individuales de los estudiantes.
Machine Translated by Google
FIGURA 4.3: Distribución muestral para un estudiante con un GPA acumulativo de 1.46.
actuación. Un estudiante con un GPA acumulativo de 4.0 obtendría una muestra similar a la de un
Mostrar escenarios irrelevantes tiene la posibilidad de engañar a los usuarios al mostrar escenarios
Para mitigar estos efectos, necesitábamos implementar una técnica de muestreo que seleccionara
escenarios que fueran representativos del desempeño académico anterior del estudiante y cubriera el
espectro de calificaciones probable. La técnica de muestreo implica algunos pasos que se describen
en la Sección 4.5.1:
1. Configure una distribución normal en todos los GPA acumulativos en el conjunto de datos y
almacene la desviación estándar
6. Asigne cada grado en el escenario a cada uno de los cursos propuestos usando
datos y calculó la desviación estándar y la media de la distribución (Figura 4.2). Este valor de
desviación estándar se utilizará como la desviación estándar
más temprano. Este enfoque nos permite establecer una distribución de muestreo que es
generalizable y se ajusta al desempeño de un estudiante individual. A
la distribución de la muestra se muestra en la Figura 4.3. A partir de esta distribución, muestreamos
400 valores GPA acumulativos que se utilizarán para seleccionar escenarios de nuestro
tabla de probabilidades de escenarios. La tabla de probabilidades del escenario se describe más adelante en
esta sección.
Machine Translated by Google
FIGURA 4.4: Este diagrama de flujo describe nuestro sistema de principio a fin.
Comenzamos usando nuestra aplicación para consultar la base de datos para el historial
del curso de un solo estudiante. El resultado de esta consulta (Historial del estudiante)
se pasa al paso Generación de escenarios junto con las selecciones de cursos para el
siguiente semestre. Los escenarios generados se combinan con el historial del estudiante
para representar la finalización del siguiente semestre y se alimentan al modelo predictivo.
El modelo predictivo devuelve la puntuación de confianza y los escenarios generados que
se pasan a la aplicación para completar la visualización.
Asignación de calificaciones
El paso final de la técnica de muestreo es asignar las calificaciones en cada escenario de calificación
seleccionado a uno de los cursos elegidos por el estudiante. Para decidir qué calificaciones se asignan
a qué curso, necesitamos tres datos; el escenario de calificaciones (G), la lista de cursos elegidos (C)
y la probabilidad condicional de obtener cada calificación en cada curso (P). Este proceso se describe
en el Algoritmo 4.1.
Una vez que tenemos una muestra de escenarios, podemos generar vectores de estudiantes para
alimentar el modelo predictivo. La figura 4.4 describe cómo se implementa esta técnica de muestreo
TABLA 4.11: Una instantánea de la tabla de probabilidades del escenario para cuatro cursos. Esta mesa
contiene 6020 filas. Generamos una tabla de probabilidad separada para cada número de
cursos tomados en un semestre que van del 1 al 7.
MATH1020U D 0.227899
MATH1020U F 0.214592
MATH1020U C 0.167670
MATH1020U B 0.070586
MATH1020U B- 0.066941
MATH1020U A- 0.066362
MATH1020U do+ 0.059246
MATH1020U A+ 0.052939
MATH1020U A 0.040616
MATH1020U B+ 0.033152
TABLA 4.12: Una instantánea de la tabla de probabilidades de curso/calificación. Las probabilidades son
mostrado para MATH1020U (Cálculo II). La tabla completa de probabilidades de curso/calificación incluye
valores de probabilidad para cada curso que se ha ofrecido en la universidad y
contiene 11733 filas.
Machine Translated by Google
Tablas de probabilidad
Los escenarios utilizados para las probabilidades se muestrean directamente de la base de datos.
Para cada estudiante de tiempo completo en la universidad, aislamos cada semestre y almacenamos
la combinación de calificaciones (por ejemplo, [A,A+,A+,B,B-] sería una combinación para un semestre
de 5 cursos). Para cada una de estas combinaciones, calculamos el GPA semestral. Con esta
información pudimos calcular la probabilidad de un escenario específico dado un GPA semestral como
se muestra en la Tabla 4.11. Otro método para generar conjuntos de calificaciones sería generar
calificaciones probables individuales para cada uno de los cursos propuestos y combinarlos como un
conjunto. Sin embargo, sabemos que las calificaciones semestrales no son mutuamente excluyentes.
Esto significa que la probabilidad de recibir una calificación particular en un curso se ve afectada por
los otros cursos que se toman y la calificación recibida en esos cursos. Por esta razón, elegimos extraer
datos todas las notas recibidas en cada curso de la universidad. Para cada curso, calculamos la
probabilidad de obtener cada calificación y almacenamos los valores en nuestra tabla de probabilidades
como la probabilidad o confianza de que la predicción es verdadera. Este es el valor que finalmente se
mostrará a los usuarios en nuestra herramienta para que se interprete como la probabilidad de éxito de
un estudiante. Un clasificador Random Forest es una colección
de árboles de decisión que trabajan juntos para generar una sola predicción. Cada árbol en el bosque
usa características diferentes para tomar una decisión que se cuenta como una
votar por la predicción final. Por ejemplo, un clasificador compuesto por cinco árboles puede devolver
tres predicciones 0 y dos predicciones 1. Cada predicción cuenta como un voto y gana la mayoría. En
este caso, el clasificador devolvería una predicción general de 0. Junto con esta predicción general, el
clasificador también devolverá un valor entre 0 y 1, que es la probabilidad de que esta predicción sea
36
Capítulo 5
Diseño de aplicaciones
Nuestra aplicación propuesta tiene como objetivo presentar el resultado de nuestro modelo
predictivo a los asesores académicos para ayudar a los estudiantes a tomar decisiones
que los harán más propensos a tener éxito. El sistema toma una identificación de
estudiante y una lista de cursos como entrada y genera escenarios probables basados en
el rendimiento académico anterior del estudiante. Estos escenarios se introducen en el
modelo predictivo como vectores de estudiantes y el nivel de confianza de cada predicción
se muestra en una interfaz de análisis exploratorio para que el usuario lo interprete.
5.2. Interfaz 37
importante incluir información que permita a los usuarios sacar conclusiones procesables
de su análisis.
A partir de aquí diseñamos pieza a pieza el salpicadero. Comenzamos con la
visualización de horarios y el gráfico de coordenadas paralelas. La programación y las
tendencias de calificación se mencionaron como información procesable en nuestras
reuniones anteriores. Una vez que tuvimos versiones de trabajo de ambas visualizaciones,
nos reunimos nuevamente con un representante de la OIRA y el RO para discutir las
visualizaciones actuales y los pasos futuros. A partir de aquí, incluimos más filtros en el
gráfico de coordenadas paralelas en forma de cepillado de eje y desplazamiento de línea,
y en el cronograma como filtros de grado individuales y selectores de columna/fila.
Agregamos nuevos filtros al tablero, incluida la selección de programas individuales y el
selector de gráfico de barras del año de admisión. Todos estos componentes juntos
permiten al usuario explorar las relaciones entre las tendencias de calificación, la
programación y el desgaste a lo largo del tiempo.
Nos reunimos con OIRA y un asesor académico al comienzo del proyecto sis para
hablar sobre alejarnos del tablero y acercarnos a una herramienta para asistir en el
asesoramiento académico. Proporcionaron comentarios positivos a la idea de representar
el éxito de los estudiantes y un prototipo inicial de la trama de enjambre de abejas poblada
con datos simulados. Hicieron hincapié en que podría ayudar a convencer a los estudiantes
de una trayectoria de curso deficiente o alentar a los estudiantes que no tienen tanta
confianza en su desempeño. A partir de aquí, comenzamos el proceso de capacitación y
prueba de diferentes modelos con diferentes conjuntos de datos y la creación de la interfaz
de la aplicación.
5.2 Interfaz
Teníamos algunos criterios iniciales para diseñar nuestra interfaz basados en nuestras
reuniones con OIRA y asesores académicos. Debido a que las reuniones entre estudiantes
y asesores solo duran aproximadamente 15 minutos, la simplicidad y el diseño intuitivo
fueron clave. Necesitábamos una forma rápida para que los usuarios ingresaran la
información de los estudiantes y los cursos, y una forma intuitiva de mostrar e interactuar
con la información. Optamos por un diseño de una sola página con tres componentes: panel
de entrada, componente de visualización y un componente de resumen. El diseño y la
selección de cada componente se describen a continuación.
Machine Translated by Google
4.0
acumulativa
media
nota
2.0
0.3
FIGURA 5.1: Ejemplo de diagrama de enjambre de abejas. Los puntos se distribuyen a lo largo de una
eje horizontal, agrupándose en enjambres cuando varios puntos tienen el mismo valor.
no abandonará. Decidimos que esta era una buena representación de la probabilidad de éxito. El
nivel de confianza es un número decimal entre 0 y 1
que van desde menos probabilidades de éxito hasta más probabilidades de éxito.
Leer para principiantes en visualización, podría ser parte de un tipo de aplicación de tablero más
grande y permitiría un análisis simple. Una trama de enjambre de abejas, que se muestra en
La Figura 5.1 muestra los puntos distribuidos a lo largo de un eje escalado horizontal, estirando el eje
los puntos tienen el mismo valor, los puntos se agrupan para formar un enjambre. los
los niveles de confianza pronosticados tienden a agruparse en torno a valores similares para un solo
estudiante que está bien representado por la parcela beeswarm. También podemos agregar
filtros y color a los puntos que se muestran en este tipo de gráfico que
análisis de soporte.
Escalando la trama
Los rangos de nivel de confianza para un solo estudiante pueden variar entre 2
puntos en una escala de 0 - 1 proporciona un nivel de información útil para estudiantes con
predice que el estudiante probablemente abandonará los estudios, donde un nivel de confianza por encima
Machine Translated by Google
5.2. Interfaz 39
4.0
acumulativa
media
nota
2.0
0.3
Retirar Éxito
4.0
acumulativa
media
nota
2.0
0.3
FIGURA 5.2: El mismo diagrama de enjambre de abejas escalado (A) de 0 a 1 y rotulado Retirar–
Éxito y (B) de predicción de confianza mínima-máxima confianza.
0.5 significa que es probable que un estudiante sea retenido. Poder ver qué escenarios
cruzar este umbral resaltará las combinaciones de curso-calificación más probables
para conducir al éxito. En lugar de etiquetar los puntos finales del eje como 0 y 1
decidimos usar etiquetas de Retiro y Éxito como se muestra en la Figura 5.2a.
Esto ayuda al usuario a interpretar el eje como un espectro de Retirarse al Éxito
en lugar de centrarse en los números en bruto.
Escalar el eje desde el nivel de confianza mínimo y el nivel de confianza máximo permite
otro nivel de información más útil para los estudiantes.
cuyas parcelas se parecen a la que se muestra en la Figura 5.2a. Ver todos los puntos
distribuidos entre su valor mínimo y máximo, como se muestra en la Figura 5.2b, ayudará a los
estudiantes a encontrar los cursos en los que concentrarse para maximizar su
probabilidad de éxito.
alternar entre las dos escalas. Como se muestra en la Figura 5.3, al hacer clic en el ícono de
acercamiento en la esquina superior derecha del gráfico cambiará la escala
de Retirado-Éxito a Mínima Confianza-Máxima Confianza.
4.0
acumulativa
media
nota
2.0
0.3
Retirar Éxito
4.0
acumulativa
media
nota
2.0
0.3
FIGURA 5.4: La escala de colores de Viridis. En nuestra visualización, el púrpura más oscuro
representa los valores GPA acumulados más bajos de los escenarios, mientras que el amarillo más claro
representa valores GPA acumulativos más altos de los escenarios.
llamado escenario. La probabilidad de éxito se codifica como la posición horizontal del punto sobre
GPA del escenario. La paleta de colores de Viridis, Figura 5.4, es conocida por crear tramas que se
perciben con mayor precisión, son accesibles y visualmente atractivas [9]. Usando la escala de
los escenarios con un GPA semestral más alto se encuentran en el eje. El color más oscuro en
el color más claro representa el GPA semestral más alto de los escenarios.
en una reunión. Algunas de estas reuniones se reservan con antelación, pero muchas
los asesores a menudo tienen aproximadamente 15 minutos para reunirse con un estudiante. Nuestro
Machine Translated by Google
5.2. Interfaz 41
1
4.0
acumulativa
media
nota
2
2.0
0.3
Retirar Éxito
A A A A
B B B B
C C C C
3 D
F
D
F
D
F
D
FIGURA 5.5: La interfaz de la aplicación que muestra a un estudiante de Negocios que ingresa
a su tercer semestre y un GPA acumulativo de 1.47. (1) Componente del panel de entrada de
formulario donde el usuario ingresa una identificación de estudiante, el número de semestre
actual y hasta 7 cursos para tomar en el próximo semestre. (2) Componente Beeswarm que
muestra el nivel de confianza de la predicción. Este componente incluye un botón de "zoom"
para alternar la escala del eje entre 0 y 1, y el nivel de confianza mínimo y máximo.
(3) Componente de gráfico de barras de resumen que muestra el número de ocurrencias de
cada grado en cada curso de la parte seleccionada del gráfico.
La aplicación debe permitirles poner el sistema en funcionamiento lo más rápido posible cuando un estudiante
asiste a una reunión. Nos decidimos por un diseño simple de una sola página con tipos de entrada clásicos
que incluyen campos de entrada de texto y botones. La interfaz se compone de 3 componentes, que se
1. Entrada de formulario
entrada de texto estático para el número de identificación del estudiante y el número de semestre actual del
estudiante. La identificación del estudiante se usa para consultar la base de datos para el usuario actual, y el
número de semestre se usa para filtrar los resultados de la consulta después de realizar algunos cálculos en
el conjunto de resultados completo. Las selecciones de cursos se ingresan usando campos de entrada de
texto dinámico. Dependiendo de la cantidad de cursos que el estudiante quiera tomar en el siguiente semestre,
el usuario puede agregar esa cantidad de campos. Cualquiera de los campos agregados también se puede
FIGURA 5.6: Diagrama Beeswarm que muestra los detalles del escenario al pasar el mouse. en este particular
escenario, el estudiante obtuvo una D en BUSI1915U, D en ECON2010U, F en BUSI1020U y
F en BUSI1010U.
secuencia de comandos que utiliza la información ingresada en el formulario HTML para generar
gráfico, escala de colores y menú desplegable para alternar la escala del eje. el enjambre de abejas
la trama se rellena con el archivo CSV generado a partir del script CGI. Como se describe en la Sección
puntajes en una información sobre herramientas (Figura 5.6). Hacer clic y arrastrar horizontalmente (cepillado)
en el eje x selecciona puntos en el gráfico que se encuentran dentro del rango resaltado
(Figura 5.7).
4.0
acumulativa
media
nota
2.0
0.3
A A A A
B B B B
C C C C
D D D D
F F F F
0 5 10 0 5 10 0 5 10 0 5 10
FIGURA 5.7: Interacción de cepillado utilizada para seleccionar un conjunto de escenarios en el enjambre de abejas
gráfico. En los gráficos de barras, podemos ver que los escenarios seleccionados contienen muchas F
en los cursos de BUSI pero sin F en el curso de ECON.
Machine Translated by Google
5.3. back-end 43
A A A A
B B B B
C C C C
D D D D
F F F F
FIGURA 5.8: Gráficos de barras que muestran la distribución de calificaciones de los escenarios para
cada curso propuesto. Estos gráficos de barras se actualizan cuando el usuario selecciona una parte
del gráfico mediante la interacción del pincel.
5.3 Servidor
La aplicación web utiliza CGI para ejecutar un script de Python que genera los datos para
completar el gráfico Beeswarm. El script escribe la identificación del estudiante, el nivel de
confianza, el GPA acumulativo y los cursos en un archivo CSV. Finalmente, la secuencia de
comandos CGI devuelve un código HTML que le dice al navegador que actualice el archivo actual.
Machine Translated by Google
página, que carga el archivo CSV actualizado. Los archivos se sirven mediante Python
CGI HTTPServer.
Machine Translated by Google
45
Capítulo 6
Conclusión y discusión
6.1 Discusión
En esta sección, vamos a presentar algunos estudios de casos ficticios que demuestran
la aplicabilidad de nuestro sistema en diferentes escenarios de casos de uso y la
interpretación de los resultados en estos diferentes casos.
Holly es una estudiante de ingeniería de software que ingresó en 2011 y acaba de terminar
su primer año. Académicamente, se desempeñó bien en la mayoría de sus cinco cursos
del primer semestre y terminó con un GPA acumulativo de 2.88. Tuvo dificultades tanto
en Cálculo I como en Física I, pero era optimista al saber que estos eran cursos difíciles y
que muchos de sus compañeros también tenían dificultades. Holly también participó en la
comunidad del campus como miembro del equipo Varsity Curling y miembro del Board
Games Club. Desafortunadamente, el semestre 2 pasó factura a Holly y su GPA semestral
cayó a 1.67, dejándola con un
Machine Translated by Google
FIGURA 6.1: Gráfica Beeswarm que muestra la probabilidad de éxito de Holly dada la
cuatro cursos obligatorios. Todos los escenarios se encuentran por encima del punto medio que indica un
alta probabilidad general de éxito.
Antes de registrarse para los cursos de segundo año, Holly decidió programar una cita con un
asesor académico para hablar sobre su futuro. El software
El mapa del programa de ingeniería enumera 5 cursos que se tomarán en el primer semestre de
año 2; Matemáticas discretas (ENGR2110U), Fundamentos de ingeniería eléctrica (ENGR2200U),
Programación orientada a objetos (ENGR2710U), Ecuaciones diferenciales (MATH2860U) y una
asignatura optativa de estudios liberales. debido a ella
desempeño deficiente en cursos de matemáticas anteriores, Holly está particularmente preocupada
sobre cómo tomar Ecuaciones Diferenciales y Fundamentos de Ingeniería Eléctrica.
Durante los primeros 5 minutos de la reunión de Holly con su asesor, discuten el motivo de su
visita y ella menciona las preocupaciones mencionadas anteriormente.
Durante esta discusión, el asesor puede ingresar los cursos requeridos en nuestro
Machine Translated by Google
6.1. Discusión 47
FIGURA 6.2: Escenarios de menor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, pero el curso de
matemáticas indica que recibir una F resulta en una menor probabilidad de éxito.
Sistema de Predicción del Éxito Estudiantil. Holly aún no está segura de qué optativa tomar,
por lo que el asesor simplemente ingresa los 4 cursos requeridos. El gráfico resultante se
muestra en la Figura 6.1. Como puede ver, todas las predicciones de escenarios se
encuentran a la derecha del punto medio, lo que significa que, en todos los casos generados,
es probable que Holly tenga éxito.
Sacar esta conclusión sin más exploración podría ser engañoso. Estos resultados
significan una cosa: que los estudiantes anteriores con un historial académico similar han
tenido éxito. Esto deja mucho espacio para la interpretación por parte del asesor, y es
importante que el asesor comunique que estos resultados no significan un éxito garantizado.
Para analizar más a fondo estos resultados, el asesor selecciona los escenarios con
menor probabilidad de éxito (Figura 6.2). Los gráficos de barras de resumen se actualizan
para mostrar qué calificaciones están presentes para cada curso en los escenarios seleccionados.
De inmediato podemos ver la alta frecuencia de F en MATH2860U. Deslizando la ventana de
selección hacia el extremo derecho del gráfico, Figura 6.3, podemos ver que las predicciones
más exitosas tienen una calificación mínima de C en MATH2860U.
Dada esta información, el asesor le comunicaría a Holly que debe concentrarse en obtener
buenos resultados en MATH2860U, y una calificación inferior a C en este curso podría reducir
su probabilidad de éxito.
Este análisis visual podría permitir una mayor discusión sobre la reducción
Machine Translated by Google
FIGURA 6.3: Escenarios de mayor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, y el curso de
matemáticas indica que recibir una calificación de C o superior conduce a una mayor probabilidad de
éxito.
6.1. Discusión 49
FIGURA 6.4: Diagrama Beeswarm que muestra la probabilidad de éxito de Travis con sus
cuatro platos elegidos. Los escenarios se encuentran cerca de la mitad del gráfico y cruzan el
punto medio.
Como puede ver en la Figura 6.4, las predicciones caen por encima y por debajo del
punto medio de la gráfica. Esto significa que el predictor no está muy seguro de que
Travis tenga éxito o de que se retire. En este punto, el asesor debe señalar que los
escenarios de colores más claros (que representan calificaciones más altas en un
escenario) se encuentran a la derecha del punto medio, mientras que los escenarios de
colores más oscuros se encuentran a la izquierda. Deben comunicar que, a menos que
Travis se desempeñe bien académicamente, es probable que se retire. Esta información
debería generar una mayor discusión sobre las prioridades de Travis y los cambios que
podría hacer para mejorar sus calificaciones. Por ejemplo, podrían hablar sobre mudarse
a una vivienda en el campus, reducir aún más su carga de cursos o cambiar a un estado de medio tiempo
Machine Translated by Google
FIGURA 6.5: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si toma
Biología como materia optativa. Todos los niveles de confianza se encuentran entre 0,59 y 0,85.
FIGURA 6.6: Diagrama de enjambre de abejas ampliado con la parte derecha filtrada. Los gráficos
de barras de resumen se actualizan en consecuencia para mostrar las distribuciones de calificaciones de
los escenarios filtrados.
Machine Translated by Google
6.1. Discusión 51
FIGURA 6.7: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si ella
Toma Psicología como optativa. Los niveles de confianza se encuentran entre 0,55 y 0,86
que es similar a los resultados de Biología.
podemos ver que los valores de probabilidad de éxito de Abby se encuentran entre 0,59 y 0,85.
Machine Translated by Google
FIGURA 6.8: Diagrama de enjambre de abejas ampliado con la sección derecha filtrada. Los gráficos de barras de
resumen se actualizan para mostrar las distribuciones de calificaciones de los escenarios seleccionados.
Con un rango tan amplio de valores de confianza, Advisor filtra la sección derecha
del gráfico para ver la distribución de calificaciones en el extremo superior del
rango de confianza. Los gráficos de barras de resumen que se muestran en la
figura 6.6 indican que Cálculo y Física son los cursos más importantes con cero F
y los otros tres cursos con distribuciones similares. Con una buena comprensión
de su probabilidad de éxito si decide tomar Biología, Abby decide que le gustaría
ver las posibilidades con una materia optativa diferente. La mayoría de los amigos
de Abby han decidido tomar Introducción a la Psicología (PSYC1000U), por lo
que le pide al Asesor que cargue un cuadro usando este curso como optativo. La
vista ampliada resultante se muestra en la Figura 6.7. Los valores de probabilidad
de éxito se sitúan entre 0,55 y 0,86, muy similar al gráfico anterior. También
podemos ver un patrón de color similar en el que los colores más claros se
agrupan a la derecha del gráfico y los colores más oscuros se desvanecen a la
izquierda. Desde aquí, el Asesor filtra el gráfico para examinar las distribuciones
de calificaciones en el lado derecho del gráfico, Figura 6.8. Una vez más, los
gráficos de barras de resumen se ven muy similares. En este punto, el Asesor
podría comunicar que cursar Biología o Psicología conlleva una alta probabilidad
de éxito con un buen rendimiento académico. El asesor animaría a Abby a decidir
si se siente cómoda con un horario de mucha ciencia o si quiere tomar algo que los estudiantes tienden a h
Machine Translated by Google
6.2. Contribuciones 53
6.2 Contribuciones
La principal contribución de esta tesis fue entrenar un modelo para predecir si un estudiante se retiraría o
precisión. El modelo de bosque aleatorio se entrenó utilizando vectores de estudiantes compuestos por
1500 características de curso con valores de calificación GPA y 1 característica de calificación de admisión
a la escuela secundaria con un valor de calificación GPA. El modelo tenía una precisión del 89% y una
abandonará o no los estudios dado un conjunto de cursos y calificaciones probables. El nivel de confianza
de estas predicciones se presenta como una medida de probabilidad de éxito. Dado que cada valor de
probabilidad de éxito está vinculado
a un conjunto de calificaciones, también podemos analizar las distribuciones de calificaciones con respecto
a un rango de niveles de confianza. Este tipo de interacción le permite al usuario ver qué cursos
la suerte de que la universidad tenga registros digitalizados consistentes desde que la escuela abrió en
2003. Sin embargo, dado que la escuela aún es relativamente nueva, nuestra población es pequeña.
Nuestra decisión de entrenar el modelo con solo 5 años de datos también redujo significativamente el
tamaño de la muestra. A medida que crece la población estudiantil, también lo hará la cantidad de datos
de capacitación. Los resultados de nuestro modelo son prometedores si se tienen en cuenta los tamaños
de muestra significativamente más bajos que se utilizan cuando se capacita a diferentes modelos en
pequeñas facultades de artes liberales de los Estados Unidos y otros tamaños de muestra pequeños [7,
de nuestra muestra. Los estudiantes de nuestra muestra provienen de siete Facultades diferentes y 43
modelo para cada Facultad o Programa tendría sentido a partir de una homogeneidad
Debido a las limitaciones de tiempo, elegimos usar una implementación CGI más simple donde el
El script CGI Python genera un archivo CSV y vuelve a cargar la página. Esta implementación generó
Necesitamos reconocer el hecho de que hay factores fuera de nuestro conjunto de datos.
que tienen una fuerte correlación con el éxito del estudiante, incluida la situación familiar y social del
incluir la etnicidad como una característica de entrenamiento. Además, la situación familiar y social de
que tenemos acceso. Sin embargo, asumimos que estos factores impactan el
rendimiento académico del estudiante y son implícitamente capturados por el modelo predictivo.
Este proyecto presenta un paso hacia el apoyo al éxito de los estudiantes con el aprendizaje automático.
niveles de confianza, y los gráficos de barras de resumen agregan otra capa de información útil
El modelo de bosque aleatorio demostró que podíamos predecir con precisión con la
extracción usando información de cursos y calificaciones usando un predictor listo para usar.
Sería interesante ver el desempeño de una más sofisticada
modelo.
El modelo predictivo también podría usarse para implementar una alerta temprana
sistema. Avanzando en esta dirección, hay algunas opciones diferentes. Para
ejemplo, usando el modelo actual, si los asesores dirigieran a todos los estudiantes a través del
modelo predictivo, el sistema podría señalar a todos los estudiantes que se prevé
retirarse (o algún otro umbral de confianza).
basado en el número de cursos tomados y los códigos de curso específicos. Incluir el número del
semestre podría permitir que el modelo diferencie explícitamente
entre los estudiantes de primer año que toman cursos de primer año y los estudiantes de tercer año
tomando cursos de primer año.
Finalmente, este trabajo se beneficiaría de una evaluación formal. Nos gustaría
realizar un estudio de usuarios para evaluar la usabilidad de nuestra aplicación. esto ayudaría
entender cómo los usuarios potenciales interpretan las visualizaciones y las formas de
comunicar los resultados a los estudiantes. Con el desarrollo de la aplicación en curso, los
comentarios de los usuarios de un estudio podrían ayudarnos a mejorar la
interfaz con diferentes filtros y visualizaciones.
6.5 Conclusión
Podemos concluir que nuestro sistema es un paso prometedor para garantizar el éxito de los
estudiantes desde una perspectiva de visualización y aprendizaje automático. Nosotros
fueron capaces de predecir si un estudiante abandonaría o no los estudios con un nivel razonable
de precisión, y usaron el nivel de confianza de la predicción para transmitir una
probabilidad de éxito. Sin una evaluación formal de nuestro sistema, es difícil
decir que la interfaz actual tiene éxito en términos de interacción con el
modelo subyacente y mostrar información de manera significativa. Sin embargo, a través de
nuestro método de diseño iterativo recibimos comentarios
de asesores académicos que nos lleva a creer que la interfaz actual es adecuada
quate
En resumen, pudimos entrenar un algoritmo de aprendizaje automático y diseñar e implementar
un sistema que respalda el éxito de los estudiantes al presentar un
puntuación de probabilidad de éxito.
Machine Translated by Google
57
Apéndice A
Las siguientes tablas describen los atributos de datos que nos proporcionó
Atributo Descripción
IDENTIFICACIÓN
tomado
Tipo de horario Ya sea que la sección sea una conferencia, laboratorio, tutorial,
web, etc.
Atributo Descripción
Lunes
martes
miércoles
jueves
día
TABLA A.1: atributos y descripciones de los datos de la historia del curso. Estos datos fueron usados
para compilar nuestros datos de capacitación utilizando el código del curso, la calificación final y el código del período
columnas
Atributo Descripción
IDENTIFICACIÓN
Atributo Descripción
de aplicación
Permanente, VISA)
Estado de tiempo CSRDE El estado de tiempo de CSRDE es 80% de la carga del curso
Estado de tiempo El estado del tiempo de Ontario Tech es de más de 9 horas de crédito
por término
instalaciones
Género
Atributo Descripción
promedio
año, etc
Graduado
Indica si el estudiante se graduó
Programa +1 año Programa en el que estuvo el estudiante después del primer año
Atributo Descripción
62
Bibliografía
[2] Lovenoor Aulck et al. STEM-ming the Tide: Predecir el desgaste de STEM
utilizando los datos del expediente académico de los estudiantes. tecnología reps. 2017.
[3] Rebecca Barber y Mike Sharkey. “Corrección del curso: uso de análisis
para predecir el éxito del curso”. En: Conferencia Internacional sobre Analítica del
Aprendizaje y Conocimiento. ACM Press, 2012, págs. 259–262. ISBN: 9781450311113.
[4] Jaroslav Bayer et al. “Predicción de la deserción a partir del comportamiento social de
Estudiantes." En: Conferencia Internacional sobre Minería de Datos Educativos (junio
2012).
[6] Shane Dawson et al. "Estado actual y tendencias futuras: un análisis de red de citas del campo
[8] Dursun Delen. “Predicción de la deserción estudiantil con métodos de minería de datos”. En:
Revista de Retención de Estudiantes Universitarios: Investigación, Teoría y Práctica
13.1 (mayo de 2011), págs. 17 a 35. ISSN: 1521-0251.
Machine Translated by Google
BIBLIOGRAFÍA 63
[9] Colin Fay. [ggplot2] ¡Bienvenida viridis! - (es) El grupo de trabajo R. 2018. URL: https://
rtask.thinkr.fr/blog/ggplot2-welcome-viridis/ (visitado el 05/07/2019).
[10] David S. Fike y Renea Fike. “Predictores de la Retención de Estudiantes de Primer Año
[11] Eibe Frank y Mark Hall. Visualización de estimadores de probabilidad de clase. tecnología
reps. 2003.
[12] Sandeep M. Jayaprakash et al. “Alerta temprana de estudiantes en riesgo académico: una
iniciativa de análisis de código abierto”. En: Journal of Learning Analytics 1.1 (mayo de
2014), págs. 6–47.
[13] Zlatko J. Kovaÿci´c. "Predicción temprana del éxito de los estudiantes: extracción de datos de
inscripción de estudiantes". En: Conferencia de Educación sobre Ciencias de la Información y TI. 2010.
[14] Kaisa Miettinen. “Encuesta de métodos para visualizar alternativas en problemas de toma
de decisiones multicriterio”. En: OR Spectrum 36.1 (enero de 2014), págs. 3–37. ISSN:
0171-6468.
[15] DFO Onah, J Sinclair y Boyatt. “Tasas de Abandono de Cursos Masivos Abiertos en Línea”.
En: Conferencia Internacional sobre Educación y Nuevas Tecnologías de Aprendizaje)
(2014), pp. 1–10. ISSN: 2340-1117.
[16] Kathleen Pittman. "Comparación de técnicas de minería de datos utilizadas para predecir
la retención de estudiantes". Tesis doctoral. 2008, pág. 416. ISBN: 0549474684.
[17]Kevin Rask. “Deserción en los campos STEM en una universidad de artes liberales: la
importancia de las calificaciones y las preferencias preuniversitarias”. En: Economics
of Education Review 29.6 (diciembre de 2010), págs. 892–900. ISSN: 02727757.
64 BIBLIOGRAFÍA
[21] Mack Sweeney et al. “Predicción del rendimiento estudiantil para el próximo período: una
Enfoque de sistemas de recomendación”. En: (2016).
[22] Vicente Tinto. “Deserción de la Educación Superior: Una Síntesis Teórica de Investigaciones
Recientes”. En: Revisión de Investigación Educativa 45.1 (1975),
págs. 89–125.
[23] Vicente Tinto. “De la Teoría a la Acción: Explorando las Condiciones Institucionales para la
Retención Estudiantil”. En: De la teoría a la acción: explorando el
Condiciones Institucionales para la Retención Estudiantil. Review of Educational
Research, 2010, págs. 51–89. ISBN: 9780874216561.