Weagant Riley

Machine Translated by Google
Apoyando el éxito de los

estudiantes con aprendizaje
automático y análisis visual
por
Riley _
Una tesis presentada a la
Escuela de Estudios Graduados y Postdoctorales en cumplimiento
parcial de los requisitos para el grado de
Maestría en Ciencias en Ciencias de la Computación
Facultad de Ciencias
Departamento de Ciencias de la Computación
Universidad Tecnológica de Ontario
Oshawa, Ontario, Canadá
agosto 2019
© Riley Weagant, 2019

iii
Declaración de autoría
Yo, Riley WEAGANT, por la presente declaro que esta tesis consiste en un trabajo
original del que soy autor. Esta es una copia fiel de la tesis, incluidas las revisiones finales
requeridas, según lo aceptado por mis examinadores. Autorizo a Ontario Tech University
a prestar esta tesis a otras instituciones o individuos con el propósito de investigación
académica. Además, autorizo a la Universidad Tecnológica de Ontario a reproducir esta
tesis mediante fotocopias o por otros medios, en su totalidad o en parte, a pedido de
otras instituciones o personas con fines de investigación académica. Entiendo que mi
tesis estará disponible electrónicamente para el público.
Firmado:
Fecha:
IV
Estado de Contribuciones
Por la presente certifico que soy el único autor de esta tesis y que ninguna
parte de esta ha sido publicada o enviada para su publicación. He utilizado
prácticas de referencia estándar para reconocer ideas, técnicas de investigación
u otros materiales que pertenecen a otros. Además, por la presente certifico
que soy la única fuente de los trabajos creativos y/o conocimiento inventivo
descritos en esta tesis.
Agradecimientos
En primer lugar, quisiera agradecer a mi supervisor, el Dr. Christopher Collins, por su
inquebrantable apoyo y orientación a través de obstáculos tanto personales como académicos.
El Dr. Collins siempre me permitió trabajar a mi propio ritmo y siempre estuvo disponible para
ayudarme cuando lo necesitaba.
También me gustaría agradecer al Dr. Adam Bradley por sus comentarios honestos y sus
innumerables charlas de ánimo a lo largo del camino. Su actitud positiva y franqueza siempre
fueron apreciadas.
También debo agradecer a mis compañeros de laboratorio por su invaluable experiencia.
experiencia y retroalimentación, y aliento durante mis peores días.
Por último debo expresar mi profundo agradecimiento a mis padres y hermanos, amigos
más cercanos y mi pareja por su apoyo incondicional. Este logro no hubiera sido posible sin
ellos. Gracias.
vi
UNIVERSIDAD TECNOLÓGICA DE ONTARIO
Resumen
Facultad de Ciencias
Departamento de Ciencias de la Computación
Maestro de la ciencia
Apoyando el éxito de los estudiantes
con aprendizaje automático y
análisis visual
por Riley WEAGANT
Las instituciones postsecundarias tienen una gran cantidad de datos de estudiantes a su disposición.
Estos datos se han utilizado recientemente para explorar un problema que ha prevalecido en el ámbito
de la educación durante décadas. La retención de estudiantes es un problema complejo que los
investigadores intentan abordar mediante el aprendizaje automático. Esta tesis describe nuestro intento
de usar datos académicos de la Universidad Tecnológica de Ontario para predecir la probabilidad de que
un estudiante se retire de la universidad después del próximo semestre. Utilizamos datos académicos
recopilados entre 2007 y 2011 para entrenar un modelo de bosque aleatorio que predice si un estudiante
abandonará o no la escuela. Por último, utilizamos el nivel de confianza de la predicción del modelo para
representar la "probabilidad de éxito" de un estudiante, que se muestra en un gráfico de enjambre de
abejas como parte de una aplicación destinada a los asesores académicos.

viii
Contenido
Declaración de autoría iii
Estado de Contribuciones IV
Agradecimientos v
Resumen vi
1. Introducción 1
1.1 Motivación. . . . . . . . ............. . . . . . . . . . 2
1.2 Aportaciones. . . . . . ............. . . . . . . . . . 3
2 Antecedentes 4
2.1 Retención de estudiantes . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Predicción de la deserción . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Cursos masivos abiertos en línea. . . . . . . . . . . . . .6
2.2.2 Deserción de STEM. . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Visualizaciones para la Toma de Decisiones. . . . . . . . . . . . . . . . 8
3 Panel de retención 9
3.1 Definición del problema. . ............. . . . . . . . . . 9

3.2 Diseño del tablero. . . ............. . . . . . . . . . 10
3.2.1 Selector de año. . . ............. . . . . . . . . . 11
3.2.2 Gráfico de coordenadas paralelas. . . . . . . . . . . . . . . . 11
3.2.3 Horario. . . . ............. . . . . . . . . . 12
3.3 Resultados. . . . . . . . . . ............. . . . . . . . . . 14
4 Predicción del éxito estudiantil 15

4.1 Conjunto de datos del estudiante. . . . . . . . . . . . . . . . . . . . . . . . . . . dieciséis
4.1.1 Gestión de datos. ............. . . . . . . . . . dieciséis

viii
4.2 Selección de algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . 20

4.2.1 Métricas de rendimiento. . . . . . . . . . . . . . . . . . . . 20
Elegir un conjunto de entrenamiento. . . . . . . . . . . . . . . . . . 22
4.3 Ajuste de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Selección de características. . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5 Generación de vectores de estudiantes. . . . . . . . . . . . . . . . . . . . 30
4.5.1 Generación de escenarios. . . . . . . . . . . . . . . . . . . . 32
Asignación de calificaciones. . . . . . . . . . . . . . . . . . . . . . 33
Tablas de probabilidad. . . . . . . . . . . . . . . . . . . . . . 35
4.5.2 Puntuación de confianza de la predicción. . . . . . . . . . . . . . . . 35
5 Diseño de aplicaciones 36
5.1 Diseño iterativo. . . . .............. . . . . . . . . . 36
5.2 Interfaz. . . . . . . . .............. . . . . . . . . . 37
5.2.1 Selección de visualización. . . . . . . . . . . . . . . . . . . 38
Escalando la Trama. . . . . . . . . . . . . . . . . . . . . . . 38
Coloreando los Puntos. . . . . . . . . . . . . . . . . . . . 40
5.2.2 Diseño de interacción. . . . . . . . . . . . . . . . . . . . . 40
5.3 Back-end. . . . . . . . .............. . . . . . . . . . 43
6 Conclusión y Discusión 45
6.1 Discusión. . . . . . . .............. . . . . . . . . . 45
6.1.1 Estudio de caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.2 Estudio de caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1.3 Estudio de caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Contribuciones. . . . . .............. . . . . . . . . . 53
6.3 Supuestos y limitaciones. . . . . . . . . . . . . . . . . . . 53
6.3.1 Escasez de datos. . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2 Homogeneidad de nuestra Muestra. . . . . . . . . . . . . . . 54
6.3.3 Implementación del lado del servidor. . . . . . . . . . . . . . . . 54
6.3.4 Factores externos. . . . . . . . . . . . . . . . . . . . . . . 54
6.4 Trabajo futuro. . . . . . .............. . . . . . . . . . 54
6.5 Conclusión. . . . . . . .............. . . . . . . . . . 56
Datos de un estudiante 57
ix
Lista de Figuras
1.1 Tasas de retención universitaria de Ontario. . . . . . . . . . . . . . . . . 1

1.2 Modelo conceptual del comportamiento de la deserción. . . . . . . . . . . . . 2
3.1 Tablero de retención. . ............. . . . . . . . . . 9

3.2 Selector de año. . . . . . . ............. . . . . . . . . . 10
3.3 Gráfico de coordenadas paralelas. . . . . . . . . . . . . . . . . . . . . 11
3.4 Gráfico de coordenadas paralelas filtradas. . . . . . . . . . . . . . . . . 12
3.5 Visualización de horarios. ............. . . . . . . . . . 13
4.1 Generación de vectores de estudiantes. . . . . . . . . . . . . . . . . . . . 29

4.2 Distribución de promedios académicos acumulados semestrales. . . . . . . . . . . . 30
4.3 Distribución de la muestra. ............. . . . . . . . . . 31

4.4 Diagrama de flujo de la aplicación. . . . . . . . . . . . . . . . . . . . . . . 33
5.1 Ejemplo de diagrama Beeswarm . . . . . . . . . . . . . . . . . . . . . . 38

5.2 Parcelas de enjambre de abejas a escala. . . . . . . . . . . . . . . . . . . . . . . 39
5.3 Parcelas Beeswarm con diferentes escalas. . . . . . . . . . . . . . . 40
5.4 Escala de colores Viridis. . . . . . . . . . . . . . . . . . . . . . . . . 40
5.5 Interfaz de la aplicación. . ............. . . . . . . . . . 41
5.6 Interacción de vuelo estacionario Beeswarm . . . . . . . . . . . . . . . . . . . . 42
5.7 Interacción de cepillado enjambre de abejas. . . . . . . . . . . . . . . . . . 42
5.8 Componente de gráfico de barras de resumen. . . . . . . . . . . . . . . . . . 43
6.1 Estudio de caso 1: diagrama Beeswarm . . . . . . . . . . . . . . . . . . . 46

6.2 Estudio de caso 1: Parcela de enjambre de abejas filtrada - inferior . . . . . . . . . . 47
6.3 Estudio de caso 1: Parcela de enjambre de abejas filtrada - superior . . . . . . . . . . 48
6.4 Estudio de caso 2: Diagrama Beeswarm . . . . . . . . . . . . . . . . . . . 49
6.5 Estudio de caso 3: Parcela Beeswarm con Biología electiva . . . . . . . 50
6.6 Estudio de caso 3: Parcela de enjambre de abejas filtrada con Biología electiva. . 50
6.7 Estudio de caso 3: Parcela Beeswarm con electiva de Psicología . . . . 51
6.8 Estudio de caso 3: Parcela de enjambre de abejas filtrada con la optativa de Psicología 52
xi
Lista de tablas
4.1 Descripción de las tablas de la base de datos. . . . . . . . . . . . . . . . . . . dieciséis
4.2 Calificaciones con letras: equivalentes de GPA. . . . . . . . . . . . . . . . . . 17

4.3 Calificaciones con letras: equivalentes de GPA. . . . . . . . . . . . . . . . . . 18
4.4 Métricas de rendimiento de los modelos probados. . . . . . . . . . . . . . 20
4.5 Métricas del modelo semestral. . . . . . . . . . . . . . . . . . . . . . 21
4.6 Métricas semestrales del modelo general . . . . . . . . . . . . . . . . . . 22
4.7 Resumen de datos del modelo semestral. . . . . . . . . . . . . . . . . . 23
4.8 Descripciones de los parámetros RandomForestClassifier. . . . . . . 25
4.9 Valores del parámetro RandomForestClassifier. . . . . . . . . . . 26
4.10 Importancia de las características. . ............. . . . . . . . . . 27
4.11 Instantánea de la tabla de probabilidades del escenario. . . . . . . . . . . . . . . . 34
4.12 Instantánea de la tabla de probabilidades de curso/calificación. . . . . . . . . . . . . . 34
A.1 Atributos de datos de la historia del curso. . . . . . . . . . . . . . . . . . 58

A.2 atributos de datos brutos de retención. . . . . . . . . . . . . . . . . . . 61
xi
lista de abreviaciones
CSV Valores separados por comas

Promedio de calificaciones GPA
Consorcio CSRDE para el intercambio de datos de retención de estudiantes
ETC Equivalente a tiempo completo
OIRA Oficina de Investigación y Análisis Institucional
RO oficina de registro
AI Inteligencia Artificial
CUDO Datos comunes de la Universidad de Ontario
Interfaz de puerta de enlace común CGI
Capítulo 1
Introducción
FIGURA 1.1: Tasas de retención universitaria de Ontario de 2016 para estudiantes que pasan del
primer al segundo año. Ontario Tech University es la segunda barra desde la izquierda con una tasa
de retención de poco más del 80 %.
A partir de 2016, el 79% de los estudiantes de la Universidad Tecnológica de Ontario

regresaron para su segundo año. Esta es una de las tasas más bajas de Ontario [5]. Las
altas tasas de deserción estudiantil generan presiones financieras sobre la institución y
pérdida de reputación. La decisión de retirarse es compleja y varía de estudiante a
estudiante [22]. Nuestra curiosidad acerca de por qué los estudiantes se retiran y la
disponibilidad de datos históricos institucionales nos llevó a un enfoque basado en datos
para evaluar la probabilidad de retención. El Tablero de Retención, como se describe en
la Sección 2, fue el primer paso para analizar el problema. El producto final, aunque útil
para el análisis exploratorio y para encontrar tendencias superficiales, no respondió a
nuestra pregunta sobre por qué los estudiantes se retiran. Sin embargo, pudimos ver una
tendencia significativa de bajo rendimiento académico que conduce al retiro temprano.
Explorando esto más a fondo, nos preguntamos, ¿podemos ayudar a los estudiantes a
tener éxito cuando de otro modo se retirarían? Nuestra hipótesis es que podemos entrenar una máquina
2 Capítulo 1 Introducción
FIGURA 1.2: Modelo conceptual de comportamiento de abandono propuesto por

Vincent Tinto [22]. Este modelo describe el proceso de deserción como una secuencia de
interacciones entre el estudiante y los sistemas académico y social de la institución. La
experiencia de estas interacciones hace que el estudiante modifique continuamente sus
metas y compromisos de manera que afecten el desgaste.
modelo de aprendizaje que utiliza información histórica de cursos y calificaciones para

predecir la probabilidad de éxito de un estudiante actual en función de los cursos que
desea tomar en el futuro.
Los datos más recientes disponibles sobre la tasa de retención de Common University
Data Ontario (CUDO) son de 2016, Figura 1.1. Las estadísticas de 2016 incluyen a los
estudiantes de primer año que fueron admitidos en 2008 y los siguen hasta la graduación.
Aproximadamente el 19% de los estudiantes admitidos en la universidad no regresaron
para su segundo año. Cuando se incluyen los estudiantes que se retiraron algún tiempo
después de su segundo año, esta tasa de retiro aumenta al 25%. Apoyar el éxito de los
estudiantes es importante en todos los niveles de estudio, ciertamente más en el año 1.
1.1 Motivación
La identificación de los factores de riesgo de la deserción estudiantil ha sido bien
investigada durante muchos años y continúa siendo un área activa de investigación [18].
Vincent Tinto diseñó un modelo teórico de comportamiento de abandono (Figura 1.2) que
intenta describir la decisión de retirarse como una combinación de integración social,
rendimiento académico y nivel de compromiso con las metas personales y el
1.2. Contribuciones 3
institución [22]. En 2010, Tinto escribió que estos modelos teóricos se enfocan más en describir
el problema que en definir un curso de acción [23].

Definir un curso de acción es un desafío, especialmente cuando se trata de factores que
van más allá del rendimiento académico. El rendimiento académico se matiza en que las
circunstancias personales y las luchas afectarán las calificaciones obtenidas en un semestre.
No importa las circunstancias, la decisión de retirarse no siempre es voluntaria. Los estudiantes
que tienen un bajo rendimiento académico corren el riesgo de ser despedidos si no alcanzan
ciertos umbrales de GPA. Se coloca a un estudiante en período de prueba académica si su
GPA total acumulativo cae por debajo de 2.0. Mantener un GPA semestral superior a 2.0 evitará
que el estudiante sea suspendido, pero permanecerá en período de prueba hasta que su GPA
acumulativo general sea superior a 2.0. Muchos sistemas de predicción de retención apuntan a
notificar al estudiante o asesor que el estudiante corre el riesgo de retirarse de la institución [6]
[12]. Estos “Sistemas de Alerta Temprana” juegan un papel importante en el éxito de los
estudiantes. En general, los sistemas de alerta temprana señalan que es probable que un
estudiante entrante o de primer año se retire por algún motivo.
Nuestro objetivo era tomar el concepto del sistema de alerta temprana y mejorarlo para
describir la probabilidad de éxito de los estudiantes en cualquier nivel de estudio. Presentamos
visualizaciones e interacciones para permitir un análisis más allá de la señalización inicial que
podría ayudar al estudiante a recuperarse y ver algunos posibles caminos positivos en el futuro.
1.2 Contribuciones
Las principales contribuciones de este trabajo son las siguientes:
• Un modelo de aprendizaje automático para predecir con precisión si un estudiante se

retirará o no de la institución utilizando datos académicos históricos.
• Un sistema de análisis visual que utiliza niveles de confianza de los predictores para
representar la probabilidad de éxito dado el conjunto de cursos elegido para un determinado
semestre.
Capitulo 2
Fondo
En este capítulo revisaré algunas áreas de trabajo que están estrechamente relacionadas con mi
investigación que incluye la retención de estudiantes y la predicción de la deserción de estudiantes usando un

subconjunto de datos de estudiantes disponibles.
2.1 Retención de estudiantes
La retención de estudiantes es un problema en la mayoría de las instituciones postsecundarias en North
America. La naturaleza compleja de la retención de estudiantes ha sido explorada en diferentes
disciplinas desde la década de 1940 [18]. En estos casos, tanto académicos como
Se consideraron factores no académicos. Al vivir en un mundo centrado en los datos,
tener la oportunidad de examinar estos factores más a fondo y comenzar a
comprender cómo se relacionan entre sí y con la retención de estudiantes en general.
Vincent Tinto es bien conocido en la comunidad de investigación educativa por
su trabajo explorando la retención de estudiantes. Su obra trata de desambiguar la
Razones para interrumpir los estudios Señalando que hay una diferencia significativa
entre los estudiantes que se dan de baja por fracaso académico frente a los que se dan de baja de
forma voluntaria [22]. Los modelos descritos en este documento tienen como objetivo diferenciar entre
los diferentes tipos de abandonos y la clasificación de los factores.
contribuyendo a cada tipo.
Tinto explora el concepto de retención y el impacto negativo de centrarse en conceptos teóricos
que pretenden explicar este fenómeno en lugar de
que definir métricas procesables. Estos conceptos teóricos han dado lugar a métricas que pueden
definir el compromiso de los estudiantes o la integración académica y social.

2.2. Predicción de la deserción 5
Sin embargo, muchos de estos conceptos se enfocan en factores externos como la integración entre
pares y el compromiso con la institución y las metas personales, que no pueden
ser influenciado directamente por la institución [23].
2.2 Predicción de la deserción
Los esfuerzos para predecir la deserción mediante el aprendizaje automático han aumentado en los últimos años.
últimos años, ya que la IA continúa siendo más precisa y fácil de aplicar a un
amplia gama de problemas. Los investigadores tienden a centrarse en la predicción como un tipo de
herramienta de análisis mientras que los estudiantes con predicciones similares son analizados para encontrar
similitudes y diferencias significativas que podrían explicar su resultado similar. Un ejemplo de este
trabajo se puede encontrar en el libro de Kathleen Pittman.
Tesis doctoral [16]. Pittman compara varias técnicas de aprendizaje automático con el objetivo de
comprender cómo se beneficiará este tipo de análisis.
instituciones postsecundarias que desarrollan estrategias de retención. El análisis incluyó tanto a
estudiantes de tiempo completo como de tiempo parcial en todos los niveles de año. como el trabajo
presentado aquí, Pittman tiene como objetivo cambiar el enfoque de la retención de estudiantes de
primer año a tiempo completo a todo el alumnado. Es por este trabajo
que elegimos para probar los algoritmos de aprendizaje automático que hicimos: lineal
regresión, random forest, Naïve Bayes y redes neuronales.
Se han utilizado varias metodologías diferentes para tratar de abordar el problema de la retención
de estudiantes. Barber predice si un estudiante tendrá éxito o no en un curso dado utilizando un
modelo de regresión logística [3], y Bayer mejoró significativamente la precisión de su predicción al
incluir el "comportamiento social"
que se derivó de una red social [4]. Cada uno de estos sistemas agregó
una nueva dimensión a los enfoques existentes, pero todos ellos se basaron en información que fue
declarada por los estudiantes a través de un cuestionario o una encuesta,
o se recopiló información personal en el momento de la admisión. La falta de académico
información utilizada para estos modelos significa que son más adecuados para analizar
participación de los estudiantes que predecir el éxito académico.
Sweeney et al. propuso un sistema que predice las calificaciones que obtendrá un estudiante
entrar en las asignaturas cursadas en el próximo trimestre [21]. Este trabajo es más similar a
el nuestro, ya que utiliza algunos datos de transcripciones históricas para predecir un resultado para el
término siguiente. Una diferencia clave es la cantidad de características no académicas,
e ingeniería de características de la información académica y del instructor. Mientras que la

6 Capítulo 2. Antecedentes
modelo propuesto en este trabajo es bastante robusto y reporta resultados prometedores,

todavía queda mucho trabajo por hacer en términos de convertir el modelo en un
aplicación de trabajo. La cantidad de ingeniería de características y datos realizada en
este caso era algo que queríamos evitar. Decidimos acercarnos a la
problema de predecir el rendimiento futuro desde una perspectiva de "menos es más"
en términos de datos de entrenamiento y para aprovechar la incertidumbre del modelo.
La minería de datos se ha convertido en un enfoque popular en el ámbito de la educación para

analizar los datos de los estudiantes para encontrar las causas de la deserción. Estos enfoques
apuntan a descubrir relaciones complejas y revelar nuevos conocimientos, en lugar de desarrollar
un algoritmo específico para extraer relaciones de un conjunto de datos específico. excelente
et al. factores identificados y agrupados correlacionados con la retirada de la literatura. Los
factores se agruparon en tres conjuntos que incluían la historia personal, la expresión de la
participación del estudiante en sus estudios y las percepciones de los estudiantes.
Crearon un cuestionario y utilizaron enfoques de minería de datos para intentar
usar estas variables para predecir si el estudiante se retirará o no usando
árbol de decisión, bosque aleatorio, red neuronal y análisis discriminante lineal [20]. El objetivo
era asignar recursos limitados a estudiantes que necesitan y
lo quiero más. Comentan que los resultados de la predicción no fueron notables y plantean
algunas preguntas interesantes sobre la estabilidad de los estudiantes no académicos.
factores de un año a otro.
El trabajo de Delen es similar en el sentido de que utilizaron una metodología popular de
minería de datos y probaron tres modelos de predicción diferentes [8]. Concluyen diciendo
que los métodos de minería de datos pueden predecir el desgaste con un buen nivel de precisión.
Los resultados obtenidos en los tipos de experimentos realizados por Pittman [16], Superby et al.
[20] y Delen [8] son prometedores, especialmente considerando los datos similares que se utilizan,
los modelos similares que se entrenan y un aumento general en
Precisión del modelo a lo largo del tiempo.
2.2.1 Cursos masivos abiertos en línea

Los cursos masivos abiertos en línea (MOOC) han ganado mucha tracción a través de
sitios web populares como Udacity y Coursera, etc. La cantidad de cursos y
La matrícula ha ido en constante aumento en los últimos años, al igual que
la cantidad de datos disponibles [19]. Una gran cantidad de trabajo reciente en datos educativos
la minería y el aprendizaje automático se han centrado en los datos de estos cursos en línea.
2.2. Predicción de la deserción 7
Los datos demográficos y de compromiso de los MOOC son fundamentalmente diferentes de los
datos recopilados a través de instituciones que operan en un entorno de campus más tradicional. Si
bien la mayoría de las poblaciones del campus se hacen
de estudiantes un año después de la escuela secundaria, los MOOC tienden a
estar formado por profesionales que quieran actualizar sus habilidades y madurar
aprendices Las tasas de deserción de los MOOC también son significativamente más altas que las de un
campus tradicional y acercarse al 90% [15]. En consecuencia, los resultados de los estudios
realizado en MOOC no se puede generalizar a nuestra población estudiantil.
2.2.2 Deserción de STEM
Los estudios que se centran en la retención en los campos STEM son frecuentes en la literatura,
y proponer algunos interesantes métodos de análisis. Como los MOOC, trabajando
específicamente con los abandonos de STEM significa que los modelos de análisis y los resultados no
se pueden generalizar a la comunidad del campus en su conjunto.
Gerben W. Dekker et. Alabama. intentar predecir si los estudiantes de ingeniería eléctrica
abandonarán o no los estudios después del primer semestre e identificar el éxito
factores específicos del programa de Ingeniería Eléctrica [7]. Las pruebas del clasificador simple dieron
como resultado precisiones entre el 75% y el 80% que los autores
señalar es difícil de superar con modelos más sofisticados. Estos hallazgos
tuvo un efecto en el camino elegido para este proyecto.
Más recientemente, Lovenoor Aulck et. Alabama. basaron sus predicciones en un solo
término de datos académicos. Las características del curso fueron condensadas y representadas por
Departamento. Las calificaciones de los cursos del departamento se separaron en una variable que
indicaba si los estudiantes tomaron o no un curso ofrecido por ese departamento, el
número de cursos tomados en ese departamento y el GPA general de los cursos
tomado por ese estudiante en ese departamento. “Cursos de gatekeeper” se refiere a
cursos de primer año en física, química, biología y matemáticas que son típicamente
cursado en dos semestres (es decir, Física I y Física II, Cálculo I y Cálculo II, etc.). Estas variables del
curso se incluyeron junto con datos demográficos.
información e información específica de los cursos STEM y gatekeeper [1].
Ampliando este trabajo, Aulck et. Alabama. introdujo el concepto de “Afinidades STEM” [2]. Las
afinidades STEM intentan describir el nivel de compromiso que tiene un estudiante con el material del
curso teniendo en cuenta qué cursos

8 Capítulo 2. Antecedentes
estudiante está tomando y si continúa o no en un camino académico STEM. A medida que un estudiante
toma más cursos fuera de la disciplina STEM,
su afinidad STEM cae. El modelo de afinidades STEM se correlaciona con la "intención STEM" y puede
ayudar a los tomadores de decisiones a ver cuándo cambia la intención STEM, y
cuando es más probable que los estudiantes abandonen los estudios o cambien de un camino STEM.
2.3 Visualizaciones para la toma de decisiones
Las visualizaciones muestran información a un usuario mediante la codificación de diferentes atributos
con colores, formas y posiciones. Pretenden facilitar los datos al usuario
para comprender e interpretar. Las personas a menudo necesitan tomar decisiones basadas en
datos que es una tarea difícil cuando se presentan con tablas de datos y resumen
información.
Miettinen realizó una encuesta sobre técnicas de visualización para apoyar la toma de decisiones con
criterios múltiples [14]. Cubren varias técnicas en detalle, incluidos gráficos de barras, gráficos de telaraña,
árboles, etc. Presentan una tabla de resumen
indicando qué visualización es apropiada para diferentes tipos de información. Mencionan a lo largo del
artículo que los datos y la visualización
debe respaldar la decisión específica que se está tomando, y seleccionar la equivocada
la visualización o los datos podrían obstaculizar en lugar de ayudar a la toma de decisiones pro
impuesto.
Hay poco trabajo que se centre en visualizar e interpretar la máquina.
salida de aprendizaje. La mayoría del trabajo involucra visualización y aprendizaje automático
intenta mejorar el rendimiento del modelo analizando los datos de entrada y tratando de interpretar la "caja
negra" de un algoritmo de aprendizaje automático. franco et al.
exploró la visualización de probabilidades de clase de predictor. Su enfoque implica
trazando las estimaciones de probabilidad de clase y coloreando el fondo rectangular en consecuencia [11].
Los colores de clase y los atributos de trazado se eligen
por el usuario Si bien este método no es nuevo, proporcionaron detalles sobre cómo
generalizarlo a otros modelos de clasificación que pueden producir probabilidad de clase
estimados. Nuestro trabajo utiliza estimaciones de probabilidad de clase para interpretar el clasificador
resultados, aunque de otra manera. Nuestro enfoque utiliza las probabilidades de clase en
un intento de representar la incertidumbre de nuestro modelo predictivo como una probabilidad de éxito
para un estudiante.
Capítulo 3
Panel de retención
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
lun mar mie jue vie Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
08:00
a 09:30
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
09:30
a
las 12:30
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
12:30
a 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
las 15:30
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
15:30
a
las 18:30 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
18:30
a
las 21:30
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
W W W W W W W W W W W
FIGURA 3.1: Tablero de Retención con estudiantes de Ingeniería Nuclear admitidos en

2009. El Tablero consta de cuatro componentes: el selector de facultad/programa (arriba
a la izquierda), selector de año (arriba a la derecha), horario (abajo a la izquierda) y
coordenadas paralelas ( abajo a la derecha).
3.1 Definición del problema

Nuestro trabajo de exploración de la retención de estudiantes en la Universidad Tecnológica de
Ontario comenzó con el diseño del Tablero de Retención1
En. 2015, la Oficina de Registro (RO) se
acercó a nosotros para diseñar una herramienta de análisis visual para ayudar a los tomadores de
decisiones con el objetivo de mejorar la tasa de retención de estudiantes en Ontario Tech.
1El Panel de Retención fue diseñado en colaboración con Taylor Smith.

10 Capítulo 3. Panel de retención
FIGURA 3.2: Selector de año poblado de estudiantes de Informática. El segmento

inferior de la barra (azul oscuro) representa el número de estudiantes que se dieron de
baja, el segmento medio (gris claro) representa a los estudiantes que aún asisten a la
universidad y el segmento superior (azul claro) representa a los estudiantes que se han
graduado. Mire la barra de 2009, podemos ver que cerca de la mitad de los estudiantes
admitidos en Ciencias de la Computación se retiraron antes de graduarse, una pequeña
porción de los estudiantes todavía asisten a la universidad y cerca de la mitad se ha graduado.
Universidad. Un objetivo específico del proyecto era centrarse en revelar los factores que
podrían ser influenciados por la institución.
3.2 Diseño del tablero

Se nos dio acceso a los datos institucionales recopilados entre los años 2003 y 2015. Estos
datos incluyen información personal del estudiante (es decir, ciudad inicial/código postal,
escuela secundaria, sexo, etc.), calificaciones del grado 12 en cursos de admisión, curso e
historial de calificaciones de la universidad, y antecedentes académicos.
Los factores que pueden verse influenciados por la institución incluyen los límites de
calificación de admisión, el contenido del curso, los instructores del curso y los horarios de
clase. Las visualizaciones diseñadas para el panel llaman su atención sobre estos factores
sin introducir ninguna información personal o demográfica que pueda distraer y confundir
al usuario.
El panel interactivo utiliza diferentes técnicas de filtrado para actualizar el tablero
completo cuando se realiza una selección en una sola visualización. Como se muestra en
la Figura 3.1, el selector de facultad/programa se usa para seleccionar Ingeniería Nuclear
como programa, el selector de año se usa para seleccionar 2009 como el año de admisión
y el gráfico de coordenadas paralelas se actualiza en consecuencia para mostrar las
tendencias de calificaciones de los estudiantes admitidos. al programa de Ingeniería
Nuclear en 2009. La visualización del horario también se actualiza para mostrar la
distribución de calificaciones de los cursos tomados por estos estudiantes.
3.2. Diseño de tablero 11
Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
FIGURA 3.3: Gráfico de coordenadas paralelas poblado con estudiantes de Psicología

Forense admitidos en 2011. Los tres primeros ejes verticales representan matemáticas de
secundaria (Matemáticas), inglés (Inglés) y GPA de admisión (GPA Adm) respectivamente.
Los siguientes diez ejes representan su GPA en cada semestre que asistieron a la universidad
(Sem 1 - Sem 10). El eje final representa el GPA del estudiante al momento de la graduación
(Grad GPA). Cada línea en el gráfico representa a un solo estudiante y se cruza con cada
eje en el valor de GPA para ese estudiante. La 'W' en la parte inferior de cada eje semestral
significa 'Retirar'. Una línea se cruzará en 'W' el semestre posterior a sus últimas calificaciones
informadas.
3.2.1 Selector de año
El selector de año le permite al usuario ver a los estudiantes como una cohorte o grupo. El
término "año" en este caso significa específicamente el año en que un estudiante fue admitido
en la universidad. Como se muestra en la Figura 3.2, al visualizar la distribución de los
estudiantes que se retiraron (abajo, se graduaron o aún asisten a la universidad), podemos ver
el crecimiento general del programa y enfocarnos en una cohorte con una tasa de retiro más
alta. También podemos use estas barras apiladas como un selector para filtrar a los estudiantes
según su estado de retiro.
3.2.2 Gráfico de coordenadas paralelas
El gráfico de coordenadas paralelas muestra la trayectoria de los estudiantes desde el inicio de

su carrera universitaria hasta el final. Cada línea en el cuadro representa a un solo estudiante.
Los primeros tres ejes verticales representan las calificaciones de matemáticas de la escuela
secundaria, las calificaciones de inglés de la escuela secundaria y el GPA de admisión,
respectivamente. Los siguientes diez ejes representan cada semestre en la universidad, seguido de un solo
Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado
4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
FIGURA 3.4: Gráfico de coordenadas paralelas poblado con estudiantes de Psicología

Forense admitidos en 2011. Los estudiantes con un GPA de admisión entre 2.0 y 3.0 se
seleccionan utilizando el pincel de eje. Una sola línea de estudiante se resalta mediante el uso de
la interacción de desplazamiento para ver su trayectoria GPA con mayor claridad.
eje que muestra el GPA del estudiante en la graduación, si corresponde. Cada línea de
estudiante se cruza con cada eje en la posición correspondiente. Incluso cuando se aplican
filtros, la cantidad de estudiantes que se muestra en el gráfico de coordenadas paralelas
puede ser abrumadora. Como se muestra en la Figura 3.3, el cuadro está abarrotado
cuando se completa con estudiantes admitidos en el programa de Psicología Forense en 2011.
Implementamos dos interacciones para minimizar el efecto del desorden:
• Filtrado de cepillo de eje
• Desplazamiento de línea
Como se muestra en la Figura 3.4, el pincel de eje se usa para seleccionar un rango
de GPA. Todo el tablero se filtra de acuerdo con esta interacción de pincel. Se puede llamar
la atención sobre un solo estudiante al pasar el puntero del mouse sobre su línea. Esta
interacción de desplazamiento no filtra el tablero, ya que profundizar en un solo estudiante
podría afectar el anonimato.
3.2.3 Horario
La visualización del horario muestra los intervalos de tiempo del curso organizados en una
cuadrícula. Las columnas de la cuadrícula indican el día de la semana (lunes a viernes) y el
3.2. Diseño de tablero 13
Lun Mar Casarse Jue Vie
08:00
a
09:30
09:30
a
12:30
12:30
a
las 15:30
15:30
a
18:30
18:30
a
las 21:30
FIGURA 3.5: Visualización de horario poblado con estudiantes admitidos a Ingeniería Nuclear
en 2009. Cada cuadro representa un intervalo de tiempo de tres horas durante las cuales los
estudiantes tomaron cursos. Dentro de cada cuadrado hay una distribución de calificaciones
recibidas en ese intervalo de tiempo. La barra superior (gris claro) representa las A, la segunda
barra (blanca) las B, la barra del medio (gris oscuro) las C, la siguiente barra (azul oscuro) las D
y la barra inferior (azul claro) representa las F. Podemos notar una distribución mucho mayor de
D y F los miércoles por la mañana, y una distribución mucho mayor de A y B los martes y jueves
por la mañana.
las filas se dividen en franjas horarias de 3 horas. Cada sección se completa para mostrar la distribución de
calificaciones obtenidas por los estudiantes que tomaron un curso durante ese intervalo de tiempo.
El objetivo de esta visualización era explorar las distribuciones de calificaciones en todos los intervalos
de tiempo para ver si había áreas problemáticas o tendencias en torno a cuándo se ofrecieron los cursos,
las calificaciones obtenidas y las tasas de abandono. Como se muestra en la Figura 3.5, la distribución de
calificaciones en la franja horaria del viernes de 18:30 a 21:30 es muy diferente a las otras franjas horarias.
Aproximadamente la mitad de las calificaciones recibidas en este intervalo de tiempo son D y F. Se necesita
más análisis, pero este tipo de información podría motivar cambios de programación en el futuro.
Se puede hacer clic en los intervalos de tiempo individuales y filtrar todo el tablero para
mostrar los estudiantes que tomaron un curso en ese intervalo de tiempo. También se puede hacer clic en
cada barra de calificación individual y filtra el tablero para mostrar a los estudiantes que obtuvieron la
calificación seleccionada en el intervalo de tiempo seleccionado.

3.3 Resultados
Representantes de la RO y de la Oficina de Investigación Institucional y

Análisis (OIRA) han estado involucrados en el proceso de diseño iterativo desde el
comienzo del proyecto. La utilidad del tablero recibió críticas mixtas.
Si bien fue útil para explorar los datos y generar una hipótesis amplia, no reveló ninguna
información nueva y específica. Llegamos al tablero con
algunos conocimientos preconcebidos acerca de por qué los estudiantes se retiran:
• Bajo rendimiento académico
• Falta de participación en el campus
• Problemas en la vida personal
A través del tablero pudimos confirmar que el rendimiento académico es una de las
principales motivaciones para retirarse. Ya sea que ese bajo rendimiento académico se
deba a la falta de compromiso o a problemas personales,
no sabemos. Aunque no podemos especular sobre la razón del bajo rendimiento
académico, podemos ver que una tendencia general a la baja en las calificaciones a menudo
precede a la retirada.
15
Capítulo 4
Predecir el éxito de los estudiantes
¿Qué significa "predecir el éxito de los estudiantes"? Definimos el éxito estudiantil
significar la culminación de un término académico sin retiro voluntario o involuntario de la institución.
Los asesores académicos son el punto de contacto para los estudiantes que tienen dificultades
académicas o de otro tipo. Ellos ayudan
estudiantes al proponer horarios alternativos, carga de cursos y estrategias para
el logro de sus objetivos académicos. Aprendimos a través de nuestras reuniones con asesores que
sus recomendaciones a menudo provienen del conocimiento de las estadísticas y dificultad del curso,
la experiencia y el ajuste basado en el progreso del estudiante. Los estudiantes pueden dudar en
seguir los consejos para reducir la carga del curso o
ajustar su horario para evitar tomar múltiples cursos "difíciles" en el mismo
semestre por temor a posponer la graduación. Los asesores creen que tener
una herramienta que podría mostrar los resultados potenciales de escenarios de cursos futuros que
se basan en datos sería beneficioso.
Nuestro sistema propuesto intenta predecir la probabilidad de que un estudiante tenga éxito en el
siguiente semestre dados los cursos que desea tomar. Nosotros
usar un método de muestreo estadístico para generar los conjuntos de calificaciones que un estudiante
es más probable que le den su historial de calificaciones pasadas. Con esta muestra de calificaciones,
generar un conjunto de vectores de estudiantes que incluyen todo su historial de calificaciones y el
conjuntos de calificaciones generados. El clasificador binario de bosque aleatorio usa esta información
para predecir si el estudiante tendrá éxito o no. Junto con
clasificación binaria de cada vector de estudiante, el modelo devuelve una confianza
puntuación que nos dice qué tan seguro está el modelo en su predicción. Nuestro sistema
utiliza esta puntuación de confianza para representar la probabilidad prevista de éxito.

dieciséis
Capítulo 4. Predicción del éxito estudiantil
Nombre de la tabla Nº Filas No. Tamaño (Mb)

columnas
curso_historia_a_b 126924 252 380
curso_historia_c 131624 188 296
curso_historia_e 123400 303 444
curso_historia_f_i 123400 curso_historia_j_n 267 444
129570 curso_historia_p_w 123400 230 333
270 444
retención_en bruto 21086 sesenta y cinco 7.5
vista_de_los_datos_del_estudiante 148075 1503 N/A
TABLA 4.1: El tamaño y la forma de nuestras tablas de base de datos, y la vista final que es
consultado por nuestro sistema. Debido a la gran cantidad de columnas, nos vimos obligados a dividir
el historial del curso en grupos. Course_history_a_b contiene registros para el curso
códigos que comienzan con la letra A o B. Course_history_c contiene registros para
códigos de cursos que comienzan con la letra C. Course_history_f_i contiene registros para
códigos de curso que comienzan con la letra F, G, H o I. El resto sigue en el mismo
Moda. Tenga en cuenta que no hay tabla de curso_historial_d porque no hay ningún curso
códigos que comienzan con la letra D. Se realizan una serie de operaciones de unión en el
tablas de historial de curso y retención_sin procesar para generar la vista de consulta
estudiantedata_view.
4.1 Conjunto de datos del estudiante
Se nos dio acceso a los datos de los estudiantes de 2003 a 2015. Adquirimos el
datos en formato de valores separados por comas (CSV) que se cargaron directamente
a una base de datos MySQL. Las tablas finales de la base de datos se describen en la Tabla 4.1.
4.1.1 Gestión de datos

El conjunto de datos del historial del curso de Ontario Tech es lo que usamos para obtener las calificaciones del curso
como características para los datos de entrenamiento. El formato actual de los datos de grado es uno
fila para cada curso que toma cada estudiante. La información que se introduce en el
modelo predictivo es un vector de estudiante. Decidimos utilizar todos los cursos ofrecidos
en la universidad como características vectoriales. Para cada estudiante, el valor de la característica es el
nota recibida en ese curso. Si el estudiante no tomó un determinado curso, el
el valor de la característica es 0. Nuestro modelo predictivo solo acepta valores numéricos. Para
4.1. Conjunto de datos del estudiante 17
Grado de la letra Equivalente de GPA
A+ 4.3
A 4.0
A- 3.7
B+ 3.3
B 3.0
B- 2.7
do+ 2.3
C 2.0
D 1.0
F 0.0
TABLA 4.2: Calificaciones con letras de Ontario Tech y valor GPA equivalente. Las calificaciones con letras
fueron reemplazados con su GPA equivalente en nuestro conjunto de datos.
Por esta razón, todas las calificaciones con letras en el conjunto de datos se convirtieron a su
valor de GPA numérico. Como se muestra en la Tabla 4.2, el GPA equivalente a la letra
el grado F es 0. Esto planteó un problema para vectorizar los datos. 0 representará
tanto reprobar un curso como no tomar un curso. Necesitábamos una manera de diferenciar entre
los dos casos. Se nos ocurrieron tres posibles soluciones:
1. Columna de indicador de curso
2. Cambiar la representación numérica de 'no tomó'
3. Cambia la representación numérica de F
La columna del indicador de curso indica si un estudiante tomó o no un
curso. Implementamos una columna indicadora para cada curso con valor 1
si el estudiante tomó el curso, y 0 en caso contrario. Surgieron varios problemas derivados de
este enfoque. El primer problema fue que el indicador
las columnas duplicaron el tamaño del conjunto de datos, lo que condujo a un entrenamiento del modelo más largo
tiempos y problemas de portabilidad de datos. El segundo problema fue que el modelo predictivo
prefirió las columnas de indicadores. Se volvió insensible a los cambios.
en el valor de GPA y dependía en gran medida de si un estudiante tomó o no un curso
en lugar de la calificación que obtuvieron.
18 Capítulo 4. Predicción del éxito estudiantil
R_ID S_ID Administrador semi Por. C1 C2 C3 C4 C5

GPA #
0 234 3.0 1 1 0 0 3.3 0 0

1 234 3.0 2 1 2.7 0 3.3 0 0
2 234 3.0 3 1 2.7 0 3.3 1.0 0
3 234 3.0 4 1 2.7 3.3 3.3 1.0 0

4 234 3.0 5 1 2.7 3.3 3.3 1.0 2.3
TABLA 4.3: Un estudiante con cinco semestres de datos separados por semestre. los
las columnas son ID de fila (R_ID), ID de estudiante (S_ID), GPA de admisión (GPA de administrador),
Número de semestre (Sem #), Persister (Per.) y Curso 1–Curso 5 (C1–C5). En
semestre 1, este estudiante tomó un curso, C3. En el semestre 2, este estudiante tomó una
curso, C1. Tenga en cuenta que los cursos tomados en el semestre anterior tienen valores de calificación en
semestres subsiguientes, y el S_ID, Adm GPA y Per. los valores son consistentes. los
Los datos de capacitación no incluyen la identificación del estudiante o el número de semestre.
Nuestra siguiente opción fue reemplazar cada 0 que representa un curso no tomado
con un valor diferente. Cada estudiante ha tomado muchos menos cursos
que se ofrecen en la institución lo que significa que la mayoría de los valores en
cada vector de estudiante son 0s. Reemplazar cada valor 'no tomó' sería
requiere mucho tiempo y es visualmente confuso, ya que 0 tiende a representar una falta de
información, especialmente cuando se utilizan matrices y vectores dispersos.
Cambiar la representación numérica de F significa reemplazar la letra
grado F con un número que no sea su GPA equivalente a 0. Elegimos usar
-4.3 para representar F en nuestros datos en lugar de 0. Teóricamente, podríamos usar cualquier
valor en lugar de 0 ya que el modelo predictivo es, en esencia, un árbol de decisión basado en
reglas que no hace suposiciones sobre la escala y la magnitud de
datos entrantes. Elegimos -4.3 porque representa lo contrario de A+ (4.3
promedio).
El año académico se divide en tres secciones de cuatro meses. En Ontario Tech University,
los tres semestres se denominan semestre de otoño.
(septiembre-diciembre), semestre de invierno (enero-abril) y semestre de verano
(mayo-agosto). Dado que nuestra aplicación está diseñada para predecir el éxito de
el estudiante en base a un hipotético próximo semestre, decidimos dividir el
conjunto de datos por semestre. El primer paso en este proceso fue asignar un semestre
4.1. Conjunto de datos del estudiante 19
número para cada curso. Del conjunto de datos, tenemos un código de término asociado con
cada instancia del curso. El código del término se compone de un año y un código de semestre,
que es el número del mes en el que comienza el semestre.
Por ejemplo, el código de término para un curso tomado en el semestre de otoño de 2009 es
200909. Convertimos esta fecha en un número entero ordenando los códigos de término
secuencialmente. En este punto, tenemos todos los semestres numerados del 1 al 38. Para
cada estudiante, convertimos este número de semestre general en un número de semestre
relativo. El número relativo del semestre comienza en 1 y aumenta
secuencialmente por cada semestre que el estudiante haya asistido a la universidad. Este valor
de número de semestre no se usa para entrenar el modelo. Se utiliza para realizar consultas y
agrupar a los estudiantes para la evaluación del modelo.
Para crear los vectores de estudiantes, el conjunto de datos del historial del curso, incluidos
los números de los semestres, se transformó de un formato largo, donde los códigos del curso y
las calificaciones tienen sus propias columnas, a un formato ancho, donde los códigos del curso
son los nombres de las columnas y la calificación es el valor. Los vectores de estudiantes
también incluyen una columna de GPA de admisión a la escuela secundaria y una columna
persistente. De acuerdo con un análisis de correlación lineal realizado en el conjunto de datos,
el GPA de admisión tiene una alta correlación lineal con la retención. La columna persistente es
una columna binaria que indica si el estudiante en el conjunto de datos se retiró o no.
de la universidad, 0 si el estudiante se dio de baja, 1 en caso contrario. Esta columna solo se

usa para entrenar el modelo predictivo.
En nuestro conjunto de datos, las muestras en las que la columna persistente indicaba éxito
tendían a tener más semestres de datos. Queríamos asegurarnos de que el
modelo no relacionaría tomar más cursos con tener éxito. Si bien es cierto que los estudiantes
de los años superiores tienen menos probabilidades de retirarse, también es cierto que los
estudiantes exitosos de los años superiores alguna vez fueron estudiantes exitosos de primer y
segundo año. Queríamos incluir tantas muestras de éxito como fuera posible en el conjunto de
datos utilizado para entrenar el modelo. Para lograr esto, decidimos tomar cada
estudiante y elimine los semestres uno por uno para crear instantáneas de cada estudiante
después de cada semestre. Por ejemplo, un estudiante que se graduó después de ocho
semestres tendrá una fila con las calificaciones del semestre 1, una fila con las calificaciones
del semestre 1 y el semestre 2, una fila con las calificaciones del semestre 1, el semestre 2 y el
semestre 3, etc. El valor de la columna persistente sigue siendo el mismo en un solo estudiante.
Los vectores resultantes para un solo estudiante se muestran en la tabla 4.3. Usando este
enfoque, podemos aumentar el número de muestras con
Algoritmo Exactitud Precisión Recuperación
Regresión logística 81,6% 89,6% 88,1%
Bosque aleatorio 89,8% 91,7% 96,6%
Red neuronal MLP 84% 84,6% 98,8%
bayesiana ingenua dieciséis% 16% 100%
TABLA 4.4: Métricas de rendimiento de cada uno de nuestros algoritmos probados: logística
regresión, bosque aleatorio, red neuronal MLP y Naïve Bayes. En general, el
bosque aleatorio se desempeñó mejor con una precisión del 89,8% y una precisión de
91,7%.
menos semestres de datos con una etiqueta de éxito.
4.2 Selección de algoritmo

Probamos cuatro modelos predictivos diferentes con nuestros datos al principio del proyecto.
El objetivo era ver qué modelo de aprendizaje automático nos daría la mejor
resultados dado el conjunto de datos. Los algoritmos que probamos fueron Regresión Logística,
Bosque aleatorio, red neuronal de perceptrón multicapa (MLP) e ingenuo
Clasificación de Bayes. Para probar estos algoritmos, utilizamos una plataforma de análisis
visual llamada KNIME. El uso de KNIME nos permitió comparar rápidamente el algoritmo
rendimiento y tener tanto control sobre la consistencia de los datos como sea posible.
Como se muestra en la Tabla 4.4, la mayoría de los algoritmos funcionaron razonablemente bien
con la excepción de Naïve Bayes, y el bosque aleatorio que funciona mejor.
4.2.1 Métricas de rendimiento
Como parte de la evaluación de nuestro modelo, generamos una matriz de confusión. La matriz
de confusión muestra el número de muestras clasificadas correcta e incorrectamente etiquetadas
como ”Verdadero positivo”, ”Falso positivo”, ”Verdadero negativo” y ”Falso
Negativo". En este caso, nuestros datos tenían una etiqueta de 1 (Retenido) y 0 (Retirado).
Un verdadero positivo es una muestra con una etiqueta original de 1 y una etiqueta predicha
de 1. Un verdadero negativo es una muestra con una etiqueta original de 0 y un
etiqueta de 0. Un falso positivo y falso negativo es una muestra etiquetada como 0 y
predicho como 1, o etiquetado como 1 y predicho como 0 respectivamente.
4.2. Selección de algoritmo 21
Capacitación modelo semestral Pruebas Recuperación de precisión
Precisión Precisión
Semestre 1 70,2% 82,9% 92,1% 97,4%

Semestre 2 77,3% 84,9% 94,2% 92,4%
semestre 3 80,8% 91,2% 97,4% 96,8%
semestre 4 82,7% 94,3% 98,3% 98,9%
semestre 5 86,6% 96,8% 99,2% 99,9%
semestre 6 89,5% 98,0% 99,6% 99,9%
Semestre 7 92,3% 98,4% 99,6% 100%
semestre 8 94,1% 98,8% 99,7% 100%
TABLA 4.5: Métricas de desempeño de modelos predictivos entrenados en individuos

semestres de datos. Cada modelo se entrenó con datos de 2007 a 2011 y se probó
usando datos de después de 2011. La precisión del entrenamiento se calculó usando una cruz de 10 veces
validación. La precisión de la prueba se calculó calificando el modelo entrenado con nuestro
datos de prueba. Las puntuaciones de precisión y recuperación se calcularon utilizando datos de prueba.
En términos de los datos del estudiante, un estudiante etiquetado como 0 y predicho como 1
(falso positivo) es nuestro peor escenario y debe minimizarse. Este
reduciría el número de estudiantes en riesgo a los que se muestran resultados que pueden
hacerles creer que no están en riesgo. Un estudiante que se predijo que
retirar (0), con una etiqueta real de 1 no es ideal en términos de precisión del modelo,
pero es preferible decirle a un estudiante que tendrá éxito cuando
probable que se retire voluntaria o involuntariamente. La precisión es una métrica que se
relaciona directamente con la tasa de falsos positivos, Precisión = TruePositive/(TruePositive +
Falso positivo). Una puntuación de alta precisión se correlaciona con una baja tasa de falsos positivos.
Naïve Bayes no funcionó bien en nuestro conjunto de datos. El modelo predijo

todas las muestras como ”0”, o retirar. Tal vez con algún ajuste de parámetros, esto
modelo podría tener mejores resultados. Dado que los otros modelos realizaron mucho
mejor, no investigamos esto más a fondo.
La regresión logística es una técnica común utilizada para predecir la deserción utilizando
los datos de los estudiantes. Queríamos ver si la regresión logística podía soportar hasta
técnicas más modernas. Se desempeñó razonablemente bien con una precisión de
82 %. Este número se vuelve menos impresionante si se considera que la tasa de deserción
general del conjunto de datos es del 14 %, lo que significa que si el clasificador predijo cada
estudiante persista (1) tendría una precisión del 86%. La puntuación de precisión
Prueba de datos Exactitud Precisión Recuperación
General 85% 85,7% 98,9%
Semestre 1 77,8% 89,1% 93,4%
Semestre 2 81,3% 91,6% 95,7%
semestre 3 86,9% 96,5% 97,8%
semestre 4 90,1% 98% 99%
semestre 5 94,1% 99,1% 99,7%
semestre 6 96,2% 99,5% 99,8%
Semestre 7 97,2% 99,7% 99,9%
semestre 8 98% 99,8% 100%
TABLA 4.6: Métricas del modelo general probado en semestres individuales. General
la precisión se calculó utilizando una validación cruzada de 10 veces. Exactitud, precisión y
el recuerdo para cada semestre se calcularon usando datos de prueba.
del 90% mejora ligeramente este modelo ya que la tasa de falsos positivos sigue siendo baja.
La red neuronal MLP funcionó razonablemente bien con nuestro conjunto de datos.
La exactitud fue del 84%, con una precisión del 85%. La precisión ligeramente mejor
que el modelo de regresión logística, pero la puntuación de precisión sufrió.
Los bosques aleatorios son conocidos como un buen algoritmo de aprendizaje automático
de "propósito general", y por su rendimiento en conjuntos de datos relativamente pequeños con un
alto número de características. El modelo de bosque aleatorio se desempeñó mejor con
una precisión del 90% y una precisión del 92%. Siendo ambos valores
el más alto entre los algoritmos probados, decidimos usar un bosque aleatorio
clasificador como nuestro modelo predictivo. Ante los problemas de portabilidad del modelo con
KN IME, implementamos el modelo de bosque aleatorio en Python utilizando el
Biblioteca SciKit-Learn.
Elegir un conjunto de entrenamiento
Con base en la literatura, los modelos previos de predicción de estudiantes han sido más
exitoso cuando se entrena en los últimos 5 años de datos académicos en lugar de
todo el conjunto de datos históricos [16]. Esto se puede explicar simplemente cambiando
tiempo extraordinario. Los instructores, el contenido del curso, los horarios y los estudiantes cambian
tiempo extraordinario. Estos cambios conducen a cambios en los promedios de calificaciones y distribuciones,
Semestre Modelo Porcentaje Capacitación Pruebas

Retirar Muestras Muestras
Semestre 1 27,1% 8770 7124

Semestre 2 24,5% 8454 6796
semestre 3 17,5% 7590 5860
semestre 4 14,0% 7174 5221
semestre 5 11,1% 6745 3804
semestre 6 8,9% 6462 3013
Semestre 7 7,1% 6158 2130
semestre 8 5,8% 5908 1424
TABLA 4.7: La clase dividida de los datos usados para entrenar cada modelo semestral, y la
número de muestras utilizadas para entrenar y probar cada modelo.
y cambios administrativos como nuevos cursos y cambio de códigos de curso.

Limitar los datos de entrenamiento a los últimos 5 años minimiza la cantidad de cambio
en los datos, manteniendo un número suficiente de muestras.
Teníamos curiosidad sobre el rendimiento del modelo dados diferentes subconjuntos del
datos. Además, queríamos ver cómo nuestro modelo se vio afectado al usar
una técnica de reducción de dimensionalidad llamada Análisis de Componentes Principales
(PCA). La reducción de la dimensionalidad surgió simplemente por el número de
características en nuestros datos de entrenamiento. Trabajar con el conjunto completo de
funciones fue engorroso en términos de almacenamiento y manipulación de datos. Tiempo
manejable, queríamos explorar nuestras opciones. PCA es una característica bien conocida
método de proyección que tiene como objetivo proyectar las características originales en
un espacio de menor dimensión con la mayor variación entre los componentes. La meta es
mantenga la exactitud y precisión del modelo con menos funciones.
Consideramos entrenar algunos modelos predictivos diferentes para usar en nuestro
sistema. Gracias a trabajos anteriores, sabemos que los modelos predictivos funcionan
bien cuando se entrenan con datos académicos de estudiantes en grupos similares [1].
Sentimos que agrupar a los estudiantes por facultad abriría una puerta para explorar la
agrupación de estudiantes por programa y enfocarse en capacitar al clasificador más
preciso. Con respecto a que el objetivo del proyecto es capacitar a una persona precisa,
clasificador de amplio espectro para predecir el éxito en el próximo período, optamos
para agrupar el conjunto de datos por número de semestre.
La cantidad de datos que cada estudiante tiene varía a lo largo del conjunto de datos. Eso
tendría sentido que los estudiantes con 1 semestre de datos tengan menos información
ción que un estudiante con 8 semestres que ha tomado más cursos. Sin embargo, debido a
que separamos a cada estudiante en sus filas acumulativas de semestres, un estudiante con
8 semestres también tiene una fila con 7 semestres de información, 6 semestres y así
sucesivamente. Esto significa que se usaron más muestras para entrenar el modelo del
semestre 1 en comparación con los modelos del semestre 7 u 8. El número de muestras de
entrenamiento y prueba, y la división de clase de los datos se informan en la Tabla 4.7. Cada
modelo semestral se entrenó utilizando una validación cruzada de 10 veces y la exactitud, el
recuerdo y la precisión se informan en la Tabla 4.5. Inicialmente pensamos que dado que el
número de estudiantes que se retiran después del semestre 1 o 2 es significativamente mayor
que el número de estudiantes que se retiran después del semestre 6 o 7, la precisión de los
modelos de semestre superior sería mucho mayor. Como se muestra en la Tabla 4.5, nuestras
suposiciones eran correctas. Queríamos saber si el modelo general mostraría una tendencia
similar en precisión cuando se probara en grupos semestrales. La exactitud, precisión y
recuperación de estas pruebas se pueden encontrar en la Tabla 4.6. Como puede ver, no se
perdió mucha precisión en comparación con un modelo entrenado específicamente en ese
grupo semestral.
Si bien PCA redujo el tamaño de nuestro conjunto de datos y la precisión se mantuvo
constante, hubo problemas significativos con el uso de PCA. En primer lugar, la reducción
de la dimensión lidad eliminó un nivel de explicabilidad de nuestro modelo en el que confiamos
en nuestro sistema. Con dimensiones reducidas, es imposible decir qué características
individuales (cursos) contribuyeron al modelo entrenado. Las funciones con la clasificación de
importancia de modelo más alta pueden interpretarse como los cursos que mejor predicen el
éxito. También perdimos un nivel de precisión. Incluso con una pequeña reducción en el
número de características (es decir, 1501 características a 1450 características), el modelo
simplemente predijo la división de clases. En otras palabras, predijo que todos tendrían éxito,
asegurando que sería correcto el 85% de las veces. Una precisión del 85% es buena, pero
solo cuando el clasificador está tomando una decisión informada que se demuestra mediante
las puntuaciones de precisión y recuperación.
Hicimos más pruebas combinando las estrategias de entrenamiento en los últimos 5 años
de datos, reducción de dimensionalidad y agrupación por semestre. Todas las pruebas que
utilizaron reducción de dimensionalidad arrojaron los mismos resultados y problemas de
precisión que las pruebas anteriores que utilizaron PCA. Además, la agrupación por semestre
una vez más resultó innecesaria. La única agrupación que resultó eficaz
Parámetro Descripción Posible Defecto

Valores) Valor
n_estimadores Número de árboles 1+ 10

en el bosque
max_leaf_nodes Establecer número de hoja 1+, Ninguno Ninguna

nodos para
árbol de hoja sabia
crecimiento
máxima profundidad Profundidad máxima 1+, Ninguno Ninguna

del árbol
min_samples_split Número mínimo 0+, Ninguno 2

de muestras
requerido para dividir
un nodo interno
min_samples_leaf Número mínimo 0+, Ninguno 1

de muestras
requerido para ser un
nodo hoja
puntuación_oob Ya sea para usar Verdadero Falso Falso

fuera de la bolsa
muestras a
estimar el
generalización
precisión
criterio Función a impureza gini gini
medir la (Gini),
calidad de una división Información
ganancia (entropía)
max_features Número de 1+, raíz cuadrada, log2 sqrt
caracteristicas a
considerar cuando
buscando la
mejor división
clase_peso Pesos equilibrado, Ninguna

asociado con Ninguno, personalizado
cada clase
TABLA 4.8: Parámetros ajustables para RandomForestClassfier de SciKit-Learn. Todos

de los parámetros son opcionales con la excepción de n_estimators.
estaba entrenando en 5 años consecutivos de datos, y probando en los siguientes

2 años. Aunque este método presenta algunos desafíos con la implementación, como la
necesidad de volver a entrenar cada año con un nuevo conjunto de datos, fue este
iteración que produjo los mejores resultados.
4.3 Ajuste de parámetros

Utilizamos los valores de parámetros predeterminados para la comparación inicial del modelo. Sin
embargo, algunos de los parámetros o configuraciones del modelo de bosque aleatorio pueden ser
ajustado para afectar la precisión del modelo entrenado. La Tabla 4.8 muestra los valores
posibles de esos parámetros. Ajustando nuestro modelo para exprimir cada
el posible punto de precisión no era el objetivo de estas pruebas. Los valores predeterminados
para los parámetros del modelo arrojaron resultados aceptables y cumplieron con las necesidades de nuestro
sistema. Dicho esto, queríamos ver cuánta diferencia un cambio

en ciertos valores de parámetro haría, y ver si había una mucho mejor
modelo que podríamos estar usando.
Para seleccionar los mejores parámetros para nuestros datos, escribimos un python
script para probar diferentes combinaciones de diferentes valores para cada parámetro.
El rango de valores utilizados para probar cada parámetro se describe en la Tabla 4.9. Este
Parámetro Valores/Rango Incremento Valor final
n_estimadores 50–1000 50 50
criterio gini/entropía N/A gini
max_leaf_nodes 10–960 50 860
max_ depth 3–48 5 33
min_samples_split 2–10 1 9
min_samples_leaf 2–10 1 9
max_features sqrt/Ninguno N/A sqrt

oob_score 0/1 N/A 0
class_weight equilibrado/Ninguno N/A Ninguna
TABLA 4.9: Valores probados y finales para los parámetros de nuestro modelo predictivo. Nosotros
decidido sobre los valores finales basados en el modelo con la mayor precisión de prueba
entre aquellos con la mayor precisión de entrenamiento.
4.3. Ajuste de parámetros 27
Rasgo Descripción Rango
SOCI1000U Sociología introductoria 1
BUSI2000U Liderazgo Colaborativo 2
PSYC1000U Introducción a la Psicología 3
MATH2860U Ecuaciones diferenciales para ingenieros 4
EDUC1050U Comunicaciones técnicas 5
BUSI1450U Estadísticas 6
HLSC2460U Fisiopatología I 7
STAT2800U Estadística y probabilidad para ingenieros 8
adm_gpa 9 GPA de admisión
BIOL1020U Biología II 10
TABLA 4.10: Las diez características más importantes clasificadas por nuestro modelo predictivo.
Entre los mejores cursos están las optativas populares (Sociología y Psicología), y
cursos tomados por la mayoría de los estudiantes de ingeniería y ciencias (ecuaciones diferenciales,
Comunicaciones Técnicas y Estadísticas). Sabíamos que el GPA de admisión era
correlacionado con la retención, por lo que no sorprende ver que ocupa el puesto número 9.
La combinación de valores de parámetros resultó en más de 10000 modelos posibles. Para

Por cuestiones de tiempo, seleccionamos al azar 1000 modelos para entrenar. desplegamos
estas pruebas en una red informática de investigación académica jerárquica compartida
(SHARCNET) clúster. El modelo se entrenó con datos de 2008 a 2012 y
Probado con datos de 2013 y 2014. Estas pruebas arrojaron la precisión del entrenamiento
utilizando una validación cruzada de 10 veces y la precisión de la prueba de cada modelo. Nosotros
seleccionó los valores de los parámetros en función del modelo con el entrenamiento más alto
y la precisión de las pruebas.
Es importante tener en cuenta que estos modelos se entrenaron en una versión anterior de
nuestro conjunto de datos. Redefinimos nuestros conjuntos de entrenamiento y prueba por admisión
año, y 11 de las 1510 funciones de entrenamiento utilizadas para probar los valores de los parámetros
fueron eliminados después del proceso de selección de funciones. Estas características representaban
información demográfica y de resumen del primer año.

4.4 Selección de características
El propósito de la aplicación final es predecir el éxito de un estudiante dado un conjunto de cursos

futuros. Sabíamos que necesitábamos incluir cursos en el
conjunto de características, sin embargo, había más de una forma de lograrlo. Los primeros 3 o 4
caracteres de un código de curso de Ontario Tech indican el departamento que ofrece el curso.
Consideramos agrupar cursos por este código de departamento para disminuir el número total de
funciones. Sin embargo, perderíamos un importante nivel de información. Si agrupamos por código de
departamento, el valor de la característica podría ser la calificación promedio del estudiante en esos
cursos, o el número de cursos tomados en ese departamento, o algún otro valor calculado. Esto
significa que perdemos información a nivel de grado individual, e incluso información como el nivel de
año del curso, o si es o no un curso electivo.
Otra opción era agrupar por código de departamento y nivel de año. En los códigos de curso de
Ontario Tech, el nivel de año de un curso se indica mediante el primer dígito que sigue al código de
departamento. Agrupar cursos por código de departamento y nivel de año nos brinda un nivel adicional
de información en comparación con solo agrupar por código de departamento, pero aún necesitamos
usar algún tipo de promedio o resumen como valor. Dado que estábamos interesados en el rendimiento
del curso y queremos que el modelo sea sensible a diferentes valores de calificación, decidimos no
agrupar los cursos y usar cada curso individual como una característica.
Decidimos incluir una característica adicional con los cursos, GPA de admisión. El GPA de
admisión es el GPA promedio de los cursos de grado 12 del estudiante utilizados para la admisión a la
universidad. Con base en un análisis de correlación lineal realizado en el conjunto de datos de
retención_sin procesar (Tabla 4.1), sabemos que junto con el GPA del primer semestre y el GPA del
primer año, el GPA de admisión está correlacionado con la retención. Decidimos no incluir el GPA del
primer semestre y el GPA del primer año como características porque esos valores se pueden calcular
utilizando las características existentes, lo que las hace redundantes.
El modelo de bosque aleatorio entrenado asigna un nivel de importancia a cada una de las
características utilizadas en el conjunto de entrenamiento. Las diez características principales se

muestran en la Tabla 4.10.
4.4. Selección de características 29
FIGURA 4.1: Cada vector de estudiante está compuesto por la información académica
existente del estudiante y un escenario generado. En este caso, el estudiante tiene dos
semestres de datos. Eligieron tres cursos para tomar en su tercer semestre: INFR1310U
(Diseño gráfico I), CSCI1200U (Computadoras y medios) y CSCI2010U (Principios de
informática). Se seleccionaron conjuntos de calificaciones probables y se asignaron a los
tres cursos usando el algoritmo descrito en la Sección 4.5.1 para crear cinco terceros
semestres hipotéticos. Estos terceros semestres se combinan con la información del semestre
1 y el semestre 2 para crear cinco vectores de estudiantes, que cuando se introducen en el
modelo devuelven un valor de probabilidad de éxito.
FIGURA 4.2: Distribución de promedios acumulados semestrales.
4.5 Generación de vectores de estudiantes
El vector de estudiante que se pasará a través del modelo predictivo contiene

toda la información de cursos y calificaciones de un estudiante desde la admisión, y un
próximo semestre hipotético como se muestra en la Figura 4.1. El hipotético próximo semestre
se compone de un conjunto de 1 a 7 cursos elegidos por el alumno y un conjunto de
calificaciones generadas que se asignarán a los cursos elegidos. Por ejemplo, si un
estudiante quería tomar 5 cursos, el sistema generaría un conjunto de 5 calificaciones
que es probable que logre el estudiante y asigne cada calificación a uno de los 5 cursos
elegidos. Este proceso de generar y asignar calificaciones se repite una
numero de veces. Un conjunto de cursos con calificaciones asignadas se denomina escenario.
Un estudiante interesado en tomar 5 cursos generaría 90,000 escenarios posibles asumiendo
5 cursos diferentes y 10 calificaciones posibles. Esto sería
considerado el enfoque de "fuerza bruta". Hay dos problemas notables con
el enfoque de fuerza bruta:
• Demasiada información
• Escenarios irrelevantes
Mostrar todos los escenarios posibles tiene un alto potencial para abrumar a los
usuario y hacer que el gráfico se sobresature. Sobresaturar el gráfico
podría impedir que el usuario interprete el gráfico correctamente como los diferentes colores
se vuelven menos aparentes y el espacio visual se distorsiona. Una posible solución a esto
es una muestra aleatoria del conjunto completo. El problema con el muestreo aleatorio es
que la muestra no se adaptaría a las necesidades individuales de los estudiantes.
4.5. Generación de vectores de estudiantes 31
FIGURA 4.3: Distribución muestral para un estudiante con un GPA acumulativo de 1.46.
actuación. Un estudiante con un GPA acumulativo de 4.0 obtendría una muestra similar a la de un
estudiante con un GPA acumulativo de 1.0, introduciendo

escenarios.
Mostrar escenarios irrelevantes tiene la posibilidad de engañar a los usuarios al mostrar escenarios
que es poco probable que el estudiante individual lo logre.
Para mitigar estos efectos, necesitábamos implementar una técnica de muestreo que seleccionara
escenarios que fueran representativos del desempeño académico anterior del estudiante y cubriera el
espectro de calificaciones probable. La técnica de muestreo implica algunos pasos que se describen
en la Sección 4.5.1:
1. Configure una distribución normal en todos los GPA acumulativos en el conjunto de datos y
almacene la desviación estándar
2. Calcular el GPA acumulativo del estudiante
3. Establezca una distribución normal usando la desviación estándar calculada en
Paso 1, y la media calculada en el Paso 2
4. Muestra un GPA acumulativo de la distribución del Paso 3
5. Seleccione un escenario de la tabla de probabilidades de escenario utilizando la muestra

GPA
6. Asigne cada grado en el escenario a cada uno de los cursos propuestos usando
la tabla de probabilidades de curso/calificación
7. Repita los pasos 4 a 6 para el número deseado de muestras

ALGORITMO 4.1: Asignación de calificaciones a cursos. Este algoritmo asigna calificaciones a

cursos teniendo en cuenta la probabilidad de recibir cada calificación en cada
curso. Toma una serie de calificaciones (G), una serie de cursos (C) y una probabilidad
table (P) como entrada, y devuelve un objeto de calificaciones asignadas a los cursos. Este
El algoritmo se repite para cada escenario generado en el paso anterior.
1 entrada : G = [ g1 , g2 , , gi ] , . . .
2 do = [ c1 , c2 , , cj.].,.
3 P = [ p ( g1, c1 ) , p ( g1, c2 ) , ... , p ( gi , cj ) ]
4 salida : Objeto de calificaciones asignado
5 empezar
6 foreach gi en G
7 S ÿ suma de probabilidades de recibir ei vi ng gi
8 rnd ÿ número aleatorio entre 0 y S
9 foreach cj en C
10 verificar ÿ rnd ÿ p ( gi , cj )
11 rnd ÿ comprobar
12 si marca ÿ 0
13 culo i gn grado gi a cou rse cj
14 eliminar gi de G
15 eliminar todas las probabilidades cj de P
dieciséis devolver calificaciones asignadas
17 final
4.5.1 Generación de Escenarios

El primer paso para generar los escenarios fue establecer una distribución normal
en todos los GPA acumulativos semestrales en el conjunto de datos. Ajustamos la curva a nuestro
datos y calculó la desviación estándar y la media de la distribución (Figura 4.2). Este valor de
desviación estándar se utilizará como la desviación estándar
para nuestra distribución de muestreo. A continuación calculamos el GPA acumulativo de los

estudiante en cuestión. Este valor de GPA acumulativo se usará como la media
(mu) para nuestra distribución de muestreo.
En este punto, podemos configurar nuestra distribución de muestreo usando el estándar
desviación de los GPA semestrales y el GPA acumulativo del estudiante (mu) calculado
más temprano. Este enfoque nos permite establecer una distribución de muestreo que es
generalizable y se ajusta al desempeño de un estudiante individual. A
la distribución de la muestra se muestra en la Figura 4.3. A partir de esta distribución, muestreamos
400 valores GPA acumulativos que se utilizarán para seleccionar escenarios de nuestro
tabla de probabilidades de escenarios. La tabla de probabilidades del escenario se describe más adelante en
esta sección.
FIGURA 4.4: Este diagrama de flujo describe nuestro sistema de principio a fin.
Comenzamos usando nuestra aplicación para consultar la base de datos para el historial
del curso de un solo estudiante. El resultado de esta consulta (Historial del estudiante)
se pasa al paso Generación de escenarios junto con las selecciones de cursos para el
siguiente semestre. Los escenarios generados se combinan con el historial del estudiante
para representar la finalización del siguiente semestre y se alimentan al modelo predictivo.
El modelo predictivo devuelve la puntuación de confianza y los escenarios generados que
se pasan a la aplicación para completar la visualización.
Asignación de calificaciones
El paso final de la técnica de muestreo es asignar las calificaciones en cada escenario de calificación
seleccionado a uno de los cursos elegidos por el estudiante. Para decidir qué calificaciones se asignan
a qué curso, necesitamos tres datos; el escenario de calificaciones (G), la lista de cursos elegidos (C)
y la probabilidad condicional de obtener cada calificación en cada curso (P). Este proceso se describe
en el Algoritmo 4.1.
Una vez que tenemos una muestra de escenarios, podemos generar vectores de estudiantes para
alimentar el modelo predictivo. La figura 4.4 describe cómo se implementa esta técnica de muestreo
dentro del sistema general.

Escenario de GPA semestral Probabilidad
0.00 [F, F, F, F] 1.000000

0.25 [D, F, F, F] 0.705426
0.25 [F, F, F, D] 0.108527
0.25 [F, D, F, F] 0.096899
0.25 [F, F, D, F] 0.089147
4.15 [A, A+, A, A+] 0.126506
4.15 [A+, A+, A-, A+] 0,126506
4.15 [A, A+, A+, A] 0.114458
4.15 [A+, A+, A, A] 0.108434
TABLA 4.11: Una instantánea de la tabla de probabilidades del escenario para cuatro cursos. Esta mesa
contiene 6020 filas. Generamos una tabla de probabilidad separada para cada número de
cursos tomados en un semestre que van del 1 al 7.
Código del curso Calificación final Probabilidad
MATH1020U D 0.227899
MATH1020U F 0.214592
MATH1020U C 0.167670
MATH1020U B 0.070586
MATH1020U B- 0.066941
MATH1020U A- 0.066362
MATH1020U do+ 0.059246
MATH1020U A+ 0.052939
MATH1020U A 0.040616
MATH1020U B+ 0.033152
TABLA 4.12: Una instantánea de la tabla de probabilidades de curso/calificación. Las probabilidades son
mostrado para MATH1020U (Cálculo II). La tabla completa de probabilidades de curso/calificación incluye
valores de probabilidad para cada curso que se ha ofrecido en la universidad y
contiene 11733 filas.
Tablas de probabilidad
Los escenarios utilizados para las probabilidades se muestrean directamente de la base de datos.
Para cada estudiante de tiempo completo en la universidad, aislamos cada semestre y almacenamos
la combinación de calificaciones (por ejemplo, [A,A+,A+,B,B-] sería una combinación para un semestre
de 5 cursos). Para cada una de estas combinaciones, calculamos el GPA semestral. Con esta
información pudimos calcular la probabilidad de un escenario específico dado un GPA semestral como
se muestra en la Tabla 4.11. Otro método para generar conjuntos de calificaciones sería generar
calificaciones probables individuales para cada uno de los cursos propuestos y combinarlos como un
conjunto. Sin embargo, sabemos que las calificaciones semestrales no son mutuamente excluyentes.
Esto significa que la probabilidad de recibir una calificación particular en un curso se ve afectada por
los otros cursos que se toman y la calificación recibida en esos cursos. Por esta razón, elegimos extraer
conjuntos de calificaciones directamente de los datos.
Las calificaciones seleccionadas de la tabla de probabilidades de escenarios se asignan en función
de la probabilidad de obtener una determinada calificación en cada curso. Sacamos de la base de
datos todas las notas recibidas en cada curso de la universidad. Para cada curso, calculamos la
probabilidad de obtener cada calificación y almacenamos los valores en nuestra tabla de probabilidades
del curso como se muestra en la Tabla 4.12.
4.5.2 Puntuación de confianza de la predicción
La puntuación de probabilidad (confianza) de predicción de cada escenario generado puede interpretarse
como la probabilidad o confianza de que la predicción es verdadera. Este es el valor que finalmente se
mostrará a los usuarios en nuestra herramienta para que se interprete como la probabilidad de éxito de
un estudiante. Un clasificador Random Forest es una colección
de árboles de decisión que trabajan juntos para generar una sola predicción. Cada árbol en el bosque
usa características diferentes para tomar una decisión que se cuenta como una
votar por la predicción final. Por ejemplo, un clasificador compuesto por cinco árboles puede devolver
tres predicciones 0 y dos predicciones 1. Cada predicción cuenta como un voto y gana la mayoría. En
este caso, el clasificador devolvería una predicción general de 0. Junto con esta predicción general, el
clasificador también devolverá un valor entre 0 y 1, que es la probabilidad de que esta predicción sea
verdadera, a lo que nos referimos como confianza de la predicción. puntaje.

36
Capítulo 5
Diseño de aplicaciones
Nuestra aplicación propuesta tiene como objetivo presentar el resultado de nuestro modelo
predictivo a los asesores académicos para ayudar a los estudiantes a tomar decisiones
que los harán más propensos a tener éxito. El sistema toma una identificación de
estudiante y una lista de cursos como entrada y genera escenarios probables basados en
el rendimiento académico anterior del estudiante. Estos escenarios se introducen en el
modelo predictivo como vectores de estudiantes y el nivel de confianza de cada predicción
se muestra en una interfaz de análisis exploratorio para que el usuario lo interprete.
5.1 Diseño iterativo

Nuestro proceso de diseño iterativo comenzó con el diseño inicial del Tablero de Retención,
descrito en el Capítulo 3. Nos reunimos con un representante de la Oficina de Investigación
y Análisis Institucional (OIRA) y la Oficina de Registro (RO) tres veces durante el diseño
del tablero.
La reunión inicial fue una sesión de lluvia de ideas sobre el proyecto, en la que,
después de un debate, decidimos centrarnos en la retención de los estudiantes. Algunas
de las ideas que surgieron durante nuestra discusión incluyen encontrar una forma fácil
de visualizar e interactuar con el conjunto de datos de los estudiantes, encontrar problemas
similares entre los estudiantes y brindar consejos de acuerdo con esas similitudes y, en
general, encontrar una mejor manera de proporcionar intervención humana. Avanzando
con la idea de un panel interactivo para ayudar a la intervención humana, nos reunimos
con el Decano de Ciencias, los directores de programas y el personal de asesoramiento
académico para ayudarnos a comprender el tipo de datos que podrían ser más útiles en
términos de análisis. retencion. De estas reuniones, aprendimos que era
5.2. Interfaz 37
importante incluir información que permita a los usuarios sacar conclusiones procesables
de su análisis.
A partir de aquí diseñamos pieza a pieza el salpicadero. Comenzamos con la
visualización de horarios y el gráfico de coordenadas paralelas. La programación y las
tendencias de calificación se mencionaron como información procesable en nuestras
reuniones anteriores. Una vez que tuvimos versiones de trabajo de ambas visualizaciones,
nos reunimos nuevamente con un representante de la OIRA y el RO para discutir las
visualizaciones actuales y los pasos futuros. A partir de aquí, incluimos más filtros en el
gráfico de coordenadas paralelas en forma de cepillado de eje y desplazamiento de línea,
y en el cronograma como filtros de grado individuales y selectores de columna/fila.
Agregamos nuevos filtros al tablero, incluida la selección de programas individuales y el
selector de gráfico de barras del año de admisión. Todos estos componentes juntos
permiten al usuario explorar las relaciones entre las tendencias de calificación, la
programación y el desgaste a lo largo del tiempo.
Nos reunimos con OIRA y un asesor académico al comienzo del proyecto sis para
hablar sobre alejarnos del tablero y acercarnos a una herramienta para asistir en el
asesoramiento académico. Proporcionaron comentarios positivos a la idea de representar
el éxito de los estudiantes y un prototipo inicial de la trama de enjambre de abejas poblada
con datos simulados. Hicieron hincapié en que podría ayudar a convencer a los estudiantes
de una trayectoria de curso deficiente o alentar a los estudiantes que no tienen tanta
confianza en su desempeño. A partir de aquí, comenzamos el proceso de capacitación y
prueba de diferentes modelos con diferentes conjuntos de datos y la creación de la interfaz
de la aplicación.
5.2 Interfaz
Teníamos algunos criterios iniciales para diseñar nuestra interfaz basados en nuestras
reuniones con OIRA y asesores académicos. Debido a que las reuniones entre estudiantes
y asesores solo duran aproximadamente 15 minutos, la simplicidad y el diseño intuitivo
fueron clave. Necesitábamos una forma rápida para que los usuarios ingresaran la
información de los estudiantes y los cursos, y una forma intuitiva de mostrar e interactuar
con la información. Optamos por un diseño de una sola página con tres componentes: panel
de entrada, componente de visualización y un componente de resumen. El diseño y la
selección de cada componente se describen a continuación.
38 Capítulo 5. Diseño de aplicaciones
4.0
acumulativa
media
nota
2.0
0.3
0.31 0.40 0,60 0,68
FIGURA 5.1: Ejemplo de diagrama de enjambre de abejas. Los puntos se distribuyen a lo largo de una
eje horizontal, agrupándose en enjambres cuando varios puntos tienen el mismo valor.
5.2.1 Selección de visualización

Queríamos representar el concepto de 'probabilidad de éxito'. La confianza
nivel de salida del modelo predictivo representa el nivel de confianza que
el modelo tiene, dada la información en el vector del estudiante, que el estudiante
no abandonará. Decidimos que esta era una buena representación de la probabilidad de éxito. El
nivel de confianza es un número decimal entre 0 y 1
que van desde menos probabilidades de éxito hasta más probabilidades de éxito.
Elegir la visualización correcta para mostrar el nivel de confianza presentó un desafío.
Necesitábamos elegir una visualización que fuera fácil de
Leer para principiantes en visualización, podría ser parte de un tipo de aplicación de tablero más
grande y permitiría un análisis simple. Una trama de enjambre de abejas, que se muestra en
La Figura 5.1 muestra los puntos distribuidos a lo largo de un eje escalado horizontal, estirando el eje
en los lugares donde se necesita mostrar más puntos. cuando muchos
los puntos tienen el mismo valor, los puntos se agrupan para formar un enjambre. los
los niveles de confianza pronosticados tienden a agruparse en torno a valores similares para un solo
estudiante que está bien representado por la parcela beeswarm. También podemos agregar
filtros y color a los puntos que se muestran en este tipo de gráfico que
análisis de soporte.
Escalando la trama
Los rangos de nivel de confianza para un solo estudiante pueden variar entre 2
o 3 puntos porcentuales a más de 20 puntos porcentuales. Mostrando el
puntos en una escala de 0 - 1 proporciona un nivel de información útil para estudiantes con
una amplia gama de niveles de confianza, especialmente cuando la confianza pronosticada

los niveles cruzan la marca de 0,5. Un nivel de confianza por debajo de 0,5 significa que el modelo
predice que el estudiante probablemente abandonará los estudios, donde un nivel de confianza por encima
5.2. Interfaz 39
4.0
acumulativa
media
nota
2.0
0.3
Retirar Éxito
(A) Diagrama de Beeswarm escalado de 0 a 1.
4.0
acumulativa
media
nota
2.0
0.3
0.31 0.40 0,60 0,68
(B) Gráfica Beeswarm escalada de mínima a máxima confianza.
FIGURA 5.2: El mismo diagrama de enjambre de abejas escalado (A) de 0 a 1 y rotulado Retirar–
Éxito y (B) de predicción de confianza mínima-máxima confianza.
0.5 significa que es probable que un estudiante sea retenido. Poder ver qué escenarios
cruzar este umbral resaltará las combinaciones de curso-calificación más probables
para conducir al éxito. En lugar de etiquetar los puntos finales del eje como 0 y 1
decidimos usar etiquetas de Retiro y Éxito como se muestra en la Figura 5.2a.
Esto ayuda al usuario a interpretar el eje como un espectro de Retirarse al Éxito
en lugar de centrarse en los números en bruto.
Escalar el eje desde el nivel de confianza mínimo y el nivel de confianza máximo permite
otro nivel de información más útil para los estudiantes.
cuyas parcelas se parecen a la que se muestra en la Figura 5.2a. Ver todos los puntos
distribuidos entre su valor mínimo y máximo, como se muestra en la Figura 5.2b, ayudará a los
estudiantes a encontrar los cursos en los que concentrarse para maximizar su
probabilidad de éxito.
Las técnicas de escalado mencionadas anteriormente se complementan entre sí, pero

ninguno de ellos es suficiente por sí solo. Decidimos permitir que el usuario
alternar entre las dos escalas. Como se muestra en la Figura 5.3, al hacer clic en el ícono de
acercamiento en la esquina superior derecha del gráfico cambiará la escala
de Retirado-Éxito a Mínima Confianza-Máxima Confianza.
Al hacer clic en el icono de alejamiento en la vista ampliada, la escala retrocederá

a Retirado–Éxito.
4.0
acumulativa
media
nota
2.0
0.3
Retirar Éxito
4.0
acumulativa
media
nota
2.0
0.3
0.31 0.40 0,60 0,68
FIGURA 5.3: Arriba: componente de visualización Beeswarm mostrado en una escala de

Retiro (0)–Éxito (1). Abajo: Los mismos datos mostrados en una escala de
confianza mínima-confianza máxima.
FIGURA 5.4: La escala de colores de Viridis. En nuestra visualización, el púrpura más oscuro
representa los valores GPA acumulados más bajos de los escenarios, mientras que el amarillo más claro
representa valores GPA acumulativos más altos de los escenarios.
Colorear los puntos
Como se discutió anteriormente, cada punto representa un conjunto de cursos y calificaciones,
llamado escenario. La probabilidad de éxito se codifica como la posición horizontal del punto sobre
el eje. Los puntos están coloreados según el semestre.
GPA del escenario. La paleta de colores de Viridis, Figura 5.4, es conocida por crear tramas que se
perciben con mayor precisión, son accesibles y visualmente atractivas [9]. Usando la escala de
colores, podemos ver visualmente dónde está el
los escenarios con un GPA semestral más alto se encuentran en el eje. El color más oscuro en
la escala de colores representa el GPA semestral más bajo de los escenarios, y el
el color más claro representa el GPA semestral más alto de los escenarios.
5.2.2 Diseño de interacción

La aplicación final será utilizada por asesores académicos a medida que los estudiantes lleguen
en una reunión. Algunas de estas reuniones se reservan con antelación, pero muchas
son walk-ins. Según uno de los asesores académicos que entrevistamos,
los asesores a menudo tienen aproximadamente 15 minutos para reunirse con un estudiante. Nuestro
5.2. Interfaz 41
Identificación del estudiante: 863287
1
4.0
acumulativa
media
nota
2
2.0
0.3
Retirar Éxito
A A A A
B B B B
C C C C
3 D
F
D
F
D
F
D
0 50 100 0 50 100 0 50 100 0 50 100
BUSI1915U ECON2010U BUSI1020U BUSI1010U
FIGURA 5.5: La interfaz de la aplicación que muestra a un estudiante de Negocios que ingresa
a su tercer semestre y un GPA acumulativo de 1.47. (1) Componente del panel de entrada de
formulario donde el usuario ingresa una identificación de estudiante, el número de semestre
actual y hasta 7 cursos para tomar en el próximo semestre. (2) Componente Beeswarm que
muestra el nivel de confianza de la predicción. Este componente incluye un botón de "zoom"
para alternar la escala del eje entre 0 y 1, y el nivel de confianza mínimo y máximo.
(3) Componente de gráfico de barras de resumen que muestra el número de ocurrencias de
cada grado en cada curso de la parte seleccionada del gráfico.
La aplicación debe permitirles poner el sistema en funcionamiento lo más rápido posible cuando un estudiante
asiste a una reunión. Nos decidimos por un diseño simple de una sola página con tipos de entrada clásicos
que incluyen campos de entrada de texto y botones. La interfaz se compone de 3 componentes, que se
muestran en la Figura 5.5:
1. Entrada de formulario
2. Visualización de enjambre de abejas
3. Gráficos de barras de resumen
El componente de entrada de formulario, componente 1 en la Figura 5.5, se compone de campos de
entrada de texto estático para el número de identificación del estudiante y el número de semestre actual del
estudiante. La identificación del estudiante se usa para consultar la base de datos para el usuario actual, y el
número de semestre se usa para filtrar los resultados de la consulta después de realizar algunos cálculos en
el conjunto de resultados completo. Las selecciones de cursos se ingresan usando campos de entrada de
texto dinámico. Dependiendo de la cantidad de cursos que el estudiante quiera tomar en el siguiente semestre,
el usuario puede agregar esa cantidad de campos. Cualquiera de los campos agregados también se puede
eliminar. haciendo clic

FIGURA 5.6: Diagrama Beeswarm que muestra los detalles del escenario al pasar el mouse. en este particular
escenario, el estudiante obtuvo una D en BUSI1915U, D en ECON2010U, F en BUSI1020U y
F en BUSI1010U.
el botón "Enviar" invoca la interfaz de puerta de enlace común (CGI) Python
secuencia de comandos que utiliza la información ingresada en el formulario HTML para generar
vectores de estudiantes y predecir la probabilidad de éxito.
El componente de visualización de enjambre de abejas se compone de un enjambre de abejas estático
gráfico, escala de colores y menú desplegable para alternar la escala del eje. el enjambre de abejas
la trama se rellena con el archivo CSV generado a partir del script CGI. Como se describe en la Sección
5.2.1, el usuario puede alternar la escala del diagrama de abejas
haciendo clic en el icono de zoom. Pasar el mouse sobre un punto individual
en el gráfico se muestra la combinación de curso/grado que condujo a esa confianza
puntajes en una información sobre herramientas (Figura 5.6). Hacer clic y arrastrar horizontalmente (cepillado)
en el eje x selecciona puntos en el gráfico que se encuentran dentro del rango resaltado
(Figura 5.7).
Identificación del estudiante: 863287
4.0
acumulativa
media
nota
2.0
0.3
0.31 0.40 0,60 0,68
A A A A
B B B B
C C C C
D D D D
F F F F
0 5 10 0 5 10 0 5 10 0 5 10
FIGURA 5.7: Interacción de cepillado utilizada para seleccionar un conjunto de escenarios en el enjambre de abejas
gráfico. En los gráficos de barras, podemos ver que los escenarios seleccionados contienen muchas F
en los cursos de BUSI pero sin F en el curso de ECON.
5.3. back-end 43
A A A A
B B B B
C C C C
D D D D
F F F F
0 50 100 0 50 100 0 50 100 0 50 100
FIGURA 5.8: Gráficos de barras que muestran la distribución de calificaciones de los escenarios para
cada curso propuesto. Estos gráficos de barras se actualizan cuando el usuario selecciona una parte
del gráfico mediante la interacción del pincel.
El componente de gráfico de barras de resumen, Figura 5.8, intenta resumir la información

del curso y la calificación incrustada en el gráfico Beeswarm. Se dibuja un gráfico de barras
horizontales para cada curso que seleccionó el estudiante. Cuando
la página se carga, los gráficos de barras muestran el número de ocurrencias de cada

calificación de letra en cada curso para todos los escenarios. La interacción de "aplicación"
descrita anteriormente actualiza estos gráficos de barras para mostrar el número de
apariciones de cada calificación con letras en cada curso dentro del rango alineado. El
objetivo de estos cuadros de resumen era permitir a los usuarios no solo ver la probabilidad
de éxito dado un conjunto de cursos, sino también ver qué cursos son más indicativos de éxito.
Por ejemplo, supongamos que a un estudiante le gustaría ver su probabilidad de éxito si
toma Física, Cálculo, Psicología y Programación. Cuando esta información se introduce en
el sistema, las puntuaciones de confianza previstas oscilan entre 0,4 y 0,7. Cuando el usuario
recorre el rango de 0,6 a 0,7, los gráficos de barras se actualizan para mostrar que hay una
gran cantidad de A y B en Física, Psicología y Programación dentro de este rango, y una
gran cantidad de D en Cálculo. Una conclusión posible es que el estudiante en cuestión debe
tener buenos resultados (A o B) en Física, Psicología y Programación, pero no necesita
hacerlo tan bien en Cálculo para tener éxito. Este tipo de información podría ser útil al pensar
en qué cursos tomar al mismo tiempo, qué cursos pueden requerir más tiempo y esfuerzo y
programación futura.
5.3 Servidor
La aplicación web utiliza CGI para ejecutar un script de Python que genera los datos para
completar el gráfico Beeswarm. El script escribe la identificación del estudiante, el nivel de
confianza, el GPA acumulativo y los cursos en un archivo CSV. Finalmente, la secuencia de
comandos CGI devuelve un código HTML que le dice al navegador que actualice el archivo actual.
página, que carga el archivo CSV actualizado. Los archivos se sirven mediante Python
CGI HTTPServer.
45
Capítulo 6
Conclusión y discusión
Pudimos entrenar un modelo de aprendizaje automático para predecir si un estudiante

abandonará o no después del semestre dado con un 89 % de precisión. Nuestra aplicación
propuesta utiliza un algoritmo de muestreo robusto para mostrar de forma interactiva los
resultados de la predicción al usuario. Al usar nuestra medida de probabilidad de éxito,
podemos transmitir a los estudiantes el resultado probable de su próximo semestre dados
los cursos seleccionados y las calificaciones probables.
En las siguientes secciones, discutiremos el uso potencial de nuestro sistema a través
de estudios de casos ficticios, las limitaciones de nuestro sistema y el posible trabajo
futuro.
6.1 Discusión
En esta sección, vamos a presentar algunos estudios de casos ficticios que demuestran
la aplicabilidad de nuestro sistema en diferentes escenarios de casos de uso y la
interpretación de los resultados en estos diferentes casos.
6.1.1 Estudio de caso 1
Holly es una estudiante de ingeniería de software que ingresó en 2011 y acaba de terminar
su primer año. Académicamente, se desempeñó bien en la mayoría de sus cinco cursos
del primer semestre y terminó con un GPA acumulativo de 2.88. Tuvo dificultades tanto
en Cálculo I como en Física I, pero era optimista al saber que estos eran cursos difíciles y
que muchos de sus compañeros también tenían dificultades. Holly también participó en la
comunidad del campus como miembro del equipo Varsity Curling y miembro del Board
Games Club. Desafortunadamente, el semestre 2 pasó factura a Holly y su GPA semestral
cayó a 1.67, dejándola con un
46 Capítulo 6. Conclusión y Discusión
FIGURA 6.1: Gráfica Beeswarm que muestra la probabilidad de éxito de Holly dada la
cuatro cursos obligatorios. Todos los escenarios se encuentran por encima del punto medio que indica un
alta probabilidad general de éxito.
GPA acumulativo general de 2.27. Si bien no reprobó ningún curso, fue

preocupada por la caída de su GPA y la posibilidad de terminar en un período de prueba
académico. Holly pudo identificar 3 preocupaciones principales acerca de seguir adelante y
su bajo rendimiento académico:
1. Aumento de carga de cursos de 5 a 6 cursos
2. Aumento de la demanda del equipo de curling durante la temporada de competición
3. Falta de interés en el material del curso
Antes de registrarse para los cursos de segundo año, Holly decidió programar una cita con un
asesor académico para hablar sobre su futuro. El software
El mapa del programa de ingeniería enumera 5 cursos que se tomarán en el primer semestre de
año 2; Matemáticas discretas (ENGR2110U), Fundamentos de ingeniería eléctrica (ENGR2200U),
Programación orientada a objetos (ENGR2710U), Ecuaciones diferenciales (MATH2860U) y una
asignatura optativa de estudios liberales. debido a ella
desempeño deficiente en cursos de matemáticas anteriores, Holly está particularmente preocupada
sobre cómo tomar Ecuaciones Diferenciales y Fundamentos de Ingeniería Eléctrica.
Durante los primeros 5 minutos de la reunión de Holly con su asesor, discuten el motivo de su
visita y ella menciona las preocupaciones mencionadas anteriormente.
Durante esta discusión, el asesor puede ingresar los cursos requeridos en nuestro
6.1. Discusión 47
FIGURA 6.2: Escenarios de menor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, pero el curso de
matemáticas indica que recibir una F resulta en una menor probabilidad de éxito.
Sistema de Predicción del Éxito Estudiantil. Holly aún no está segura de qué optativa tomar,
por lo que el asesor simplemente ingresa los 4 cursos requeridos. El gráfico resultante se
muestra en la Figura 6.1. Como puede ver, todas las predicciones de escenarios se
encuentran a la derecha del punto medio, lo que significa que, en todos los casos generados,
es probable que Holly tenga éxito.
Sacar esta conclusión sin más exploración podría ser engañoso. Estos resultados
significan una cosa: que los estudiantes anteriores con un historial académico similar han
tenido éxito. Esto deja mucho espacio para la interpretación por parte del asesor, y es
importante que el asesor comunique que estos resultados no significan un éxito garantizado.
Para analizar más a fondo estos resultados, el asesor selecciona los escenarios con
menor probabilidad de éxito (Figura 6.2). Los gráficos de barras de resumen se actualizan
para mostrar qué calificaciones están presentes para cada curso en los escenarios seleccionados.
De inmediato podemos ver la alta frecuencia de F en MATH2860U. Deslizando la ventana de
selección hacia el extremo derecho del gráfico, Figura 6.3, podemos ver que las predicciones
más exitosas tienen una calificación mínima de C en MATH2860U.
Dada esta información, el asesor le comunicaría a Holly que debe concentrarse en obtener
buenos resultados en MATH2860U, y una calificación inferior a C en este curso podría reducir
su probabilidad de éxito.
Este análisis visual podría permitir una mayor discusión sobre la reducción
FIGURA 6.3: Escenarios de mayor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, y el curso de
matemáticas indica que recibir una calificación de C o superior conduce a una mayor probabilidad de
éxito.
carga de cursos para pasar más tiempo en cursos críticos y actividades

extracurriculares. Después de su reunión con el asesor, Holly se siente más segura
sobre su futuro académico y la gestión del tiempo en el próximo semestre.
Travis es un estudiante de negocios que fue admitido en 2012 y está en su segundo

año. Travis creció en una comunidad aproximadamente a 20 minutos de la
universidad y decidió vivir en su casa para ahorrar algo de dinero. Tiene un grupo
de compañeros con los que socializa mientras está en el campus, pero se espera
que esté en casa por las noches para contribuir con el hogar familiar. Terminó su
primer semestre del primer año con un GPA de 0.5. Esto colocó a Travis en período
de prueba académica, lo que significa que mientras su GPA acumulativo general
siga siendo bajo de 2.0, debe lograr un GPA semestral de 2.0 o corre el riesgo de
ser suspendido. El estrés adicional de evitar la suspensión académica motivó a
Travis a corto plazo, pero lo vio retirarse de 4 de 5 cursos más adelante en el
semestre. Obtuvo una C en el curso restante del semestre 2 (GPA de 2.0 semestres),
que fue suficiente para evitar la suspensión, pero no lo suficiente para que lo sacaran
del período de prueba académico (GPA general de 0.75). En este punto, Travis
decide programar una reunión con un asesor académico para discutir sus opciones.
6.1. Discusión 49
FIGURA 6.4: Diagrama Beeswarm que muestra la probabilidad de éxito de Travis con sus
cuatro platos elegidos. Los escenarios se encuentran cerca de la mitad del gráfico y cruzan el
punto medio.
Al comienzo de la reunión, Travis y el asesor proponen un conjunto de cursos para

tomar utilizando el mapa del programa relevante y cursos reprobados anteriormente.
Debido a su historial de retiro de cursos antes del final del semestre, deciden considerar
una carga de cursos reducida de 4 cursos.
Los cursos que Travis necesita tomar son Comunicaciones comerciales (BUSI1020U),
Microeconomía (ECON2010U), Matemáticas comerciales I (BUSI1915U) y Pensamiento
crítico y ética (BUSI1010U). El Asesor genera el gráfico y comienza su análisis superficial.
Como puede ver en la Figura 6.4, las predicciones caen por encima y por debajo del
punto medio de la gráfica. Esto significa que el predictor no está muy seguro de que
Travis tenga éxito o de que se retire. En este punto, el asesor debe señalar que los
escenarios de colores más claros (que representan calificaciones más altas en un
escenario) se encuentran a la derecha del punto medio, mientras que los escenarios de
colores más oscuros se encuentran a la izquierda. Deben comunicar que, a menos que
Travis se desempeñe bien académicamente, es probable que se retire. Esta información
debería generar una mayor discusión sobre las prioridades de Travis y los cambios que
podría hacer para mejorar sus calificaciones. Por ejemplo, podrían hablar sobre mudarse
a una vivienda en el campus, reducir aún más su carga de cursos o cambiar a un estado de medio tiempo
FIGURA 6.5: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si toma
Biología como materia optativa. Todos los niveles de confianza se encuentran entre 0,59 y 0,85.
FIGURA 6.6: Diagrama de enjambre de abejas ampliado con la parte derecha filtrada. Los gráficos
de barras de resumen se actualizan en consecuencia para mostrar las distribuciones de calificaciones de
los escenarios filtrados.
6.1. Discusión 51
FIGURA 6.7: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si ella
Toma Psicología como optativa. Los niveles de confianza se encuentran entre 0,55 y 0,86
que es similar a los resultados de Biología.
Abby es una estudiante de informática de primer año que va a su segundo semestre.

Abby hizo algunos amigos cercanos en su programa en el primer semestre y sintió que
se estaba adaptando bien a la vida universitaria. Cayó ligeramente por debajo del promedio en su
desempeño académico, terminando con una A-, cuatro C's y un GPA semestral de
2.34. A pesar de su decepcionante GPA semestral, Abby estaba orgullosa de haber
logró su mejor calificación en su curso de programación. Aunque ella no
le fue particularmente bien en su electiva, Biología I, lo disfrutó y planeaba tomar Biología II
como su electiva del segundo semestre. Abby quería tomar esto
oportunidad de mejorar su GPA y decidió programar una cita
con un Asesor Académico para discutir qué materia optativa tomar.
Como a Abby le gustaría tomar Biología II, el Asesor Académico entra

esta electiva en el Sistema de Predicción del Éxito Estudiantil junto con los 4 cursos requeridos:
Cálculo II (MATH1020U), Física II (PHY1020U), Talleres de Programación (CSCI1060U) y
Álgebra Lineal (MATH2050U). Abby expresa que está nerviosa por tomar Biología II con una
carga de cursos de ciencias ya pesada. Mirando la vista ampliada del gráfico, Figura 6.5,
podemos ver que los valores de probabilidad de éxito de Abby se encuentran entre 0,59 y 0,85.
FIGURA 6.8: Diagrama de enjambre de abejas ampliado con la sección derecha filtrada. Los gráficos de barras de
resumen se actualizan para mostrar las distribuciones de calificaciones de los escenarios seleccionados.
Con un rango tan amplio de valores de confianza, Advisor filtra la sección derecha
del gráfico para ver la distribución de calificaciones en el extremo superior del
rango de confianza. Los gráficos de barras de resumen que se muestran en la
figura 6.6 indican que Cálculo y Física son los cursos más importantes con cero F
y los otros tres cursos con distribuciones similares. Con una buena comprensión
de su probabilidad de éxito si decide tomar Biología, Abby decide que le gustaría
ver las posibilidades con una materia optativa diferente. La mayoría de los amigos
de Abby han decidido tomar Introducción a la Psicología (PSYC1000U), por lo
que le pide al Asesor que cargue un cuadro usando este curso como optativo. La
vista ampliada resultante se muestra en la Figura 6.7. Los valores de probabilidad
de éxito se sitúan entre 0,55 y 0,86, muy similar al gráfico anterior. También
podemos ver un patrón de color similar en el que los colores más claros se
agrupan a la derecha del gráfico y los colores más oscuros se desvanecen a la
izquierda. Desde aquí, el Asesor filtra el gráfico para examinar las distribuciones
de calificaciones en el lado derecho del gráfico, Figura 6.8. Una vez más, los
gráficos de barras de resumen se ven muy similares. En este punto, el Asesor
podría comunicar que cursar Biología o Psicología conlleva una alta probabilidad
de éxito con un buen rendimiento académico. El asesor animaría a Abby a decidir
si se siente cómoda con un horario de mucha ciencia o si quiere tomar algo que los estudiantes tienden a h
6.2. Contribuciones 53
encuentran menos difíciles, como la Psicología.
6.2 Contribuciones
La principal contribución de esta tesis fue entrenar un modelo para predecir si un estudiante se retiraría o
no de la universidad dado su historial de calificaciones y su GPA de admisión con un nivel razonable de
precisión. El modelo de bosque aleatorio se entrenó utilizando vectores de estudiantes compuestos por
1500 características de curso con valores de calificación GPA y 1 característica de calificación de admisión
a la escuela secundaria con un valor de calificación GPA. El modelo tenía una precisión del 89% y una
precisión del 98%.
Además, diseñamos e implementamos un sistema de prueba de concepto que predice si un estudiante
abandonará o no los estudios dado un conjunto de cursos y calificaciones probables. El nivel de confianza
de estas predicciones se presenta como una medida de probabilidad de éxito. Dado que cada valor de
probabilidad de éxito está vinculado
a un conjunto de calificaciones, también podemos analizar las distribuciones de calificaciones con respecto
a un rango de niveles de confianza. Este tipo de interacción le permite al usuario ver qué cursos
posiblemente presentarán un mayor desafío e inspirar estrategias de gestión del tiempo.
6.3 Supuestos y limitaciones

En esta sección describiremos algunas suposiciones que hicimos y las limitaciones de nuestro trabajo.
6.3.1 Escasez de datos

Los modelos de aprendizaje automático son tan buenos como los datos con los que se entrenan. Tuvimos
la suerte de que la universidad tenga registros digitalizados consistentes desde que la escuela abrió en
2003. Sin embargo, dado que la escuela aún es relativamente nueva, nuestra población es pequeña.
Nuestra decisión de entrenar el modelo con solo 5 años de datos también redujo significativamente el
tamaño de la muestra. A medida que crece la población estudiantil, también lo hará la cantidad de datos
de capacitación. Los resultados de nuestro modelo son prometedores si se tienen en cuenta los tamaños
de muestra significativamente más bajos que se utilizan cuando se capacita a diferentes modelos en
pequeñas facultades de artes liberales de los Estados Unidos y otros tamaños de muestra pequeños [7,
13, 17, 20].

6.3.2 Homogeneidad de nuestra Muestra

Otra limitación impuesta por nuestros datos de entrenamiento es la falta de homogeneidad
de nuestra muestra. Los estudiantes de nuestra muestra provienen de siete Facultades diferentes y 43
Programas diferentes. Si bien reconocemos que encajar en un modelo diferente
modelo para cada Facultad o Programa tendría sentido a partir de una homogeneidad
punto de vista, nuestra ya pequeña y escasa muestra de datos se volvería incluso
más pequeños y propensos a sobreajustarse.
6.3.3 Implementación del lado del servidor

Estábamos limitados por nuestra decisión de usar CGI en lugar de PHP o Node.js. Adeudado
Debido a las limitaciones de tiempo, elegimos usar una implementación CGI más simple donde el
El script CGI Python genera un archivo CSV y vuelve a cargar la página. Esta implementación generó
problemas para guardar sesiones y agregar nuevas parcelas Beeswarm.
con diferentes combinaciones de cursos en la misma página.
6.3.4 Factores externos
Necesitamos reconocer el hecho de que hay factores fuera de nuestro conjunto de datos.
que tienen una fuerte correlación con el éxito del estudiante, incluida la situación familiar y social del
estudiante, y el origen étnico. Por razones éticas decidimos no
incluir la etnicidad como una característica de entrenamiento. Además, la situación familiar y social de
un estudiante no puede representarse numéricamente o de otra manera con los datos
que tenemos acceso. Sin embargo, asumimos que estos factores impactan el
rendimiento académico del estudiante y son implícitamente capturados por el modelo predictivo.
6.4 Trabajo futuro
Este proyecto presenta un paso hacia el apoyo al éxito de los estudiantes con el aprendizaje automático.
El gráfico Beeswarm es una buena manera de visualizar la predicción.
niveles de confianza, y los gráficos de barras de resumen agregan otra capa de información útil
información. En el futuro, nos gustaría explorar diferentes formas de
visualizar la información resumida. Por ejemplo, podría ser interesante

6.4. Trabajo futuro 55
ver la distribución de leyes en todo el eje, o la densidad de leyes en

cada racimo.
El modelo de bosque aleatorio demostró que podíamos predecir con precisión con la
extracción usando información de cursos y calificaciones usando un predictor listo para usar.
Sería interesante ver el desempeño de una más sofisticada
modelo.
El modelo predictivo también podría usarse para implementar una alerta temprana
sistema. Avanzando en esta dirección, hay algunas opciones diferentes. Para
ejemplo, usando el modelo actual, si los asesores dirigieran a todos los estudiantes a través del
modelo predictivo, el sistema podría señalar a todos los estudiantes que se prevé
retirarse (o algún otro umbral de confianza).
También hemos discutido la inclusión de otras fuentes de datos en la capacitación.

establecer. Estas otras fuentes podrían incluir datos recopilados a través de Blackboard,
Sistema de gestión de aprendizaje (LMS) de Ontario Tech. Los LMS recopilan "estudiantes
actividad "información que incluye el número de inicios de sesión del sistema, archivos accedidos,
tareas y archivos enviados, etc. Esta información podría usarse para generar una función para
describir el nivel de participación del curso de un estudiante. Otro
la fuente podría ser puntos de acceso Wi-Fi del campus. Esta información podría permitir
nosotros para ver con qué frecuencia un estudiante viene al campus, e incluso si o no
están asistiendo a su conferencia, laboratorio o tutorial programado. Otra fuente de datos
interesante sería la oficina de ayuda financiera. Muchos estudiantes se retiran
de la escuela por motivos económicos, aunque no se ha investigado mucho [10]. Usando
información sobre quién pudo acceder a la ayuda financiera, cuánto
calificado para, etc. agregaría otro factor que influye en la deserción junto con el historial
académico y mejoraría el modelo predictivo. Usando cualquiera de
estas fuentes de datos podrían interpretarse como invasivas y requerirían una
nivel adicional de seguridad para garantizar la privacidad.
En un intento por abordar la falta de homogeneidad en nuestra muestra de entrenamiento,

consideraríamos incluir Facultad y/o Programa como una característica de capacitación.
Actualmente, esperamos que el modelo pueda diferenciar vagamente entre Facultades y
Programas en función de los cursos que toma un estudiante. Incluyendo estos
características de entrenamiento permitirían al modelo diferenciar explícitamente entre
estos grupos definidos de estudiantes. Para abordar aún más la homogeneidad, nos gustaría
considere incluir el número de semestre como una función de capacitación. Esperamos que el
el modelo actual puede determinar vagamente el nivel semestral o anual del estudiante
basado en el número de cursos tomados y los códigos de curso específicos. Incluir el número del
semestre podría permitir que el modelo diferencie explícitamente
entre los estudiantes de primer año que toman cursos de primer año y los estudiantes de tercer año
tomando cursos de primer año.
Finalmente, este trabajo se beneficiaría de una evaluación formal. Nos gustaría
realizar un estudio de usuarios para evaluar la usabilidad de nuestra aplicación. esto ayudaría
entender cómo los usuarios potenciales interpretan las visualizaciones y las formas de
comunicar los resultados a los estudiantes. Con el desarrollo de la aplicación en curso, los
comentarios de los usuarios de un estudio podrían ayudarnos a mejorar la
interfaz con diferentes filtros y visualizaciones.
6.5 Conclusión
Podemos concluir que nuestro sistema es un paso prometedor para garantizar el éxito de los
estudiantes desde una perspectiva de visualización y aprendizaje automático. Nosotros
fueron capaces de predecir si un estudiante abandonaría o no los estudios con un nivel razonable
de precisión, y usaron el nivel de confianza de la predicción para transmitir una
probabilidad de éxito. Sin una evaluación formal de nuestro sistema, es difícil
decir que la interfaz actual tiene éxito en términos de interacción con el
modelo subyacente y mostrar información de manera significativa. Sin embargo, a través de
nuestro método de diseño iterativo recibimos comentarios
de asesores académicos que nos lleva a creer que la interfaz actual es adecuada
quate
En resumen, pudimos entrenar un algoritmo de aprendizaje automático y diseñar e implementar
un sistema que respalda el éxito de los estudiantes al presentar un
puntuación de probabilidad de éxito.
57
Apéndice A
Datos del estudiante
Las siguientes tablas describen los atributos de datos que nos proporcionó
Universidad Tecnológica de Ontario.
Atributo Descripción
IDENTIFICACIÓN
Número de identificación de estudiante anónimo
Código de término Indica el término que estuvo el curso
tomado
Código del curso Código de asunto de 3 a 4 letras seguido de 4 dígitos
numero de curso. Universidad Tecnológica de Ontario
los códigos de cursos de pregrado terminan con una U,
los códigos de los cursos de posgrado terminan con una G, y

Los códigos de los cursos de Trent terminan en T
Título del curso Título completo por supuesto
NRC El Número de Referencia del Curso es un número de 5 dígitos
número para identificar de forma única las secciones del curso
Tipo de horario Ya sea que la sección sea una conferencia, laboratorio, tutorial,
web, etc.
Sección Inscripción Número de alumnos matriculados en una sección
Indicador de Repetición de Curso Si el estudiante ha tomado o no el

curso más de una vez
Continúa en la siguiente página

58 Apéndice A. Datos del estudiante
Tabla A.1 – Continuación de la página anterior
Nota final La calificación final con letra que recibió el estudiante

en el curso
identificación del instructor

Número de identificación anónimo del instructor
que dictó el curso
Lunes Indica si el curso se ofreció en un
Lunes
martes Indica si el curso se ofreció en un
martes
miércoles Indica si el curso se ofreció en un
miércoles
jueves Indica si el curso se ofreció en un
jueves
Viernes Indica si el curso se ofreció un viernes
día
Hora de inicio Hora de inicio del curso
Hora de finalización hora de finalización del curso
TABLA A.1: atributos y descripciones de los datos de la historia del curso. Estos datos fueron usados
para compilar nuestros datos de capacitación utilizando el código del curso, la calificación final y el código del período
columnas
IDENTIFICACIÓN
Número de identificación de estudiante anónimo
Año Año de ingreso del estudiante
Nivel de año Nivel de año del estudiante cuando es admitido
Facultad Estudiante de la facultad fue aceptado para

Apéndice A. Datos del estudiante 59
Programa El estudiante del programa fue aceptado para
Ciudad Inicial Ciudad donde vivía el estudiante al momento de la solicitud
Código postal Código postal donde vivía el estudiante en ese momento
de aplicación
Código del condado Código de cuatro dígitos para el condado donde
el estudiante vivía en el momento de la solicitud
Nombre del condado Nombre del condado donde el estudiante
vivido en el momento de la solicitud
Años Edad del estudiante en el momento de la primera matriculación
IMSTAT Estatus migratorio (Ciudadano Canadiense, Residente
Permanente, VISA)
SESTOT Número de semestre para completar la carrera
SESLEV Semestre en el que está matriculado el estudiante
ETC Equivalente a tiempo completo (cantidad de horas actualmente
inscritas/cantidad de horas de crédito de
programa por año)
Estado de tiempo CSRDE El estado de tiempo de CSRDE es 80% de la carga del curso
Estado de tiempo El estado del tiempo de Ontario Tech es de más de 9 horas de crédito
por término
Admitir Código Tipo de ingreso (bachillerato, maduro
estudiante, transferencia universitaria, etc.)
REZ Indica si el estudiante vive o no en
instalaciones
Género

60 Apéndice A. Datos del estudiante
Código de etnicidad Estado de Primera Nación
promedio publicitario promedio de admisión a la escuela secundaria
promedio general administrativo

GPA equivalente a la admisión a la escuela secundaria
promedio
Retorno +1 año – +10 años Columnas separadas que indican si el estudiante
regresado después del 1er año, 2do año, 3er
año, etc
Graduado 4 años - 10 años Columnas separadas que indican si el estudiante
graduado después de 4 años, 5 años, etc.
Graduado
Indica si el estudiante se graduó
programa de posgrado Programa del que se graduó el estudiante
facultad de posgrado Facultad de la que se graduó el estudiante
Año de graduación Año en que se graduó el estudiante
Programa +1 año Programa en el que estuvo el estudiante después del primer año
GPA 1er semestre GPA semestral para el semestre 1
GPA 1er año GPA acumulativo después del año 1
continuación 2do semestre Indica si el estudiante continuó a segundo

semestre
Suspender +1 año Indica si el estudiante fue suspendido después del año 1
Retirar ¿Se retiró el estudiante después del año 1?
cr_tkn_1t Número de horas de crédito intentadas en

Semestre 1
cr_pass_1t Número de horas de crédito aprobadas en el semestre.

1

Apéndice A. Datos del estudiante 61
créditos F o W Número de horas de crédito reprobadas o con

dibujado
Consejo Escolar Junta de la escuela secundaria de la que proviene el estudiante
Escuela secundaria La escuela secundaria de la que proviene el estudiante.
Código de la Junta Escolar Código de cinco dígitos de la junta escolar de donde

proviene el estudiante
Abandonar Indica si el estudiante abandonó
Quedarse fuera Indica si el estudiante se detuvo (izquierda

y volvió)
persistir Indica si el estudiante persiste
#ÿaños se detienen Número de años detenidos
tiempo de grado Número de años para obtener el título desde el primer

registro
TABLA A.2: atributos y descripciones de datos brutos de retención. El GPA de adm y

Las columnas persistentes se utilizaron en el conjunto de entrenamiento final.
62
Bibliografía
[1] Lovenoor Aulck et al. “Predicción de la deserción estudiantil en la educación superior

ción”. En: Conferencia Internacional sobre Aprendizaje Automático (junio de 2016), págs. 16–
20. ISSN: 0018-8158.
[2] Lovenoor Aulck et al. STEM-ming the Tide: Predecir el desgaste de STEM
utilizando los datos del expediente académico de los estudiantes. tecnología reps. 2017.
[3] Rebecca Barber y Mike Sharkey. “Corrección del curso: uso de análisis
para predecir el éxito del curso”. En: Conferencia Internacional sobre Analítica del
Aprendizaje y Conocimiento. ACM Press, 2012, págs. 259–262. ISBN: 9781450311113.
[4] Jaroslav Bayer et al. “Predicción de la deserción a partir del comportamiento social de
Estudiantes." En: Conferencia Internacional sobre Minería de Datos Educativos (junio
2012).
[5] Datos comunes de la Universidad de Ontario. 2015. URL: https://cudo.ouac.on.

ca/page.php?id=7%7B%5C&%7Dtable=23%7B%5C#%7Duniv=1,2,3,8,9,
11,12,14,16,17,21,22,23,24,25,27,28,29,30,31,32,33,34,42%
7B%5C&%7Dy=2016 (visitado el 11/06/2019).
[6] Shane Dawson et al. "Estado actual y tendencias futuras: un análisis de red de citas del campo
de análisis de aprendizaje". En: International Conference on Learning Analytics And

Knowledge. Nueva York, Nueva York, Estados Unidos:
ACM Press, 2014, págs. 231–240. ISBN: 9781450326643.
[7] Mykola Dekker Gerben W. y Pechenizkiy y Jan M. Vleeshouwers.

“Predicción de la deserción estudiantil: un estudio de caso”. En: Conferencia Internacional
sobre Minería de Datos Educativos (julio de 2009).
[8] Dursun Delen. “Predicción de la deserción estudiantil con métodos de minería de datos”. En:
Revista de Retención de Estudiantes Universitarios: Investigación, Teoría y Práctica
13.1 (mayo de 2011), págs. 17 a 35. ISSN: 1521-0251.
BIBLIOGRAFÍA 63
[9] Colin Fay. [ggplot2] ¡Bienvenida viridis! - (es) El grupo de trabajo R. 2018. URL: https://
rtask.thinkr.fr/blog/ggplot2-welcome-viridis/ (visitado el 05/07/2019).
[10] David S. Fike y Renea Fike. “Predictores de la Retención de Estudiantes de Primer Año
en el Community College”. En: Community College Review 36.2 (octubre de 2008),

págs. 68–88. ISSN: 0091-5521.
[11] Eibe Frank y Mark Hall. Visualización de estimadores de probabilidad de clase. tecnología
reps. 2003.
[12] Sandeep M. Jayaprakash et al. “Alerta temprana de estudiantes en riesgo académico: una
iniciativa de análisis de código abierto”. En: Journal of Learning Analytics 1.1 (mayo de
2014), págs. 6–47.
[13] Zlatko J. Kovaÿci´c. "Predicción temprana del éxito de los estudiantes: extracción de datos de
inscripción de estudiantes". En: Conferencia de Educación sobre Ciencias de la Información y TI. 2010.
[14] Kaisa Miettinen. “Encuesta de métodos para visualizar alternativas en problemas de toma
de decisiones multicriterio”. En: OR Spectrum 36.1 (enero de 2014), págs. 3–37. ISSN:
0171-6468.
[15] DFO Onah, J Sinclair y Boyatt. “Tasas de Abandono de Cursos Masivos Abiertos en Línea”.
En: Conferencia Internacional sobre Educación y Nuevas Tecnologías de Aprendizaje)
(2014), pp. 1–10. ISSN: 2340-1117.
[16] Kathleen Pittman. "Comparación de técnicas de minería de datos utilizadas para predecir
la retención de estudiantes". Tesis doctoral. 2008, pág. 416. ISBN: 0549474684.
[17]Kevin Rask. “Deserción en los campos STEM en una universidad de artes liberales: la
importancia de las calificaciones y las preferencias preuniversitarias”. En: Economics
of Education Review 29.6 (diciembre de 2010), págs. 892–900. ISSN: 02727757.
[18] Virginia Staudt Sexton. “Factores que contribuyen a la deserción en poblaciones

universitarias: veinticinco años de investigación”. En: The Journal of General Psychology
72.2 (abril de 1965), págs. 301–326. ISSN: 0022-1309.
[19] Dawal Shah. En cifras: MOOCS en 2018 — Class Central. 2018.

(Visitado el 17/04/2019).
[20] JF Superby, JP Vandamme y N Meskens. “Determinación de factores que influyen en el

rendimiento de los estudiantes universitarios de primer año utilizando métodos de
minería de datos”. En: Congreso Internacional de Sistemas Tutores Inteligentes. 2006,
págs. 1 a 8.
64 BIBLIOGRAFÍA
[21] Mack Sweeney et al. “Predicción del rendimiento estudiantil para el próximo período: una
Enfoque de sistemas de recomendación”. En: (2016).
[22] Vicente Tinto. “Deserción de la Educación Superior: Una Síntesis Teórica de Investigaciones
Recientes”. En: Revisión de Investigación Educativa 45.1 (1975),
págs. 89–125.
[23] Vicente Tinto. “De la Teoría a la Acción: Explorando las Condiciones Institucionales para la
Retención Estudiantil”. En: De la teoría a la acción: explorando el
Condiciones Institucionales para la Retención Estudiantil. Review of Educational
Research, 2010, págs. 51–89. ISBN: 9780874216561.

Weagant Riley

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Weagant Riley

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Apoyando el éxito de los

Una tesis presentada a la

Escuela de Estudios Graduados y Postdoctorales en cumplimiento

parcial de los requisitos para el grado de

Maestría en Ciencias en Ciencias de la Computación

Departamento de Ciencias de la Computación

Universidad Tecnológica de Ontario

Oshawa, Ontario, Canadá

© Riley Weagant, 2019

UNIVERSIDAD TECNOLÓGICA DE ONTARIO

Departamento de Ciencias de la Computación

Apoyando el éxito de los estudiantes

con aprendizaje automático y

por Riley WEAGANT

de la educación durante décadas. La retención de estudiantes es un problema complejo que los

representar la "probabilidad de éxito" de un estudiante, que se muestra en un gráfico de enjambre de

abejas como parte de una aplicación destinada a los asesores académicos.

Declaración de autoría iii

2.2 Predicción de la deserción . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Visualizaciones para la Toma de Decisiones. . . . . . . . . . . . . . . . 8

3.1 Definición del problema. . ............. . . . . . . . . . 9

4 Predicción del éxito estudiantil 15

4.1.1 Gestión de datos. ............. . . . . . . . . . dieciséis

4.2 Selección de algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . 20

1.1 Tasas de retención universitaria de Ontario. . . . . . . . . . . . . . . . . 1

3.1 Tablero de retención. . ............. . . . . . . . . . 9

4.1 Generación de vectores de estudiantes. . . . . . . . . . . . . . . . . . . . 29

4.3 Distribución de la muestra. ............. . . . . . . . . . 31

5.1 Ejemplo de diagrama Beeswarm . . . . . . . . . . . . . . . . . . . . . . 38

6.1 Estudio de caso 1: diagrama Beeswarm . . . . . . . . . . . . . . . . . . . 46

4.1 Descripción de las tablas de la base de datos. . . . . . . . . . . . . . . . . . . dieciséis

4.2 Calificaciones con letras: equivalentes de GPA. . . . . . . . . . . . . . . . . . 17

A.1 Atributos de datos de la historia del curso. . . . . . . . . . . . . . . . . . 58

CSV Valores separados por comas

A partir de 2016, el 79% de los estudiantes de la Universidad Tecnológica de Ontario

FIGURA 1.2: Modelo conceptual de comportamiento de abandono propuesto por

modelo de aprendizaje que utiliza información histórica de cursos y calificaciones para

el problema que en definir un curso de acción [23].

• Un modelo de aprendizaje automático para predecir con precisión si un estudiante se

investigación que incluye la retención de estudiantes y la predicción de la deserción de estudiantes usando un

2.1 Retención de estudiantes

La retención de estudiantes es un problema en la mayoría de las instituciones postsecundarias en North

America. La naturaleza compleja de la retención de estudiantes ha sido explorada en diferentes

Se consideraron factores no académicos. Al vivir en un mundo centrado en los datos,

tener la oportunidad de examinar estos factores más a fondo y comenzar a

comprender cómo se relacionan entre sí y con la retención de estudiantes en general.

Vincent Tinto es bien conocido en la comunidad de investigación educativa por

su trabajo explorando la retención de estudiantes. Su obra trata de desambiguar la

los diferentes tipos de abandonos y la clasificación de los factores.

contribuyendo a cada tipo.

Tinto explora el concepto de retención y el impacto negativo de centrarse en conceptos teóricos

que pretenden explicar este fenómeno en lugar de

definir el compromiso de los estudiantes o la integración académica y social.

2.2. Predicción de la deserción 5

pares y el compromiso con la institución y las metas personales, que no pueden

ser influenciado directamente por la institución [23].

2.2 Predicción de la deserción

últimos años, ya que la IA continúa siendo más precisa y fácil de aplicar a un

trabajo se puede encontrar en el libro de Kathleen Pittman.

comprender cómo se beneficiará este tipo de análisis.

instituciones postsecundarias que desarrollan estrategias de retención. El análisis incluyó tanto a

primer año a tiempo completo a todo el alumnado. Es por este trabajo

regresión, random forest, Naïve Bayes y redes neuronales.