Está en la página 1de 76

Machine Translated by Google

Apoyando el éxito de los


estudiantes con aprendizaje
automático y análisis visual

por

Riley _

Una tesis presentada a la

Escuela de Estudios Graduados y Postdoctorales en cumplimiento

parcial de los requisitos para el grado de

Maestría en Ciencias en Ciencias de la Computación

Facultad de Ciencias

Departamento de Ciencias de la Computación

Universidad Tecnológica de Ontario

Oshawa, Ontario, Canadá

agosto 2019

© Riley Weagant, 2019


Machine Translated by Google
Machine Translated by Google

iii

Declaración de autoría
Yo, Riley WEAGANT, por la presente declaro que esta tesis consiste en un trabajo
original del que soy autor. Esta es una copia fiel de la tesis, incluidas las revisiones finales
requeridas, según lo aceptado por mis examinadores. Autorizo a Ontario Tech University
a prestar esta tesis a otras instituciones o individuos con el propósito de investigación
académica. Además, autorizo a la Universidad Tecnológica de Ontario a reproducir esta
tesis mediante fotocopias o por otros medios, en su totalidad o en parte, a pedido de
otras instituciones o personas con fines de investigación académica. Entiendo que mi
tesis estará disponible electrónicamente para el público.

Firmado:

Fecha:
Machine Translated by Google

IV

Estado de Contribuciones
Por la presente certifico que soy el único autor de esta tesis y que ninguna
parte de esta ha sido publicada o enviada para su publicación. He utilizado
prácticas de referencia estándar para reconocer ideas, técnicas de investigación
u otros materiales que pertenecen a otros. Además, por la presente certifico
que soy la única fuente de los trabajos creativos y/o conocimiento inventivo
descritos en esta tesis.
Machine Translated by Google

Agradecimientos
En primer lugar, quisiera agradecer a mi supervisor, el Dr. Christopher Collins, por su
inquebrantable apoyo y orientación a través de obstáculos tanto personales como académicos.
El Dr. Collins siempre me permitió trabajar a mi propio ritmo y siempre estuvo disponible para
ayudarme cuando lo necesitaba.
También me gustaría agradecer al Dr. Adam Bradley por sus comentarios honestos y sus
innumerables charlas de ánimo a lo largo del camino. Su actitud positiva y franqueza siempre
fueron apreciadas.
También debo agradecer a mis compañeros de laboratorio por su invaluable experiencia.
experiencia y retroalimentación, y aliento durante mis peores días.
Por último debo expresar mi profundo agradecimiento a mis padres y hermanos, amigos
más cercanos y mi pareja por su apoyo incondicional. Este logro no hubiera sido posible sin
ellos. Gracias.
Machine Translated by Google

vi

UNIVERSIDAD TECNOLÓGICA DE ONTARIO

Resumen
Facultad de Ciencias

Departamento de Ciencias de la Computación

Maestro de la ciencia

Apoyando el éxito de los estudiantes

con aprendizaje automático y

análisis visual

por Riley WEAGANT

Las instituciones postsecundarias tienen una gran cantidad de datos de estudiantes a su disposición.

Estos datos se han utilizado recientemente para explorar un problema que ha prevalecido en el ámbito

de la educación durante décadas. La retención de estudiantes es un problema complejo que los

investigadores intentan abordar mediante el aprendizaje automático. Esta tesis describe nuestro intento

de usar datos académicos de la Universidad Tecnológica de Ontario para predecir la probabilidad de que

un estudiante se retire de la universidad después del próximo semestre. Utilizamos datos académicos

recopilados entre 2007 y 2011 para entrenar un modelo de bosque aleatorio que predice si un estudiante

abandonará o no la escuela. Por último, utilizamos el nivel de confianza de la predicción del modelo para

representar la "probabilidad de éxito" de un estudiante, que se muestra en un gráfico de enjambre de

abejas como parte de una aplicación destinada a los asesores académicos.


Machine Translated by Google

viii

Contenido

Declaración de autoría iii

Estado de Contribuciones IV

Agradecimientos v

Resumen vi

1. Introducción 1
1.1 Motivación. . . . . . . . ............. . . . . . . . . . 2
1.2 Aportaciones. . . . . . ............. . . . . . . . . . 3

2 Antecedentes 4
2.1 Retención de estudiantes . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Predicción de la deserción . . . . . . . . . . . . . . . . . . . . . . . . . 5


2.2.1 Cursos masivos abiertos en línea. . . . . . . . . . . . . .6
2.2.2 Deserción de STEM. . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Visualizaciones para la Toma de Decisiones. . . . . . . . . . . . . . . . 8

3 Panel de retención 9

3.1 Definición del problema. . ............. . . . . . . . . . 9


3.2 Diseño del tablero. . . ............. . . . . . . . . . 10
3.2.1 Selector de año. . . ............. . . . . . . . . . 11
3.2.2 Gráfico de coordenadas paralelas. . . . . . . . . . . . . . . . 11
3.2.3 Horario. . . . ............. . . . . . . . . . 12
3.3 Resultados. . . . . . . . . . ............. . . . . . . . . . 14

4 Predicción del éxito estudiantil 15


4.1 Conjunto de datos del estudiante. . . . . . . . . . . . . . . . . . . . . . . . . . . dieciséis

4.1.1 Gestión de datos. ............. . . . . . . . . . dieciséis


Machine Translated by Google

viii

4.2 Selección de algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . 20


4.2.1 Métricas de rendimiento. . . . . . . . . . . . . . . . . . . . 20
Elegir un conjunto de entrenamiento. . . . . . . . . . . . . . . . . . 22
4.3 Ajuste de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Selección de características. . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5 Generación de vectores de estudiantes. . . . . . . . . . . . . . . . . . . . 30
4.5.1 Generación de escenarios. . . . . . . . . . . . . . . . . . . . 32
Asignación de calificaciones. . . . . . . . . . . . . . . . . . . . . . 33
Tablas de probabilidad. . . . . . . . . . . . . . . . . . . . . . 35
4.5.2 Puntuación de confianza de la predicción. . . . . . . . . . . . . . . . 35

5 Diseño de aplicaciones 36
5.1 Diseño iterativo. . . . .............. . . . . . . . . . 36
5.2 Interfaz. . . . . . . . .............. . . . . . . . . . 37
5.2.1 Selección de visualización. . . . . . . . . . . . . . . . . . . 38
Escalando la Trama. . . . . . . . . . . . . . . . . . . . . . . 38
Coloreando los Puntos. . . . . . . . . . . . . . . . . . . . 40
5.2.2 Diseño de interacción. . . . . . . . . . . . . . . . . . . . . 40
5.3 Back-end. . . . . . . . .............. . . . . . . . . . 43

6 Conclusión y Discusión 45
6.1 Discusión. . . . . . . .............. . . . . . . . . . 45
6.1.1 Estudio de caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.2 Estudio de caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1.3 Estudio de caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Contribuciones. . . . . .............. . . . . . . . . . 53
6.3 Supuestos y limitaciones. . . . . . . . . . . . . . . . . . . 53
6.3.1 Escasez de datos. . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2 Homogeneidad de nuestra Muestra. . . . . . . . . . . . . . . 54
6.3.3 Implementación del lado del servidor. . . . . . . . . . . . . . . . 54
6.3.4 Factores externos. . . . . . . . . . . . . . . . . . . . . . . 54
6.4 Trabajo futuro. . . . . . .............. . . . . . . . . . 54
6.5 Conclusión. . . . . . . .............. . . . . . . . . . 56

Datos de un estudiante 57
Machine Translated by Google

ix

Lista de Figuras

1.1 Tasas de retención universitaria de Ontario. . . . . . . . . . . . . . . . . 1


1.2 Modelo conceptual del comportamiento de la deserción. . . . . . . . . . . . . 2

3.1 Tablero de retención. . ............. . . . . . . . . . 9


3.2 Selector de año. . . . . . . ............. . . . . . . . . . 10
3.3 Gráfico de coordenadas paralelas. . . . . . . . . . . . . . . . . . . . . 11
3.4 Gráfico de coordenadas paralelas filtradas. . . . . . . . . . . . . . . . . 12
3.5 Visualización de horarios. ............. . . . . . . . . . 13

4.1 Generación de vectores de estudiantes. . . . . . . . . . . . . . . . . . . . 29


4.2 Distribución de promedios académicos acumulados semestrales. . . . . . . . . . . . 30

4.3 Distribución de la muestra. ............. . . . . . . . . . 31


4.4 Diagrama de flujo de la aplicación. . . . . . . . . . . . . . . . . . . . . . . 33

5.1 Ejemplo de diagrama Beeswarm . . . . . . . . . . . . . . . . . . . . . . 38


5.2 Parcelas de enjambre de abejas a escala. . . . . . . . . . . . . . . . . . . . . . . 39
5.3 Parcelas Beeswarm con diferentes escalas. . . . . . . . . . . . . . . 40
5.4 Escala de colores Viridis. . . . . . . . . . . . . . . . . . . . . . . . . 40
5.5 Interfaz de la aplicación. . ............. . . . . . . . . . 41
5.6 Interacción de vuelo estacionario Beeswarm . . . . . . . . . . . . . . . . . . . . 42
5.7 Interacción de cepillado enjambre de abejas. . . . . . . . . . . . . . . . . . 42
5.8 Componente de gráfico de barras de resumen. . . . . . . . . . . . . . . . . . 43

6.1 Estudio de caso 1: diagrama Beeswarm . . . . . . . . . . . . . . . . . . . 46


6.2 Estudio de caso 1: Parcela de enjambre de abejas filtrada - inferior . . . . . . . . . . 47
6.3 Estudio de caso 1: Parcela de enjambre de abejas filtrada - superior . . . . . . . . . . 48
6.4 Estudio de caso 2: Diagrama Beeswarm . . . . . . . . . . . . . . . . . . . 49
6.5 Estudio de caso 3: Parcela Beeswarm con Biología electiva . . . . . . . 50
6.6 Estudio de caso 3: Parcela de enjambre de abejas filtrada con Biología electiva. . 50
6.7 Estudio de caso 3: Parcela Beeswarm con electiva de Psicología . . . . 51
Machine Translated by Google

6.8 Estudio de caso 3: Parcela de enjambre de abejas filtrada con la optativa de Psicología 52
Machine Translated by Google

xi

Lista de tablas

4.1 Descripción de las tablas de la base de datos. . . . . . . . . . . . . . . . . . . dieciséis

4.2 Calificaciones con letras: equivalentes de GPA. . . . . . . . . . . . . . . . . . 17


4.3 Calificaciones con letras: equivalentes de GPA. . . . . . . . . . . . . . . . . . 18
4.4 Métricas de rendimiento de los modelos probados. . . . . . . . . . . . . . 20
4.5 Métricas del modelo semestral. . . . . . . . . . . . . . . . . . . . . . 21
4.6 Métricas semestrales del modelo general . . . . . . . . . . . . . . . . . . 22
4.7 Resumen de datos del modelo semestral. . . . . . . . . . . . . . . . . . 23
4.8 Descripciones de los parámetros RandomForestClassifier. . . . . . . 25
4.9 Valores del parámetro RandomForestClassifier. . . . . . . . . . . 26
4.10 Importancia de las características. . ............. . . . . . . . . . 27
4.11 Instantánea de la tabla de probabilidades del escenario. . . . . . . . . . . . . . . . 34
4.12 Instantánea de la tabla de probabilidades de curso/calificación. . . . . . . . . . . . . . 34

A.1 Atributos de datos de la historia del curso. . . . . . . . . . . . . . . . . . 58


A.2 atributos de datos brutos de retención. . . . . . . . . . . . . . . . . . . 61
Machine Translated by Google

xi

lista de abreviaciones

CSV Valores separados por comas


Promedio de calificaciones GPA
Consorcio CSRDE para el intercambio de datos de retención de estudiantes
ETC Equivalente a tiempo completo
OIRA Oficina de Investigación y Análisis Institucional
RO oficina de registro
AI Inteligencia Artificial
CUDO Datos comunes de la Universidad de Ontario
Interfaz de puerta de enlace común CGI
Machine Translated by Google

Capítulo 1

Introducción

FIGURA 1.1: Tasas de retención universitaria de Ontario de 2016 para estudiantes que pasan del
primer al segundo año. Ontario Tech University es la segunda barra desde la izquierda con una tasa
de retención de poco más del 80 %.

A partir de 2016, el 79% de los estudiantes de la Universidad Tecnológica de Ontario


regresaron para su segundo año. Esta es una de las tasas más bajas de Ontario [5]. Las
altas tasas de deserción estudiantil generan presiones financieras sobre la institución y
pérdida de reputación. La decisión de retirarse es compleja y varía de estudiante a
estudiante [22]. Nuestra curiosidad acerca de por qué los estudiantes se retiran y la
disponibilidad de datos históricos institucionales nos llevó a un enfoque basado en datos
para evaluar la probabilidad de retención. El Tablero de Retención, como se describe en
la Sección 2, fue el primer paso para analizar el problema. El producto final, aunque útil
para el análisis exploratorio y para encontrar tendencias superficiales, no respondió a
nuestra pregunta sobre por qué los estudiantes se retiran. Sin embargo, pudimos ver una
tendencia significativa de bajo rendimiento académico que conduce al retiro temprano.
Explorando esto más a fondo, nos preguntamos, ¿podemos ayudar a los estudiantes a
tener éxito cuando de otro modo se retirarían? Nuestra hipótesis es que podemos entrenar una máquina
Machine Translated by Google

2 Capítulo 1 Introducción

FIGURA 1.2: Modelo conceptual de comportamiento de abandono propuesto por


Vincent Tinto [22]. Este modelo describe el proceso de deserción como una secuencia de
interacciones entre el estudiante y los sistemas académico y social de la institución. La
experiencia de estas interacciones hace que el estudiante modifique continuamente sus
metas y compromisos de manera que afecten el desgaste.

modelo de aprendizaje que utiliza información histórica de cursos y calificaciones para


predecir la probabilidad de éxito de un estudiante actual en función de los cursos que
desea tomar en el futuro.

Los datos más recientes disponibles sobre la tasa de retención de Common University
Data Ontario (CUDO) son de 2016, Figura 1.1. Las estadísticas de 2016 incluyen a los
estudiantes de primer año que fueron admitidos en 2008 y los siguen hasta la graduación.
Aproximadamente el 19% de los estudiantes admitidos en la universidad no regresaron
para su segundo año. Cuando se incluyen los estudiantes que se retiraron algún tiempo
después de su segundo año, esta tasa de retiro aumenta al 25%. Apoyar el éxito de los
estudiantes es importante en todos los niveles de estudio, ciertamente más en el año 1.

1.1 Motivación
La identificación de los factores de riesgo de la deserción estudiantil ha sido bien
investigada durante muchos años y continúa siendo un área activa de investigación [18].
Vincent Tinto diseñó un modelo teórico de comportamiento de abandono (Figura 1.2) que
intenta describir la decisión de retirarse como una combinación de integración social,
rendimiento académico y nivel de compromiso con las metas personales y el
Machine Translated by Google

1.2. Contribuciones 3

institución [22]. En 2010, Tinto escribió que estos modelos teóricos se enfocan más en describir

el problema que en definir un curso de acción [23].


Definir un curso de acción es un desafío, especialmente cuando se trata de factores que
van más allá del rendimiento académico. El rendimiento académico se matiza en que las
circunstancias personales y las luchas afectarán las calificaciones obtenidas en un semestre.
No importa las circunstancias, la decisión de retirarse no siempre es voluntaria. Los estudiantes

que tienen un bajo rendimiento académico corren el riesgo de ser despedidos si no alcanzan
ciertos umbrales de GPA. Se coloca a un estudiante en período de prueba académica si su
GPA total acumulativo cae por debajo de 2.0. Mantener un GPA semestral superior a 2.0 evitará
que el estudiante sea suspendido, pero permanecerá en período de prueba hasta que su GPA
acumulativo general sea superior a 2.0. Muchos sistemas de predicción de retención apuntan a
notificar al estudiante o asesor que el estudiante corre el riesgo de retirarse de la institución [6]
[12]. Estos “Sistemas de Alerta Temprana” juegan un papel importante en el éxito de los
estudiantes. En general, los sistemas de alerta temprana señalan que es probable que un
estudiante entrante o de primer año se retire por algún motivo.

Nuestro objetivo era tomar el concepto del sistema de alerta temprana y mejorarlo para
describir la probabilidad de éxito de los estudiantes en cualquier nivel de estudio. Presentamos
visualizaciones e interacciones para permitir un análisis más allá de la señalización inicial que
podría ayudar al estudiante a recuperarse y ver algunos posibles caminos positivos en el futuro.

1.2 Contribuciones
Las principales contribuciones de este trabajo son las siguientes:

• Un modelo de aprendizaje automático para predecir con precisión si un estudiante se


retirará o no de la institución utilizando datos académicos históricos.

• Un sistema de análisis visual que utiliza niveles de confianza de los predictores para
representar la probabilidad de éxito dado el conjunto de cursos elegido para un determinado
semestre.
Machine Translated by Google

Capitulo 2

Fondo
En este capítulo revisaré algunas áreas de trabajo que están estrechamente relacionadas con mi

investigación que incluye la retención de estudiantes y la predicción de la deserción de estudiantes usando un


subconjunto de datos de estudiantes disponibles.

2.1 Retención de estudiantes

La retención de estudiantes es un problema en la mayoría de las instituciones postsecundarias en North

America. La naturaleza compleja de la retención de estudiantes ha sido explorada en diferentes

disciplinas desde la década de 1940 [18]. En estos casos, tanto académicos como

Se consideraron factores no académicos. Al vivir en un mundo centrado en los datos,

tener la oportunidad de examinar estos factores más a fondo y comenzar a

comprender cómo se relacionan entre sí y con la retención de estudiantes en general.

Vincent Tinto es bien conocido en la comunidad de investigación educativa por

su trabajo explorando la retención de estudiantes. Su obra trata de desambiguar la

Razones para interrumpir los estudios Señalando que hay una diferencia significativa

entre los estudiantes que se dan de baja por fracaso académico frente a los que se dan de baja de

forma voluntaria [22]. Los modelos descritos en este documento tienen como objetivo diferenciar entre

los diferentes tipos de abandonos y la clasificación de los factores.

contribuyendo a cada tipo.

Tinto explora el concepto de retención y el impacto negativo de centrarse en conceptos teóricos

que pretenden explicar este fenómeno en lugar de

que definir métricas procesables. Estos conceptos teóricos han dado lugar a métricas que pueden

definir el compromiso de los estudiantes o la integración académica y social.


Machine Translated by Google

2.2. Predicción de la deserción 5

Sin embargo, muchos de estos conceptos se enfocan en factores externos como la integración entre

pares y el compromiso con la institución y las metas personales, que no pueden

ser influenciado directamente por la institución [23].

2.2 Predicción de la deserción

Los esfuerzos para predecir la deserción mediante el aprendizaje automático han aumentado en los últimos años.

últimos años, ya que la IA continúa siendo más precisa y fácil de aplicar a un

amplia gama de problemas. Los investigadores tienden a centrarse en la predicción como un tipo de

herramienta de análisis mientras que los estudiantes con predicciones similares son analizados para encontrar

similitudes y diferencias significativas que podrían explicar su resultado similar. Un ejemplo de este

trabajo se puede encontrar en el libro de Kathleen Pittman.

Tesis doctoral [16]. Pittman compara varias técnicas de aprendizaje automático con el objetivo de

comprender cómo se beneficiará este tipo de análisis.

instituciones postsecundarias que desarrollan estrategias de retención. El análisis incluyó tanto a

estudiantes de tiempo completo como de tiempo parcial en todos los niveles de año. como el trabajo

presentado aquí, Pittman tiene como objetivo cambiar el enfoque de la retención de estudiantes de

primer año a tiempo completo a todo el alumnado. Es por este trabajo

que elegimos para probar los algoritmos de aprendizaje automático que hicimos: lineal

regresión, random forest, Naïve Bayes y redes neuronales.

Se han utilizado varias metodologías diferentes para tratar de abordar el problema de la retención

de estudiantes. Barber predice si un estudiante tendrá éxito o no en un curso dado utilizando un

modelo de regresión logística [3], y Bayer mejoró significativamente la precisión de su predicción al

incluir el "comportamiento social"

que se derivó de una red social [4]. Cada uno de estos sistemas agregó

una nueva dimensión a los enfoques existentes, pero todos ellos se basaron en información que fue

declarada por los estudiantes a través de un cuestionario o una encuesta,

o se recopiló información personal en el momento de la admisión. La falta de académico

información utilizada para estos modelos significa que son más adecuados para analizar

participación de los estudiantes que predecir el éxito académico.

Sweeney et al. propuso un sistema que predice las calificaciones que obtendrá un estudiante

entrar en las asignaturas cursadas en el próximo trimestre [21]. Este trabajo es más similar a

el nuestro, ya que utiliza algunos datos de transcripciones históricas para predecir un resultado para el

término siguiente. Una diferencia clave es la cantidad de características no académicas,

e ingeniería de características de la información académica y del instructor. Mientras que la


Machine Translated by Google

6 Capítulo 2. Antecedentes

modelo propuesto en este trabajo es bastante robusto y reporta resultados prometedores,


todavía queda mucho trabajo por hacer en términos de convertir el modelo en un
aplicación de trabajo. La cantidad de ingeniería de características y datos realizada en
este caso era algo que queríamos evitar. Decidimos acercarnos a la
problema de predecir el rendimiento futuro desde una perspectiva de "menos es más"
en términos de datos de entrenamiento y para aprovechar la incertidumbre del modelo.

La minería de datos se ha convertido en un enfoque popular en el ámbito de la educación para


analizar los datos de los estudiantes para encontrar las causas de la deserción. Estos enfoques
apuntan a descubrir relaciones complejas y revelar nuevos conocimientos, en lugar de desarrollar
un algoritmo específico para extraer relaciones de un conjunto de datos específico. excelente
et al. factores identificados y agrupados correlacionados con la retirada de la literatura. Los
factores se agruparon en tres conjuntos que incluían la historia personal, la expresión de la
participación del estudiante en sus estudios y las percepciones de los estudiantes.
Crearon un cuestionario y utilizaron enfoques de minería de datos para intentar
usar estas variables para predecir si el estudiante se retirará o no usando
árbol de decisión, bosque aleatorio, red neuronal y análisis discriminante lineal [20]. El objetivo
era asignar recursos limitados a estudiantes que necesitan y
lo quiero más. Comentan que los resultados de la predicción no fueron notables y plantean
algunas preguntas interesantes sobre la estabilidad de los estudiantes no académicos.
factores de un año a otro.
El trabajo de Delen es similar en el sentido de que utilizaron una metodología popular de
minería de datos y probaron tres modelos de predicción diferentes [8]. Concluyen diciendo
que los métodos de minería de datos pueden predecir el desgaste con un buen nivel de precisión.
Los resultados obtenidos en los tipos de experimentos realizados por Pittman [16], Superby et al.
[20] y Delen [8] son prometedores, especialmente considerando los datos similares que se utilizan,
los modelos similares que se entrenan y un aumento general en
Precisión del modelo a lo largo del tiempo.

2.2.1 Cursos masivos abiertos en línea


Los cursos masivos abiertos en línea (MOOC) han ganado mucha tracción a través de
sitios web populares como Udacity y Coursera, etc. La cantidad de cursos y
La matrícula ha ido en constante aumento en los últimos años, al igual que
la cantidad de datos disponibles [19]. Una gran cantidad de trabajo reciente en datos educativos

la minería y el aprendizaje automático se han centrado en los datos de estos cursos en línea.
Machine Translated by Google

2.2. Predicción de la deserción 7

Los datos demográficos y de compromiso de los MOOC son fundamentalmente diferentes de los

datos recopilados a través de instituciones que operan en un entorno de campus más tradicional. Si

bien la mayoría de las poblaciones del campus se hacen

de estudiantes un año después de la escuela secundaria, los MOOC tienden a

estar formado por profesionales que quieran actualizar sus habilidades y madurar

aprendices Las tasas de deserción de los MOOC también son significativamente más altas que las de un

campus tradicional y acercarse al 90% [15]. En consecuencia, los resultados de los estudios

realizado en MOOC no se puede generalizar a nuestra población estudiantil.

2.2.2 Deserción de STEM

Los estudios que se centran en la retención en los campos STEM son frecuentes en la literatura,

y proponer algunos interesantes métodos de análisis. Como los MOOC, trabajando

específicamente con los abandonos de STEM significa que los modelos de análisis y los resultados no

se pueden generalizar a la comunidad del campus en su conjunto.

Gerben W. Dekker et. Alabama. intentar predecir si los estudiantes de ingeniería eléctrica

abandonarán o no los estudios después del primer semestre e identificar el éxito

factores específicos del programa de Ingeniería Eléctrica [7]. Las pruebas del clasificador simple dieron
como resultado precisiones entre el 75% y el 80% que los autores

señalar es difícil de superar con modelos más sofisticados. Estos hallazgos

tuvo un efecto en el camino elegido para este proyecto.

Más recientemente, Lovenoor Aulck et. Alabama. basaron sus predicciones en un solo

término de datos académicos. Las características del curso fueron condensadas y representadas por

Departamento. Las calificaciones de los cursos del departamento se separaron en una variable que

indicaba si los estudiantes tomaron o no un curso ofrecido por ese departamento, el

número de cursos tomados en ese departamento y el GPA general de los cursos

tomado por ese estudiante en ese departamento. “Cursos de gatekeeper” se refiere a

cursos de primer año en física, química, biología y matemáticas que son típicamente

cursado en dos semestres (es decir, Física I y Física II, Cálculo I y Cálculo II, etc.). Estas variables del

curso se incluyeron junto con datos demográficos.

información e información específica de los cursos STEM y gatekeeper [1].

Ampliando este trabajo, Aulck et. Alabama. introdujo el concepto de “Afinidades STEM” [2]. Las

afinidades STEM intentan describir el nivel de compromiso que tiene un estudiante con el material del

curso teniendo en cuenta qué cursos


Machine Translated by Google

8 Capítulo 2. Antecedentes

estudiante está tomando y si continúa o no en un camino académico STEM. A medida que un estudiante

toma más cursos fuera de la disciplina STEM,

su afinidad STEM cae. El modelo de afinidades STEM se correlaciona con la "intención STEM" y puede

ayudar a los tomadores de decisiones a ver cuándo cambia la intención STEM, y

cuando es más probable que los estudiantes abandonen los estudios o cambien de un camino STEM.

2.3 Visualizaciones para la toma de decisiones

Las visualizaciones muestran información a un usuario mediante la codificación de diferentes atributos

con colores, formas y posiciones. Pretenden facilitar los datos al usuario

para comprender e interpretar. Las personas a menudo necesitan tomar decisiones basadas en

datos que es una tarea difícil cuando se presentan con tablas de datos y resumen
información.

Miettinen realizó una encuesta sobre técnicas de visualización para apoyar la toma de decisiones con

criterios múltiples [14]. Cubren varias técnicas en detalle, incluidos gráficos de barras, gráficos de telaraña,

árboles, etc. Presentan una tabla de resumen

indicando qué visualización es apropiada para diferentes tipos de información. Mencionan a lo largo del

artículo que los datos y la visualización

debe respaldar la decisión específica que se está tomando, y seleccionar la equivocada

la visualización o los datos podrían obstaculizar en lugar de ayudar a la toma de decisiones pro
impuesto.

Hay poco trabajo que se centre en visualizar e interpretar la máquina.

salida de aprendizaje. La mayoría del trabajo involucra visualización y aprendizaje automático

intenta mejorar el rendimiento del modelo analizando los datos de entrada y tratando de interpretar la "caja

negra" de un algoritmo de aprendizaje automático. franco et al.

exploró la visualización de probabilidades de clase de predictor. Su enfoque implica

trazando las estimaciones de probabilidad de clase y coloreando el fondo rectangular en consecuencia [11].

Los colores de clase y los atributos de trazado se eligen

por el usuario Si bien este método no es nuevo, proporcionaron detalles sobre cómo

generalizarlo a otros modelos de clasificación que pueden producir probabilidad de clase

estimados. Nuestro trabajo utiliza estimaciones de probabilidad de clase para interpretar el clasificador

resultados, aunque de otra manera. Nuestro enfoque utiliza las probabilidades de clase en

un intento de representar la incertidumbre de nuestro modelo predictivo como una probabilidad de éxito
para un estudiante.
Machine Translated by Google

Capítulo 3

Panel de retención

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

lun mar mie jue vie Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado

4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0

08:00
a 09:30
3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5

3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
09:30
a
las 12:30

2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5

12:30
a 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
las 15:30

1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5

15:30
a
las 18:30 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
18:30
a
las 21:30

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

W W W W W W W W W W W

FIGURA 3.1: Tablero de Retención con estudiantes de Ingeniería Nuclear admitidos en


2009. El Tablero consta de cuatro componentes: el selector de facultad/programa (arriba
a la izquierda), selector de año (arriba a la derecha), horario (abajo a la izquierda) y
coordenadas paralelas ( abajo a la derecha).

3.1 Definición del problema


Nuestro trabajo de exploración de la retención de estudiantes en la Universidad Tecnológica de
Ontario comenzó con el diseño del Tablero de Retención1
En. 2015, la Oficina de Registro (RO) se
acercó a nosotros para diseñar una herramienta de análisis visual para ayudar a los tomadores de
decisiones con el objetivo de mejorar la tasa de retención de estudiantes en Ontario Tech.

1El Panel de Retención fue diseñado en colaboración con Taylor Smith.


Machine Translated by Google

10 Capítulo 3. Panel de retención

FIGURA 3.2: Selector de año poblado de estudiantes de Informática. El segmento


inferior de la barra (azul oscuro) representa el número de estudiantes que se dieron de
baja, el segmento medio (gris claro) representa a los estudiantes que aún asisten a la
universidad y el segmento superior (azul claro) representa a los estudiantes que se han
graduado. Mire la barra de 2009, podemos ver que cerca de la mitad de los estudiantes
admitidos en Ciencias de la Computación se retiraron antes de graduarse, una pequeña
porción de los estudiantes todavía asisten a la universidad y cerca de la mitad se ha graduado.

Universidad. Un objetivo específico del proyecto era centrarse en revelar los factores que
podrían ser influenciados por la institución.

3.2 Diseño del tablero


Se nos dio acceso a los datos institucionales recopilados entre los años 2003 y 2015. Estos
datos incluyen información personal del estudiante (es decir, ciudad inicial/código postal,
escuela secundaria, sexo, etc.), calificaciones del grado 12 en cursos de admisión, curso e
historial de calificaciones de la universidad, y antecedentes académicos.
Los factores que pueden verse influenciados por la institución incluyen los límites de
calificación de admisión, el contenido del curso, los instructores del curso y los horarios de
clase. Las visualizaciones diseñadas para el panel llaman su atención sobre estos factores
sin introducir ninguna información personal o demográfica que pueda distraer y confundir
al usuario.
El panel interactivo utiliza diferentes técnicas de filtrado para actualizar el tablero
completo cuando se realiza una selección en una sola visualización. Como se muestra en
la Figura 3.1, el selector de facultad/programa se usa para seleccionar Ingeniería Nuclear
como programa, el selector de año se usa para seleccionar 2009 como el año de admisión
y el gráfico de coordenadas paralelas se actualiza en consecuencia para mostrar las
tendencias de calificaciones de los estudiantes admitidos. al programa de Ingeniería
Nuclear en 2009. La visualización del horario también se actualiza para mostrar la
distribución de calificaciones de los cursos tomados por estos estudiantes.
Machine Translated by Google

3.2. Diseño de tablero 11

Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado

4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0

3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5

3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0

2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5

2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0

1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

W W W W W W W W W W W

FIGURA 3.3: Gráfico de coordenadas paralelas poblado con estudiantes de Psicología


Forense admitidos en 2011. Los tres primeros ejes verticales representan matemáticas de
secundaria (Matemáticas), inglés (Inglés) y GPA de admisión (GPA Adm) respectivamente.
Los siguientes diez ejes representan su GPA en cada semestre que asistieron a la universidad
(Sem 1 - Sem 10). El eje final representa el GPA del estudiante al momento de la graduación
(Grad GPA). Cada línea en el gráfico representa a un solo estudiante y se cruza con cada
eje en el valor de GPA para ese estudiante. La 'W' en la parte inferior de cada eje semestral
significa 'Retirar'. Una línea se cruzará en 'W' el semestre posterior a sus últimas calificaciones
informadas.

3.2.1 Selector de año

El selector de año le permite al usuario ver a los estudiantes como una cohorte o grupo. El
término "año" en este caso significa específicamente el año en que un estudiante fue admitido
en la universidad. Como se muestra en la Figura 3.2, al visualizar la distribución de los
estudiantes que se retiraron (abajo, se graduaron o aún asisten a la universidad), podemos ver
el crecimiento general del programa y enfocarnos en una cohorte con una tasa de retiro más
alta. También podemos use estas barras apiladas como un selector para filtrar a los estudiantes
según su estado de retiro.

3.2.2 Gráfico de coordenadas paralelas

El gráfico de coordenadas paralelas muestra la trayectoria de los estudiantes desde el inicio de


su carrera universitaria hasta el final. Cada línea en el cuadro representa a un solo estudiante.
Los primeros tres ejes verticales representan las calificaciones de matemáticas de la escuela
secundaria, las calificaciones de inglés de la escuela secundaria y el GPA de admisión,
respectivamente. Los siguientes diez ejes representan cada semestre en la universidad, seguido de un solo
Machine Translated by Google

12 Capítulo 3. Panel de retención

Matemáticas inglés GPA administrativo semestre 1 semestre 2 semestre 3 semestre 4 semestre 5 semestre 6 semestre 7 semestre 8 semestre 9 10 semestres GPA de posgrado

4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0

3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5

3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0

2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5

2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0

1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5

1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

W W W W W W W W W W W

FIGURA 3.4: Gráfico de coordenadas paralelas poblado con estudiantes de Psicología


Forense admitidos en 2011. Los estudiantes con un GPA de admisión entre 2.0 y 3.0 se
seleccionan utilizando el pincel de eje. Una sola línea de estudiante se resalta mediante el uso de
la interacción de desplazamiento para ver su trayectoria GPA con mayor claridad.

eje que muestra el GPA del estudiante en la graduación, si corresponde. Cada línea de
estudiante se cruza con cada eje en la posición correspondiente. Incluso cuando se aplican
filtros, la cantidad de estudiantes que se muestra en el gráfico de coordenadas paralelas
puede ser abrumadora. Como se muestra en la Figura 3.3, el cuadro está abarrotado
cuando se completa con estudiantes admitidos en el programa de Psicología Forense en 2011.
Implementamos dos interacciones para minimizar el efecto del desorden:

• Filtrado de cepillo de eje

• Desplazamiento de línea

Como se muestra en la Figura 3.4, el pincel de eje se usa para seleccionar un rango
de GPA. Todo el tablero se filtra de acuerdo con esta interacción de pincel. Se puede llamar
la atención sobre un solo estudiante al pasar el puntero del mouse sobre su línea. Esta
interacción de desplazamiento no filtra el tablero, ya que profundizar en un solo estudiante
podría afectar el anonimato.

3.2.3 Horario
La visualización del horario muestra los intervalos de tiempo del curso organizados en una
cuadrícula. Las columnas de la cuadrícula indican el día de la semana (lunes a viernes) y el
Machine Translated by Google

3.2. Diseño de tablero 13

Lun Mar Casarse Jue Vie

08:00
a
09:30

09:30
a
12:30

12:30
a
las 15:30

15:30
a
18:30

18:30
a
las 21:30

FIGURA 3.5: Visualización de horario poblado con estudiantes admitidos a Ingeniería Nuclear
en 2009. Cada cuadro representa un intervalo de tiempo de tres horas durante las cuales los
estudiantes tomaron cursos. Dentro de cada cuadrado hay una distribución de calificaciones
recibidas en ese intervalo de tiempo. La barra superior (gris claro) representa las A, la segunda
barra (blanca) las B, la barra del medio (gris oscuro) las C, la siguiente barra (azul oscuro) las D
y la barra inferior (azul claro) representa las F. Podemos notar una distribución mucho mayor de
D y F los miércoles por la mañana, y una distribución mucho mayor de A y B los martes y jueves
por la mañana.

las filas se dividen en franjas horarias de 3 horas. Cada sección se completa para mostrar la distribución de

calificaciones obtenidas por los estudiantes que tomaron un curso durante ese intervalo de tiempo.

El objetivo de esta visualización era explorar las distribuciones de calificaciones en todos los intervalos

de tiempo para ver si había áreas problemáticas o tendencias en torno a cuándo se ofrecieron los cursos,

las calificaciones obtenidas y las tasas de abandono. Como se muestra en la Figura 3.5, la distribución de

calificaciones en la franja horaria del viernes de 18:30 a 21:30 es muy diferente a las otras franjas horarias.

Aproximadamente la mitad de las calificaciones recibidas en este intervalo de tiempo son D y F. Se necesita

más análisis, pero este tipo de información podría motivar cambios de programación en el futuro.

Se puede hacer clic en los intervalos de tiempo individuales y filtrar todo el tablero para

mostrar los estudiantes que tomaron un curso en ese intervalo de tiempo. También se puede hacer clic en

cada barra de calificación individual y filtra el tablero para mostrar a los estudiantes que obtuvieron la

calificación seleccionada en el intervalo de tiempo seleccionado.


Machine Translated by Google

14 Capítulo 3. Panel de retención

3.3 Resultados

Representantes de la RO y de la Oficina de Investigación Institucional y


Análisis (OIRA) han estado involucrados en el proceso de diseño iterativo desde el
comienzo del proyecto. La utilidad del tablero recibió críticas mixtas.
Si bien fue útil para explorar los datos y generar una hipótesis amplia, no reveló ninguna
información nueva y específica. Llegamos al tablero con
algunos conocimientos preconcebidos acerca de por qué los estudiantes se retiran:

• Bajo rendimiento académico

• Falta de participación en el campus

• Problemas en la vida personal

A través del tablero pudimos confirmar que el rendimiento académico es una de las
principales motivaciones para retirarse. Ya sea que ese bajo rendimiento académico se
deba a la falta de compromiso o a problemas personales,
no sabemos. Aunque no podemos especular sobre la razón del bajo rendimiento
académico, podemos ver que una tendencia general a la baja en las calificaciones a menudo
precede a la retirada.
Machine Translated by Google

15

Capítulo 4

Predecir el éxito de los estudiantes

¿Qué significa "predecir el éxito de los estudiantes"? Definimos el éxito estudiantil

significar la culminación de un término académico sin retiro voluntario o involuntario de la institución.

Los asesores académicos son el punto de contacto para los estudiantes que tienen dificultades

académicas o de otro tipo. Ellos ayudan

estudiantes al proponer horarios alternativos, carga de cursos y estrategias para

el logro de sus objetivos académicos. Aprendimos a través de nuestras reuniones con asesores que

sus recomendaciones a menudo provienen del conocimiento de las estadísticas y dificultad del curso,

la experiencia y el ajuste basado en el progreso del estudiante. Los estudiantes pueden dudar en
seguir los consejos para reducir la carga del curso o

ajustar su horario para evitar tomar múltiples cursos "difíciles" en el mismo

semestre por temor a posponer la graduación. Los asesores creen que tener

una herramienta que podría mostrar los resultados potenciales de escenarios de cursos futuros que

se basan en datos sería beneficioso.

Nuestro sistema propuesto intenta predecir la probabilidad de que un estudiante tenga éxito en el

siguiente semestre dados los cursos que desea tomar. Nosotros

usar un método de muestreo estadístico para generar los conjuntos de calificaciones que un estudiante

es más probable que le den su historial de calificaciones pasadas. Con esta muestra de calificaciones,

generar un conjunto de vectores de estudiantes que incluyen todo su historial de calificaciones y el

conjuntos de calificaciones generados. El clasificador binario de bosque aleatorio usa esta información

para predecir si el estudiante tendrá éxito o no. Junto con

clasificación binaria de cada vector de estudiante, el modelo devuelve una confianza

puntuación que nos dice qué tan seguro está el modelo en su predicción. Nuestro sistema

utiliza esta puntuación de confianza para representar la probabilidad prevista de éxito.


Machine Translated by Google

dieciséis
Capítulo 4. Predicción del éxito estudiantil

Nombre de la tabla Nº Filas No. Tamaño (Mb)


columnas

curso_historia_a_b 126924 252 380

curso_historia_c 131624 188 296

curso_historia_e 123400 303 444

curso_historia_f_i 123400 curso_historia_j_n 267 444

129570 curso_historia_p_w 123400 230 333

270 444

retención_en bruto 21086 sesenta y cinco 7.5

vista_de_los_datos_del_estudiante 148075 1503 N/A

TABLA 4.1: El tamaño y la forma de nuestras tablas de base de datos, y la vista final que es
consultado por nuestro sistema. Debido a la gran cantidad de columnas, nos vimos obligados a dividir
el historial del curso en grupos. Course_history_a_b contiene registros para el curso
códigos que comienzan con la letra A o B. Course_history_c contiene registros para
códigos de cursos que comienzan con la letra C. Course_history_f_i contiene registros para
códigos de curso que comienzan con la letra F, G, H o I. El resto sigue en el mismo
Moda. Tenga en cuenta que no hay tabla de curso_historial_d porque no hay ningún curso
códigos que comienzan con la letra D. Se realizan una serie de operaciones de unión en el
tablas de historial de curso y retención_sin procesar para generar la vista de consulta
estudiantedata_view.

4.1 Conjunto de datos del estudiante

Se nos dio acceso a los datos de los estudiantes de 2003 a 2015. Adquirimos el

datos en formato de valores separados por comas (CSV) que se cargaron directamente

a una base de datos MySQL. Las tablas finales de la base de datos se describen en la Tabla 4.1.

4.1.1 Gestión de datos


El conjunto de datos del historial del curso de Ontario Tech es lo que usamos para obtener las calificaciones del curso

como características para los datos de entrenamiento. El formato actual de los datos de grado es uno

fila para cada curso que toma cada estudiante. La información que se introduce en el

modelo predictivo es un vector de estudiante. Decidimos utilizar todos los cursos ofrecidos

en la universidad como características vectoriales. Para cada estudiante, el valor de la característica es el

nota recibida en ese curso. Si el estudiante no tomó un determinado curso, el

el valor de la característica es 0. Nuestro modelo predictivo solo acepta valores numéricos. Para
Machine Translated by Google

4.1. Conjunto de datos del estudiante 17

Grado de la letra Equivalente de GPA

A+ 4.3

A 4.0

A- 3.7

B+ 3.3

B 3.0

B- 2.7

do+ 2.3

C 2.0

D 1.0

F 0.0

TABLA 4.2: Calificaciones con letras de Ontario Tech y valor GPA equivalente. Las calificaciones con letras
fueron reemplazados con su GPA equivalente en nuestro conjunto de datos.

Por esta razón, todas las calificaciones con letras en el conjunto de datos se convirtieron a su
valor de GPA numérico. Como se muestra en la Tabla 4.2, el GPA equivalente a la letra
el grado F es 0. Esto planteó un problema para vectorizar los datos. 0 representará
tanto reprobar un curso como no tomar un curso. Necesitábamos una manera de diferenciar entre
los dos casos. Se nos ocurrieron tres posibles soluciones:

1. Columna de indicador de curso

2. Cambiar la representación numérica de 'no tomó'

3. Cambia la representación numérica de F

La columna del indicador de curso indica si un estudiante tomó o no un

curso. Implementamos una columna indicadora para cada curso con valor 1
si el estudiante tomó el curso, y 0 en caso contrario. Surgieron varios problemas derivados de
este enfoque. El primer problema fue que el indicador
las columnas duplicaron el tamaño del conjunto de datos, lo que condujo a un entrenamiento del modelo más largo

tiempos y problemas de portabilidad de datos. El segundo problema fue que el modelo predictivo
prefirió las columnas de indicadores. Se volvió insensible a los cambios.
en el valor de GPA y dependía en gran medida de si un estudiante tomó o no un curso
en lugar de la calificación que obtuvieron.
Machine Translated by Google

18 Capítulo 4. Predicción del éxito estudiantil

R_ID S_ID Administrador semi Por. C1 C2 C3 C4 C5


GPA #

0 234 3.0 1 1 0 0 3.3 0 0


1 234 3.0 2 1 2.7 0 3.3 0 0
2 234 3.0 3 1 2.7 0 3.3 1.0 0

3 234 3.0 4 1 2.7 3.3 3.3 1.0 0


4 234 3.0 5 1 2.7 3.3 3.3 1.0 2.3

TABLA 4.3: Un estudiante con cinco semestres de datos separados por semestre. los
las columnas son ID de fila (R_ID), ID de estudiante (S_ID), GPA de admisión (GPA de administrador),
Número de semestre (Sem #), Persister (Per.) y Curso 1–Curso 5 (C1–C5). En
semestre 1, este estudiante tomó un curso, C3. En el semestre 2, este estudiante tomó una
curso, C1. Tenga en cuenta que los cursos tomados en el semestre anterior tienen valores de calificación en
semestres subsiguientes, y el S_ID, Adm GPA y Per. los valores son consistentes. los
Los datos de capacitación no incluyen la identificación del estudiante o el número de semestre.

Nuestra siguiente opción fue reemplazar cada 0 que representa un curso no tomado
con un valor diferente. Cada estudiante ha tomado muchos menos cursos
que se ofrecen en la institución lo que significa que la mayoría de los valores en
cada vector de estudiante son 0s. Reemplazar cada valor 'no tomó' sería
requiere mucho tiempo y es visualmente confuso, ya que 0 tiende a representar una falta de
información, especialmente cuando se utilizan matrices y vectores dispersos.
Cambiar la representación numérica de F significa reemplazar la letra
grado F con un número que no sea su GPA equivalente a 0. Elegimos usar
-4.3 para representar F en nuestros datos en lugar de 0. Teóricamente, podríamos usar cualquier
valor en lugar de 0 ya que el modelo predictivo es, en esencia, un árbol de decisión basado en
reglas que no hace suposiciones sobre la escala y la magnitud de
datos entrantes. Elegimos -4.3 porque representa lo contrario de A+ (4.3
promedio).

El año académico se divide en tres secciones de cuatro meses. En Ontario Tech University,
los tres semestres se denominan semestre de otoño.
(septiembre-diciembre), semestre de invierno (enero-abril) y semestre de verano
(mayo-agosto). Dado que nuestra aplicación está diseñada para predecir el éxito de
el estudiante en base a un hipotético próximo semestre, decidimos dividir el
conjunto de datos por semestre. El primer paso en este proceso fue asignar un semestre
Machine Translated by Google

4.1. Conjunto de datos del estudiante 19

número para cada curso. Del conjunto de datos, tenemos un código de término asociado con

cada instancia del curso. El código del término se compone de un año y un código de semestre,
que es el número del mes en el que comienza el semestre.

Por ejemplo, el código de término para un curso tomado en el semestre de otoño de 2009 es
200909. Convertimos esta fecha en un número entero ordenando los códigos de término
secuencialmente. En este punto, tenemos todos los semestres numerados del 1 al 38. Para
cada estudiante, convertimos este número de semestre general en un número de semestre
relativo. El número relativo del semestre comienza en 1 y aumenta

secuencialmente por cada semestre que el estudiante haya asistido a la universidad. Este valor
de número de semestre no se usa para entrenar el modelo. Se utiliza para realizar consultas y
agrupar a los estudiantes para la evaluación del modelo.
Para crear los vectores de estudiantes, el conjunto de datos del historial del curso, incluidos
los números de los semestres, se transformó de un formato largo, donde los códigos del curso y
las calificaciones tienen sus propias columnas, a un formato ancho, donde los códigos del curso
son los nombres de las columnas y la calificación es el valor. Los vectores de estudiantes
también incluyen una columna de GPA de admisión a la escuela secundaria y una columna
persistente. De acuerdo con un análisis de correlación lineal realizado en el conjunto de datos,
el GPA de admisión tiene una alta correlación lineal con la retención. La columna persistente es
una columna binaria que indica si el estudiante en el conjunto de datos se retiró o no.

de la universidad, 0 si el estudiante se dio de baja, 1 en caso contrario. Esta columna solo se


usa para entrenar el modelo predictivo.
En nuestro conjunto de datos, las muestras en las que la columna persistente indicaba éxito
tendían a tener más semestres de datos. Queríamos asegurarnos de que el

modelo no relacionaría tomar más cursos con tener éxito. Si bien es cierto que los estudiantes
de los años superiores tienen menos probabilidades de retirarse, también es cierto que los
estudiantes exitosos de los años superiores alguna vez fueron estudiantes exitosos de primer y
segundo año. Queríamos incluir tantas muestras de éxito como fuera posible en el conjunto de
datos utilizado para entrenar el modelo. Para lograr esto, decidimos tomar cada

estudiante y elimine los semestres uno por uno para crear instantáneas de cada estudiante
después de cada semestre. Por ejemplo, un estudiante que se graduó después de ocho
semestres tendrá una fila con las calificaciones del semestre 1, una fila con las calificaciones
del semestre 1 y el semestre 2, una fila con las calificaciones del semestre 1, el semestre 2 y el
semestre 3, etc. El valor de la columna persistente sigue siendo el mismo en un solo estudiante.
Los vectores resultantes para un solo estudiante se muestran en la tabla 4.3. Usando este
enfoque, podemos aumentar el número de muestras con
Machine Translated by Google

20 Capítulo 4. Predicción del éxito estudiantil

Algoritmo Exactitud Precisión Recuperación

Regresión logística 81,6% 89,6% 88,1%

Bosque aleatorio 89,8% 91,7% 96,6%

Red neuronal MLP 84% 84,6% 98,8%

bayesiana ingenua dieciséis% 16% 100%

TABLA 4.4: Métricas de rendimiento de cada uno de nuestros algoritmos probados: logística
regresión, bosque aleatorio, red neuronal MLP y Naïve Bayes. En general, el
bosque aleatorio se desempeñó mejor con una precisión del 89,8% y una precisión de
91,7%.

menos semestres de datos con una etiqueta de éxito.

4.2 Selección de algoritmo


Probamos cuatro modelos predictivos diferentes con nuestros datos al principio del proyecto.
El objetivo era ver qué modelo de aprendizaje automático nos daría la mejor
resultados dado el conjunto de datos. Los algoritmos que probamos fueron Regresión Logística,
Bosque aleatorio, red neuronal de perceptrón multicapa (MLP) e ingenuo
Clasificación de Bayes. Para probar estos algoritmos, utilizamos una plataforma de análisis
visual llamada KNIME. El uso de KNIME nos permitió comparar rápidamente el algoritmo
rendimiento y tener tanto control sobre la consistencia de los datos como sea posible.
Como se muestra en la Tabla 4.4, la mayoría de los algoritmos funcionaron razonablemente bien
con la excepción de Naïve Bayes, y el bosque aleatorio que funciona mejor.

4.2.1 Métricas de rendimiento

Como parte de la evaluación de nuestro modelo, generamos una matriz de confusión. La matriz
de confusión muestra el número de muestras clasificadas correcta e incorrectamente etiquetadas
como ”Verdadero positivo”, ”Falso positivo”, ”Verdadero negativo” y ”Falso
Negativo". En este caso, nuestros datos tenían una etiqueta de 1 (Retenido) y 0 (Retirado).
Un verdadero positivo es una muestra con una etiqueta original de 1 y una etiqueta predicha
de 1. Un verdadero negativo es una muestra con una etiqueta original de 0 y un
etiqueta de 0. Un falso positivo y falso negativo es una muestra etiquetada como 0 y
predicho como 1, o etiquetado como 1 y predicho como 0 respectivamente.
Machine Translated by Google

4.2. Selección de algoritmo 21

Capacitación modelo semestral Pruebas Recuperación de precisión

Precisión Precisión

Semestre 1 70,2% 82,9% 92,1% 97,4%


Semestre 2 77,3% 84,9% 94,2% 92,4%
semestre 3 80,8% 91,2% 97,4% 96,8%
semestre 4 82,7% 94,3% 98,3% 98,9%
semestre 5 86,6% 96,8% 99,2% 99,9%
semestre 6 89,5% 98,0% 99,6% 99,9%
Semestre 7 92,3% 98,4% 99,6% 100%
semestre 8 94,1% 98,8% 99,7% 100%

TABLA 4.5: Métricas de desempeño de modelos predictivos entrenados en individuos


semestres de datos. Cada modelo se entrenó con datos de 2007 a 2011 y se probó
usando datos de después de 2011. La precisión del entrenamiento se calculó usando una cruz de 10 veces
validación. La precisión de la prueba se calculó calificando el modelo entrenado con nuestro
datos de prueba. Las puntuaciones de precisión y recuperación se calcularon utilizando datos de prueba.

En términos de los datos del estudiante, un estudiante etiquetado como 0 y predicho como 1
(falso positivo) es nuestro peor escenario y debe minimizarse. Este
reduciría el número de estudiantes en riesgo a los que se muestran resultados que pueden
hacerles creer que no están en riesgo. Un estudiante que se predijo que
retirar (0), con una etiqueta real de 1 no es ideal en términos de precisión del modelo,
pero es preferible decirle a un estudiante que tendrá éxito cuando
probable que se retire voluntaria o involuntariamente. La precisión es una métrica que se
relaciona directamente con la tasa de falsos positivos, Precisión = TruePositive/(TruePositive +

Falso positivo). Una puntuación de alta precisión se correlaciona con una baja tasa de falsos positivos.

Naïve Bayes no funcionó bien en nuestro conjunto de datos. El modelo predijo


todas las muestras como ”0”, o retirar. Tal vez con algún ajuste de parámetros, esto
modelo podría tener mejores resultados. Dado que los otros modelos realizaron mucho
mejor, no investigamos esto más a fondo.
La regresión logística es una técnica común utilizada para predecir la deserción utilizando
los datos de los estudiantes. Queríamos ver si la regresión logística podía soportar hasta
técnicas más modernas. Se desempeñó razonablemente bien con una precisión de
82 %. Este número se vuelve menos impresionante si se considera que la tasa de deserción
general del conjunto de datos es del 14 %, lo que significa que si el clasificador predijo cada
estudiante persista (1) tendría una precisión del 86%. La puntuación de precisión
Machine Translated by Google

22 Capítulo 4. Predicción del éxito estudiantil

Prueba de datos Exactitud Precisión Recuperación

General 85% 85,7% 98,9%

Semestre 1 77,8% 89,1% 93,4%

Semestre 2 81,3% 91,6% 95,7%

semestre 3 86,9% 96,5% 97,8%

semestre 4 90,1% 98% 99%

semestre 5 94,1% 99,1% 99,7%

semestre 6 96,2% 99,5% 99,8%

Semestre 7 97,2% 99,7% 99,9%

semestre 8 98% 99,8% 100%

TABLA 4.6: Métricas del modelo general probado en semestres individuales. General
la precisión se calculó utilizando una validación cruzada de 10 veces. Exactitud, precisión y
el recuerdo para cada semestre se calcularon usando datos de prueba.

del 90% mejora ligeramente este modelo ya que la tasa de falsos positivos sigue siendo baja.
La red neuronal MLP funcionó razonablemente bien con nuestro conjunto de datos.
La exactitud fue del 84%, con una precisión del 85%. La precisión ligeramente mejor
que el modelo de regresión logística, pero la puntuación de precisión sufrió.
Los bosques aleatorios son conocidos como un buen algoritmo de aprendizaje automático
de "propósito general", y por su rendimiento en conjuntos de datos relativamente pequeños con un
alto número de características. El modelo de bosque aleatorio se desempeñó mejor con
una precisión del 90% y una precisión del 92%. Siendo ambos valores
el más alto entre los algoritmos probados, decidimos usar un bosque aleatorio
clasificador como nuestro modelo predictivo. Ante los problemas de portabilidad del modelo con
KN IME, implementamos el modelo de bosque aleatorio en Python utilizando el
Biblioteca SciKit-Learn.

Elegir un conjunto de entrenamiento

Con base en la literatura, los modelos previos de predicción de estudiantes han sido más
exitoso cuando se entrena en los últimos 5 años de datos académicos en lugar de
todo el conjunto de datos históricos [16]. Esto se puede explicar simplemente cambiando
tiempo extraordinario. Los instructores, el contenido del curso, los horarios y los estudiantes cambian
tiempo extraordinario. Estos cambios conducen a cambios en los promedios de calificaciones y distribuciones,
Machine Translated by Google

4.2. Selección de algoritmo 23

Semestre Modelo Porcentaje Capacitación Pruebas


Retirar Muestras Muestras

Semestre 1 27,1% 8770 7124


Semestre 2 24,5% 8454 6796
semestre 3 17,5% 7590 5860
semestre 4 14,0% 7174 5221
semestre 5 11,1% 6745 3804
semestre 6 8,9% 6462 3013
Semestre 7 7,1% 6158 2130
semestre 8 5,8% 5908 1424

TABLA 4.7: La clase dividida de los datos usados para entrenar cada modelo semestral, y la
número de muestras utilizadas para entrenar y probar cada modelo.

y cambios administrativos como nuevos cursos y cambio de códigos de curso.


Limitar los datos de entrenamiento a los últimos 5 años minimiza la cantidad de cambio
en los datos, manteniendo un número suficiente de muestras.
Teníamos curiosidad sobre el rendimiento del modelo dados diferentes subconjuntos del
datos. Además, queríamos ver cómo nuestro modelo se vio afectado al usar
una técnica de reducción de dimensionalidad llamada Análisis de Componentes Principales
(PCA). La reducción de la dimensionalidad surgió simplemente por el número de
características en nuestros datos de entrenamiento. Trabajar con el conjunto completo de
funciones fue engorroso en términos de almacenamiento y manipulación de datos. Tiempo
manejable, queríamos explorar nuestras opciones. PCA es una característica bien conocida
método de proyección que tiene como objetivo proyectar las características originales en
un espacio de menor dimensión con la mayor variación entre los componentes. La meta es
mantenga la exactitud y precisión del modelo con menos funciones.
Consideramos entrenar algunos modelos predictivos diferentes para usar en nuestro
sistema. Gracias a trabajos anteriores, sabemos que los modelos predictivos funcionan
bien cuando se entrenan con datos académicos de estudiantes en grupos similares [1].
Sentimos que agrupar a los estudiantes por facultad abriría una puerta para explorar la
agrupación de estudiantes por programa y enfocarse en capacitar al clasificador más
preciso. Con respecto a que el objetivo del proyecto es capacitar a una persona precisa,
clasificador de amplio espectro para predecir el éxito en el próximo período, optamos
para agrupar el conjunto de datos por número de semestre.
Machine Translated by Google

24 Capítulo 4. Predicción del éxito estudiantil

La cantidad de datos que cada estudiante tiene varía a lo largo del conjunto de datos. Eso
tendría sentido que los estudiantes con 1 semestre de datos tengan menos información

ción que un estudiante con 8 semestres que ha tomado más cursos. Sin embargo, debido a

que separamos a cada estudiante en sus filas acumulativas de semestres, un estudiante con
8 semestres también tiene una fila con 7 semestres de información, 6 semestres y así

sucesivamente. Esto significa que se usaron más muestras para entrenar el modelo del
semestre 1 en comparación con los modelos del semestre 7 u 8. El número de muestras de
entrenamiento y prueba, y la división de clase de los datos se informan en la Tabla 4.7. Cada
modelo semestral se entrenó utilizando una validación cruzada de 10 veces y la exactitud, el
recuerdo y la precisión se informan en la Tabla 4.5. Inicialmente pensamos que dado que el
número de estudiantes que se retiran después del semestre 1 o 2 es significativamente mayor
que el número de estudiantes que se retiran después del semestre 6 o 7, la precisión de los
modelos de semestre superior sería mucho mayor. Como se muestra en la Tabla 4.5, nuestras
suposiciones eran correctas. Queríamos saber si el modelo general mostraría una tendencia
similar en precisión cuando se probara en grupos semestrales. La exactitud, precisión y
recuperación de estas pruebas se pueden encontrar en la Tabla 4.6. Como puede ver, no se
perdió mucha precisión en comparación con un modelo entrenado específicamente en ese
grupo semestral.
Si bien PCA redujo el tamaño de nuestro conjunto de datos y la precisión se mantuvo
constante, hubo problemas significativos con el uso de PCA. En primer lugar, la reducción
de la dimensión lidad eliminó un nivel de explicabilidad de nuestro modelo en el que confiamos
en nuestro sistema. Con dimensiones reducidas, es imposible decir qué características
individuales (cursos) contribuyeron al modelo entrenado. Las funciones con la clasificación de
importancia de modelo más alta pueden interpretarse como los cursos que mejor predicen el
éxito. También perdimos un nivel de precisión. Incluso con una pequeña reducción en el
número de características (es decir, 1501 características a 1450 características), el modelo
simplemente predijo la división de clases. En otras palabras, predijo que todos tendrían éxito,
asegurando que sería correcto el 85% de las veces. Una precisión del 85% es buena, pero
solo cuando el clasificador está tomando una decisión informada que se demuestra mediante
las puntuaciones de precisión y recuperación.
Hicimos más pruebas combinando las estrategias de entrenamiento en los últimos 5 años
de datos, reducción de dimensionalidad y agrupación por semestre. Todas las pruebas que
utilizaron reducción de dimensionalidad arrojaron los mismos resultados y problemas de
precisión que las pruebas anteriores que utilizaron PCA. Además, la agrupación por semestre
una vez más resultó innecesaria. La única agrupación que resultó eficaz
Machine Translated by Google

4.2. Selección de algoritmo 25

Parámetro Descripción Posible Defecto


Valores) Valor

n_estimadores Número de árboles 1+ 10


en el bosque

max_leaf_nodes Establecer número de hoja 1+, Ninguno Ninguna


nodos para
árbol de hoja sabia

crecimiento

máxima profundidad Profundidad máxima 1+, Ninguno Ninguna


del árbol

min_samples_split Número mínimo 0+, Ninguno 2


de muestras
requerido para dividir
un nodo interno

min_samples_leaf Número mínimo 0+, Ninguno 1


de muestras
requerido para ser un
nodo hoja

puntuación_oob Ya sea para usar Verdadero Falso Falso


fuera de la bolsa
muestras a
estimar el
generalización
precisión
criterio Función a impureza gini gini
medir la (Gini),
calidad de una división Información
ganancia (entropía)
max_features Número de 1+, raíz cuadrada, log2 sqrt
caracteristicas a
considerar cuando
buscando la
mejor división

clase_peso Pesos equilibrado, Ninguna


asociado con Ninguno, personalizado
cada clase

TABLA 4.8: Parámetros ajustables para RandomForestClassfier de SciKit-Learn. Todos


de los parámetros son opcionales con la excepción de n_estimators.
Machine Translated by Google

26 Capítulo 4. Predicción del éxito estudiantil

estaba entrenando en 5 años consecutivos de datos, y probando en los siguientes


2 años. Aunque este método presenta algunos desafíos con la implementación, como la
necesidad de volver a entrenar cada año con un nuevo conjunto de datos, fue este
iteración que produjo los mejores resultados.

4.3 Ajuste de parámetros


Utilizamos los valores de parámetros predeterminados para la comparación inicial del modelo. Sin
embargo, algunos de los parámetros o configuraciones del modelo de bosque aleatorio pueden ser
ajustado para afectar la precisión del modelo entrenado. La Tabla 4.8 muestra los valores
posibles de esos parámetros. Ajustando nuestro modelo para exprimir cada
el posible punto de precisión no era el objetivo de estas pruebas. Los valores predeterminados
para los parámetros del modelo arrojaron resultados aceptables y cumplieron con las necesidades de nuestro

sistema. Dicho esto, queríamos ver cuánta diferencia un cambio


en ciertos valores de parámetro haría, y ver si había una mucho mejor
modelo que podríamos estar usando.

Para seleccionar los mejores parámetros para nuestros datos, escribimos un python
script para probar diferentes combinaciones de diferentes valores para cada parámetro.
El rango de valores utilizados para probar cada parámetro se describe en la Tabla 4.9. Este

Parámetro Valores/Rango Incremento Valor final

n_estimadores 50–1000 50 50
criterio gini/entropía N/A gini
max_leaf_nodes 10–960 50 860

max_ depth 3–48 5 33

min_samples_split 2–10 1 9

min_samples_leaf 2–10 1 9

max_features sqrt/Ninguno N/A sqrt


oob_score 0/1 N/A 0

class_weight equilibrado/Ninguno N/A Ninguna

TABLA 4.9: Valores probados y finales para los parámetros de nuestro modelo predictivo. Nosotros
decidido sobre los valores finales basados en el modelo con la mayor precisión de prueba
entre aquellos con la mayor precisión de entrenamiento.
Machine Translated by Google

4.3. Ajuste de parámetros 27

Rasgo Descripción Rango

SOCI1000U Sociología introductoria 1

BUSI2000U Liderazgo Colaborativo 2

PSYC1000U Introducción a la Psicología 3

MATH2860U Ecuaciones diferenciales para ingenieros 4

EDUC1050U Comunicaciones técnicas 5

BUSI1450U Estadísticas 6

HLSC2460U Fisiopatología I 7

STAT2800U Estadística y probabilidad para ingenieros 8

adm_gpa 9 GPA de admisión

BIOL1020U Biología II 10

TABLA 4.10: Las diez características más importantes clasificadas por nuestro modelo predictivo.
Entre los mejores cursos están las optativas populares (Sociología y Psicología), y
cursos tomados por la mayoría de los estudiantes de ingeniería y ciencias (ecuaciones diferenciales,
Comunicaciones Técnicas y Estadísticas). Sabíamos que el GPA de admisión era
correlacionado con la retención, por lo que no sorprende ver que ocupa el puesto número 9.

La combinación de valores de parámetros resultó en más de 10000 modelos posibles. Para


Por cuestiones de tiempo, seleccionamos al azar 1000 modelos para entrenar. desplegamos
estas pruebas en una red informática de investigación académica jerárquica compartida
(SHARCNET) clúster. El modelo se entrenó con datos de 2008 a 2012 y
Probado con datos de 2013 y 2014. Estas pruebas arrojaron la precisión del entrenamiento
utilizando una validación cruzada de 10 veces y la precisión de la prueba de cada modelo. Nosotros
seleccionó los valores de los parámetros en función del modelo con el entrenamiento más alto
y la precisión de las pruebas.

Es importante tener en cuenta que estos modelos se entrenaron en una versión anterior de
nuestro conjunto de datos. Redefinimos nuestros conjuntos de entrenamiento y prueba por admisión
año, y 11 de las 1510 funciones de entrenamiento utilizadas para probar los valores de los parámetros

fueron eliminados después del proceso de selección de funciones. Estas características representaban

información demográfica y de resumen del primer año.


Machine Translated by Google

28 Capítulo 4. Predicción del éxito estudiantil

4.4 Selección de características

El propósito de la aplicación final es predecir el éxito de un estudiante dado un conjunto de cursos


futuros. Sabíamos que necesitábamos incluir cursos en el

conjunto de características, sin embargo, había más de una forma de lograrlo. Los primeros 3 o 4

caracteres de un código de curso de Ontario Tech indican el departamento que ofrece el curso.

Consideramos agrupar cursos por este código de departamento para disminuir el número total de
funciones. Sin embargo, perderíamos un importante nivel de información. Si agrupamos por código de

departamento, el valor de la característica podría ser la calificación promedio del estudiante en esos

cursos, o el número de cursos tomados en ese departamento, o algún otro valor calculado. Esto

significa que perdemos información a nivel de grado individual, e incluso información como el nivel de

año del curso, o si es o no un curso electivo.

Otra opción era agrupar por código de departamento y nivel de año. En los códigos de curso de

Ontario Tech, el nivel de año de un curso se indica mediante el primer dígito que sigue al código de

departamento. Agrupar cursos por código de departamento y nivel de año nos brinda un nivel adicional

de información en comparación con solo agrupar por código de departamento, pero aún necesitamos

usar algún tipo de promedio o resumen como valor. Dado que estábamos interesados en el rendimiento

del curso y queremos que el modelo sea sensible a diferentes valores de calificación, decidimos no

agrupar los cursos y usar cada curso individual como una característica.

Decidimos incluir una característica adicional con los cursos, GPA de admisión. El GPA de

admisión es el GPA promedio de los cursos de grado 12 del estudiante utilizados para la admisión a la

universidad. Con base en un análisis de correlación lineal realizado en el conjunto de datos de

retención_sin procesar (Tabla 4.1), sabemos que junto con el GPA del primer semestre y el GPA del

primer año, el GPA de admisión está correlacionado con la retención. Decidimos no incluir el GPA del

primer semestre y el GPA del primer año como características porque esos valores se pueden calcular

utilizando las características existentes, lo que las hace redundantes.

El modelo de bosque aleatorio entrenado asigna un nivel de importancia a cada una de las

características utilizadas en el conjunto de entrenamiento. Las diez características principales se


muestran en la Tabla 4.10.
Machine Translated by Google

4.4. Selección de características 29

FIGURA 4.1: Cada vector de estudiante está compuesto por la información académica
existente del estudiante y un escenario generado. En este caso, el estudiante tiene dos
semestres de datos. Eligieron tres cursos para tomar en su tercer semestre: INFR1310U
(Diseño gráfico I), CSCI1200U (Computadoras y medios) y CSCI2010U (Principios de
informática). Se seleccionaron conjuntos de calificaciones probables y se asignaron a los
tres cursos usando el algoritmo descrito en la Sección 4.5.1 para crear cinco terceros
semestres hipotéticos. Estos terceros semestres se combinan con la información del semestre
1 y el semestre 2 para crear cinco vectores de estudiantes, que cuando se introducen en el
modelo devuelven un valor de probabilidad de éxito.
Machine Translated by Google

30 Capítulo 4. Predicción del éxito estudiantil

FIGURA 4.2: Distribución de promedios acumulados semestrales.

4.5 Generación de vectores de estudiantes

El vector de estudiante que se pasará a través del modelo predictivo contiene


toda la información de cursos y calificaciones de un estudiante desde la admisión, y un
próximo semestre hipotético como se muestra en la Figura 4.1. El hipotético próximo semestre
se compone de un conjunto de 1 a 7 cursos elegidos por el alumno y un conjunto de
calificaciones generadas que se asignarán a los cursos elegidos. Por ejemplo, si un
estudiante quería tomar 5 cursos, el sistema generaría un conjunto de 5 calificaciones
que es probable que logre el estudiante y asigne cada calificación a uno de los 5 cursos
elegidos. Este proceso de generar y asignar calificaciones se repite una
numero de veces. Un conjunto de cursos con calificaciones asignadas se denomina escenario.
Un estudiante interesado en tomar 5 cursos generaría 90,000 escenarios posibles asumiendo
5 cursos diferentes y 10 calificaciones posibles. Esto sería
considerado el enfoque de "fuerza bruta". Hay dos problemas notables con
el enfoque de fuerza bruta:

• Demasiada información

• Escenarios irrelevantes

Mostrar todos los escenarios posibles tiene un alto potencial para abrumar a los
usuario y hacer que el gráfico se sobresature. Sobresaturar el gráfico
podría impedir que el usuario interprete el gráfico correctamente como los diferentes colores
se vuelven menos aparentes y el espacio visual se distorsiona. Una posible solución a esto
es una muestra aleatoria del conjunto completo. El problema con el muestreo aleatorio es
que la muestra no se adaptaría a las necesidades individuales de los estudiantes.
Machine Translated by Google

4.5. Generación de vectores de estudiantes 31

FIGURA 4.3: Distribución muestral para un estudiante con un GPA acumulativo de 1.46.

actuación. Un estudiante con un GPA acumulativo de 4.0 obtendría una muestra similar a la de un

estudiante con un GPA acumulativo de 1.0, introduciendo


escenarios.

Mostrar escenarios irrelevantes tiene la posibilidad de engañar a los usuarios al mostrar escenarios

que es poco probable que el estudiante individual lo logre.

Para mitigar estos efectos, necesitábamos implementar una técnica de muestreo que seleccionara

escenarios que fueran representativos del desempeño académico anterior del estudiante y cubriera el

espectro de calificaciones probable. La técnica de muestreo implica algunos pasos que se describen

en la Sección 4.5.1:

1. Configure una distribución normal en todos los GPA acumulativos en el conjunto de datos y
almacene la desviación estándar

2. Calcular el GPA acumulativo del estudiante

3. Establezca una distribución normal usando la desviación estándar calculada en

Paso 1, y la media calculada en el Paso 2

4. Muestra un GPA acumulativo de la distribución del Paso 3

5. Seleccione un escenario de la tabla de probabilidades de escenario utilizando la muestra


GPA

6. Asigne cada grado en el escenario a cada uno de los cursos propuestos usando

la tabla de probabilidades de curso/calificación

7. Repita los pasos 4 a 6 para el número deseado de muestras


Machine Translated by Google

32 Capítulo 4. Predicción del éxito estudiantil

ALGORITMO 4.1: Asignación de calificaciones a cursos. Este algoritmo asigna calificaciones a


cursos teniendo en cuenta la probabilidad de recibir cada calificación en cada
curso. Toma una serie de calificaciones (G), una serie de cursos (C) y una probabilidad
table (P) como entrada, y devuelve un objeto de calificaciones asignadas a los cursos. Este
El algoritmo se repite para cada escenario generado en el paso anterior.
1 entrada : G = [ g1 , g2 , , gi ] , . . .
2 do = [ c1 , c2 , , cj.].,.
3 P = [ p ( g1, c1 ) , p ( g1, c2 ) , ... , p ( gi , cj ) ]
4 salida : Objeto de calificaciones asignado
5 empezar
6 foreach gi en G
7 S ÿ suma de probabilidades de recibir ei vi ng gi
8 rnd ÿ número aleatorio entre 0 y S
9 foreach cj en C
10 verificar ÿ rnd ÿ p ( gi , cj )
11 rnd ÿ comprobar
12 si marca ÿ 0
13 culo i gn grado gi a cou rse cj
14 eliminar gi de G
15 eliminar todas las probabilidades cj de P
dieciséis devolver calificaciones asignadas
17 final

4.5.1 Generación de Escenarios


El primer paso para generar los escenarios fue establecer una distribución normal
en todos los GPA acumulativos semestrales en el conjunto de datos. Ajustamos la curva a nuestro

datos y calculó la desviación estándar y la media de la distribución (Figura 4.2). Este valor de
desviación estándar se utilizará como la desviación estándar

para nuestra distribución de muestreo. A continuación calculamos el GPA acumulativo de los


estudiante en cuestión. Este valor de GPA acumulativo se usará como la media
(mu) para nuestra distribución de muestreo.
En este punto, podemos configurar nuestra distribución de muestreo usando el estándar
desviación de los GPA semestrales y el GPA acumulativo del estudiante (mu) calculado

más temprano. Este enfoque nos permite establecer una distribución de muestreo que es
generalizable y se ajusta al desempeño de un estudiante individual. A
la distribución de la muestra se muestra en la Figura 4.3. A partir de esta distribución, muestreamos
400 valores GPA acumulativos que se utilizarán para seleccionar escenarios de nuestro

tabla de probabilidades de escenarios. La tabla de probabilidades del escenario se describe más adelante en
esta sección.
Machine Translated by Google

4.5. Generación de vectores de estudiantes 33

FIGURA 4.4: Este diagrama de flujo describe nuestro sistema de principio a fin.
Comenzamos usando nuestra aplicación para consultar la base de datos para el historial
del curso de un solo estudiante. El resultado de esta consulta (Historial del estudiante)
se pasa al paso Generación de escenarios junto con las selecciones de cursos para el
siguiente semestre. Los escenarios generados se combinan con el historial del estudiante
para representar la finalización del siguiente semestre y se alimentan al modelo predictivo.
El modelo predictivo devuelve la puntuación de confianza y los escenarios generados que
se pasan a la aplicación para completar la visualización.

Asignación de calificaciones

El paso final de la técnica de muestreo es asignar las calificaciones en cada escenario de calificación

seleccionado a uno de los cursos elegidos por el estudiante. Para decidir qué calificaciones se asignan

a qué curso, necesitamos tres datos; el escenario de calificaciones (G), la lista de cursos elegidos (C)

y la probabilidad condicional de obtener cada calificación en cada curso (P). Este proceso se describe

en el Algoritmo 4.1.

Una vez que tenemos una muestra de escenarios, podemos generar vectores de estudiantes para

alimentar el modelo predictivo. La figura 4.4 describe cómo se implementa esta técnica de muestreo

dentro del sistema general.


Machine Translated by Google

34 Capítulo 4. Predicción del éxito estudiantil

Escenario de GPA semestral Probabilidad

0.00 [F, F, F, F] 1.000000


0.25 [D, F, F, F] 0.705426
0.25 [F, F, F, D] 0.108527
0.25 [F, D, F, F] 0.096899
0.25 [F, F, D, F] 0.089147
4.15 [A, A+, A, A+] 0.126506
4.15 [A+, A+, A-, A+] 0,126506
4.15 [A, A+, A+, A] 0.114458
4.15 [A+, A+, A, A] 0.108434

TABLA 4.11: Una instantánea de la tabla de probabilidades del escenario para cuatro cursos. Esta mesa
contiene 6020 filas. Generamos una tabla de probabilidad separada para cada número de
cursos tomados en un semestre que van del 1 al 7.

Código del curso Calificación final Probabilidad

MATH1020U D 0.227899
MATH1020U F 0.214592
MATH1020U C 0.167670
MATH1020U B 0.070586
MATH1020U B- 0.066941
MATH1020U A- 0.066362
MATH1020U do+ 0.059246
MATH1020U A+ 0.052939
MATH1020U A 0.040616
MATH1020U B+ 0.033152

TABLA 4.12: Una instantánea de la tabla de probabilidades de curso/calificación. Las probabilidades son
mostrado para MATH1020U (Cálculo II). La tabla completa de probabilidades de curso/calificación incluye
valores de probabilidad para cada curso que se ha ofrecido en la universidad y
contiene 11733 filas.
Machine Translated by Google

4.5. Generación de vectores de estudiantes 35

Tablas de probabilidad

Los escenarios utilizados para las probabilidades se muestrean directamente de la base de datos.

Para cada estudiante de tiempo completo en la universidad, aislamos cada semestre y almacenamos

la combinación de calificaciones (por ejemplo, [A,A+,A+,B,B-] sería una combinación para un semestre
de 5 cursos). Para cada una de estas combinaciones, calculamos el GPA semestral. Con esta

información pudimos calcular la probabilidad de un escenario específico dado un GPA semestral como

se muestra en la Tabla 4.11. Otro método para generar conjuntos de calificaciones sería generar

calificaciones probables individuales para cada uno de los cursos propuestos y combinarlos como un

conjunto. Sin embargo, sabemos que las calificaciones semestrales no son mutuamente excluyentes.

Esto significa que la probabilidad de recibir una calificación particular en un curso se ve afectada por

los otros cursos que se toman y la calificación recibida en esos cursos. Por esta razón, elegimos extraer

conjuntos de calificaciones directamente de los datos.

Las calificaciones seleccionadas de la tabla de probabilidades de escenarios se asignan en función

de la probabilidad de obtener una determinada calificación en cada curso. Sacamos de la base de

datos todas las notas recibidas en cada curso de la universidad. Para cada curso, calculamos la

probabilidad de obtener cada calificación y almacenamos los valores en nuestra tabla de probabilidades

del curso como se muestra en la Tabla 4.12.

4.5.2 Puntuación de confianza de la predicción

La puntuación de probabilidad (confianza) de predicción de cada escenario generado puede interpretarse

como la probabilidad o confianza de que la predicción es verdadera. Este es el valor que finalmente se

mostrará a los usuarios en nuestra herramienta para que se interprete como la probabilidad de éxito de
un estudiante. Un clasificador Random Forest es una colección

de árboles de decisión que trabajan juntos para generar una sola predicción. Cada árbol en el bosque
usa características diferentes para tomar una decisión que se cuenta como una

votar por la predicción final. Por ejemplo, un clasificador compuesto por cinco árboles puede devolver

tres predicciones 0 y dos predicciones 1. Cada predicción cuenta como un voto y gana la mayoría. En

este caso, el clasificador devolvería una predicción general de 0. Junto con esta predicción general, el

clasificador también devolverá un valor entre 0 y 1, que es la probabilidad de que esta predicción sea

verdadera, a lo que nos referimos como confianza de la predicción. puntaje.


Machine Translated by Google

36

Capítulo 5

Diseño de aplicaciones

Nuestra aplicación propuesta tiene como objetivo presentar el resultado de nuestro modelo
predictivo a los asesores académicos para ayudar a los estudiantes a tomar decisiones
que los harán más propensos a tener éxito. El sistema toma una identificación de
estudiante y una lista de cursos como entrada y genera escenarios probables basados en
el rendimiento académico anterior del estudiante. Estos escenarios se introducen en el
modelo predictivo como vectores de estudiantes y el nivel de confianza de cada predicción
se muestra en una interfaz de análisis exploratorio para que el usuario lo interprete.

5.1 Diseño iterativo


Nuestro proceso de diseño iterativo comenzó con el diseño inicial del Tablero de Retención,
descrito en el Capítulo 3. Nos reunimos con un representante de la Oficina de Investigación
y Análisis Institucional (OIRA) y la Oficina de Registro (RO) tres veces durante el diseño
del tablero.
La reunión inicial fue una sesión de lluvia de ideas sobre el proyecto, en la que,
después de un debate, decidimos centrarnos en la retención de los estudiantes. Algunas
de las ideas que surgieron durante nuestra discusión incluyen encontrar una forma fácil
de visualizar e interactuar con el conjunto de datos de los estudiantes, encontrar problemas
similares entre los estudiantes y brindar consejos de acuerdo con esas similitudes y, en
general, encontrar una mejor manera de proporcionar intervención humana. Avanzando
con la idea de un panel interactivo para ayudar a la intervención humana, nos reunimos
con el Decano de Ciencias, los directores de programas y el personal de asesoramiento
académico para ayudarnos a comprender el tipo de datos que podrían ser más útiles en
términos de análisis. retencion. De estas reuniones, aprendimos que era
Machine Translated by Google

5.2. Interfaz 37

importante incluir información que permita a los usuarios sacar conclusiones procesables
de su análisis.
A partir de aquí diseñamos pieza a pieza el salpicadero. Comenzamos con la
visualización de horarios y el gráfico de coordenadas paralelas. La programación y las
tendencias de calificación se mencionaron como información procesable en nuestras
reuniones anteriores. Una vez que tuvimos versiones de trabajo de ambas visualizaciones,
nos reunimos nuevamente con un representante de la OIRA y el RO para discutir las
visualizaciones actuales y los pasos futuros. A partir de aquí, incluimos más filtros en el
gráfico de coordenadas paralelas en forma de cepillado de eje y desplazamiento de línea,
y en el cronograma como filtros de grado individuales y selectores de columna/fila.
Agregamos nuevos filtros al tablero, incluida la selección de programas individuales y el
selector de gráfico de barras del año de admisión. Todos estos componentes juntos
permiten al usuario explorar las relaciones entre las tendencias de calificación, la
programación y el desgaste a lo largo del tiempo.

Nos reunimos con OIRA y un asesor académico al comienzo del proyecto sis para
hablar sobre alejarnos del tablero y acercarnos a una herramienta para asistir en el
asesoramiento académico. Proporcionaron comentarios positivos a la idea de representar
el éxito de los estudiantes y un prototipo inicial de la trama de enjambre de abejas poblada
con datos simulados. Hicieron hincapié en que podría ayudar a convencer a los estudiantes
de una trayectoria de curso deficiente o alentar a los estudiantes que no tienen tanta
confianza en su desempeño. A partir de aquí, comenzamos el proceso de capacitación y
prueba de diferentes modelos con diferentes conjuntos de datos y la creación de la interfaz
de la aplicación.

5.2 Interfaz
Teníamos algunos criterios iniciales para diseñar nuestra interfaz basados en nuestras
reuniones con OIRA y asesores académicos. Debido a que las reuniones entre estudiantes
y asesores solo duran aproximadamente 15 minutos, la simplicidad y el diseño intuitivo
fueron clave. Necesitábamos una forma rápida para que los usuarios ingresaran la
información de los estudiantes y los cursos, y una forma intuitiva de mostrar e interactuar
con la información. Optamos por un diseño de una sola página con tres componentes: panel
de entrada, componente de visualización y un componente de resumen. El diseño y la
selección de cada componente se describen a continuación.
Machine Translated by Google

38 Capítulo 5. Diseño de aplicaciones

4.0

acumulativa
media
nota

2.0

0.3

0.31 0.40 0,60 0,68

FIGURA 5.1: Ejemplo de diagrama de enjambre de abejas. Los puntos se distribuyen a lo largo de una
eje horizontal, agrupándose en enjambres cuando varios puntos tienen el mismo valor.

5.2.1 Selección de visualización


Queríamos representar el concepto de 'probabilidad de éxito'. La confianza

nivel de salida del modelo predictivo representa el nivel de confianza que

el modelo tiene, dada la información en el vector del estudiante, que el estudiante

no abandonará. Decidimos que esta era una buena representación de la probabilidad de éxito. El
nivel de confianza es un número decimal entre 0 y 1

que van desde menos probabilidades de éxito hasta más probabilidades de éxito.

Elegir la visualización correcta para mostrar el nivel de confianza presentó un desafío.

Necesitábamos elegir una visualización que fuera fácil de

Leer para principiantes en visualización, podría ser parte de un tipo de aplicación de tablero más

grande y permitiría un análisis simple. Una trama de enjambre de abejas, que se muestra en

La Figura 5.1 muestra los puntos distribuidos a lo largo de un eje escalado horizontal, estirando el eje

en los lugares donde se necesita mostrar más puntos. cuando muchos

los puntos tienen el mismo valor, los puntos se agrupan para formar un enjambre. los

los niveles de confianza pronosticados tienden a agruparse en torno a valores similares para un solo

estudiante que está bien representado por la parcela beeswarm. También podemos agregar

filtros y color a los puntos que se muestran en este tipo de gráfico que

análisis de soporte.

Escalando la trama

Los rangos de nivel de confianza para un solo estudiante pueden variar entre 2

o 3 puntos porcentuales a más de 20 puntos porcentuales. Mostrando el

puntos en una escala de 0 - 1 proporciona un nivel de información útil para estudiantes con

una amplia gama de niveles de confianza, especialmente cuando la confianza pronosticada


los niveles cruzan la marca de 0,5. Un nivel de confianza por debajo de 0,5 significa que el modelo

predice que el estudiante probablemente abandonará los estudios, donde un nivel de confianza por encima
Machine Translated by Google

5.2. Interfaz 39

4.0

acumulativa
media
nota

2.0

0.3

Retirar Éxito

(A) Diagrama de Beeswarm escalado de 0 a 1.

4.0

acumulativa
media
nota

2.0

0.3

0.31 0.40 0,60 0,68

(B) Gráfica Beeswarm escalada de mínima a máxima confianza.

FIGURA 5.2: El mismo diagrama de enjambre de abejas escalado (A) de 0 a 1 y rotulado Retirar–
Éxito y (B) de predicción de confianza mínima-máxima confianza.

0.5 significa que es probable que un estudiante sea retenido. Poder ver qué escenarios
cruzar este umbral resaltará las combinaciones de curso-calificación más probables
para conducir al éxito. En lugar de etiquetar los puntos finales del eje como 0 y 1
decidimos usar etiquetas de Retiro y Éxito como se muestra en la Figura 5.2a.
Esto ayuda al usuario a interpretar el eje como un espectro de Retirarse al Éxito
en lugar de centrarse en los números en bruto.
Escalar el eje desde el nivel de confianza mínimo y el nivel de confianza máximo permite
otro nivel de información más útil para los estudiantes.

cuyas parcelas se parecen a la que se muestra en la Figura 5.2a. Ver todos los puntos
distribuidos entre su valor mínimo y máximo, como se muestra en la Figura 5.2b, ayudará a los
estudiantes a encontrar los cursos en los que concentrarse para maximizar su
probabilidad de éxito.

Las técnicas de escalado mencionadas anteriormente se complementan entre sí, pero


ninguno de ellos es suficiente por sí solo. Decidimos permitir que el usuario

alternar entre las dos escalas. Como se muestra en la Figura 5.3, al hacer clic en el ícono de
acercamiento en la esquina superior derecha del gráfico cambiará la escala
de Retirado-Éxito a Mínima Confianza-Máxima Confianza.

Al hacer clic en el icono de alejamiento en la vista ampliada, la escala retrocederá


a Retirado–Éxito.
Machine Translated by Google

40 Capítulo 5. Diseño de aplicaciones

4.0

acumulativa
media
nota

2.0

0.3

Retirar Éxito
4.0

acumulativa
media
nota

2.0

0.3

0.31 0.40 0,60 0,68

FIGURA 5.3: Arriba: componente de visualización Beeswarm mostrado en una escala de


Retiro (0)–Éxito (1). Abajo: Los mismos datos mostrados en una escala de
confianza mínima-confianza máxima.

FIGURA 5.4: La escala de colores de Viridis. En nuestra visualización, el púrpura más oscuro
representa los valores GPA acumulados más bajos de los escenarios, mientras que el amarillo más claro
representa valores GPA acumulativos más altos de los escenarios.

Colorear los puntos

Como se discutió anteriormente, cada punto representa un conjunto de cursos y calificaciones,

llamado escenario. La probabilidad de éxito se codifica como la posición horizontal del punto sobre

el eje. Los puntos están coloreados según el semestre.

GPA del escenario. La paleta de colores de Viridis, Figura 5.4, es conocida por crear tramas que se

perciben con mayor precisión, son accesibles y visualmente atractivas [9]. Usando la escala de

colores, podemos ver visualmente dónde está el

los escenarios con un GPA semestral más alto se encuentran en el eje. El color más oscuro en

la escala de colores representa el GPA semestral más bajo de los escenarios, y el

el color más claro representa el GPA semestral más alto de los escenarios.

5.2.2 Diseño de interacción


La aplicación final será utilizada por asesores académicos a medida que los estudiantes lleguen

en una reunión. Algunas de estas reuniones se reservan con antelación, pero muchas

son walk-ins. Según uno de los asesores académicos que entrevistamos,

los asesores a menudo tienen aproximadamente 15 minutos para reunirse con un estudiante. Nuestro
Machine Translated by Google

5.2. Interfaz 41

Identificación del estudiante: 863287

1
4.0

acumulativa
media
nota

2
2.0

0.3

Retirar Éxito

A A A A

B B B B

C C C C

3 D

F
D

F
D

F
D

0 50 100 0 50 100 0 50 100 0 50 100

BUSI1915U ECON2010U BUSI1020U BUSI1010U

FIGURA 5.5: La interfaz de la aplicación que muestra a un estudiante de Negocios que ingresa
a su tercer semestre y un GPA acumulativo de 1.47. (1) Componente del panel de entrada de
formulario donde el usuario ingresa una identificación de estudiante, el número de semestre
actual y hasta 7 cursos para tomar en el próximo semestre. (2) Componente Beeswarm que
muestra el nivel de confianza de la predicción. Este componente incluye un botón de "zoom"
para alternar la escala del eje entre 0 y 1, y el nivel de confianza mínimo y máximo.
(3) Componente de gráfico de barras de resumen que muestra el número de ocurrencias de
cada grado en cada curso de la parte seleccionada del gráfico.

La aplicación debe permitirles poner el sistema en funcionamiento lo más rápido posible cuando un estudiante

asiste a una reunión. Nos decidimos por un diseño simple de una sola página con tipos de entrada clásicos

que incluyen campos de entrada de texto y botones. La interfaz se compone de 3 componentes, que se

muestran en la Figura 5.5:

1. Entrada de formulario

2. Visualización de enjambre de abejas

3. Gráficos de barras de resumen

El componente de entrada de formulario, componente 1 en la Figura 5.5, se compone de campos de

entrada de texto estático para el número de identificación del estudiante y el número de semestre actual del

estudiante. La identificación del estudiante se usa para consultar la base de datos para el usuario actual, y el

número de semestre se usa para filtrar los resultados de la consulta después de realizar algunos cálculos en

el conjunto de resultados completo. Las selecciones de cursos se ingresan usando campos de entrada de

texto dinámico. Dependiendo de la cantidad de cursos que el estudiante quiera tomar en el siguiente semestre,

el usuario puede agregar esa cantidad de campos. Cualquiera de los campos agregados también se puede

eliminar. haciendo clic


Machine Translated by Google

42 Capítulo 5. Diseño de aplicaciones

FIGURA 5.6: Diagrama Beeswarm que muestra los detalles del escenario al pasar el mouse. en este particular
escenario, el estudiante obtuvo una D en BUSI1915U, D en ECON2010U, F en BUSI1020U y
F en BUSI1010U.

el botón "Enviar" invoca la interfaz de puerta de enlace común (CGI) Python

secuencia de comandos que utiliza la información ingresada en el formulario HTML para generar

vectores de estudiantes y predecir la probabilidad de éxito.

El componente de visualización de enjambre de abejas se compone de un enjambre de abejas estático

gráfico, escala de colores y menú desplegable para alternar la escala del eje. el enjambre de abejas

la trama se rellena con el archivo CSV generado a partir del script CGI. Como se describe en la Sección

5.2.1, el usuario puede alternar la escala del diagrama de abejas

haciendo clic en el icono de zoom. Pasar el mouse sobre un punto individual

en el gráfico se muestra la combinación de curso/grado que condujo a esa confianza

puntajes en una información sobre herramientas (Figura 5.6). Hacer clic y arrastrar horizontalmente (cepillado)

en el eje x selecciona puntos en el gráfico que se encuentran dentro del rango resaltado

(Figura 5.7).

Identificación del estudiante: 863287

4.0

acumulativa
media
nota

2.0

0.3

0.31 0.40 0,60 0,68

A A A A

B B B B

C C C C

D D D D

F F F F

0 5 10 0 5 10 0 5 10 0 5 10

BUSI1915U ECON2010U BUSI1020U BUSI1010U

FIGURA 5.7: Interacción de cepillado utilizada para seleccionar un conjunto de escenarios en el enjambre de abejas
gráfico. En los gráficos de barras, podemos ver que los escenarios seleccionados contienen muchas F
en los cursos de BUSI pero sin F en el curso de ECON.
Machine Translated by Google

5.3. back-end 43

A A A A

B B B B

C C C C

D D D D

F F F F

0 50 100 0 50 100 0 50 100 0 50 100

BUSI1915U ECON2010U BUSI1020U BUSI1010U

FIGURA 5.8: Gráficos de barras que muestran la distribución de calificaciones de los escenarios para
cada curso propuesto. Estos gráficos de barras se actualizan cuando el usuario selecciona una parte
del gráfico mediante la interacción del pincel.

El componente de gráfico de barras de resumen, Figura 5.8, intenta resumir la información


del curso y la calificación incrustada en el gráfico Beeswarm. Se dibuja un gráfico de barras
horizontales para cada curso que seleccionó el estudiante. Cuando

la página se carga, los gráficos de barras muestran el número de ocurrencias de cada


calificación de letra en cada curso para todos los escenarios. La interacción de "aplicación"
descrita anteriormente actualiza estos gráficos de barras para mostrar el número de
apariciones de cada calificación con letras en cada curso dentro del rango alineado. El
objetivo de estos cuadros de resumen era permitir a los usuarios no solo ver la probabilidad
de éxito dado un conjunto de cursos, sino también ver qué cursos son más indicativos de éxito.
Por ejemplo, supongamos que a un estudiante le gustaría ver su probabilidad de éxito si
toma Física, Cálculo, Psicología y Programación. Cuando esta información se introduce en
el sistema, las puntuaciones de confianza previstas oscilan entre 0,4 y 0,7. Cuando el usuario
recorre el rango de 0,6 a 0,7, los gráficos de barras se actualizan para mostrar que hay una
gran cantidad de A y B en Física, Psicología y Programación dentro de este rango, y una
gran cantidad de D en Cálculo. Una conclusión posible es que el estudiante en cuestión debe
tener buenos resultados (A o B) en Física, Psicología y Programación, pero no necesita
hacerlo tan bien en Cálculo para tener éxito. Este tipo de información podría ser útil al pensar
en qué cursos tomar al mismo tiempo, qué cursos pueden requerir más tiempo y esfuerzo y
programación futura.

5.3 Servidor
La aplicación web utiliza CGI para ejecutar un script de Python que genera los datos para
completar el gráfico Beeswarm. El script escribe la identificación del estudiante, el nivel de
confianza, el GPA acumulativo y los cursos en un archivo CSV. Finalmente, la secuencia de
comandos CGI devuelve un código HTML que le dice al navegador que actualice el archivo actual.
Machine Translated by Google

44 Capítulo 5. Diseño de aplicaciones

página, que carga el archivo CSV actualizado. Los archivos se sirven mediante Python
CGI HTTPServer.
Machine Translated by Google

45

Capítulo 6

Conclusión y discusión

Pudimos entrenar un modelo de aprendizaje automático para predecir si un estudiante


abandonará o no después del semestre dado con un 89 % de precisión. Nuestra aplicación
propuesta utiliza un algoritmo de muestreo robusto para mostrar de forma interactiva los
resultados de la predicción al usuario. Al usar nuestra medida de probabilidad de éxito,
podemos transmitir a los estudiantes el resultado probable de su próximo semestre dados
los cursos seleccionados y las calificaciones probables.
En las siguientes secciones, discutiremos el uso potencial de nuestro sistema a través
de estudios de casos ficticios, las limitaciones de nuestro sistema y el posible trabajo
futuro.

6.1 Discusión
En esta sección, vamos a presentar algunos estudios de casos ficticios que demuestran
la aplicabilidad de nuestro sistema en diferentes escenarios de casos de uso y la
interpretación de los resultados en estos diferentes casos.

6.1.1 Estudio de caso 1

Holly es una estudiante de ingeniería de software que ingresó en 2011 y acaba de terminar
su primer año. Académicamente, se desempeñó bien en la mayoría de sus cinco cursos
del primer semestre y terminó con un GPA acumulativo de 2.88. Tuvo dificultades tanto
en Cálculo I como en Física I, pero era optimista al saber que estos eran cursos difíciles y
que muchos de sus compañeros también tenían dificultades. Holly también participó en la
comunidad del campus como miembro del equipo Varsity Curling y miembro del Board
Games Club. Desafortunadamente, el semestre 2 pasó factura a Holly y su GPA semestral
cayó a 1.67, dejándola con un
Machine Translated by Google

46 Capítulo 6. Conclusión y Discusión

FIGURA 6.1: Gráfica Beeswarm que muestra la probabilidad de éxito de Holly dada la
cuatro cursos obligatorios. Todos los escenarios se encuentran por encima del punto medio que indica un
alta probabilidad general de éxito.

GPA acumulativo general de 2.27. Si bien no reprobó ningún curso, fue


preocupada por la caída de su GPA y la posibilidad de terminar en un período de prueba
académico. Holly pudo identificar 3 preocupaciones principales acerca de seguir adelante y
su bajo rendimiento académico:

1. Aumento de carga de cursos de 5 a 6 cursos

2. Aumento de la demanda del equipo de curling durante la temporada de competición

3. Falta de interés en el material del curso

Antes de registrarse para los cursos de segundo año, Holly decidió programar una cita con un
asesor académico para hablar sobre su futuro. El software
El mapa del programa de ingeniería enumera 5 cursos que se tomarán en el primer semestre de
año 2; Matemáticas discretas (ENGR2110U), Fundamentos de ingeniería eléctrica (ENGR2200U),
Programación orientada a objetos (ENGR2710U), Ecuaciones diferenciales (MATH2860U) y una
asignatura optativa de estudios liberales. debido a ella
desempeño deficiente en cursos de matemáticas anteriores, Holly está particularmente preocupada
sobre cómo tomar Ecuaciones Diferenciales y Fundamentos de Ingeniería Eléctrica.

Durante los primeros 5 minutos de la reunión de Holly con su asesor, discuten el motivo de su
visita y ella menciona las preocupaciones mencionadas anteriormente.
Durante esta discusión, el asesor puede ingresar los cursos requeridos en nuestro
Machine Translated by Google

6.1. Discusión 47

FIGURA 6.2: Escenarios de menor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, pero el curso de
matemáticas indica que recibir una F resulta en una menor probabilidad de éxito.

Sistema de Predicción del Éxito Estudiantil. Holly aún no está segura de qué optativa tomar,
por lo que el asesor simplemente ingresa los 4 cursos requeridos. El gráfico resultante se
muestra en la Figura 6.1. Como puede ver, todas las predicciones de escenarios se
encuentran a la derecha del punto medio, lo que significa que, en todos los casos generados,
es probable que Holly tenga éxito.
Sacar esta conclusión sin más exploración podría ser engañoso. Estos resultados
significan una cosa: que los estudiantes anteriores con un historial académico similar han
tenido éxito. Esto deja mucho espacio para la interpretación por parte del asesor, y es
importante que el asesor comunique que estos resultados no significan un éxito garantizado.

Para analizar más a fondo estos resultados, el asesor selecciona los escenarios con
menor probabilidad de éxito (Figura 6.2). Los gráficos de barras de resumen se actualizan
para mostrar qué calificaciones están presentes para cada curso en los escenarios seleccionados.
De inmediato podemos ver la alta frecuencia de F en MATH2860U. Deslizando la ventana de
selección hacia el extremo derecho del gráfico, Figura 6.3, podemos ver que las predicciones
más exitosas tienen una calificación mínima de C en MATH2860U.
Dada esta información, el asesor le comunicaría a Holly que debe concentrarse en obtener
buenos resultados en MATH2860U, y una calificación inferior a C en este curso podría reducir
su probabilidad de éxito.

Este análisis visual podría permitir una mayor discusión sobre la reducción
Machine Translated by Google

48 Capítulo 6. Conclusión y Discusión

FIGURA 6.3: Escenarios de mayor probabilidad seleccionados en el diagrama de enjambre de abejas ampliado.
Las distribuciones de calificaciones son similares para los tres cursos de ingeniería, y el curso de
matemáticas indica que recibir una calificación de C o superior conduce a una mayor probabilidad de
éxito.

carga de cursos para pasar más tiempo en cursos críticos y actividades


extracurriculares. Después de su reunión con el asesor, Holly se siente más segura
sobre su futuro académico y la gestión del tiempo en el próximo semestre.

6.1.2 Estudio de caso 2

Travis es un estudiante de negocios que fue admitido en 2012 y está en su segundo


año. Travis creció en una comunidad aproximadamente a 20 minutos de la
universidad y decidió vivir en su casa para ahorrar algo de dinero. Tiene un grupo
de compañeros con los que socializa mientras está en el campus, pero se espera
que esté en casa por las noches para contribuir con el hogar familiar. Terminó su
primer semestre del primer año con un GPA de 0.5. Esto colocó a Travis en período
de prueba académica, lo que significa que mientras su GPA acumulativo general
siga siendo bajo de 2.0, debe lograr un GPA semestral de 2.0 o corre el riesgo de
ser suspendido. El estrés adicional de evitar la suspensión académica motivó a
Travis a corto plazo, pero lo vio retirarse de 4 de 5 cursos más adelante en el
semestre. Obtuvo una C en el curso restante del semestre 2 (GPA de 2.0 semestres),
que fue suficiente para evitar la suspensión, pero no lo suficiente para que lo sacaran
del período de prueba académico (GPA general de 0.75). En este punto, Travis
decide programar una reunión con un asesor académico para discutir sus opciones.
Machine Translated by Google

6.1. Discusión 49

FIGURA 6.4: Diagrama Beeswarm que muestra la probabilidad de éxito de Travis con sus
cuatro platos elegidos. Los escenarios se encuentran cerca de la mitad del gráfico y cruzan el
punto medio.

Al comienzo de la reunión, Travis y el asesor proponen un conjunto de cursos para


tomar utilizando el mapa del programa relevante y cursos reprobados anteriormente.
Debido a su historial de retiro de cursos antes del final del semestre, deciden considerar
una carga de cursos reducida de 4 cursos.
Los cursos que Travis necesita tomar son Comunicaciones comerciales (BUSI1020U),
Microeconomía (ECON2010U), Matemáticas comerciales I (BUSI1915U) y Pensamiento
crítico y ética (BUSI1010U). El Asesor genera el gráfico y comienza su análisis superficial.

Como puede ver en la Figura 6.4, las predicciones caen por encima y por debajo del
punto medio de la gráfica. Esto significa que el predictor no está muy seguro de que
Travis tenga éxito o de que se retire. En este punto, el asesor debe señalar que los
escenarios de colores más claros (que representan calificaciones más altas en un
escenario) se encuentran a la derecha del punto medio, mientras que los escenarios de
colores más oscuros se encuentran a la izquierda. Deben comunicar que, a menos que
Travis se desempeñe bien académicamente, es probable que se retire. Esta información
debería generar una mayor discusión sobre las prioridades de Travis y los cambios que
podría hacer para mejorar sus calificaciones. Por ejemplo, podrían hablar sobre mudarse
a una vivienda en el campus, reducir aún más su carga de cursos o cambiar a un estado de medio tiempo
Machine Translated by Google

50 Capítulo 6. Conclusión y Discusión

FIGURA 6.5: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si toma
Biología como materia optativa. Todos los niveles de confianza se encuentran entre 0,59 y 0,85.

FIGURA 6.6: Diagrama de enjambre de abejas ampliado con la parte derecha filtrada. Los gráficos
de barras de resumen se actualizan en consecuencia para mostrar las distribuciones de calificaciones de
los escenarios filtrados.
Machine Translated by Google

6.1. Discusión 51

FIGURA 6.7: Gráfica de enjambre de abejas ampliada que muestra la probabilidad de éxito de Abby si ella
Toma Psicología como optativa. Los niveles de confianza se encuentran entre 0,55 y 0,86
que es similar a los resultados de Biología.

6.1.3 Estudio de caso 3

Abby es una estudiante de informática de primer año que va a su segundo semestre.


Abby hizo algunos amigos cercanos en su programa en el primer semestre y sintió que
se estaba adaptando bien a la vida universitaria. Cayó ligeramente por debajo del promedio en su
desempeño académico, terminando con una A-, cuatro C's y un GPA semestral de
2.34. A pesar de su decepcionante GPA semestral, Abby estaba orgullosa de haber
logró su mejor calificación en su curso de programación. Aunque ella no
le fue particularmente bien en su electiva, Biología I, lo disfrutó y planeaba tomar Biología II
como su electiva del segundo semestre. Abby quería tomar esto
oportunidad de mejorar su GPA y decidió programar una cita
con un Asesor Académico para discutir qué materia optativa tomar.

Como a Abby le gustaría tomar Biología II, el Asesor Académico entra


esta electiva en el Sistema de Predicción del Éxito Estudiantil junto con los 4 cursos requeridos:
Cálculo II (MATH1020U), Física II (PHY1020U), Talleres de Programación (CSCI1060U) y
Álgebra Lineal (MATH2050U). Abby expresa que está nerviosa por tomar Biología II con una
carga de cursos de ciencias ya pesada. Mirando la vista ampliada del gráfico, Figura 6.5,

podemos ver que los valores de probabilidad de éxito de Abby se encuentran entre 0,59 y 0,85.
Machine Translated by Google

52 Capítulo 6. Conclusión y Discusión

FIGURA 6.8: Diagrama de enjambre de abejas ampliado con la sección derecha filtrada. Los gráficos de barras de
resumen se actualizan para mostrar las distribuciones de calificaciones de los escenarios seleccionados.

Con un rango tan amplio de valores de confianza, Advisor filtra la sección derecha
del gráfico para ver la distribución de calificaciones en el extremo superior del
rango de confianza. Los gráficos de barras de resumen que se muestran en la
figura 6.6 indican que Cálculo y Física son los cursos más importantes con cero F
y los otros tres cursos con distribuciones similares. Con una buena comprensión
de su probabilidad de éxito si decide tomar Biología, Abby decide que le gustaría
ver las posibilidades con una materia optativa diferente. La mayoría de los amigos
de Abby han decidido tomar Introducción a la Psicología (PSYC1000U), por lo
que le pide al Asesor que cargue un cuadro usando este curso como optativo. La
vista ampliada resultante se muestra en la Figura 6.7. Los valores de probabilidad
de éxito se sitúan entre 0,55 y 0,86, muy similar al gráfico anterior. También
podemos ver un patrón de color similar en el que los colores más claros se
agrupan a la derecha del gráfico y los colores más oscuros se desvanecen a la
izquierda. Desde aquí, el Asesor filtra el gráfico para examinar las distribuciones
de calificaciones en el lado derecho del gráfico, Figura 6.8. Una vez más, los
gráficos de barras de resumen se ven muy similares. En este punto, el Asesor
podría comunicar que cursar Biología o Psicología conlleva una alta probabilidad
de éxito con un buen rendimiento académico. El asesor animaría a Abby a decidir
si se siente cómoda con un horario de mucha ciencia o si quiere tomar algo que los estudiantes tienden a h
Machine Translated by Google

6.2. Contribuciones 53

encuentran menos difíciles, como la Psicología.

6.2 Contribuciones

La principal contribución de esta tesis fue entrenar un modelo para predecir si un estudiante se retiraría o

no de la universidad dado su historial de calificaciones y su GPA de admisión con un nivel razonable de

precisión. El modelo de bosque aleatorio se entrenó utilizando vectores de estudiantes compuestos por

1500 características de curso con valores de calificación GPA y 1 característica de calificación de admisión

a la escuela secundaria con un valor de calificación GPA. El modelo tenía una precisión del 89% y una

precisión del 98%.

Además, diseñamos e implementamos un sistema de prueba de concepto que predice si un estudiante

abandonará o no los estudios dado un conjunto de cursos y calificaciones probables. El nivel de confianza

de estas predicciones se presenta como una medida de probabilidad de éxito. Dado que cada valor de
probabilidad de éxito está vinculado

a un conjunto de calificaciones, también podemos analizar las distribuciones de calificaciones con respecto

a un rango de niveles de confianza. Este tipo de interacción le permite al usuario ver qué cursos

posiblemente presentarán un mayor desafío e inspirar estrategias de gestión del tiempo.

6.3 Supuestos y limitaciones


En esta sección describiremos algunas suposiciones que hicimos y las limitaciones de nuestro trabajo.

6.3.1 Escasez de datos


Los modelos de aprendizaje automático son tan buenos como los datos con los que se entrenan. Tuvimos

la suerte de que la universidad tenga registros digitalizados consistentes desde que la escuela abrió en

2003. Sin embargo, dado que la escuela aún es relativamente nueva, nuestra población es pequeña.

Nuestra decisión de entrenar el modelo con solo 5 años de datos también redujo significativamente el

tamaño de la muestra. A medida que crece la población estudiantil, también lo hará la cantidad de datos

de capacitación. Los resultados de nuestro modelo son prometedores si se tienen en cuenta los tamaños

de muestra significativamente más bajos que se utilizan cuando se capacita a diferentes modelos en

pequeñas facultades de artes liberales de los Estados Unidos y otros tamaños de muestra pequeños [7,

13, 17, 20].


Machine Translated by Google

54 Capítulo 6. Conclusión y Discusión

6.3.2 Homogeneidad de nuestra Muestra


Otra limitación impuesta por nuestros datos de entrenamiento es la falta de homogeneidad

de nuestra muestra. Los estudiantes de nuestra muestra provienen de siete Facultades diferentes y 43

Programas diferentes. Si bien reconocemos que encajar en un modelo diferente

modelo para cada Facultad o Programa tendría sentido a partir de una homogeneidad

punto de vista, nuestra ya pequeña y escasa muestra de datos se volvería incluso

más pequeños y propensos a sobreajustarse.

6.3.3 Implementación del lado del servidor


Estábamos limitados por nuestra decisión de usar CGI en lugar de PHP o Node.js. Adeudado

Debido a las limitaciones de tiempo, elegimos usar una implementación CGI más simple donde el

El script CGI Python genera un archivo CSV y vuelve a cargar la página. Esta implementación generó

problemas para guardar sesiones y agregar nuevas parcelas Beeswarm.

con diferentes combinaciones de cursos en la misma página.

6.3.4 Factores externos

Necesitamos reconocer el hecho de que hay factores fuera de nuestro conjunto de datos.

que tienen una fuerte correlación con el éxito del estudiante, incluida la situación familiar y social del

estudiante, y el origen étnico. Por razones éticas decidimos no

incluir la etnicidad como una característica de entrenamiento. Además, la situación familiar y social de

un estudiante no puede representarse numéricamente o de otra manera con los datos

que tenemos acceso. Sin embargo, asumimos que estos factores impactan el

rendimiento académico del estudiante y son implícitamente capturados por el modelo predictivo.

6.4 Trabajo futuro

Este proyecto presenta un paso hacia el apoyo al éxito de los estudiantes con el aprendizaje automático.

El gráfico Beeswarm es una buena manera de visualizar la predicción.

niveles de confianza, y los gráficos de barras de resumen agregan otra capa de información útil

información. En el futuro, nos gustaría explorar diferentes formas de

visualizar la información resumida. Por ejemplo, podría ser interesante


Machine Translated by Google

6.4. Trabajo futuro 55

ver la distribución de leyes en todo el eje, o la densidad de leyes en


cada racimo.

El modelo de bosque aleatorio demostró que podíamos predecir con precisión con la
extracción usando información de cursos y calificaciones usando un predictor listo para usar.
Sería interesante ver el desempeño de una más sofisticada
modelo.

El modelo predictivo también podría usarse para implementar una alerta temprana
sistema. Avanzando en esta dirección, hay algunas opciones diferentes. Para
ejemplo, usando el modelo actual, si los asesores dirigieran a todos los estudiantes a través del
modelo predictivo, el sistema podría señalar a todos los estudiantes que se prevé
retirarse (o algún otro umbral de confianza).

También hemos discutido la inclusión de otras fuentes de datos en la capacitación.


establecer. Estas otras fuentes podrían incluir datos recopilados a través de Blackboard,
Sistema de gestión de aprendizaje (LMS) de Ontario Tech. Los LMS recopilan "estudiantes
actividad "información que incluye el número de inicios de sesión del sistema, archivos accedidos,
tareas y archivos enviados, etc. Esta información podría usarse para generar una función para
describir el nivel de participación del curso de un estudiante. Otro
la fuente podría ser puntos de acceso Wi-Fi del campus. Esta información podría permitir
nosotros para ver con qué frecuencia un estudiante viene al campus, e incluso si o no
están asistiendo a su conferencia, laboratorio o tutorial programado. Otra fuente de datos
interesante sería la oficina de ayuda financiera. Muchos estudiantes se retiran
de la escuela por motivos económicos, aunque no se ha investigado mucho [10]. Usando
información sobre quién pudo acceder a la ayuda financiera, cuánto
calificado para, etc. agregaría otro factor que influye en la deserción junto con el historial
académico y mejoraría el modelo predictivo. Usando cualquiera de
estas fuentes de datos podrían interpretarse como invasivas y requerirían una
nivel adicional de seguridad para garantizar la privacidad.

En un intento por abordar la falta de homogeneidad en nuestra muestra de entrenamiento,


consideraríamos incluir Facultad y/o Programa como una característica de capacitación.
Actualmente, esperamos que el modelo pueda diferenciar vagamente entre Facultades y
Programas en función de los cursos que toma un estudiante. Incluyendo estos
características de entrenamiento permitirían al modelo diferenciar explícitamente entre
estos grupos definidos de estudiantes. Para abordar aún más la homogeneidad, nos gustaría
considere incluir el número de semestre como una función de capacitación. Esperamos que el
el modelo actual puede determinar vagamente el nivel semestral o anual del estudiante
Machine Translated by Google

56 Capítulo 6. Conclusión y Discusión

basado en el número de cursos tomados y los códigos de curso específicos. Incluir el número del
semestre podría permitir que el modelo diferencie explícitamente
entre los estudiantes de primer año que toman cursos de primer año y los estudiantes de tercer año
tomando cursos de primer año.
Finalmente, este trabajo se beneficiaría de una evaluación formal. Nos gustaría
realizar un estudio de usuarios para evaluar la usabilidad de nuestra aplicación. esto ayudaría
entender cómo los usuarios potenciales interpretan las visualizaciones y las formas de
comunicar los resultados a los estudiantes. Con el desarrollo de la aplicación en curso, los
comentarios de los usuarios de un estudio podrían ayudarnos a mejorar la
interfaz con diferentes filtros y visualizaciones.

6.5 Conclusión
Podemos concluir que nuestro sistema es un paso prometedor para garantizar el éxito de los
estudiantes desde una perspectiva de visualización y aprendizaje automático. Nosotros
fueron capaces de predecir si un estudiante abandonaría o no los estudios con un nivel razonable
de precisión, y usaron el nivel de confianza de la predicción para transmitir una
probabilidad de éxito. Sin una evaluación formal de nuestro sistema, es difícil
decir que la interfaz actual tiene éxito en términos de interacción con el
modelo subyacente y mostrar información de manera significativa. Sin embargo, a través de
nuestro método de diseño iterativo recibimos comentarios
de asesores académicos que nos lleva a creer que la interfaz actual es adecuada

quate
En resumen, pudimos entrenar un algoritmo de aprendizaje automático y diseñar e implementar
un sistema que respalda el éxito de los estudiantes al presentar un
puntuación de probabilidad de éxito.
Machine Translated by Google

57

Apéndice A

Datos del estudiante

Las siguientes tablas describen los atributos de datos que nos proporcionó

Universidad Tecnológica de Ontario.

Atributo Descripción

IDENTIFICACIÓN

Número de identificación de estudiante anónimo

Código de término Indica el término que estuvo el curso

tomado

Código del curso Código de asunto de 3 a 4 letras seguido de 4 dígitos

numero de curso. Universidad Tecnológica de Ontario

los códigos de cursos de pregrado terminan con una U,

los códigos de los cursos de posgrado terminan con una G, y


Los códigos de los cursos de Trent terminan en T

Título del curso Título completo por supuesto

NRC El Número de Referencia del Curso es un número de 5 dígitos

número para identificar de forma única las secciones del curso

Tipo de horario Ya sea que la sección sea una conferencia, laboratorio, tutorial,

web, etc.

Sección Inscripción Número de alumnos matriculados en una sección

Indicador de Repetición de Curso Si el estudiante ha tomado o no el


curso más de una vez

Continúa en la siguiente página


Machine Translated by Google

58 Apéndice A. Datos del estudiante

Tabla A.1 – Continuación de la página anterior

Atributo Descripción

Nota final La calificación final con letra que recibió el estudiante


en el curso

identificación del instructor


Número de identificación anónimo del instructor
que dictó el curso

Lunes Indica si el curso se ofreció en un

Lunes

martes Indica si el curso se ofreció en un

martes

miércoles Indica si el curso se ofreció en un

miércoles

jueves Indica si el curso se ofreció en un

jueves

Viernes Indica si el curso se ofreció un viernes

día

Hora de inicio Hora de inicio del curso

Hora de finalización hora de finalización del curso

TABLA A.1: atributos y descripciones de los datos de la historia del curso. Estos datos fueron usados
para compilar nuestros datos de capacitación utilizando el código del curso, la calificación final y el código del período
columnas

Atributo Descripción

IDENTIFICACIÓN

Número de identificación de estudiante anónimo

Año Año de ingreso del estudiante

Nivel de año Nivel de año del estudiante cuando es admitido

Facultad Estudiante de la facultad fue aceptado para

Continúa en la siguiente página


Machine Translated by Google

Apéndice A. Datos del estudiante 59

Tabla A.2 – Continuación de la página anterior

Atributo Descripción

Programa El estudiante del programa fue aceptado para

Ciudad Inicial Ciudad donde vivía el estudiante al momento de la solicitud

Código postal Código postal donde vivía el estudiante en ese momento

de aplicación

Código del condado Código de cuatro dígitos para el condado donde

el estudiante vivía en el momento de la solicitud

Nombre del condado Nombre del condado donde el estudiante

vivido en el momento de la solicitud

Años Edad del estudiante en el momento de la primera matriculación

IMSTAT Estatus migratorio (Ciudadano Canadiense, Residente

Permanente, VISA)

SESTOT Número de semestre para completar la carrera

SESLEV Semestre en el que está matriculado el estudiante

ETC Equivalente a tiempo completo (cantidad de horas actualmente

inscritas/cantidad de horas de crédito de

programa por año)

Estado de tiempo CSRDE El estado de tiempo de CSRDE es 80% de la carga del curso

Estado de tiempo El estado del tiempo de Ontario Tech es de más de 9 horas de crédito

por término

Admitir Código Tipo de ingreso (bachillerato, maduro

estudiante, transferencia universitaria, etc.)

REZ Indica si el estudiante vive o no en

instalaciones

Género

Continúa en la siguiente página


Machine Translated by Google

60 Apéndice A. Datos del estudiante

Tabla A.2 – Continuación de la página anterior

Atributo Descripción

Código de etnicidad Estado de Primera Nación

promedio publicitario promedio de admisión a la escuela secundaria

promedio general administrativo


GPA equivalente a la admisión a la escuela secundaria

promedio

Retorno +1 año – +10 años Columnas separadas que indican si el estudiante

regresado después del 1er año, 2do año, 3er

año, etc

Graduado 4 años - 10 años Columnas separadas que indican si el estudiante

graduado después de 4 años, 5 años, etc.

Graduado
Indica si el estudiante se graduó

programa de posgrado Programa del que se graduó el estudiante

facultad de posgrado Facultad de la que se graduó el estudiante

Año de graduación Año en que se graduó el estudiante

Programa +1 año Programa en el que estuvo el estudiante después del primer año

GPA 1er semestre GPA semestral para el semestre 1

GPA 1er año GPA acumulativo después del año 1

continuación 2do semestre Indica si el estudiante continuó a segundo


semestre

Suspender +1 año Indica si el estudiante fue suspendido después del año 1

Retirar ¿Se retiró el estudiante después del año 1?

cr_tkn_1t Número de horas de crédito intentadas en


Semestre 1

cr_pass_1t Número de horas de crédito aprobadas en el semestre.


1

Continúa en la siguiente página


Machine Translated by Google

Apéndice A. Datos del estudiante 61

Tabla A.2 – Continuación de la página anterior

Atributo Descripción

créditos F o W Número de horas de crédito reprobadas o con


dibujado

Consejo Escolar Junta de la escuela secundaria de la que proviene el estudiante

Escuela secundaria La escuela secundaria de la que proviene el estudiante.

Código de la Junta Escolar Código de cinco dígitos de la junta escolar de donde


proviene el estudiante

Abandonar Indica si el estudiante abandonó

Quedarse fuera Indica si el estudiante se detuvo (izquierda


y volvió)

persistir Indica si el estudiante persiste

#ÿaños se detienen Número de años detenidos

tiempo de grado Número de años para obtener el título desde el primer


registro

TABLA A.2: atributos y descripciones de datos brutos de retención. El GPA de adm y


Las columnas persistentes se utilizaron en el conjunto de entrenamiento final.
Machine Translated by Google

62

Bibliografía

[1] Lovenoor Aulck et al. “Predicción de la deserción estudiantil en la educación superior


ción”. En: Conferencia Internacional sobre Aprendizaje Automático (junio de 2016), págs. 16–
20. ISSN: 0018-8158.

[2] Lovenoor Aulck et al. STEM-ming the Tide: Predecir el desgaste de STEM
utilizando los datos del expediente académico de los estudiantes. tecnología reps. 2017.

[3] Rebecca Barber y Mike Sharkey. “Corrección del curso: uso de análisis
para predecir el éxito del curso”. En: Conferencia Internacional sobre Analítica del
Aprendizaje y Conocimiento. ACM Press, 2012, págs. 259–262. ISBN: 9781450311113.

[4] Jaroslav Bayer et al. “Predicción de la deserción a partir del comportamiento social de
Estudiantes." En: Conferencia Internacional sobre Minería de Datos Educativos (junio
2012).

[5] Datos comunes de la Universidad de Ontario. 2015. URL: https://cudo.ouac.on.


ca/page.php?id=7%7B%5C&%7Dtable=23%7B%5C#%7Duniv=1,2,3,8,9,
11,12,14,16,17,21,22,23,24,25,27,28,29,30,31,32,33,34,42%

7B%5C&%7Dy=2016 (visitado el 11/06/2019).

[6] Shane Dawson et al. "Estado actual y tendencias futuras: un análisis de red de citas del campo

de análisis de aprendizaje". En: International Conference on Learning Analytics And


Knowledge. Nueva York, Nueva York, Estados Unidos:
ACM Press, 2014, págs. 231–240. ISBN: 9781450326643.

[7] Mykola Dekker Gerben W. y Pechenizkiy y Jan M. Vleeshouwers.


“Predicción de la deserción estudiantil: un estudio de caso”. En: Conferencia Internacional
sobre Minería de Datos Educativos (julio de 2009).

[8] Dursun Delen. “Predicción de la deserción estudiantil con métodos de minería de datos”. En:
Revista de Retención de Estudiantes Universitarios: Investigación, Teoría y Práctica
13.1 (mayo de 2011), págs. 17 a 35. ISSN: 1521-0251.
Machine Translated by Google

BIBLIOGRAFÍA 63

[9] Colin Fay. [ggplot2] ¡Bienvenida viridis! - (es) El grupo de trabajo R. 2018. URL: https://
rtask.thinkr.fr/blog/ggplot2-welcome-viridis/ (visitado el 05/07/2019).

[10] David S. Fike y Renea Fike. “Predictores de la Retención de Estudiantes de Primer Año

en el Community College”. En: Community College Review 36.2 (octubre de 2008),


págs. 68–88. ISSN: 0091-5521.

[11] Eibe Frank y Mark Hall. Visualización de estimadores de probabilidad de clase. tecnología
reps. 2003.

[12] Sandeep M. Jayaprakash et al. “Alerta temprana de estudiantes en riesgo académico: una
iniciativa de análisis de código abierto”. En: Journal of Learning Analytics 1.1 (mayo de
2014), págs. 6–47.

[13] Zlatko J. Kovaÿci´c. "Predicción temprana del éxito de los estudiantes: extracción de datos de

inscripción de estudiantes". En: Conferencia de Educación sobre Ciencias de la Información y TI. 2010.

[14] Kaisa Miettinen. “Encuesta de métodos para visualizar alternativas en problemas de toma
de decisiones multicriterio”. En: OR Spectrum 36.1 (enero de 2014), págs. 3–37. ISSN:
0171-6468.

[15] DFO Onah, J Sinclair y Boyatt. “Tasas de Abandono de Cursos Masivos Abiertos en Línea”.
En: Conferencia Internacional sobre Educación y Nuevas Tecnologías de Aprendizaje)
(2014), pp. 1–10. ISSN: 2340-1117.

[16] Kathleen Pittman. "Comparación de técnicas de minería de datos utilizadas para predecir
la retención de estudiantes". Tesis doctoral. 2008, pág. 416. ISBN: 0549474684.

[17]Kevin Rask. “Deserción en los campos STEM en una universidad de artes liberales: la
importancia de las calificaciones y las preferencias preuniversitarias”. En: Economics
of Education Review 29.6 (diciembre de 2010), págs. 892–900. ISSN: 02727757.

[18] Virginia Staudt Sexton. “Factores que contribuyen a la deserción en poblaciones


universitarias: veinticinco años de investigación”. En: The Journal of General Psychology
72.2 (abril de 1965), págs. 301–326. ISSN: 0022-1309.

[19] Dawal Shah. En cifras: MOOCS en 2018 — Class Central. 2018.


(Visitado el 17/04/2019).

[20] JF Superby, JP Vandamme y N Meskens. “Determinación de factores que influyen en el


rendimiento de los estudiantes universitarios de primer año utilizando métodos de
minería de datos”. En: Congreso Internacional de Sistemas Tutores Inteligentes. 2006,
págs. 1 a 8.
Machine Translated by Google

64 BIBLIOGRAFÍA

[21] Mack Sweeney et al. “Predicción del rendimiento estudiantil para el próximo período: una
Enfoque de sistemas de recomendación”. En: (2016).

[22] Vicente Tinto. “Deserción de la Educación Superior: Una Síntesis Teórica de Investigaciones
Recientes”. En: Revisión de Investigación Educativa 45.1 (1975),
págs. 89–125.

[23] Vicente Tinto. “De la Teoría a la Acción: Explorando las Condiciones Institucionales para la
Retención Estudiantil”. En: De la teoría a la acción: explorando el
Condiciones Institucionales para la Retención Estudiantil. Review of Educational
Research, 2010, págs. 51–89. ISBN: 9780874216561.

También podría gustarte