Está en la página 1de 182

TÍTULO PROYECTO

MODELO PREDICTIVO DE LA MORTALIDAD ACADÉMICA DEL PROGRAMA DE


INGENIERÍA DE SISTEMAS DE LA USTA SECCIONAL TUNJA BASADO EN TÉCNICAS
DE MACHINE LEARNING

PROPONENTE(S)

Juana Valentina Mendoza Santamaría

1049659604

2274474

DIRECTOR

Ingeniera Martha Susana Contreras Ortiz

Tunja

13 de junio del 2023


Tabla de Contenido
1. FICHA TÉCNICA DEL PROYECTO.....................................................................................3
2. PLANTEAMIENTO DEL PROBLEMA..................................................................................4
3. JUSTIFICACIÓN..................................................................................................................6
4. OBJETIVOS.........................................................................................................................8
5. ESTADO DEL ARTE............................................................................................................9
6. MODELO DE DESARROLLO............................................................................................18
7. DESARROLLO DEL PROYECTO......................................................................................20
8. CONCLUSIONES Y ANÁLISIS DE RESULTADOS..........................................................86
9. REFERENCIAS..................................................................................................................89
10. ANEXOS..........................................................................................................................92
1. FICHA TÉCNICA DEL PROYECTO

Modelo predictivo de la mortalidad académica del programa


Título de Ingeniería de Sistemas de la USTA Seccional Tunja
basado en técnicas de Machine Learning
Autor Juana Valentina Mendoza Santamaría
Director del proyecto Ingeniera Martha Susana Contreras Ortiz
Deserción Estudiantil, Educación Superior, Ingeniería de
Palabras claves
Sistemas, Machine Learning, Mortalidad Académica
Descripción
El objetivo del proyecto consistió en desarrollar un modelo predictivo con técnicas de machine
learning, que permitió identificar los casos de mortalidad académica que pueden conllevar a la
deserción de los estudiantes en el programa de ingeniería de sistemas. El trabajo inició con un
análisis bibliométrico para recopilar los datos de las investigaciones que hayan implementado el
aprendizaje automático en el estudio de la deserción académica. Asimismo, se indagó sobre las
técnicas de machine learning que mejor se ajustan al tema y las experiencias internacionales.
Posteriormente, se consolidó el dataset a partir de la información académica de los estudiantes
de ingeniería de sistemas durante los periodos 2018-1 al 2021-2. Después, se aplicó la
ingeniería de características para determinar cuáles eran las más relevantes para un predictor
de deserción. De esta forma, se determinó el modelo de aprendizaje automático para la
predicción de estudiantes de ingeniería de sistemas en la universidad. Este proceso se realizó
mediante la comparación de índices de desempeño, al utilizar diferentes algoritmos de machine
learning con la información previamente recopilada. Posteriormente, se realizó la validación del
modelo, mediante la técnica de la validación cruzada. Por último, se desplegó un dashboard con
los factores que influyen en la deserción académica estudiantil y las predicciones de riesgo de
deserción en los estudiantes.
2. PLANTEAMIENTO DEL PROBLEMA

Las instituciones de educación superior se enfrentan al desafiante reto de prevenir la


deserción estudiantil y, asimismo, los estudiantes experimentan diferentes problemáticas
socioeconómicas, académicas, institucionales y personales que afectan su rendimiento y
permanencia (Sierra & Hernández, 2014). Para mitigar el riesgo de la deserción estudiantil,
la gran mayoría de las universidades han implementado distintas estrategias, tales como: la
creación de organismos para el apoyo estudiantil, el desarrollo de sistemas de alertas
tempranas, la disposición del servicio de monitorias académicas, la caracterización de los
estudiantes, entre otras. Por su parte, en los programas de Ingeniería se han identificado
áreas específicas con altos niveles de deserción y mortalidad académica, en especial en las
asignaturas del área de ciencias básicas. Muchos estudios han diagnosticado las causas de
esta manifestación, debido a factores socioeconómicos, la débil preparación del área en la
educación básica y media, la apatía de algunos de los estudiantes por estos espacios
académicos, entre otras (Universidad de los Andes, 2014). Los estudiantes de Ingeniería de
Sistemas no escapan de esta situación, aunque manifiestan motivación por su carrera,
algunos desertaron de sus estudios. Además, fenómenos recientes como la pandemia del
COVID-19, también han influido en la mortalidad académica y retraso en la graduación o
posterior deserción, debido a diferentes factores como la afectación económica, la no
disponibilidad de los recursos tecnológicos requeridos y problemas de salud propios o de
algún familiar.

En su compromiso con el proceso educativo de los estudiantes, la Universidad Santo


Tomás seccional Tunja conformó la Unidad de Desarrollo Integral Estudiantil (UDIES) para
realizar el acompañamiento en sus procesos de ingreso, participación, permanencia y
graduación oportuna (Hernández Romero et al., 2021) y el Departamento de Registro y
Control para consolidar el histórico académico de las notas de los estudiantes. El
Departamento de Registro y Control genera informes del rendimiento académico de los
estudiantes en archivos planos. Sin embargo, los informes no se generan de forma
automática. Por lo cual, este proyecto tiene como motivación generar predicciones de
deserción académica estudiantil, que apoyen a estos estamentos y a la Facultad de
Ingeniería de Sistemas, para el seguimiento de los casos particulares de los estudiantes.

A partir de lo anterior, surge el interés de proponer un proyecto que se centra en cómo


predecir la deserción académica, con base en los datos históricos de los estudiantes de
Ingeniería de Sistemas de la USTA Tunja. Además, es importante establecer la tipología de
los datos recolectados, para poder determinar cuáles son los factores influyentes en la
deserción académica estudiantil.
Este proyecto plantea la siguiente pregunta de investigación: ¿Cómo predecir el riesgo de
deserción académica de los estudiantes de la Facultad de Ingeniería de Sistemas, mediante
técnicas de Machine Learning?
3. JUSTIFICACIÓN

El modelo predictivo propuesto es una herramienta que puede apoyar a los directivos de
UDIES, y el Departamento de Registro y Control con la toma de decisiones y mecanismos,
para la prevención de la deserción académica en los estudiantes de la Facultad de
Ingeniería de Sistemas. Cabe resaltar que, el modelo propuesto genera predicciones a partir
de solicitudes, que constituyen un insumo significativo para la atención oportuna a los
estudiantes.

La población objetivo de esta investigación son los estudiantes de la Facultad de Ingeniería


de Sistemas, no obstante, este modelo puede ser replicado en otras facultades de la
universidad. Comúnmente, las facultades llevan a cabo procesos de calidad para identificar
oportunidades de mejora, y generar acciones que favorezcan la permanencia y minimicen la
deserción estudiantil. Actualmente, esta labor se apoya de la plataforma SIIM (Sistema
Integrado de Información Multicampus) y el sistema SAC (Sistema Académico), sin
embargo, esto requiere un alto porcentaje de intervención humana. Mediante la aplicación
de este modelo estos procesos pueden ser más ágiles y precisos.

En la comunidad estudiantil cada miembro tiene un proyecto de vida que involucra al


individuo y a su entorno más cercano, y no debe limitarse a un número que hace parte de
una estadística. No obstante, las estadísticas contribuyen a identificar la tendencia de los
casos de estudio, y permiten apoyar la toma de decisiones y acciones de mejora según se
requiera.

La tasa de deserción estudiantil de la Facultad de Ingeniería de Sistemas de los estudiantes


que ingresaron en los periodos del 2008-1 a 2015-1, se puede apreciar en la Figura 1. Cabe
resaltar que, a pesar de que con el tiempo se disminuyó el porcentaje de deserción
estudiantil, este es significativamente alto. Este porcentaje puede ser causado por el
reducido número de ingresos de los estudiantes, ver Figura 2. Asimismo, otro motivo de la
deserción estudiantil se debe al bajo rendimiento académico de estos estudiantes en las
materias del área de ciencias básicas. También, desafortunadamente algunos estudiantes
atraviesan por diferentes problemáticas socieconómicas, que afectan su desempeño y
concentración en su formación académica.
Figura 1. Reporte académico de las cohortes 2008-1 a 2015-1 de Periodo académico vs Deserción estudiantil

Fuente: Autor, basado en (UDIES - Unidad de Desarrollo Integral Estudiantil, 2020)

Figura 2. Reporte académico de las cohortes 2008-1 a 2015-1 de Periodo académico vs Cantidad estudiantes

Fuente: Autor, basado en (UDIES - Unidad de Desarrollo Integral Estudiantil, 2020)

Por lo tanto, para la Universidad Santo Tomás seccional Tunja es fundamental tomar
acciones preventivas, para reducir las tasas de deserción académica en los estudiantes, y
dar acompañamiento oportuno a la comunidad estudiantil.
4. OBJETIVOS

4.1. Objetivo General


Diseñar un modelo para la predicción de la mortalidad académica de los estudiantes del
programa de Ingeniería de Sistemas de la Universidad Santo Tomás seccional Tunja,
mediante un algoritmo supervisado de Machine Learning.

4.2. Objetivos específicos

A continuación, se presentan los objetivos específicos.

Tabla 1. Objetivos específicos

Nro. Objetivo específico


Identificar causales de mortalidad académica en una institución de educación superior y
las estrategias orientadas a su prevención, mediante revisión de la literatura y
1
recopilación de información en la Unidad de Desarrollo Integral Estudiantil - UDIES, de
la Universidad Santo Tomás seccional Tunja.

Formular un modelo de predicción de mortalidad académica basado en técnicas de


2 Machine Learning, que permita identificar los parámetros más influyentes que conllevan
a la deserción académica en el programa de Ingeniería de Sistemas.

Construir un dashboard que permita la integración y la visualización de los resultados


3
obtenidos al ejecutar el modelo predictivo.

4 Evaluar el desempeño y la utilidad del modelo propuesto, mediante validación cruzada.

Fuente: Autor
5. ESTADO DEL ARTE

El núcleo temático de este proyecto de desarrollo tecnológico incluye la investigación sobre


un análisis predictivo de la deserción académica estudiantil, en un programa de Ingeniería
de Sistemas. De esta forma, se formula la siguiente cadena de búsqueda “Student
dropout” + “Machine Learning”, para establecer el interés y caudal científico de esta
temática. Para ello, en las bases de datos de Scopus y WoS (Web Of Science) se aplicaron
los siguientes criterios de inclusión:

 Los estudios deben de estar escritos en inglés.


 Los estudios deben de estar publicados a partir del año 2017 a 2022.
 Los estudios deben de estar enfocados a una población de educación superior con
 modalidad presencial.
 Los estudios correspondían a artículos de revista o artículos de conferencias.
 Los estudios deben de incluir técnicas de Machine Learning o de minería de datos.
 Los estudios deben de aportar valor al presente proyecto y contribuir a dar respuesta
a la pregunta de investigación.
 Los estudios están enfocados a una población de Engineering o Computer Science.

Figura 3. Búsqueda sistemática en la base de datos de Scopus.

Fuente: Autor
Figura 4. Búsqueda sistemática en la base de datos de WoS.

Fuente: Autor

Cabe resaltar que, para la base de datos de Scopus finalmente se recopilaron un total de 91
investigaciones, como se puede apreciar en la Figura 3, mientras que para la base de datos
WoS, se obtuvieron un total de 16 estudios (ver Figura 4). Por lo tanto, se reúnen un total de
107 estudios que utilizan técnicas de aprendizaje automático, para identificar los principales
factores que conllevan a la deserción estudiantil.

Además, de acuerdo con la Figura 5, se puede afirmar que los estudios de la base de datos
de Scopus fueron publicados en su mayoría dentro de los periodos 2020 a 2022. Por otra
parte, en la Figura 7 los estudios que más fueron publicados en WoS se encuentran dentro
de los periodos 2019 a 2021, por lo tanto, la predicción de la deserción estudiantil es un
tema vigente y en tendencia. En la Figura 6, se observa que a nivel latinoamericano los
países con mayores publicaciones son Brasil y Chile. Sin embargo, en el caso de WoS se
evidencia que los países con más concurrencia en el tema son Estados Unidos de América
e Italia (ver Figura 8).
Figura 5. Años de publicación de los documentos en la base de datos de Scopus.

Fuente: Scopus

Figura 6. Países de publicación de los documentos en la base de datos de Scopus.

Fuente: Scopus
Figura 7. Años de publicación de los documentos en la base de datos de WoS.

Fuente: WoS

Figura 8. Países de publicación de los documentos en la base de datos de WoS.

Fuente: WoS
Posteriormente, para la recopilación y análisis de los artículos se emplean las herramientas
de software VOSviewer y ScientoPy. ScientoPy es una herramienta de análisis
cienciométrico de código abierto basada en Python. Permite importar los conjuntos de datos
de WoS y Scopus. Además, filtra las publicaciones por tipo de documento y combina el
conjunto de datos de WoS y Scopus en función de una tabla de correlación de etiquetas de
campo (Ruiz-Rosero et al., 2019). Mediante la herramienta de ScientoPy se preprocesaron
los 91 documentos de Scopus, de manera que, se eliminaron los documentos duplicados
equivalentes a un 11%. Por otra parte, en el caso de WOS no se presenta ningún
documento duplicado (ver Figura 9).

Figura 9. Documentos preprocesados en ScientoPy.

Fuente: ScientoPy

Conforme a la Figura 10, el tema del análisis de la deserción estudiantil en universidades


mediante técnicas de Machine Learning es un tema que en los últimos años ha tenido un
creciente impacto. Además, los algoritmos de Machine Learning de Clasificación y Random
Forest tienen una gran implementación para predecir la deserción estudiantil. También, se
puede analizar que las técnicas de minería de datos también se usan para este campo de
estudio. Adicionalmente algunos proyectos analizan la deserción estudiantil en un entorno
virtual (MOOC o Learning Analythics), sin embargo, el alcance de este proyecto es la
deserción estudiantil en la modalidad presencial.
Figura 10. Los documentos publicados en 2020 a 2021.

Fuente: ScientoPy

VOSviewer es una herramienta de software para construir y visualizar redes bibliométricas


(CWTS, 2022). Estas redes pueden incluir, por ejemplo, revistas, investigadores o
publicaciones individuales, y pueden construirse sobre la base de relaciones de citación,
acoplamiento bibliográfico, co-citación o coautoría. Para la construcción de las gráficas se
seleccionan las palabras claves (ver Figura 11); éstas son importantes, ya que permiten
eliminar documentos que se desvían de la temática del proyecto.

Figura 11. Palabras claves a tener en cuenta para VOSviewer.

Fuente: VOSviewer
En la Figura 12 de visualización de la red, se pueden identificar 3 clústeres: clasificación,
predicción de deserción e Inteligencia Artificial. Del clúster de clasificación se desprenden
las ramas de deserción estudiantil, Decision Trees, deserción, Random Forest y predicción.
Por otro lado, para el clúster de predicción de deserción se desprenden las ramas de
educación superior y Machine Learning. Por último, en el clúster de Inteligencia Artificial se
desprenden las ramas de predicción de deserción estudiantil y Minería de Datos
Educacional.

Figura 12. Network Visualization VOSviewer.

Fuente: VOSviewer

Finalmente, para las bases de datos de Scopus y WoS (Web Of Science) se aplican los
siguientes criterios de exclusión (ver Figura 13):

 Los estudios no deben de estar relacionados con la modalidad virtual o mencionar


las palabras de MOOC, MOOCs LMS (Sistema de gestión de aprendizaje), e-
learning u online.
 Los estudios no deben estar enfocados a una población de escuela media.
Figura 13. Búsqueda sistemática final para WoS y Scopus.

Fuente: Autor

En el proceso de revisión de literatura se lograron identificar los factores más influyentes en


la deserción estudiantil, donde se destacan los aspectos académicos, socioeconómicos y
personales (ver Tabla 2). Estos dos últimos factores incluyen información sensible y de
difícil acceso, por lo que suelen ser una limitación para estos proyectos.

Por otra parte, en la última columna de la tabla 3, se seleccionaron los algoritmos de


Machine Learning que lograron mejores accuracy (exactitud) en cada uno de los estudios.
Con base en la información recopilada, se puede concluir que los algoritmos de Machine
Learning que obtuvieron mejores resultados fueron: Decision Tree (DT), Support Vector
Machine (SVM) y Random Forest (RF).
Tabla 2. Caracterización de estudios primarios.

Factores de Algoritmos de Machine


Estudio Referencias Año
deserción Learning
A real-life machine learning (Fernandez-
Support Vector Machine
experience for predicting Garcia et al., 2021 Académicos Ensemble model
university dropout at different 2021) Random Forest
stages using academic data
Analysis of first-year university Random Forest
(Opazo et Académicos
student dropout through machine Gradient Boosting Decision
al., 2021) 2021 Socioeconómicos
learning models: A comparison Tree
Personales
between universities Decision Tree
Predicting First-Year Computer
(Maksimova Naive Bayes
Science Students Drop-Out with
et al., 2021) 2021 Académicos Support Vector Machine
Machine Learning Methods: A
Neural Network
Case Study

Predicting student dropout: A (Kemper et Académicos Logistic Regression


2020
machine learning approach al., 2020) Personales Decision Tree

(Del Bonifro Académicos Support Vector Machine


Student dropout prediction 2020
et al., 2020) Personales Linear Discriminant Analysis

(G. A. S.
EvolveDTree: Analyzing Student Académicos
Santos et 2020 Decision Tree
Dropout in Universities Socioeconómicos
al., 2020)
(Timaran
A machine learning approach to Pereira & Académicos Support Vector Machine
identifying students at risk of Caicedo 2020 Socioeconómicos Logistic Regression
dropout: a case study Zambrano, Personales Decision Tree
2017)
Supervised learning in the
(de O. Decision Tree
context of educational data
Santos et 2019 Académicos Random Forest
mining to avoid university
al., 2019) Support Vector Machine
students dropout
Educational data mining:
(da Fonseca Generalized Linear Model
Analysis of drop out of Académicos
Silveira et 2019 Random Forest
engineering majors at the UnB – Socioeconómicos
al., 2019) Gradient Boosting Machine
Brazil
Predictive modelling of student
(Hutagaol & Académicos Ensemble model
dropout using ensemble
Suharjito, 2019 Socioeconómicos Naive Bayes
classifier method in higher
2019) Personales K-Nearest Neighbor
education
(Timaran
Application of decision trees for Pereira & Académicos
detection of student dropout Caicedo 2017 Socioeconómicos Decision Tree
profiles Zambrano, Personales
2017)
Fuente: Autor
6. MODELO DE DESARROLLO

La metodología empleada para este proyecto fue CRISP-DM (Cross Industry Standard
Process for Data Mining), la cual está compuesta por 6 fases iterativas: a) Comprensión del
negocio, b) Comprensión de los datos, c) Preparación de los datos, d) Modelado, e)
Evaluación y f) Despliegue, ver Figura 14.

Comprensión del negocio

La fase inicial del proyecto se enfoca en comprender la situación del negocio. Primero se
determina el objetivo general del proyecto, posteriormente, la definición del problema y un
plan previo para cumplir con los objetivos (Wirth & Hipp, 2000).

Comprensión de los datos

La fase de compresión de datos comienza con un proceso de recolección preliminar de


datos. Después, se debe hacer un análisis minuciosamente de los datos. Asimismo,
identificar los posibles problemas de calidad y detectar los subconjuntos de los datos. Esta
fase va de la mano con la anterior fase, ya que la formulación del plan del proyecto requiere
una comprensión de la información (Wirth & Hipp, 2000).

Preparación de los datos

La fase de preparación de datos abarca las actividades para construir el dataset final, a
partir de los datos sin procesar. Estos procesos pueden ser realizados iterativamente y no
en un orden establecido. Algunas de las tareas destacadas en esta fase son: selección de
tablas, registros y atributos, limpieza de datos, construcción de nuevos atributos y
transformación de datos para herramientas de modelado (Wirth & Hipp, 2000).

Modelado

En la fase del modelado, se seleccionan los modelos de Machine Learning que mejor se
ajusten al dataset. Para elegir el modelo indicado, se deben calibrar los parámetros para
obtener los valores más óptimos, respecto a las métricas de evaluación, como lo son:
precision, recall, f1 y accuracy (Wirth & Hipp, 2000).
Evaluación
En la fase de evaluación, los resultados se comparan con los objetivos definidos del
proyecto y se toman decisiones respecto a la configuración del modelo (Schröer et al.,
2020).

Despliegue
En la fase de despliegue, se elabora detalladamente la guía del usuario. Este documento
describe cómo utilizar, supervisar y mantener el aplicativo. Además, se implementa una
aplicación de visualización para los datos (Schröer et al., 2020).

Figura 14. Ciclo de vida de la metodología CRISP-DM.

Fuente: traducido de (kdnuggets, 2017)


7. DESARROLLO DEL PROYECTO

A continuación, se desarrollan las fases de la metodología CRISP-DM:

7. 1 Comprensión del negocio

En la fase de Compresión del Negocio, se realizó un estudio del entorno del proyecto para
poder identificar las personas y entidades involucradas (ver Tabla 3). Para ello, se llevó a
cabo una reunión con las entidades de la universidad de Registro y Control y UDIES, donde
expresaron sus funciones, intereses y necesidades por el desarrollo de un modelo de
predicción de deserción estudiantil (ver anexo 1 - Actas de Reuniones con Registro y
Control y UDIES). Asimismo, compartieron las clasificaciones de los determinantes de la
deserción estudiantil del Sistema Nacional de Información de la Educación Superior SNIES
(Sistema Nacional de Información de la Educación Superior), aplicados en la universidad.
Los determinantes son: académicos, personales, socioeconómicos, e institucionales
(Universidad de los Andes, 2014). Sin embargo, la mayoría de estas categorías
corresponden a contextos sensibles y de difícil acceso. Por lo cual, este estudio se centró
en la información académica de los estudiantes.

Cabe aclarar que para este trabajo se tomaron como sinónimos los tres términos
denominados materias, asignaturas y espacios académicos. Esto debido a que los
documentos compartidos por las dependencias de la institución manejaban el término de
materia como nombre del campo o atributo. Por otra parte, a nivel internacional se utiliza el
término de asignatura y finalmente, el término de espacios académicos es actualmente el
utilizado por la institución en términos de procesos de calidad.

Tabla 3. Matriz de Stakeholders del proyecto.


Problemas
Grupos Intereses Mandatos y recursos
detectados
 Desean culminar su carrera
universitaria en Ingeniería de
Sistemas.  Deben pagar las matrículas del
 Alta pérdida de programa.
Estudiantes  Desean recibir un apoyo asignaturas de
oportuno en campos Ciencias Básicas.  Deben comunicar inconformismos de
académicos, disciplinares,
forma oportuna.
psicológicos, etc. por parte
de la universidad, en caso
de ser necesario.
 Desean realizar una  Deben orientar a los estudiantes en
detección temprana de los  No pueden temas académicos.
Facultad de principales factores que predecir el
conllevan a la deserción
Ing. de
estudiantil.
comportamiento  Deben seleccionar un líder docente,
Sistemas de la deserción quien es el encargado de acompañar y
estudiantil. recopilar la información de los
 Desean tener un modelo de estudiantes de la facultad. Finalmente,
Problemas
Grupos Intereses Mandatos y recursos
detectados
predicción de los posibles
esta información es reportada a UDIES
casos de deserción
de la seccional.
estudiantil.
 Deben recolectar y proporcionar los
 Desean automatizar los datos académicos de los estudiantes de
reportes académicos de los  No pueden Ingeniería de Sistemas.
estudiantes. predecir el
Registro y comportamiento  Deben conocer los principales factores
Control  Desean tener un modelo de de la deserción que conllevan a la deserción académica
estudiantil. estudiantil.
predicción de los posibles
casos de deserción
estudiantil.  Deben administrar los sistemas SAC y
SIIM de la Universidad Santo Tomás.
 Deben realizar un seguimiento y
acompañamiento académico,
disciplinario, psicológico, etc. a los
 Desean realizar una estudiantes en la universidad.
detección temprana de los
principales factores que  Deben procurar realizar una detección
conllevan a la deserción  No pueden temprana de los posibles casos de
estudiantil. predecir el deserción estudiantil, para poder
UDIES comportamiento atenderlos y en lo posible evitarlos.
de la deserción
 Desean tener un modelo de estudiantil.
predicción de los posibles  Deben recolectar y proporcionar los
casos de deserción datos de los estudiantes de Ingeniería de
estudiantil. Sistemas.

 Deben administrar los sistemas SAC y


SIIM de la Universidad Santo Tomás.
Fuente: Autor

Posteriormente, se aplicó la metodología del Marco Lógico para la planificación del


proyecto. Se comenzó por la elaboración del Árbol de Problemas que permite identificar el
alcance del trabajo. En la Figura 15, se puede apreciar la estructura del Árbol de Problemas,
que consta de una parte central (tronco), donde se encuentra el problema que desea
resolver en el proyecto. Luego, en la parte inferior (raíces), se pueden apreciar las causas
del problema y finalmente, en la parte superior (ramas), se observan los efectos del
problema.
Figura 15. Árbol de Problemas del Proyecto.

Fuente: Autor

De esta manera, el Árbol de Problemas del Proyecto se convierte en el Árbol de Objetivos


(ver Figura 16). El problema que se desea resolver pasa a ser el objetivo general del
proyecto, las causas de problema se convierten en los objetivos específicos y de allí se
despliegan las actividades a realizar dentro del proyecto y finalmente, los efectos pasan a
ser lo que se pretende solucionar con el objetivo.
Figura 16. Árbol de Objetivos del Proyecto.

Fuente: Autor

Para poder identificar causales de mortalidad académica en una institución de educación


superior y las estrategias orientadas a su prevención, además de conocer los algoritmos de
Machine Learning más empleados en esta temática, fue necesario realizar una revisión de
la literatura, como se observa en el Capítulo 5 - Estado del Arte. De la búsqueda
bibliográfica se pudo concluir que los algoritmos de Machine Learning más empleados en el
tema son: Decision Trees, Support Vector Machine y Random Forest (ver Tabla 4).

Tabla 4. Estado del arte algoritmos de ML más empleados.

Algoritmo de Machine Learning Cantidad de concurrencias en estudios

Decision Tree 6

Support Vector Machine 5

Random Forest 4
Logistic Regression 2

Ensemble Model 2

Naive Bayes 2

Gradient Boosting Decision Tree 2

Linear Discriminant Analysis 1

Generalized Linear Model 1

K-Nearest Neighbors 1

Neural Network 1

TOTAL 27

Fuente: Autor

Finalmente, se elaboró el Cronograma del Proyecto para poder establecer cuáles tareas se
debían de realizar para el desarrollo del trabajo de grado (ver Anexo 7 - Cronograma del
Proyecto).

7. 2 Comprensión de los datos

En la fase de comprensión de datos, la información de los estudiantes de la Facultad de


Ingeniería de Sistemas fue suministrada por los sistemas SIIM y SAC y los reportes
semestrales que generan Registro y Control y UDIES. Cabe resaltar que, para el desarrollo
de este proyecto se estableció un acuerdo de confidencialidad para salvaguardar la
información estudiantil (ver anexo 2 - Acuerdo de Confidencialidad con Registro y Control y
UDIES). En la figura 17, se puede observar la información proporcionada por Registro y
Control.
Figura 17. Documentos proporcionados por Registro y Control.

Fuente: Autor

El primer archivo suministrado fue el rendimiento académico de los estudiantes de


Ingeniería de Sistemas, durante los periodos 2018-1 al 2021-2. El dataset incluía 5945
registros y 38 columnas, las cuales se encuentran descritas en la Tabla 5.

Tabla 5. Dataset proporcionado por Registro y Control.


Nombre Tipo Descripción

Código del periodo en la universidad: 20181, 20182,


COD_PERIODO Numérico
20191, 20192, 20201, 20202, 20211, 20212.
Nombre de la unidad al que el estudiante está vinculado,
NOM_UNIDAD Texto puede ser: Ingeniería de Sistemas y/o Ingeniería
Informática.
Código del pensum, los pensum son tres: Ingeniería
COD_PENSUM Numérico Informática (2007), Ingeniería de Sistemas (2009) e
Ingeniería de Sistemas (2018).
Nivel del estudiante al momento de cursar la materia,
NIVEL_ESTUDIANTE Numérico
puede ser entre 1 a 10.

Código institucional del estudiante. Nota: algunos


COD_ALUMNO Numérico
estudiantes cuentan con dos códigos.
Nombre Tipo Descripción

NUM_IDENTIFICACION Numérico Número de identificación del estudiante.

Género del estudiante, puede ser femenino (F) o masculino


GEN_TERCERO Texto
(M).

NOM_LARGO Texto Nombre del estudiante.

NIVEL_MATERIA Numérico Nivel de la materia en el pensum puede ser entre 1 a 10.

COD_MATERIA Numérico Código de la materia en el pensum.

NOM_MATERIA Texto Nombre de la materia en el pensum.

Cantidad de veces cursada la materia, puede ser entre 1 a


EST_MATERIA Numérico
5.

UNIPROGXASIG Texto Nombre del programa que ofreció la materia.

NUM_GRUPO Texto Nombre del grupo de la materia.

DOCENTE Texto Nombre del docente que dictó la materia.

Cantidad de veces cursada la materia, puede ser entre 1 a


EST_MATERIA_1 Numérico
5.

Cantidad de veces cursada la materia, puede ser: primera


VEZ_VISTA Texto
vez, segunda vez, tercera vez, cuarta vez, o quinta vez.

Cantidad de fallas registradas por la ausencia del


FALLAS Numérico
estudiante a las clases de la materia.

PESO_1 Numérico Porcentaje de la primera nota del corte.

Valor de la primera nota del corte, puede variar entre 0.0 a


NOTA_1 Flotante
5.0.

PESO_2 Numérico Porcentaje de la segunda nota del corte.

Valor de la segunda nota del corte, puede variar entre 0.0 a


NOTA_2 Flotante
5.0.

PESO_3 Numérico Porcentaje de la tercera nota del corte.


Nombre Tipo Descripción

Valor de la tercera nota del corte, puede variar entre 0.0 a


NOTA_3 Flotante
5.0.

Nota final del periodo cursado por el estudiante, puede


NOT_PERIODO Flotante
variar entre 0.0 a 5.0.

Nota del estudiante en el examen supletorio; si el


HABILITACION Flotante
estudiante decidió optar por presentarlo.
Nota final del periodo cursado por el estudiante, puede
NOTA_DEF Flotante variar entre 0.0 a 5.0. Nota: tiene en cuenta la nota de la
habilitación.

APROBADA Numérico Estado de la materia: aprobada (1) o no aprobada (0).

INSCRITO Numérico El estudiante se encuentra inscrito a la materia: inscrito (1).

PASA Texto Estado de la materia: aprobada (1) o no aprobada (vacío).

PERDIO Texto Estado de la materia: aprobada (vació) o no aprobada (1).

El estudiante perdió la materia con una nota de 0.0: si (1),


PERDIO_CERO Texto
no (vacío).

Valor del promedio acumulado del estudiante durante todos


PRO_ACUMULADO Flotante
los semestres cursados, puede variar entre 0.0 a 5.0.

Valor del promedio acumulado del estudiante durante el


PRO_NIVEL Flotante
semestre cursado, puede variar entre 0.0 a 5.0.

TEL_CELULAR Texto Teléfono celular del estudiante.

TEL_RESIDENCIA Texto Teléfono de residencia del estudiante.

COND_PERIODO Texto Condición del estudiante en el semestre cursado.

COND_PROGRAMA Texto Condición del estudiante en el programa.

Fuente: autor

Sin embargo, era fundamental conocer cuáles estudiantes habían desertado del programa
dentro de los periodos 2018-1 al 2021-2. Por lo tanto, se realizó la solicitud de los datos a
Registro y Control y UDIES. En la tabla 6, se puede apreciar que en total se han retirado 13
estudiantes del programa, en los periodos mencionados, lo que es equivalente a 117 de
5945 registros del dataset.
Tabla 6. Listado de estudiantes desertores de Ingeniería de Sistemas proporcionado por Registro y Control.

Periodo académico de deserción Estudiante Cantidad de registros en el dataset

2019-1 1 7

2019-1 2 6

2019-1 3 5

2019-1 4 7

2019-2 5 13

2020-1 6 18

2020-1 7 7

2020-1 8 19

2020-2 9 22

2021-1 10 18

2021-2 11 7

2021-2 12 14

2021-2 13 34

TOTAL 13 estudiantes 117 registros

Fuente: Autor

Finalmente, los últimos entregables consisten en los tres pensums que ha tenido la carrera
de Ingeniería de Sistemas. En el 2007 el programa tenía la denominación de Ingeniería
Informática, y a partir del 2009 comenzó a regir la de Ingeniería de Sistemas.
Adicionalmente, desde el 2009 al 2018 se ha renovado dos veces el plan de estudios. Por
consiguiente, fue necesario agrupar los diferentes espacios académicos basados en
similitudes curriculares.
7. 3 Preparación de los datos

Esta fase empezó por una limpieza de los datos del rendimiento académico de los
estudiantes de Ingeniería de Sistemas. Las columnas que contenían valores flotantes
contaban con el signo de coma (,), por lo que presentaría problemas en la ejecución del
código. Por tanto, se reemplazó el signo por un punto (.). Estos cambios se implementaron
para las columnas de: nota 1, nota 2, nota 3, nota del periodo, nota de la habilitación, nota
definitiva, promedio acumulado y promedio por nivel.
Posteriormente, para preservar el anonimato de los datos, basados en la columna de los
nombres de los docentes, se creó una columna con códigos únicos para cada profesor. En
total se registraron 127 docentes de las cinco áreas de la carrera: ciencias básicas, básicas
de ingeniería, ingeniería aplicada, socio-humanística e institucional.
A continuación, con base en la información del listado de los estudiantes desertores dentro
de los periodos 2018-1 al 2021-2, se creó la columna deserción en el dataset. Esta columna
registra con un ‘si’ a los estudiantes desertores del listado y ‘no’ a los demás estudiantes.
De acuerdo con los datos de la columna deserción estudiantil, solo el 5% de los estudiantes
durante el periodo mencionado han desertado del programa, como se evidencia en la Figura
18.

Figura 18. Diagrama de Pastel de los Datos de la columna de Dropout.

Fuente: Autor

Debido a la información de los espacios académicos de los tres pensums, se realizó una
agrupación de materias y actualización de códigos y nombres, como se puede observar en
la Tabla 7.
Tabla 7. Pénsum de Ingeniería Informática 2007, Ingeniería de Sistemas 2009 e Ingeniería de Sistemas 2018.

INGENIERIA INFORMATICA INGENIERIA SISTEMAS INGENIERIA SISTEMAS


Pensum
2007 2009 2018

Semestre Código Materia Código Materia Código Materia

11711 QUIMICA GENERAL

INTRODUCCION A LA INTRODUCCION A LA INTRODUCCION A LA


41111 INGENIERIA 41111 INGENIERIA 41111 INGENIERIA
INFORMATICA SISTEMAS SISTEMAS

INTRODUCCION A LA INTRODUCCION A LA INTRODUCCION A LA


41110 41110 41112
PROGRAMACION PROGRAMACION PROGRAMACION

FILOSOFIA FILOSOFIA FILOSOFIA


95108 95108 95108
INSTITUCIONAL INSTITUCIONAL INSTITUCIONAL
1
IDIOMA EXTRANJERO IDIOMA
95125 95125 95125 INGLES I
I EXTRANJERO I

CATEDRA HENRI
95303 CULTURA FISICA I 95303 CULTURA FISICA I 95303
DIDON I

MATEMATICAS MATEMATICAS CALCULO


60124 60124 96110
FUNDAMENTALES FUNDAMENTALES DIFERENCIAL

CALCULO CALCULO CALCULO


96110 96110 96110
DIFERENCIAL DIFERENCIAL DIFERENCIAL

COMUNICACION
15135
ORAL Y ESCRITA

IDIOMA EXTRANJERO IDIOMA


95127 95127 95127 INGLES II
II EXTRANJERO II

CATEDRA HENRI
95304 CULTURA FISICA II 95304 CULTURA FISICA II 95304
DIDON II

96111 ALGEBRA LINEAL 96111 ALGEBRA LINEAL 96111 ALGEBRA LINEAL

2
96113 CALCULO INTEGRAL 96113 CALCULO INTEGRAL 96113 CALCULO INTEGRAL

MATEMATICAS MATEMATICAS
96180 96180 96113 CALCULO INTEGRAL
DISCRETAS DISCRETAS

PROGRAMACION PROGRAMACION PROGRAMACION


96181 ORIENTADA A 96181 ORIENTADA A 96181 ORIENTADA A
OBJETOS OBJETOS OBJETOS
PROGRAMACION
96182 LOGICA DIGITAL 96182 LOGICA DIGITAL 96181 ORIENTADA A
OBJETOS

3 96500 BASES DE DATOS 96500 BASES DE DATOS 96500 BASES DE DATOS


INGENIERIA INFORMATICA INGENIERIA SISTEMAS INGENIERIA SISTEMAS
Pensum
2007 2009 2018

ANALISIS DE ANALISIS DE REQUERIMIENTOS Y


96401 REQUERIMIENTOS 96401 REQUERIMIENTOS 41114 DISEÑO DE
DE SOFTWARE DE SOFTWARE SOFTWARE

95109 ANTROPOLOGIA 95109 ANTROPOLOGIA 95109 ANTROPOLOGIA

IDIOMA EXTRANJERO IDIOMA


95128 95128 95128 INGLES III
III EXTRANJERO III

96112 FISICA MECANICA 96112 FISICA MECANICA 96112 FISICA MECANICA

CALCULO CALCULO CALCULO


96200 96200 96200
MULTIVARIADO MULTIVARIADO VECTORIAL

ESTRUCTURAS DE ESTRUCTURAS DE ESTRUCTURAS DE


96400 96400 96400
DATOS DATOS DATOS

ECUACIONES ECUACIONES ECUACIONES


42822 42822 42822
DIFERENCIALES DIFERENCIALES DIFERENCIALES

ELECTRICIDAD Y ELECTRICIDAD Y ELECTRICIDAD Y


43002 43002 43002
MAGNETISMO MAGNETISMO MAGNETISMO

ELECTRICIDAD Y
4 95501 ONDAS 95501 ONDAS 43002
MAGNETISMO

95110 EPISTEMOLOGIA 95110 EPISTEMOLOGIA 95110 EPISTEMOLOGIA

IDIOMA EXTRANJERO IDIOMA


95129 95129 95129 INGLES IV
IV EXTRANJERO IV

ARQUITECTURA DEL ARQUITECTURA DEL ARQUITECTURA DEL


96300 96300 96300
COMPUTADOR COMPUTADOR COMPUTADOR

CONSTRUCCION DE CONSTRUCCION DE CONSTRUCCION DE


96503 96503 96503
SOFTWARE SOFTWARE SOFTWARE

DISEÑO DE DISEÑO DE ARQUITECTURA


34102 34102 37604
SOFTWARE SOFTWARE EMPRESARIAL

ANALISIS DE ANALISIS DE DESARROLLO


34101 34101 40748
ALGORITMOS ALGORITMOS EMPRESARIAL

SISTEMAS SISTEMAS SISTEMAS


5 21124
OPERATIVOS
21124
OPERATIVOS
48004
OPERATIVOS

METODOS
10115 ANALISIS NUMERICO 10115 ANALISIS NUMERICO 83007
NUMERICOS

CULTURA CULTURA CULTURA


95111 95111 95111
TEOLOGICA TEOLOGICA TEOLOGICA

IDIOMA EXTRANJERO IDIOMA


95130 95130 95130 INGLES V
V EXTRANJERO V
INGENIERIA INFORMATICA INGENIERIA SISTEMAS INGENIERIA SISTEMAS
Pensum
2007 2009 2018

ESTADISTICA Y PROBABILIDAD Y PROBABILIDAD Y


30107 30107 30107
PROBABILIDAD ESTADISTICA ESTADISTICA

DESARROLLO
AMBIENTES AMBIENTES
96602 96602 41115 ORIENTADO A
DISTRIBUIDOS DISTRIBUIDOS
SERVICIOS

96501 REDES I 96501 REDES I 41116 REDES

6 96601 REDES II 96601 REDES II 41116 REDES

95348 INGLES VI

95602 OPTIMIZACION 95602 OPTIMIZACION 95602 OPTIMIZACION

MODELOS MODELOS
95701 95701 95602 OPTIMIZACION
ESTOCASTICOS ESTOCASTICOS

GERENCIA DE GERENCIA DE GERENCIA DE


96701 96701 96701
SOFTWARE SOFTWARE SOFTWARE

ELECTIVA I ELECTIVA I
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA I
97701 DE CIENCIAS 97701 DE CIENCIAS 41117
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA I DE ELECTIVA I DE
ELECTIVA I
97700 CIENCIAS BASICAS 97700 CIENCIAS BASICAS 41118
PROFUNDIZACION
DE INGENIERIA DE INGENIERIA

CALIDAD DE
7 41119
SOFTWARE

96904 SIMULACION 96904 SIMULACION 96904 SIMULACION

ELECTIVA ELECTIVA ELECTIVA


96906 96906 96906
SOCIOHUMANISTICA SOCIOHUMANISTICA SOCIOHUMANISTICA

ELECTIVA II ELECTIVA II
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA II
96802 DE CIENCIAS 96802 DE CIENCIAS 41120
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA III ELECTIVA III
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA III
96902 DE CIENCIAS 96902 DE CIENCIAS 41121
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA III DE ELECTIVA III DE
ELECTIVA III
96903 INGENIERIA 96903 INGENIERIA 41121
INTERDISCIPLINARIA
8 APLICADA APLICADA
ELECTIVA II DE ELECTIVA II DE
ELECTIVA II
96801 CIENCIAS BASICAS 96801 CIENCIAS BASICAS 41122
PROFUNDIZACION
DE INGENIERIA DE INGENIERIA
ELECTIVA II DE ELECTIVA II DE
ELECTIVA II
96803 INGENIERIA 96803 INGENIERIA 41122
PROFUNDIZACION
APLICADA APLICADA
INGENIERIA INFORMATICA INGENIERIA SISTEMAS INGENIERIA SISTEMAS
Pensum
2007 2009 2018

PRACTICA PRACTICA PRACTICA


96804 96804 96804
EMPRESARIAL EMPRESARIAL EMPRESARIAL

96805 FILOSOFIA POLITICA 96805 FILOSOFIA POLITICA 96805 FILOSOFIA POLITICA

AUDITORIA DE
37606
SISTEMAS

INTELIGENCIA INTELIGENCIA ELECTIVA III


96502 96502 41123
ARTIFICIAL ARTIFICIAL PROFUNDIZACION

ELECTIVA III DE ELECTIVA III DE


ELECTIVA III
9 96901 CIENCIAS BASICAS 96901 CIENCIAS BASICAS 41123
PROFUNDIZACION
DE INGENIERIA DE INGENIERIA
ELECTIVA I DE ELECTIVA I DE ELECTIVA
96700 INGENIERIA 96700 INGENIERIA 41124 INGENIERIA
APLICADA APLICADA APLICADA

METODOLOGIA DE LA METODOLOGIA DE TRABAJO DE GRADO


91105 91105 96905
INVESTIGACION LA INVESTIGACION I

TRABAJO DE GRADO TRABAJO DE GRADO TRABAJO DE GRADO


96905 96905 96905
I I I

LEGISLACION
96099 INGENIERIA LEGAL 96099 INGENIERIA LEGAL 18689
INFORMATICA

TRABAJO DE GRADO TRABAJO DE GRADO TRABAJO DE GRADO


10 96097
II
96097
II
96097
II

96098 ETICA 96098 ETICA 96098 ETICA

Fuente: Autor

No obstante, el banco de electivas es bastante amplio por lo que se decidió agrupar las
electivas en dos grupos: electivas de la carrera y electivas sociohumanísticas y unificar los
códigos (ver Tabla 8). Por tanto, resultaron 47 espacios académicos y 2 tipos de electivas,
para un total de 49 espacios académicos en el programa de Ingeniería de Sistemas.
Tabla 8. Electivas de Ingeniería de Sistemas.

Nombre de la electiva Código Código nuevo

ADAPTACION A LA INFORMACION 41136 99999

CIBERSEGURIDAD 41143 99999

DEEP LEARNING 41131 99999

DESARROLLO APLICACIONES PARA IOS 41134 99999

DESARROLLO RAPIDO DE APLICACIONES WEB 96870 / 60002 99999

DEVOPS 41139 99999

DISEÑO UI / UX 41138 / 41141 99999

FRAMEWORKS 41135 99999

FULL STACK ANGULAR NODE 41140 99999

HERRAMIENTAS MULTIPLATAFORMA 41137 99999

INTELIGENCIA ARTIFICIAL 96502 99999

LEARNING CON PYTHON 41145 99999

MIGRACION DE DATOS 96872 99999

MOTORES DE BASES DE DATOS 41126 99999

PROGRAMACION DE MICROCONTROLADORES 41142 99999

REACT 41144 99999

VIDEO JUEGOS 41133 99999

WEB SERVICES 96871 99999


Nombre de la electiva Código Código nuevo

10585 / 99109 /
CIENCIA, TECNOLOGIA Y BIOETICA 99998
99121

ECONOMÍA Y HUMANISMO 1081 99998

Fuente: Autor

Asimismo, cabe resaltar que se encontraron estudiantes con dos códigos institucionales en
la columna cod_alumno. Por lo que se realizó una validación donde el número de
identificación del estudiante coincidiera con dos códigos institucionales. Posteriormente, se
asignó como código institucional el código de mayor magnitud (más reciente).
Luego, se pasaron los datos de variables categóricas a numéricas, como lo es el caso de la
columna género y deserción. La columna de género se convirtió la ‘f’ en 0 y la ‘m’ en 1. Por
otra parte, la columna de deserción el ‘si’ se convirtió en 1 y el ‘no’ en 0.
Finalmente, el dataset de reporte académico de los estudiantes contaba con un registro por
cada materia que había cursado un estudiante. Por lo tanto, se decidió redimensionar el
dataset, de manera que, un solo registro proporcionara la información académica de un
estudiante como se aprecia en la Tabla 9. Sin embargo, es necesario aclarar que las 5
columnas (resaltadas en color azul) se deben relacionar con cada materia del programa
(49). A partir del anterior procedimiento se generaron 245 columnas. Además, se incluyeron
las 5 características mencionadas en la tabla 7, que se encuentran sin resaltar en azul. En
conclusión, se conformó un dataset con una dimensión de 246 filas y 250 columnas. Este
proceso se puede apreciar de forma detallada en la Figura 19.

Tabla 9. Dataset final del proyecto.


Nombre Tipo Descripción

Código institucional del estudiante. Nota: algunos


stu_id Numérico
estudiantes cuentan con dos códigos.

Nivel del estudiante al momento de cursar la materia, puede


semester Numérico
ser entre 1 a 10.

Género del estudiante, puede ser femenino (0) o masculino


stu_gender Numérico
(1).

Valor del promedio acumulado del estudiante durante todos


stu_average Flotante
los semestres cursados, puede variar entre 0.0 a 5.0.

sub_id Numérico Código de la materia del último pensum.

Código del docente que dictó la materia, puede variar entre


teacher_ sub_id Numérico
1 a 127.
Nombre Tipo Descripción
Cantidad de veces cursada la materia, puede ser: primera
sub_repeated_sub_id Numérico vez (1), segunda vez (2), tercera vez (3), cuarta vez (4), o
quinta vez (5).
Nota final del periodo cursado por el estudiante, puede
final_grade_sub_id Flotante
variar entre 0.0 a 5.0.

Cantidad de fallas registradas por la ausencia del estudiante


absences_sub_id Numérico
a las clases de la materia.
Etiqueta para identificar si un estudiante se encuentra en
drop_out Numérico riesgo de deserción estudiantil, puede ser: no riesgo (0),
riesgo (1).
Fuente: Autor

Figura 19. Proceso de conformación de las columnas en el Dataset.

Fuente: Autor
Sin embargo, es necesario mencionar que al tener más columnas que número de registros
hay un problema de dimensionalidad, donde el alto número de características en relación
con los datos puede afectar el análisis y el desempeño del modelo y aumentar el riesgo de
sobreajuste. El sobreajuste ocurre cuando el modelo se acostumbra demasiado a los datos
de entrenamiento y tiene dificultades para generalizar correctamente a nuevos datos. La
falta de muestras de entrenamiento puede hacer que el modelo "memorice" los datos de
entrenamiento en lugar de aprender patrones más amplios y aplicables (Sarkar et al., 2017).

Una matriz de correlación es una herramienta estadística utilizada para analizar y visualizar
la relación entre múltiples variables. Consiste en una tabla cuadrada que muestra los
coeficientes de correlación entre pares de variables. La correlación es una medida
estadística que indica el grado de relación lineal entre dos variables. Los coeficientes de
correlación varían en un rango de -1 a 1. Un coeficiente de correlación de 1 indica una
correlación positiva perfecta, lo que significa que las dos variables están perfectamente
relacionadas de manera lineal positiva. Por otro lado, un coeficiente de -1 indica una
correlación negativa perfecta, lo que significa que las dos variables están perfectamente
relacionadas de manera lineal negativa. Un coeficiente de correlación de 0 indica que no
hay correlación lineal entre las variables.

En el anexo 3 - Matrices de Correlación por cada materia, se observan las matrices de


correlación realizadas por cada una de las materias (49). En la matriz de correlación las
variables a comparar fueron: el código del estudiante, el semestre actual del estudiante, el
género del estudiante, el promedio acumulado actual del estudiante, el código de la materia,
el profesor que dictó la materia, la cantidad de veces cursada la materia por el estudiante, la
nota final de la materia obtenida por el estudiante, la cantidad de ausencias del estudiante
en la materia y la etiqueta de deserción académica. A continuación, en la Tabla 10 se
observan cuáles fueron las tres variables por cada materia que presentaron una mayor
correlación.

Tabla 10. Análisis de las Matrices de Confusión para las 49 materias.

Materia Figura Características con mayor correlación

Teacher - Sub_repeated: 0.89


Química General Figura 54 Teacher - Final_grade: 0.89
Final_grade - Sub_repeated: 0.93

Teacher - Sub_repeated: 1.00


Introducción a la Ingeniería de Sistemas Figura 55 Teacher - Final_grade: 0.98
Final_grade - Sub_repeated: 0.97
Materia Figura Características con mayor correlación

Teacher - Sub_repeated: 0.83


Introducción a la Programación Figura 56 Teacher - Final_grade: 0.79
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 0.58


Filosofía Institucional Figura 57 Teacher - Final_grade: 0.62
Final_grade - Sub_repeated: 0.95

Teacher - Sub_repeated: 0.89


Inglés I Figura 58 Teacher - Final_grade: 0.87
Final_grade - Sub_repeated: 0.91

Teacher - Sub_repeated: 0.95


Cátedra de Henri Didon I Figura 59 Teacher - Final_grade: 0.94
Final_grade - Sub_repeated: 0.97

Teacher - Sub_repeated: 0.79


Cálculo Diferencial Figura 60 Teacher - Final_grade: 0.75
Final_grade - Sub_repeated: 0.86

Teacher - Sub_repeated: 0.79


Comunicación Oral y Escrita Figura 61 Teacher - Final_grade: 0.80
Final_grade - Sub_repeated: 0.98

Teacher - Sub_repeated: 0.90


Inglés II Figura 62 Teacher - Final_grade: 0.90
Final_grade - Sub_repeated: 0.87

Teacher - Sub_repeated: 0.73


Cátedra de Henri Didon II Figura 63 Teacher - Final_grade: 0.71
Final_grade - Sub_repeated: 0.97

Teacher - Sub_repeated: 0.72


Álgebra Lineal Figura 64 Teacher - Final_grade: 0.73
Final_grade - Sub_repeated: 0.91

Teacher - Sub_repeated: 0.83


Cálculo Integral Figura 65 Teacher - Final_grade: 0.86
Final_grade - Sub_repeated: 0.90

Teacher - Sub_repeated: 0.77


Programación Orientada a Objetos Figura 66 Teacher - Final_grade: 0.80
Final_grade - Sub_repeated: 0.95

Teacher - Sub_repeated: 0.96


Bases de Datos Figura 67 Teacher - Final_grade: 0.92
Final_grade - Sub_repeated: 0.92

Teacher - Sub_repeated: 0.71


Requerimientos y Diseño de Software Figura 68 Teacher - Final_grade: 0.73
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 0.89


Antropología Figura 69 Teacher - Final_grade: 0.88
Final_grade - Sub_repeated: 0.95
Materia Figura Características con mayor correlación

Teacher - Sub_repeated: 0.84


Inglés III Figura 70 Teacher - Final_grade: 0.82
Final_grade - Sub_repeated: 0.95

Teacher - Sub_repeated: 0.92


Física Mecánica Figura 71 Teacher - Final_grade: 0.94
Final_grade - Sub_repeated: 0.94

Teacher - Sub_repeated: 0.80


Cálculo Vectorial Figura 72 Teacher - Final_grade: 0.76
Final_grade - Sub_repeated: 0.91

Teacher - Sub_repeated: 0.79


Estructura de Datos Figura 73 Teacher - Final_grade: 0.76
Final_grade - Sub_repeated: 0.98

Teacher - Sub_repeated: 0.82


Ecuaciones Diferenciales Figura 74 Teacher - Final_grade: 0.84
Final_grade - Sub_repeated: 0.95

Teacher - Sub_repeated: 0.87


Electricidad y Magnetismo Figura 75 Teacher - Final_grade: 0.86
Final_grade - Sub_repeated: 0.92

Teacher - Sub_repeated: 0.61


Epistemología Figura 76 Teacher - Final_grade: 0.63
Final_grade - Sub_repeated: 0.92

Teacher - Sub_repeated: 0.68


Inglés IV Figura 77 Teacher - Final_grade: 0.74
Final_grade - Sub_repeated: 0.94

Teacher - Sub_repeated: 0.92


Arquitectura del Computador Figura 78 Teacher - Final_grade: 0.91
Final_grade - Sub_repeated: 0.99

Teacher - Sub_repeated: 0.92


Construcción de Software Figura 79 Teacher - Final_grade: 0.91
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 0.88


Arquitectura Empresarial Figura 80 Teacher - Final_grade: 0.84
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 0.93


Desarrollo Empresarial Figura 81 Teacher - Final_grade: 0.94
Final_grade - Sub_repeated: 0.88

Teacher - Sub_repeated: 0.84


Sistemas Operativos Figura 82 Teacher - Final_grade: 0.87
Final_grade - Sub_repeated: 0.98

Teacher - Sub_repeated: 0.81


Métodos Numéricos Figura 83 Teacher - Final_grade: 0.83
Final_grade - Sub_repeated: 0.93
Materia Figura Características con mayor correlación

Teacher - Sub_repeated: 0.85


Cultura Teológica Figura 84 Teacher - Final_grade: 0.85
Final_grade - Sub_repeated: 0.98

Teacher - Sub_repeated: 0.89


Inglés V Figura 85 Teacher - Final_grade: 0.90
Final_grade - Sub_repeated: 0.97

Teacher - Sub_repeated: 0.91


Probabilidad y Estadística Figura 86 Teacher - Final_grade: 0.87
Final_grade - Sub_repeated: 0.93

Teacher - Sub_repeated: 0.98


Desarrollo Orientado a Servicios Figura 87 Teacher - Final_grade: 0.98
Final_grade - Sub_repeated: 0.98

Teacher - Sub_repeated: 0.84


Redes Figura 88 Teacher - Final_grade: 0.77
Final_grade - Sub_repeated: 0.97

Teacher - Sub_repeated: 0.92


Inglés VI Figura 89 Teacher - Final_grade: 0.93
Final_grade - Sub_repeated: 0.99

Teacher - Sub_repeated: 0.75


Optimización Figura 90 Teacher - Final_grade: 0.69
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 0.81


Gerencia de Software Figura 91 Teacher - Final_grade: 0.80
Final_grade - Sub_repeated: 0.99

Teacher - Final_grade: 0.78


Electivas de la Carrera Figura 92 Final_grade - Sub_repeated: 0.88
Semester - Sub_repeated: 0.78

Teacher - Sub_repeated: 0.94


Calidad de Software Figura 93 Teacher - Final_grade: 0.94
Final_grade - Sub_repeated: 1.00

Teacher - Sub_repeated: 0.94


Simulación Figura 94 Teacher - Final_grade: 0.93
Final_grade - Sub_repeated: 1.00

Teacher - Sub_repeated: 0.93


Electivas Sociohumanísticas Figura 95 Teacher - Final_grade: 0.91
Final_grade - Sub_repeated: 0.97

Teacher - Sub_repeated: 0.95


Práctica Empresarial Figura 96 Teacher - Final_grade: 0.97
Final_grade - Sub_repeated: 0.99

Teacher - Sub_repeated: 0.95


Filosofía Política Figura 97 Teacher - Final_grade: 0.94
Final_grade - Sub_repeated: 0.97
Materia Figura Características con mayor correlación

Teacher - Sub_repeated: 0.83


Auditoría de Sistemas Figura 98 Teacher - Final_grade: 0.82
Final_grade - Sub_repeated: 1.00

Teacher - Sub_repeated: 0.95


Trabajo de Grado I Figura 99 Teacher - Final_grade: 0.98
Final_grade - Sub_repeated: 0.96

Teacher - Sub_repeated: 1.00


Legislación Informática Figura 100 Teacher - Final_grade: 0.99
Final_grade - Sub_repeated: 1.00

Teacher - Sub_repeated: 0.96


Trabajo de Grado II Figura 101 Teacher - Final_grade: 0.95
Final_grade - Sub_repeated: 0.99

Teacher - Sub_repeated: 0.86


Ética Figura 102 Teacher - Final_grade: 0.83
Final_grade - Sub_repeated: 0.99
Fuente: Autor

Con base en las matrices de correlación, se puede concluir que, en la mayoría de los casos,
las variables o características que presentan una mayor correlación entre ellas son: el
profesor que dictó la materia, la cantidad de veces que fue cursada la materia por el
estudiante y la nota final de la materia obtenida por el estudiante.

7. 4 Modelado

Para poder evaluar y validar el rendimiento de un modelo es necesario dividir los datos de
los estudiantes en datos de entrenamiento y datos de testeo. El conjunto de datos de
entrenamiento se utiliza para entrenar el modelo y ajustar sus parámetros, mientras que el
conjunto de datos de prueba se reserva para evaluar el rendimiento del modelo en datos no
utilizados previamente. Como se puede apreciar en la Figura 20, se dividieron los datos en
80% de entrenamiento y en 20% para pruebas.
Figura 20. Separación de los datos para entrenar el modelo de Machine Learning.

Fuente: Autor

Basados en los hallazgos obtenidos en el Capítulo del Estado del arte, con la búsqueda de
aplicación de modelos de Machine Learning en el tema de deserción estudiantil, se tomó la
decisión de entrenar los siguientes modelos de aprendizaje automático supervisado:

 Decision Tree Model (DT)

Para el modelo de DT se implementó la configuración de parámetros y la repetición del


proceso de entrenamiento, con el fin de lograr el mejor accuracy.

El parámetro max_depth controla la profundidad máxima del árbol de decisión y determina


la cantidad máxima de niveles o capas que el árbol puede tener desde el nodo raíz hasta
las hojas (nodos terminales). En la Tabla 11, se puede observar que, con una profundidad
de 10 se logra obtener un accuracy de 96%, sin embargo, este valor indica un sobreajuste
del modelo con los datos (Theobald, 2017), ya que puede estar capturando ruido o patrones
irrelevantes. Por lo tanto, se exploró la alternativa de dejar este parámetro por defecto y se
logró un accuracy de 94%.
Tabla 11. Pruebas del parámetro max_depth en el modelo Decision Tree.

Parámetro de Decision Tree Accuracy Precision

max_depth=None 94.0 93.418

max_depth=1 92.0 84.64

max_depth=2 92.0 84.64

max_depth=5 92.0 84.64

max_depth=6 88.0 84.333

max_depth=10 96.0 96.166

Fuente: Autor

Asimismo, se modificó el parámetro criterion, el cual se utiliza para especificar la función de


medida que se implementa para evaluar la calidad de una división en el árbol de decisión.
Sin embargo, en la Tabla 12, el valor de entropy presentó un sobreajuste en los datos y el
valor de log_loss proporcionó un accuracy más bajo. Por lo tanto, se decidió dejar este
parámetro con el valor por defecto (gini).

Tabla 12. Pruebas del parámetro criterion en el modelo Decision Tree.


Parámetro de Decision Tree Accuracy Precision

criterion=' gini’ 94.0 93.418

criterion=' entropy 96.0 97.916

criterion=' log_loss 88.0 84.333

Fuente: Autor

La matriz de confusión permite visualizar de manera clara y desglosada cómo el modelo


clasificó las instancias en cada clase (Burkov, 2019). Las cuatro posibles clasificaciones de
los datos son (ver Figura 21):
1. TN / True Negative (Verdadero Negativo): cuando un caso fue negativo y se predijo
negativo.
2. TP / True Positive (Verdadero Positivo): cuando un caso fue positivo y se predijo
positivo.
3. FN / False Negative (Falso Negativo): cuando un caso fue positivo, pero se predijo
negativo.
4. FP / False Positive (Falso Positivo): cuando un caso fue negativo, pero predijo
positivo.

Figura 21. Partes de la Matriz de Confusión.

Fuente: Basado en (Sarkar et al., 2017)

En cuanto a la Matriz de Confusión (ver Figura 22), los enunciados en la parte izquierda
hacen referencia a la información histórica de los estudiantes y los enunciados en la parte
inferior a los datos clasificados por el modelo de Machine Learning. La Matriz de Confusión
se lee por las filas (valores actuales) y luego las columnas (valores de predicción). De
acuerdo a la Matriz de Confusión, se puede concluir que la mayor confusión se presentó en
la clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (2
estudiantes). Este valor corresponde a los falsos negativos. Por otra parte, en el caso de los
falsos positivos, no se obtuvo la clasificación de ningún estudiante. En el caso de los
verdaderos negativos, se puede observar que 46 estudiantes, que se mantienen activos
académicamente en el programa, se clasificaron como “estudiantes que no desertaron”. Por
otra parte, 2 estudiantes se clasificaron como verdaderos positivos, puesto que
efectivamente eran desertores y el modelo los clasificó como estudiantes desertores.
Finalmente, la cantidad de estudiantes clasificados deben sumar 50, ya que corresponden a
la cantidad de datos asignados a las pruebas.

Figura 22. Matriz de Confusión del Modelo de Decision Tree.

Fuente: Autor

Adicionalmente, se realizó el diagrama de árbol (ver Figura 22). La estructura del árbol inicia
por un nodo raíz del cual se dividen dos hijos nodos y, dependiendo del caso, continúa
dividiéndose. Los nodos de las variaciones del color naranja hacen referencia a la etiqueta
de estudiantes que no desertan, mientras que el color azul hace referencia a la etiqueta de
estudiantes que desertan. Asimismo, cada nodo muestra cómo se afecta el nombre de cada
característica según una suposición (se desglosan diferentes escenarios, según la condición
que se cumpla en un momento dado). En la Figura 22, se puede apreciar qué tan
desbalanceado está el nodo respecto al otro del mismo nivel de profundidad y que hayan
surgido a partir del mismo nodo padre (gini), la cantidad de muestras tomadas para el nodo,
la fila y columna del registro, y la clase resultante (desertó o no desertó).

Figura 22. Diagrama de Árboles del Modelo de Random Forest.

Fuente: Autor

Cabe aclarar que, a partir de la matriz de confusión, se pueden calcular diversas métricas
de evaluación, como lo son accuracy, precision, recall y F1-score, que proporcionan
información más detallada sobre el rendimiento del modelo en términos de verdaderos
positivos, falsos positivos y falsos negativos.

 Accuracy: Se define como la exactitud general o la proporción de predicciones


correctas del modelo de Machine Learning (Sarkar et al., 2017). La fórmula de
Accuracy es la siguiente:

TP+TN
Accuracy=
TP+TN + FP+ FN

 Precision: La precisión, también conocida como valor predictivo positivo, es otra


métrica que se puede derivar de la matriz de confusión. Se define como el número
de predicciones realizadas que son realmente correctas o relevantes de todas las
predicciones basadas en la clase positiva (Sarkar et al., 2017). La fórmula de
Precision es la siguiente:

TP
Pr e cision=
TP+ FP
 Recall: La recuperación, también conocida como sensibilidad, es una medida de un
modelo que permite identificar el porcentaje de puntos de datos relevantes. Se
define como el número de instancias de la clase positiva que se predijeron
correctamente. Esto también se conoce como tasa de acierto, cobertura o
sensibilidad (Sarkar et al., 2017). La fórmula de Recall es la siguiente:

TP
Recall=
TP+ FN

 F1: Hay algunos casos en los que queremos una optimización equilibrada de la
precisión y la recuperación (Sarkar et al., 2017). La puntuación F1 es una métrica
que es la media armónica de precisión y recuperación y nos ayuda a optimizar un
clasificador para una precisión (Precision) equilibrada y un rendimiento de
recuperación (Recall). La fórmula para la puntuación F1 es:

Pr e cision × Recall
F 1=2×
Pr e cision+ Recall

Finalmente, para el Modelo de Decision Tree se obtuvieron los siguientes resultados de las
métricas de evaluación de modelos de Machine Learning (ver Tabla 13).

Tabla 13. Resultados finales del modelo Decision Tree.


Modelo de ML Accuracy Precision Recall F1-Score

Decision Tree 94.0 93.418 94.0 94.0

Fuente: Autor

 Support Vector Machine Model (SVM)

Para las pruebas del modelo de SVM, se modificó el parámetro del kernel. Como se puede
apreciar en la Tabla 14, los accuracy no varían, por lo tanto, los datos son linealmente
separables. De esta manera, se eligió el kernel linear, debido a su simplicidad y eficiencia
computacional.
Tabla 14. Pruebas del parámetro kernel en el modelo SVM.
Logistic Regression Parámetro Accuracy Precision

kernel='rbf' 92.0 84.64

kernel='linear' 92.0 84.64

kernel='poly' 92.0 84.64

kernel='sigmoid' 92.0 84.64

Fuente: Autor

Con base en la Figura 23, se puede concluir que la mayor confusión se presentó en la
clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (4). Por
otra parte, se puede observar que los estudiantes restantes los clasificó correctamente el
modelo, como estudiantes que no desertaron académicamente del programa (46). En este
caso, se puede observar que no hubo ningún estudiante que desertó académicamente.

Figura 23. Matriz de Confusión del Modelo de SVM.

Fuente: Autor
Finalmente, para el Modelo de SVM se obtuvieron los siguientes resultados de las métricas
de evaluación de modelos de Machine Learning (ver Tabla 15).

Tabla 15. Resultados finales del modelo Support Vector Machine.


Modelo de ML Accuracy Precision Recall F1-Score

Support Vector Machine 92.0 84.64 92.0 88.0

 Random Forest Model

El parámetro n_estimators en Random Forest representa el número de árboles que se


construirán en el bosque. En el caso del modelo, logró un accuracy de 94% con un árbol
(ver Tabla 16).

Tabla 16. Pruebas del parámetro n_estimators en el modelo Random Forest.


Random Forest Parámetro Accuracy Precision

n_estimators=1 94.0 94.367

n_estimators=2 94.0 94.367

n_estimators=3 94.0 94.367

n_estimators=4 90.0 84.64

n_estimators=5 90.0 84.64

n_estimators=10 90.0 84.64

n_estimators=50 90.0 84.64

n_estimators=100 90.0 84.64

n_estimators=200 92.0 84.64

Fuente: Autor
En cuanto a la Matriz de Confusión (ver Figura 24), se puede concluir que la mayor
confusión se presentó en la clasificación de “estudiantes que desertaron” como “estudiantes
que no desertaron” (3). También, se puede observar que 46 estudiantes que se mantienen
académicamente en el programa y fueron clasificados de esta manera. Por otra parte, 1
estudiante desertor se clasificó como estudiante desertor.

Figura 24. Matriz de Confusión del Modelo de Random Forest.

Fuente: Autor

Por otra parte, debido a que Random Forest pertenece a la familia de los modelos de
árboles, se realizó el diagrama de árbol (ver Figura 25). Esto parte por un nodo raíz del cual
se dividen dos hijos nodos y, dependiendo del caso, continúa dividiéndose. Los nodos de
color naranja oscuro o naranja claro hacen referencia a la etiqueta de estudiantes que no
desertan, mientras que el color azul hace referencia a la etiqueta de estudiantes que
desertan.

Asimismo, cada nodo muestra cómo se afecta el nombre de cada característica según una
suposición (se desglosan diferentes escenarios, según la condición que se cumpla en un
momento dado). En la Figura 25 se puede apreciar qué tan desbalanceado está el nodo
respecto al otro del mismo nivel de profundidad y que hayan surgido a partir del mismo nodo
padre (gini), la cantidad de muestras tomadas para el nodo, la fila y columna del registro, y
la clase resultante (desertó o no desertó).

Figura 25. Diagrama de Árboles del Modelo de Random Forest.

Fuente: Autor

Finalmente, para el Modelo de Random Forest se obtuvieron los siguientes resultados de


las métricas de evaluación de modelos de Machine Learning (ver Tabla 17).

Tabla 17. Resultados finales del modelo Random Forest.


Modelo de ML Accuracy Precision Recall F1-Score

Random Forest 94.0 94.367 94.0 92.0

Fuente: Autor

 Logistic Regression Model

A continuación, se realizaron pruebas para el modelo de Logistic Regression. Se inició por


modificar el parámetro C que hace referencia al Inverso de la fuerza de regularización (ver
Tabla 18). Al modificar el valor de C, se observa que el accuracy disminuye o mantiene el
valor de 90%, por lo tanto, se decidió conservar el valor por defecto.

Tabla 18. Pruebas del parámetro C en el modelo Logistic Regression.


Logistic Regression Parámetro Accuracy Precision

C=1.0 90.0 45.918

C=1.2 88.0 45.833

C=1.5 88.0 45.833

C=3.0 88.0 45.833

C=5.0 90.0 45.918

C=100.0 90.0 45.918

Fuente: Autor

Se ajustó el parámetro de max_iter, que hace referencia al número máximo de iteraciones


necesarias para que los solucionadores converjan. Como se puede apreciar en la Tabla 19,
el valor por defecto de este parámetro es de 100 iteraciones, logrando un accuracy de 90%.
Sin embargo, se realizaron otras pruebas donde se observa que para los primeros valores
se obtiene un accuracy de 92%, pero no es confiable este valor, ya que el modelo ha
realizado muy pocas iteraciones. Por otra parte, se evidencia que, si se incrementan el
número de iteraciones a las de por defecto, se obtiene un valor de accuracy de 92%. Cabe
resaltar, que el esfuerzo de la máquina varía muy sutilmente (duración en segundos) entre
las diferentes iteraciones. Por lo tanto, de acuerdo con las pruebas implementadas, se
decide que para el modelo de Logistic Regresion, el único parámetro a modificar es el de
máximas iteraciones, cambiando el valor por defecto a 114. Finalmente, se consigue un
accuracy de 92%.
Tabla 19. Pruebas del parámetro max_iter en el modelo Logistic Regression.
Logistic Regression Parámetro Accuracy Precision

max_iter=1 92.0 84.64

max_iter=10 92.0 84.64

max_iter=50 92.0 84.64

max_iter=100 90.0 84.489

max_iter=105 90.0 84.489

max_iter=110 90.0 84.489

max_iter=112 90.0 84.489

max_iter=113 90.0 84.489

max_iter=114 92.0 84.64

max_iter=115 92.0 84.64

max_iter=120 92.0 84.64

max_iter=150 92.0 84.64

max_iter=200 90.0 84.489

Fuente: Autor

Con base en la Figura 26, se puede concluir que la mayor confusión se presentó en la
clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (4). Por
otra parte, se puede observar que los estudiantes restantes fueron clasificados
correctamente por el modelo, como “estudiantes que no desertaron” académicamente del
programa (46). En este caso, se puede observar que no hubo ningún estudiante que
desertó académicamente.
Figura 26. Matriz de Confusión del Modelo de Logistic Regression.

Fuente: Autor

Finalmente, para el Modelo de Logistic Regression se obtuvieron los siguientes resultados


de las métricas de evaluación de modelos de Machine Learning (ver Tabla 20).

Tabla 20. Resultados finales del modelo Logistic Regression.


Modelo de ML Accuracy Precision Recall F1-Score

Logistic Regression 92.0 84.64 90.0 87.0

Fuente: Autor

 Gaussian Naive Bayes Model

En el caso del modelo de Bayes no se modificaron sus parámetros por defecto. En cuanto a
la Matriz de Confusión (ver Figura 26), se puede concluir que la mayor confusión se
presentó en la clasificación de estudiantes que no desertaron como estudiantes que si
desertaron (14). Por otra parte, se puede observar que 32 estudiantes que se mantienen
académicamente en el programa y fueron clasificados como estudiantes que no desertaron.
Asimismo, los 4 estudiantes desertores, se clasificaron como estudiantes desertores.

Figura 26. Matriz de Confusión del Modelo de Gaussian Naive Bayes.

Fuente: Autor

Finalmente, para el Modelo de Gaussian Naive Bayes se obtuvieron los siguientes


resultados de las métricas de evaluación de modelos de Machine Learning (ver Tabla 21).

Tabla 21. Resultados finales del modelo Gaussian Naive Bayes.


Modelo de ML Accuracy Precision Recall F1-Score

Gaussian Naive Bayes 72.0 93.777 72.0 78.0

Fuente: Autor
 K-Nearest Neighbors (KNN)

Para el modelo de KNN, se modificó el parámetro n_neighbors que hace referencia al


número de vecinos más cercanos que se utiliza para clasificar una muestra. Se probó el
método de búsqueda exhaustiva en el que se prueban diferentes valores para el parámetro,
sin embargo, se observa que el accuracy mantiene el valor de 92% (ver Tabla 22). Por lo
tanto, para definir el número de vecinos se aplicó el método heurístico, que consiste en
calcular la raíz cuadrada del número total de muestras en el conjunto de datos. De esta
manera, se obtuvo el valor de n_neighbors igual a 15 con un accuracy de 92%.

Tabla 22. Pruebas del parámetro n_neighbors en el modelo K-Nearest Neighbors.


K-Nearest Neighbors Parámetro Accuracy Precision

n_neighbors=1 92.0 90.25

n_neighbors=2 92.0 84.64

n_neighbors=3 92.0 84.64

n_neighbors=4 92.0 84.64

n_neighbors=5 92.0 84.64

n_neighbors=10 92.0 84.64

n_neighbors=15 92.0 84.64

Fuente: Autor

En la Figura 27 de la Matriz de Confusión, se puede concluir que la mayor confusión se


presentó en la clasificación de “estudiantes que si desertaron” como “estudiantes que no
desertaron”, con un total de 4 estudiantes. Por otra parte, se puede observar que los
estudiantes restantes los clasificó correctamente el modelo, como “estudiantes que no
desertaron” académicamente del programa. Cabe resaltar que, en este caso no se
presentaron estudiantes desertores.
Figura 27. Matriz de Confusión del Modelo de K-Nearest Neighbors.

Fuente: Autor

Finalmente, para el Modelo de K-Nearest Neighbors se obtuvieron los siguientes resultados


de las métricas de evaluación de modelos de Machine Learning (ver Tabla 23).

Tabla 23. Resultados finales del modelo K-Nearest Neighbors.


Modelo de ML Accuracy Precision Recall F1-Score

K-Nearest Neighbors 92.0 84.64 92.0 88.0

Fuente: Autor

A continuación, se organizaron los modelos de Machine Learning de acuerdo con los


mejores resultados de Accuracy (Tabla 24). La métrica principal que se tuvo en cuenta para
evaluar el desempeño de los modelos fue la de accuracy, aunque, también se recolectaron
las métricas de evaluación de precision, recall y f1. De esta manera, se puede afirmar que
los modelos que mejor se ajustaron al dataset conformado, son los de la familia de los
árboles: Decision Tree y Random Forest. Sin embargo, los modelos de Support Vector
Machine, Logistic Regression y K-Nearest Neighbors presentaron un buen desempeño con
un accuracy por encima del 90%. Finalmente, el modelo que menos se acopló a los datos
fue el modelo Gaussiano de Naive Bayes, ya que tiene un accuracy por debajo del 80% y
obtuvo muchas confusiones al momento de clasificar los datos.

Tabla 24. Resultados finales de los modelos de Machine Learning.


Modelo de ML Accuracy Precision Recall F1-Score

Decision Tree 94.0 93.418 94.0 94.0

Random Forest 94.0 94.367 94.0 92.0

Support Vector Machine 92.0 84.64 92.0 88.0

Logistic Regression 92.0 84.64 90.0 87.0

K-Nearest Neighbors 92.0 84.64 92.0 88.0

Gaussian Naive Bayes 72.0 93.777 72.0 78.0

Fuente: Autor

7. 5 Evaluación

En la fase de evaluación, se aplicó la evaluación cruzada a los distintos modelos que se


entrenaron y probaron con los datos de los estudiantes. La evaluación Cross-Validation es
una técnica utilizada en Machine Learning para evaluar y validar el rendimiento de un
modelo de manera más robusta y precisa (Burkov, 2019). Consiste en dividir el conjunto de
datos en múltiples subconjuntos o pliegues, donde se entrena y evalúa el modelo en
diferentes combinaciones de estos subconjuntos. Como se puede observar en la Figura 28,
la evaluación Cross-Validation se aplica sobre los datos de entrenamiento, nunca con los
datos de prueba. Posteriormente, los datos son divididos en 5 subconjuntos, por lo tanto, se
realizaron 5 iteraciones. En cada una de las iteraciones se tuvo 4 pliegues de datos de
entrenamiento y 1 pliegue de datos para evaluar el modelo. Finalmente, se obtuvo un
arreglo con 5 valores de una métrica a evaluar, la cual puede ser accuracy, precision, recall,
f1, etc.
Figura 28. Explicación Cross Validation.

Fuente: Autor

 Decision Tree Cross Validation

En las diferentes iteraciones que tuvo la validación cruzada para el modelo de Decision
Tree, se puede observar que se lograron buenos resultados de accuracy (ver Tabla 25). El
accuracy que presentó el modelo fue de 94% (ver Tabla 24) y la validación cruzada
presentó un promedio de 90%. Sin embargo, en algunas de las iteraciones del accuracy, en
la validación cruzada, se presentó el valor de 94%.
Tabla 25. Resultados de Cross Validation del modelo Decision Tree.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.9 0.897 0.948 0.948 0.974 0.903

Precision 0.0 0.0 0.0 0.5 1.0 0.3

Recall 0.0 0.0 0.0 0.5 0.5 0.2

F1-Score 0.0 0.0 0.333 0.666 0.666 0.333

Fuente: Autor

 Support Vector Machine Cross Validation

El modelo de Support Vector Machine con los datos de prueba consiguió un accuracy de
92% (ver Tabla 24), mientras que el promedio de las iteraciones de la validación cruzada
consiguió un valor mayor de 95% (ver Tabla 26).

Tabla 26. Resultados de Cross Validation del modelo Support Vector Machine.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.92 0.974 0.948 0.948 0.948 0.954

Precision 0.0 0.0 0.0 0.0 0.0 0.0

Recall 0.0 0.0 0.0 0.0 0.0 0.0

F1-Score 0.0 0.0 0.0 0.0 0.0 0.0

Fuente: Autor

 Random Forest Cross Validation

En el caso de la validación cruzada para el modelo de Random Forest, se puede observar


que en las 5 iteraciones se lograron unos resultados de accuracy cercanos al 90% (ver
Tabla 27). El accuracy que presentó el modelo de RF fue de 94% (ver Tabla 24) y la
validación cruzada presentó un promedio de 90%. Cabe resaltar que, el resultado obtenido
por el modelo con los datos de prueba se encuentra cercano al del promedio de la
validación.

Tabla 27. Resultados de Cross Validation del modelo Random Forest.

Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.825 0.871 0.974 0.948 0.897 0.903

Precision 0.25 0.0 0.0 0.0 0.5 0.15

Recall 0.5 0.0 0.0 0.0 0.5 0.2

F1-Score 0.0 0.0 0.0 0.0 0.0 0.0

Fuente: Autor

 Logistic Regression Cross Validation

En la Tabla 28, el promedio de la validación cruzada fue de aproximadamente 95% y sus 5


iteraciones obtuvieron valores por encima de 91%. Por otra parte, el resultado obtenido por
el modelo con los datos de prueba fue de 92% (ver Tabla 24).

Tabla 28. Resultados de Cross Validation del modelo Logistic Regression.


Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.925 0.974 0.948 0.948 0.948 0.949

Precision 0.0 0.0 0.5 0.0 0.0 0.1

Recall 0.0 0.0 0.5 0.0 0.0 0.1

F1-Score 0.0 0.0 0.5 0.0 0.0 0.1

Fuente: Autor
 Gaussian Naive Bayes Cross Validation

En las diferentes iteraciones que tuvo la validación cruzada para el modelo de Gaussian
Naive Bayes, se puede observar que se obtuvieron unos resultados de accuracy (ver Tabla
29 mayores a los del modelo con los datos de prueba (ver Tabla 24).

Tabla 29. Resultados de Cross Validation del modelo Gaussian Naive Bayes.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.875 0.7692 0.7948 0.7948 0.8205 0.810

Precision 0.2 0.1 0.2 0.2 0.0 0.139

Recall 0.5 1.0 1.0 1.0 0.0 0.7

F1-Score 0.285 0.181 0.333 0.333 0.0 0.226

Fuente: Autor

 K-Nearest Neighbors Cross Validation

El modelo de K-Nearest Neighbors con los datos de prueba consiguió un accuracy de 92%
(ver Tabla 24), mientras que el promedio de las iteraciones de la validación cruzada
consiguió un valor mayor de 95% (ver Tabla 30).

Tabla 30. Resultados de Cross Validation del modelo K-Nearest Neighbors.


Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio

Accuracy 0.95 0.974 0.948 0.948 0.948 0.954

Precision 0.0 0.0 0.0 0.0 0.0 0.0

Recall 0.0 0.0 0.0 0.0 0.0 0.0

F1-Score 0.0 0.0 0.0 0.0 0.0 0.0

Fuente: Autor
En la mayoría de los casos los resultados obtenidos por los modelos de Machine Learning
con los datos de prueba se encuentran dentro de los valores de las iteraciones de la
validación cruzada. Sin embargo, hay que recordar que la selección de los datos de prueba
es de manera aleatoria, esta es la razón de la variación de los resultados Ver Tabla 31.

Tabla 31. Resultados finales de los promedios de la validación cruzada aplicada a los modelos de ML.
Modelo de ML Accuracy Precision Recall F1-Score

Decision Tree 90.3 30.0 20.0 33.0

Random Forest 90.3 15.0 20.0 0.0

Support Vector Machine 95.4 0.0 0.0 0.0

Logistic Regression 94.4 10.0 10.0 10.0

K-Nearest Neighbors 95.4 0.0 0.0 0.0

Gaussian Naive Bayes 81.0 13.9 7.0 22.6

Fuente: Autor

7. 6 Despliegue

En la Figura 29 se observa El Sistema de la Deserción Estudiantil, el cual funciona de la


siguiente manera: la información es proporcionada por las Entidades de Registro y Control
y UDIES. Posteriormente, el cliente o usuario que ingrese al Dashboard puede visualizar las
gráficas relacionadas con la información de factores (características) que influyen en la
deserción estudiantil. Luego, si el cliente ingresa el código institucional de un estudiante, se
genera la predicción con el porcentaje de deserción del estudiante. Este proceso se realiza,
ya que el Dashboard accede al modelo de Machine Learning que previamente se ha
entrenado con los datos de entrenamiento.
Figura 29. Diagrama de Caso de Uso.

Fuente: Autor

Adicionalmente, a partir de los datos históricos académicos de los estudiantes de la


Facultad de Ingeniería de Sistemas de los periodos 2018-1 al 2021-2, se entrena el modelo
de Machine Learning Decision Tree con los datos de entrenamiento (196 registros).
Posteriormente, cuando el modelo se encuentra desplegado puede generar dos tipos de
predicciones: predicciones con los datos de prueba (50 registros) o modificar las
características para obtener una predicción de un nuevo estudiante. Finalmente, el modelo
de Decision Tree es evaluado con las métricas de desempeño. En el Dashboard se puede
observar un reporte de las métricas de accuracy, precision, recall, f1, entre otras, así como,
la Matriz de Confusión.
Figura 30. Diagrama de la conceptualización del proyecto.

Fuente: Autor

Para conocer cuáles eran los requerimientos para el desarrollo del dashboard, se realizó
una reunión con las dependencias de Registro y Control y UDIES. A partir de ello, se
elaboró un documento de Levantamiento de Requerimientos (ver Anexo 6 - Documento de
Levantamiento de Requerimientos). Posteriormente, se diseñaron los wireframes y mockups
del dashboard para tener una idea del resultado que se deseaba lograr (ver Anexo 8 -
Wireframes y Mockups del Proyecto).

Para la construcción del Dashboard del proyecto se implementó la biblioteca


explainerdashboard, que es una librería desarrollada por Oege Dijk y cuenta con una
licencia que otorga el permiso a cualquier persona de operar el software sin restricciones.
Esta librería permite crear rápidamente paneles interactivos para analizar y explicar las
predicciones y el funcionamiento de los modelos de aprendizaje automático (compatibles
con scikit-learn). Asimismo, la biblioteca permite investigar los valores SHAP, la importancia
de las permutaciones, los efectos de interacción, los gráficos de dependencia parcial, todo
tipo de gráficos de rendimiento e incluso árboles de decisión individuales dentro de un
bosque aleatorio (Oege, 2020). A continuación, se describen los módulos del Dashboard del
proyecto:
 Módulo de Feature Importances

La Figura 31 del Dashboard muestra las características ordenadas de la más importante a


la menos importante. Puede ordenarse por valor SHAP absoluto (impacto absoluto
promedio de la función en la predicción final) o por importancia de permutación).

Figura 31. Gráfica del Dashboard de las características más importantes del dataset.

Fuente: Autor

En la Figura 32 del Dashboard, se muestra una tabla con la descripción de las


características. Las características pueden ordenarse alfabéticamente o desde el valor
SHAP absoluto medio más alto hasta el más bajo.

Figura 32. Tabla del Dashboard de la descripción de las características del dataset.

Fuente: Autor
 Módulo de Classification Stats

La Figura 33 muestra una lista de las métricas de desempeño. Las cuales son:

1. Accuracy: El 96,0 % de las etiquetas predichas se pronosticó correctamente.


2. Precision: El 100,0 % de las etiquetas positivas pronosticadas se pronosticó
correctamente.
3. Recall: El 50,0% de las etiquetas positivas se predijo correctamente.
4. F1: La media ponderada de precisión y recuperación es 0,7.
5. ROC_AUC_score: La probabilidad de que una etiqueta aleatoria positiva tenga una
puntuación más alta que una etiqueta aleatoria negativa es del 75,00%.
6. PR_AUC_score: La puntuación de precisión media calculada para cada umbral de
recuperación es 0,5. Esto ignora los verdaderos negativos.
7. Log_loss: Una medida de qué tan lejos está la etiqueta pronosticada de la etiqueta
real en promedio en el espacio de registro (1.4).

Figura 33. Gráfica del Dashboard de los resultados de las métricas de evaluación del modelo de ML.

Fuente: Autor

La matriz de confusión muestra el número de verdaderos negativos (predicho negativo,


observado negativo), verdaderos positivos (predicho positivo, observado positivo), falsos
negativos (predicho negativo, pero observado positivo) y falsos positivos (predicho positivo,
pero observado negativo). Se pueden visualizar la Matriz de Confusión general (Figura 34) o
con las predicciones (Figura 35).
Figura 34. Gráfica del Dashboard de la Matriz de Confusión de los datos en general del Modelo de ML.

Fuente: Autor

Figura 35. Gráfica del Dashboard de la Matriz de Confusión de los datos de predicciones del Modelo de ML.

Fuente: Autor
La Figura 36 permite observar la comparación entre el porcentaje de deserción y la
probabilidad de predicción, con base en los resultados obtenidos por la matriz de confusión.
Un modelo perfectamente calibrado mostraría una línea recta desde la esquina inferior
izquierda hasta la esquina superior derecha. Un modelo sólido clasificaría la mayoría de las
observaciones correctamente y con una probabilidad cercana al 0 % o al 100 %.

Figura 36. Gráfica del Dashboard del Porcentaje de deserción vs la probabilidad de predicción.

Fuente: Autor

La Figura 37 muestra la gráfica de la fracción de cada clase por encima y por debajo del
corte (cutoff).
Figura 37. Gráfica del Distribución de la columna etiqueta por encima y debajo del corte.

Fuente: Autor

La Figura 38 muestra la compensación entre los falsos positivos (FP) y falsos negativos
(FN). El gráfico ROC o de características operativas del receptor se utiliza para visualizar el
rendimiento de un clasificador binario (vijh, 2019).
Figura 38. Gráfica de la compensación entre falsos positivos y falsos negativos.

Fuente: Autor

 Módulo de Individual Predictions

En la Figura 39, se puede seleccionar un código institucional de un estudiante (Student ID)


por medio del menú desplegable (si se comienza a escribir, se puede buscar dentro de la
lista), o si se presiona el botón Random Student Id, para seleccionar aleatoriamente un
código institucional de un estudiante que se ajuste a las restricciones. En este caso se
seleccionó un estudiante que no se encuentra en deserción.
Figura 39. Gráfica que muestra la selección de un estudiante para generar una predicción.

Fuente: Autor

En la Figura 40, se muestra la probabilidad pronosticada para cada etiqueta de dropout de


un estudiante. En este caso se seleccionó un estudiante que no se encuentra en deserción,
a continuación, que para mantener el anonimato se refirió a él como estudiante no desertor.

Figura 40. Gráfica que muestra la probabilidad de deserción de un estudiante no desertor.

Fuente: Autor
Asimismo, se realizó la predicción con un estudiante desertor, que para permanecer en el
anonimato se refirió a él como estudiante desertor (ver Figura 41).

Figura 41. Gráfica que muestra la probabilidad de deserción de un estudiante desertor.

Fuente: Autor

La Figura 42 muestra la contribución que cada característica individual que ha tenido en la


predicción de una observación específica. Las contribuciones (a partir del promedio de la
población) se suman a la predicción final. Esto le permite explicar exactamente cómo se ha
construido cada predicción individual a partir de todos los ingredientes individuales del
modelo.
Figura 42. Gráfica que muestra la contribución de cada característica en un estudiante.

Fuente: Autor

La Figura 43 se generó al seleccionar la cantidad de características que se deseaba mostrar


para un estudiante no desertor.
Figura 43. Gráfica que muestra la contribución de cada característica en un estudiante no desertor.

Fuente: Autor

La Figura 44 se generó al seleccionar la cantidad de características que se deseaba mostrar


para un estudiante desertor.
Figura 44. Gráfica que muestra la contribución de cada característica en un estudiante desertor.

Fuente: Autor

La Figura 45 corresponde a la visualización de dependencia parcial (PDP), la cual permite


apreciar cómo cambiaría la predicción del modelo si cambia una característica en particular.
Esta figura presenta una fracción de las observaciones y cómo varían respecto a la
característica establecida (líneas de cuadrícula). El efecto promedio se muestra en gris. El
efecto de cambiar la función para un código institucional del estudiante (Student ID) se
muestra en azul. El dashboard establece cuántas observaciones muestrear para el
promedio, cuántas líneas de cuadrícula mostrar y cuántos puntos a lo largo del eje x para
calcular las predicciones del modelo (puntos de cuadrícula).

En la Figura 45, muestra la dependencia parcial de la característica de promedio acumulado


en el estudiante no desertor.
Figura 45. Gráfica que muestra la dependencia parcial de cada característica en un estudiante no desertor.

Fuente: Autor

La Figura 46 muestra la dependencia parcial de la característica de promedio acumulado en


el estudiante desertor.
Figura 46. Gráfica que muestra la dependencia parcial de cada característica en un estudiante desertor.

Fuente: Autor

La tabla de contribuciones muestra el aporte que cada característica individual ha tenido en


la predicción para una observación específica. Las contribuciones (a partir del promedio de
la población) se suman a la predicción final. Esto le permite al usuario apreciar cómo se ha
construido cada predicción individual a partir de todos los parámetros individuales del
modelo. La Figura 47 muestra la tabla de contribuciones de un estudiante no desertor.
Figura 47. Gráfica que muestra la tabla de contribuciones de un estudiante no desertor.

Fuente: Autor

La Figura 48 muestra la tabla de contribuciones de un estudiante desertor.


Figura 48. Gráfica que muestra la tabla de contribuciones de un estudiante desertor.

Fuente: Autor

 Módulo de “What If...”

En este módulo se pueden ajustar los valores de entrada para ver predicciones de
escenarios hipotéticos. De esta manera, se pueden realizar predicciones en tiempo real (ver
Figura 49).

Figura 49. Gráfica que muestra los valores de entrada para una predicción en tiempo real.

Fuente: Autor
 Módulo de Feature Dependence

La Figura 50 resume las características más influyentes en las predicciones. Se puede


seleccionar una visualización de agregados, que muestre el valor de forma absoluto medio
por característica o una visión más detallada de la distribución de los valores de forma por
función.

Figura 50. Características más influyentes en el proceso de predicción.

Fuente: Autor

La Figura 51 muestra la relación entre los valores de características y los valores de forma.
Esto permite investigar la relación general entre el valor de la característica y el impacto en
la predicción.
Figura 51. Resumen de la dependencia de Shap.

Fuente: Autor

 Módulo de Feature Interactions

La Figura 52 muestra la relación entre los valores de las características y los valores de
interacción de las formas. Esto permite investigar las interacciones entre las características
para determinar la predicción del modelo.
Figura 52. Resumen de las interacciones de Shap.

Fuente: Autor

La Figura 53 muestra la relación entre los valores de las características. Esto permite
investigar las interacciones entre las características para determinar la predicción del
modelo.
Figura 53. Comparación de la interacción de las características.

Fuente: Autor
Transversalmente al desarrollo del proyecto se participó en una ponencia del Congreso
CLABES (Congreso Latinoamericano sobre ABandono en la Educación Superior), que
abordaba la problemática asociada al abandono de estudios superiores. Su primera edición
se realizó en 2011, y en el año 2022 se presentó su décima primera convocatoria, XI-
CLABES. Esta versión se realizó en la Universidad Católica de Brasilia en Brasilia - Brasil
(Universidad Católica de Brasilia, 2022). La línea temática que se seleccionó fue la primera,
que abordó las teorías y factores asociados a la permanencia y el abandono, así como, los
tipos y perfiles de abandono. Para la aceptación del trabajo fue necesario pasar por
diferentes filtros: enviar un abstract, enviar las correcciones del abstract, enviar un
documento con abstract, introducción, resultados y conclusiones, enviar las correcciones del
documento y finalmente, enviar la presentación a exponer en el Congreso (ver Anexo 7 -
Cronograma del Proyecto). El Congreso se llevó a cabo los días 16 a 18 de noviembre del
2022. Finalmente, se logró obtener una publicación del proyecto (ver Anexo 5 - Libro de
Actas del Congreso XI Clabes) y la participación y distinción del proyecto (ver Anexo 4 -
Certificaciones de participación en la Ponencia del Congreso XI Clabes).
8. CONCLUSIONES Y ANÁLISIS DE RESULTADOS

Para determinar los factores académicos de deserción estudiantil, se adecuó el dataset de


tal forma que estos factores se dispusieran en características. Por cada estudiante (146
instancias), se determinaron las siguientes características: código del estudiante, género del
estudiante, semestre actual del estudiante y promedio acumulado actual del estudiante, y
por cada espacio académico de estudio, se contemplaron 5 características: código de la
materia, código del docente que orienta la materia, cantidad de veces cursada la materia
por el estudiante, nota final de la materia y ausencias. De acuerdo con el análisis de la
Matriz de Correlación las características de código de docente, cantidad de veces cursada
la materia y nota final de la materia, presentan una alta correlación en los 49 espacios
académicos. Asimismo, de acuerdo con el análisis de los gráficos de Árboles, las
características más importantes fueron el promedio académico del estudiante y 4
características académicas. Las características académicas con mayor impacto fueron la
cantidad de veces que se ha cursado un espacio académico, donde sobresalen las materias
de: Programación Orientada a Objetos, Cálculo Diferencial y Desarrollo Orientado a
Servicios. La cantidad de ausencias en las materias de Trabajo de Grado II, las Cátedras de
Henri Didon e Introducción a Ingeniería de Sistemas. La nota final en las materias de
Filosofía Institucional, Introducción a la Programación y Química General. Finalmente, el
código de docente en las materias de Antropología e Introducción a la Ingeniería de
Sistemas. Por otra parte, en el dashboard, el análisis de correlación de datos de las gráficas
de dependencia e interacción de los factores que más incidieron en la predicción del dataset
fueron: el promedio acumulado del estudiante, la cantidad de veces cursadas de las
materias Programación Orientada a Objetos, Cálculo Diferencial y Desarrollo Orientado a
Servicios, las ausencias en las materias de Trabajo de Grado II, Sistemas Operativos y las
Cátedras de Henri Didon y las notas finales de las materias de Filosofía Institucional, las
Cátedras de Henri Didon y Sistemas Operativos. Cabe resaltar que las deserciones
académicas estudiantiles para el programa no se vieron afectadas por el género del
estudiante.

Según el estado del arte del proyecto, se implementaron los modelos de Machine Learning
de Decision Tree, Random Forest, Support Vector Machine, Logistic Regression, K-Nearest
Neighbors y Gaussian Naive Bayes. La mayoría de los modelos presentaron un desempeño
alto de accuracy para Decision Tree 94%, Random Forest 94%, Support Vector Machine
92%, Logistic Regression 92% y K-Nearest Neighbors 92%. Sin embargo, el modelo que
menos se acopló a los datos (accuracy de 72%) y con mayores confusiones al momento de
clasificar los datos fue el Gaussiano. Finalmente, los modelos que mejor se ajustaron al
dataset del reporte académico de los estudiantes, para realizar las predicciones de la
deserción estudiantil, fueron los de la familia de los árboles: Decision Tree y Random
Forest.

Para la construcción del dashboard del proyecto se implementó la biblioteca


explainerdashboard, la cual proporcionó ventajas en los siguientes aspectos: facilitó la
visualización de los factores con mayor impacto y su porcentaje de contribución en la
deserción académica estudiantil, permitió generar las gráficas de interacción dependiente
con Shap (para poder detectar desertores con comportamientos similares), permitió evaluar
el desempeño de clasificación mediante la gráfica de ROC, permitió generar dos tipos de
predicciones (con datos de prueba y con datos en tiempo real) y contribuyó a la generación
de las gráficas del reporte de las distintas métricas de evaluación del modelo de Machine
Learning y la Matriz de Confusión.

Para la evaluación del desempeño de los modelos de Machine Learning con las
predicciones de deserción estudiantil se aplicó la herramienta de Cross Validation. La
validación cruzada se realizó con 5 subconjuntos, y finalmente se obtuvieron los siguientes
promedios de accuracy en cada iteración: Decision Tree con 90%, Random Forest con 90%,
Support Vector Machine con 95%, Logistic Regression con 94%, K-Nearest Neighbors con
95% y Gaussian Naive Bayes con 81%. Comparado los valores de accuracy obtenidos con
los datos de prueba y los promedios de la validación cruzada de los modelos, se puede
observar que se presentaron valores muy similares.

Dentro de la información relevante que influye en el análisis de la situación académica de un


estudiante, convergen diferentes factores, tales como: académicos, socioeconómicos,
médicos, familiares, psicológicos y los reportes de la unidad de atención al estudiante. Sin
embargo, la mayoría de ellos corresponden a contextos sensibles y de difícil acceso. Por lo
cual, en este estudio se consolidó el dataset con la información académica de los
estudiantes en una institución de educación superior.
Es necesario mencionar que el dataset conformado para el proyecto tiene problemas de
dimensionalidad, ya que cuenta con un mayor número de columnas (250) que filas (246). Al
presentarse este caso se pudo afectar el análisis y el desempeño del modelo y aumentar el
riesgo de sobreajuste. Esto se pudo evidenciar con los porcentajes obtenidos del 100% en
los casos de no deserción estudiantil, como en los casos de deserción. Sin embargo, se
prevé que esta problemática se solucione cuando crezcan el número de instancias.

Para la limpieza de los datos del se recomienda tener en cuenta aspectos como: la unión de
diferentes datasets, algunos de los estudiantes del programa presentan 2 códigos
institucionales, fue necesario realizar una actualización de los nombres y códigos del
programa con base en el pensum vigente (2018), entre otras.

Transversalmente al desarrollo del proyecto se participó en una ponencia del Congreso


CLABES. Ésta fue una experiencia enriquecedora para el proyecto, debido al intercambio
de conocimientos, conocer la perspectiva a nivel latinoamericano sobre los factores de
deserción estudiantil, los aportes y retroalimentación de profesionales al proyecto y el
resultado de una publicación y distinción del proyecto.

Como trabajo a futuro se propone complementar la información del dataset, con datos de
otros programas, teniendo en cuenta características distintas a las académicas. Además, se
plantea probar con otros algoritmos de Machine Learning, configurando los parámetros de
modo que se ajusten a los datos históricos, en especial algoritmos de Deep Learning,
mediante redes convolucionales.

Este trabajo suministra una herramienta que apoya a las instituciones de educación superior
en la implementación de escenarios de ingeniería de características, aplicación de
algoritmos y técnicas de aprendizaje automático. Además, aplica una reflexión del estatus
quo de los programas de ingeniería de un país latinoamericano, con respecto a la
mortalidad y deserción académica.
9. REFERENCIAS

Berrar, D. (2019). Cross-Validation. In Encyclopedia of Bioinformatics and Computational


Biology (pp. 542–545). Elsevier. http://dx.doi.org/10.1016/b978-0-12-809633-
8.20349-x
Burkov, A. (2019). The hundred-page machine learning book (pp. 14–17).
CWTS. (2022). Centre for Science and Technology Studies. Visualizing Science Using
VOSviewer. https://www.vosviewer.com/

da Fonseca Silveira, R., Holanda, M., de Carvalho Victorino, M., & Ladeira, M. (2019).
Educational Data Mining: Analysis of Drop out of Engineering Majors at the UnB -
Brazil. 2019 18th IEEE International Conference On Machine Learning And
Applications (ICMLA), 259–262. https://doi.org/10.1109/ICMLA.2019.00048

de O. Santos, K. J., Menezes, A. G., de Carvalho, A. B., & Montesco, C. A. E. (2019).


Supervised Learning in the Context of Educational Data Mining to Avoid University
Students Dropout. 2019 IEEE 19th International Conference on Advanced Learning
Technologies (ICALT), 207–208. https://doi.org/10.1109/ICALT.2019.00068

Del Bonifro, F., Gabbrielli, M., Lisanti, G., & Zingaro, S. P. (2020). Student Dropout
Prediction (pp. 129–140). https://doi.org/10.1007/978-3-030-52237-7_11

Fernandez-Garcia, A. J., Preciado, J. C., Melchor, F., Rodriguez-Echeverria, R., Conejero, J.


M., & Sanchez-Figueroa, F. (2021). A Real-Life Machine Learning Experience for
Predicting University Dropout at Different Stages Using Academic Data. IEEE Access,
9, 133076–133090. https://doi.org/10.1109/ACCESS.2021.3115851

Hernández Romero, Ó. A., Novoa Beltrán, M. F., Hernández Molina, L. E., & Salina Casas,
E. C. (2021, November 19). PERMANENCIA EN EL PRIMER AÑO DE VIDA
UNIVERSITARIA EN TIEMPOS DE PANDEMIA. Línea Temática: Teorías y Factores
Asociados a La Permanencia y El Abandono.
https://revistas.utp.ac.pa/index.php/clabes/article/view/3363/4071

Hutagaol, N., & Suharjito, S. (2019). Predictive Modelling of Student Dropout Using
Ensemble Classifier Method in Higher Education. Advances in Science, Technology
and Engineering Systems Journal, 4(4), 206–211. https://doi.org/10.25046/aj040425

kdnuggets. (2017). Four Problems in Using CRISP-DM and How To Fix Them.
https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html
Kemper, L., Vorhoff, G., & Wigger, B. U. (2020). Predicting student dropout: A machine
learning approach. European Journal of Higher Education, 10(1), 28–47.
https://doi.org/10.1080/21568235.2020.1718520

Lottering, R., Hans, R., & Lall, M. (2020). A Machine Learning Approach to Identifying
Students at Risk of Dropout: A Case Study. International Journal of Advanced
Computer Science and Applications, 11(10).
https://doi.org/10.14569/IJACSA.2020.0111052

Maksimova, N., Pentel, A., & Dunajeva, O. (2021). Predicting First-Year Computer Science
Students Drop-Out with Machine Learning Methods: A Case Study (pp. 719–726).
https://doi.org/10.1007/978-3-030-68201-9_70

Opazo, D., Moreno, S., Álvarez-Miranda, E., & Pereira, J. (2021). Analysis of First-Year
University Student Dropout through Machine Learning Models: A Comparison between
Universities. Mathematics, 9(20), 2599. https://doi.org/10.3390/math9202599

Oege, O. (2020). explainerdashboard — explainerdashboard 0.2 documentation.


Explainerdashboard. https://explainerdashboard.readthedocs.io/en/latest/index.html

Ruiz-Rosero, J., Ramirez-Gonzalez, G., & Viveros-Delgado, J. (2019). Software survey:


ScientoPy, a scientometric tool for topics trend analysis in scientific publications.
Scientometrics, 121(2), 1165–1188. https://doi.org/10.1007/s11192-019-03213-w

Sarkar, D., Bali, R., & Sharma, T. (2017). Practical machine learning with python: A problem-
solver’s guide to building real-world intelligent systems. Apress.

Schröer, C., Kruse, F., & Marx Gómez, J. C. (2020). A Systematic Literature Review on
Applying CRISP-DM Process Model. Procedia Computer Science. CENTERIS -
International Conference on ENTERprise Information Systems / ProjMAN -
International Conference on Project MANagement / HCist - International Conference on
Health and Social Care Information Systems and Technologies 2020, 526–534.
https://www.researchgate.net/publication/349527794_A_Systematic_Literature_Review
_on_Applying_CRISP-DM_Process_Model

Sierra, H., & Hernández, O. (2014, November 3). SISTEMA DE ALERTAS TEMPRANAS
COMO HERRAMIENTA DE INNOVACIÓN TECNOLÓGICA EN LA UNIVERSIDAD
SANTO TOMÁS PARA EL FORTALECIMIENTO DE LA PERMANENCIA
ESTUDIANTIL Y GRADUACIÓN OPORTUNA. Línea Temática 4: Prácticas de La
Integración Universitaria Para La Reducción Del Abandono Tipo de Comunicación:
Experiencia/Reporte de Caso. https://core.ac.uk/download/pdf/234020468.pdf
Theobald, O. (2017). Machine Learning For Absolute Beginners (Second Edition).

Timaran Pereira, R., & Caicedo Zambrano, J. (2017). Application of Decision Trees for
Detection of Student Dropout Profiles. 2017 16th IEEE International Conference on
Machine Learning and Applications (ICMLA), 528–531.
https://doi.org/10.1109/ICMLA.2017.0-107

Universidad Católica de Brasilia. (2022, November 16). Congresso Latino-americano sobre


o Abandono na Educação Superior (XI CLABES). Congresso Latino-Americano Sobre
o Abandono Na Educação Superior (XI CLABES).
https://doity.com.br/clabes2022/artigos?lang=es

UDIES - Unidad de Desarrollo Integral Estudiantil. (2020). Reporte deserción Ingeniería de


Sistemas 2020.

Universidad de los Andes. (2014). Informe Determinantes de la deserción: “Informe mensual


sobre el soporte técnico y avance del contrato para garantizar la alimentación,
consolidación, validación y uso de la información del SPADIES.”
https://www.mineducacion.gov.co/sistemasdeinformacion/1735/articles-
254702_Informe_determinantes_desercion.pdf

vijh, samarth. (2019, June 12). What is ROC curve in machine learning? ROC curve in
python with example. Intellipaat. https://intellipaat.com/blog/roc-curve-in-machine-
learning/?US

Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a Standard Process Model for Data
Mining. 4th International Conference on the Practical Applications of Knowledge
Discovery and Data Mining, 29–30.
http://www.cs.unibo.it/~danilo.montesi/CBD/Beatriz/10.1.1.198.5133.pdf
10. ANEXOS

Anexo 1. Actas de Reuniones con Registro y Control y UDIES

Reunión seguimiento proyecto de grado

Página 1 de 3

ACTA Nº 01

DD MM AA
LUGAR: Campus Centro Histórico, oficina Registro y Control FECHA:
23 06 2022

HORA DE INICIO: 10:00 am HORA DE FINALIZACIÓN: 11:40 am

Angélica Maria Salazar Madrigal

Alexander Toro Cruz

Luis Eduardo Piña Jiménez


ASISTENTES:
Martha Susana Contreras Ortiz

Juana Valentina Mendoza Santamaría

AUSENTES:

INVITADOS:

AGENDA

1. Socialización del proyecto de grado “Modelo predictivo de la mortalidad académica del programa de
Ingeniería de Sistemas de la USTA Seccional Tunja basado en técnicas de Machine Learning”.
2. Determinar fuentes primarias para el proyecto de investigación por parte de las oficinas de Registro y
Control y UDIES.
3. Compromiso de confidencialidad y datos personales.
4. Varios.
Reunión seguimiento proyecto de grado

Página 2 de 3

SEGUIMIENTO A COMPROMISOS
No hay compromisos previos.

DESARROLLO DE LA REUNIÓN
1. Socialización del proyecto de grado “Modelo predictivo de la mortalidad académica del programa de
Ingeniería de Sistemas de la USTA Seccional Tunja basado en técnicas de Machine Learning”.

La estudiante y la directora del proyecto de grado agradecieron a los asistentes por su presencia en
la reunión. Posteriormente, la estudiante expuso mediante una presentación de diapositivas la
propuesta del proyecto de investigación. A continuación, intervino la Ingeniera Angélica e indagó a la
estudiante sobre el alcance del proyecto y el tipo de información requerida. A su vez, sugirió
informarse acerca del Sistema Integrado de Información Multicampus (SIIM). Posteriormente, el
personal de UDIES intervino para hablar sobre el SIIM, el proyecto de las alertas tempranas, la falta
de automatización para realizar los reportes académicos y el cuadro muestreo que maneja el
Sistema Nacional de Información de la Educación Superior (SNIES). A su vez, extendieron una
invitación para mostrar el sistema SIIM y el SAC de la Universidad.

2. Determinar fuentes primarias para el proyecto de investigación por parte de las oficinas de Registro y
Control y UDIES.

La Ingeniera Angélica ofreció compartir el informe del rendimiento académico estudiantil de los
periodos 2018-1 a 2021-2, por medio de un archivo Excel. De otra parte, el señor Alexander mostró
el sistema SIIM y SAC, para poder conocer el tipo de información que manejan estas plataformas.

3. Compromiso de confidencialidad y datos personales.

Para salvaguardar la información de los estudiantes, la estudiante se compromete a firmar un


acuerdo de confidencialidad.

4. Varios.

Se dialogó sobre el proyecto de alertas tempranas, también, fue posible la visualización del sistema
SIIM y el SAC.
Reunión seguimiento proyecto de grado

Página 3 de 3

COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
Juana Valentina Mendoza Santamaría
Revisión del archivo Excel 09 08 2022
Martha Susana Contreras Ortiz
Juana Valentina Mendoza Santamaría
Envío de documento de confidencialidad 29 08 2022
Martha Susana Contreras Ortiz
Los departamentos de Registro y Control y
UDIES quedan atentos para resolver
Angélica Maria Salazar Madrigal
alguna inquietud y de ser necesario 31 12 2022
Alexander Toro Cruz
colaborar con la recopilación de nueva
información.

Se da por terminada la reunión y en constancia se firma el acta correspondiente.

Firma: ________________________________ Firma: _______________________________

Nombre: Angélica Maria Salazar Madrigal Nombre: Alexander Toro Cruz

Cargo: Directora Departamento Registro y Control Cargo: Director Departamento de UDIES

Firma: ________________________________ Firma: _______________________________

Nombre: Luis Eduardo Piña Jiménez Nombre: Martha Susana Contreras Ortiz

Cargo: Profesional de Soporte del Departamento de Cargo: Directora del proyecto


UDIES

Firma: ________________________________

Nombre: Juana Valentina Mendoza Santamaría

Cargo: Estudiante
Reunión seguimiento proyecto de grado

Página 1 de 3

ACTA Nº 02

DD MM AA
LUGAR: Encuentro remoto por Meet FECHA:
23 09 2022

HORA DE INICIO: 11:20 am HORA DE FINALIZACIÓN: 11:50 am

Alexander Toro Cruz

Martha Susana Contreras Ortiz


ASISTENTES:
Juana Valentina Mendoza Santamaría

AUSENTES:

INVITADOS:

AGENDA

1. Determinar los 3 tipos de deserción académica en la universidad.


2. Socialización del documento enviado al Congreso Latinoamericano sobre el Abandono en la
Educación Superior - Xl CLABES.
3. Compromiso de suministrar información para el proyecto.
4. Varios.
Reunión seguimiento proyecto de grado

Página 2 de 3

SEGUIMIENTO A COMPROMISOS

1. La estudiante y la directora del proyecto revisaron el documento Excel con los reportes académicos
de los estudiantes. Actividad completada.
2. Envío de documento de confidencialidad. Actividad en proceso.

DESARROLLO DE LA REUNIÓN

1. Determinar los 3 tipos de deserción académica en la universidad.

Primero se agradeció a los asistentes de la reunión por atender al encuentro. Posteriormente, el


señor Alexander realizó la explicación sobre los tipos de deserción académica que se presentan en
la universidad. Los tipos de deserción son: deserción temprana o interanual (inferior a 1 año),
deserción por promedio acumulado (mayor a 1 año), y deserción de egresado no graduado.

2. Socialización del documento enviado al Congreso Latinoamericano sobre el Abandono en la


Educación Superior - Xl CLABES.

La estudiante socializó brevemente cada uno de los ítems del documento enviado al Congreso
Clabes. El señor Alexander realizó las preguntas pertinentes sobre el documento.

3. Compromiso de suministrar información para el proyecto.

Se realizó la solicitud al señor Alexander para obtener la siguiente información vital para el proyecto:

● Listado de estudiantes del programa de Ingeniería de Sistemas e Ingeniería Informática,


que desertaron durante los periodos 2018-1 a 2021-2.
● El listado de todos los estudiantes que se matricularon al programa de Ingeniería de
Sistemas e Ingeniería Informática desde el 2015, incluyendo el código del estudiante, el
periodo de ingreso, número de créditos para el semestre, número de créditos inscritos y el
nombre de materias inscritas.
4. Varios.

Se dialogó sobre el sistema SIIM y sus fallas en la detección de los diferentes tipos de deserción
académica en la universidad. Además, se revisó la solicitud realizada por la UDIES en Bogotá a la
estudiante.
Reunión seguimiento proyecto de grado

Página 3 de 3

COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
Revisión del documento enviado al
Alexander Toro Cruz 29 09 2022
Congreso Xl CLABES
La UDIES se compromete a enviar la
Alexander Toro Cruz 29 09 2022
información solicitada

Se da por terminada la reunión y en constancia se firma el acta correspondiente.

Firma: ________________________________ Firma: ________________________________

Nombre: Martha Susana Contreras Ortiz Nombre: Alexander Toro Cruz

Cargo: Directora del proyecto Cargo: Director Departamento de UDIES

Firma: ________________________________

Nombre: Juana Valentina Mendoza Santamaría

Cargo: Estudiante
Reunión seguimiento proyecto de grado

Página 1 de 3

ACTA Nº 03

DD MM AA
LUGAR: Campus Centro Histórico, oficina de Registro y Control FECHA:
11 10 2022

HORA DE INICIO: 16:40 pm HORA DE FINALIZACIÓN: 17:30 pm

Angélica Maria Salazar Madrigal

Alexander Toro Cruz


ASISTENTES:
Martha Susana Contreras Ortiz

Juana Valentina Mendoza Santamaría

AUSENTES:

INVITADOS:

AGENDA

1. Compromiso de suministrar información para el proyecto.


2. Levantamiento de requerimientos para el diseño del dashboard.
3. Varios.
Reunión seguimiento proyecto de grado

Página 2 de 3

SEGUIMIENTO A COMPROMISOS
1. Envío de información por parte de UDIES y Registro y Control. Actividad en proceso.
2. Revisión del documento enviado al Congreso Claves. Actividad finalizada.

DESARROLLO DE LA REUNIÓN

1. Compromiso de suministrar información para el proyecto.

Primero se agradeció a los asistentes de la reunión por atender al encuentro. Posteriormente, Se


realizó la solicitud al señor Alexander y la Ingeniera Angélica para obtener la siguiente información
vital para el proyecto:

● Listado de estudiantes del programa de Ingeniería de Sistemas e Ingeniería Informática,


que desertaron durante los periodos 2018-1 a 2021-2.

● El listado de todos los estudiantes que se matricularon al programa de Ingeniería de


Sistemas e Ingeniería Informática desde el 2015, incluyendo el código del estudiante, el
periodo de ingreso, número de créditos para el semestre, número de créditos inscritos y el
nombre de materias inscritas.

2. Levantamiento de requerimientos para el diseño del dashboard.

La estudiante socializó al señor Alexander y a la Ingeniera Angélica dibujar cómo proyectaban el


contenido del dashboard. A continuación, explicaron cada uno de los dibujos y respondieron a las
inquietudes de la estudiante y la directora del proyecto.

3. Varios.

Se dialogó sobre los tres tipos de deserción académica en la universidad. Además, la estudiante
socializó las actas de reuniones previas.
Reunión seguimiento proyecto de grado

Página 3 de 3

COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
El UDIES y Registro y Control se
Angélica Maria Salazar Madrigal
comprometen a enviar la información 21 10 2022
Alexander Toro Cruz
solicitada

Se da por terminada la reunión y en constancia se firma el acta correspondiente.

Firma: ________________________________ Firma: ________________________________

Nombre: Angélica Maria Salazar Madrigal Nombre: Alexander Toro Cruz

Cargo: Directora Departamento Registro y Control Cargo: Director Departamento de UDIES

Firma: ________________________________ Firma: ________________________________

Nombre: Martha Susana Contreras Ortiz Nombre: Juana Valentina Mendoza Santamaría

Cargo: Directora del proyecto Cargo: Estudiante


Anexo 2. Acuerdo de Confidencialidad con Registro y Control y UDIES

ACUERDO DE CONFIDENCIALIDAD Y NO DIVULGACIÓN DE INFORMACIÓN RESERVADA

REFERENCIA: Proyecto de grado “MODELO PREDICTIVO DE LA MORTALIDAD ACADÉMICA DEL


PROGRAMA DE INGENIERÍA DE SISTEMAS DE LA USTA SECCIONAL TUNJA BASADO EN TÉCNICAS DE
MACHINE LEARNING”.

IDENTIFICACIÓN DE LA ESTUDIANTE
NOMBRE: Juana Valentina Mendoza Santamaría
NÚMERODE IDENTIFICACIÓN: 1.049.659.604
PROGRAMA: Ingeniería de Sistemas.

CLAÚSULAS
PRIMERA. LA ESTUDIANTE se obliga a no divulgar a terceras partes, la “Información confidencial”, que reciba por parte de
UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL, y a darle a dicha información el mismo tratamiento que le darían a la
información confidencial de su propiedad. Para efectos del presente acuerdo, “Información Confidencial” comprende toda
la información divulgada por UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL, ya sea en forma oral, visual, escrita,
grabada en medios magnéticos o en cualquier otra forma tangible y que se encuentre claramente marcada como tal, al ser
entregada a la parte receptora.

SEGUNDA. La parte receptora se obliga a mantener de manera confidencial la “Información confidencial” que reciba de
UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL y a no darla a una tercera parte diferente de su directora, que tengan
la necesidad de conocer dicha información para los propósitos autorizados, y quienes deberán estar de acuerdo en
mantener de manera confidencial dicha información.

TERCERA. Es obligación de la ESTUDIANTE de no divulgar la “Información confidencial”, incluyendo, mas no limitando, el


informar a su directora, que dicha información es confidencial y que no deberá
ser divulgada a terceras partes.

CUARTA. La ESTUDIANTE se obliga a utilizar la “Información confidencial” recibida, únicamente para el desarrollo del
proyecto objeto de este acuerdo y los productos asociados al mismo.

QUINTA. La ESTUDIANTE se compromete a efectuar una adecuada custodia y reserva de la información y gestión -es decir
tratamiento- de los datos suministrados por UDIES Y la DEPENDENCIA DE REGISTRO Y CONTROL al interior de las redes y
bases de datos (físicas y/o electrónicas) en donde se realice su recepción y tratamiento en general.

SEXTA. Para el caso del manejo de información que incluya datos personales, la ESTUDIANTE dará estricto cumplimiento a
las disposiciones constitucionales y legales sobre la protección del derecho
fundamental de habeas data, en particular lo dispuesto en el artículo 15 de la Constitución Política y la ley 1581 de 2012.

SÉPTIMA. En caso de que la ESTUDIANTE incumpla parcial o totalmente con las obligaciones establecidas en el presente
acuerdo, ella será responsable de los daños y perjuicios que dicho incumplimiento llegase a ocasionar a UDIES Y LA
DEPENDENCIA DE REGISTRO Y CONTROL.
OCTAVA. La vigencia del presente acuerdo será definida por el tiempo de duración del proyecto vinculado y permanecerá
vigente mientras exista relación receptora, se hará acreedora a la Pena Convencional establecida en la Cláusula Séptima del
presente Contrato.

Suscrita a los 28 días del mes de octubre de 2022, en Tunja.

Firma:

Juana Valentina Mendoza Santamaría


ESTUDIANTE
Facultad de Ingeniería de Sistemas
Universidad Santo Tomás seccional Tunja
Anexo 3. Matrices de Correlación por cada materia

Figura 54. Matriz de Correlación materia Química General.

Fuente: Autor
Figura 55. Matriz de Correlación materia Introducción a la Ingeniería de Sistemas.

Fuente: Autor
Figura 56. Matriz de Correlación materia Introducción a la Programación.

Fuente: Autor
Figura 57. Matriz de Correlación materia Filosofía Institucional.

Fuente: Autor
Figura 58. Matriz de Correlación materia Inglés I.

Fuente: Autor
Figura 59. Matriz de Correlación materia Cátedra de Henri Didon I.

Fuente: Autor
Figura 60. Matriz de Correlación materia Cálculo Diferencial.

Fuente: Autor
Figura 61. Matriz de Correlación materia Comunicación Oral y Escrita.

Fuente: Autor
Figura 62. Matriz de Correlación materia inglés II.

Fuente: Autor
Figura 63. Matriz de Correlación materia Cátedra de Henri Didon II.

Fuente: Autor
Figura 64. Matriz de Correlación materia Álgebra Lineal.

Fuente: Autor
Figura 65. Matriz de Correlación materia Cálculo Integral.

Fuente: Autor
Figura 66. Matriz de Correlación materia Programación Orientada a Objetos.

Fuente: Autor
Figura 67. Matriz de Correlación materia Bases de Datos.

Fuente: Autor
Figura 68. Matriz de Correlación materia Requerimientos y Diseño de Software.

Fuente: Autor
Figura 69. Matriz de Correlación materia Antropología.

Fuente: Autor
Figura 70. Matriz de Correlación materia inglés III.

Fuente: Autor
Figura 71. Matriz de Correlación materia Física Mecánica.

Fuente: Autor
Figura 72. Matriz de Correlación materia Cálculo Vectorial.

Fuente: Autor
Figura 73. Matriz de Correlación materia Estructura de Datos.

Fuente: Autor
Figura 74. Matriz de Correlación materia Ecuaciones Diferenciales.

Fuente: Autor
Figura 75. Matriz de Correlación materia Electricidad y Magnetismo.

Fuente: Autor
Figura 76. Matriz de Correlación materia Epistemología.

Fuente: Autor
Figura 77. Matriz de Correlación materia inglés IV.

Fuente: Autor
Figura 78. Matriz de Correlación materia Arquitectura del Computador.

Fuente: Autor
Figura 79. Matriz de Correlación materia Construcción de Software.

Fuente: Autor
Figura 80. Matriz de Correlación materia Arquitectura Empresarial.

Fuente: Autor
Figura 81. Matriz de Correlación materia Desarrollo Empresarial.

Fuente: Autor
Figura 82. Matriz de Correlación materia Sistemas Operativos.

Fuente: Autor
Figura 83. Matriz de Correlación materia Métodos Numéricos.

Fuente: Autor
Figura 84. Matriz de Correlación materia Cultura Teológica.

Fuente: Autor
Figura 85. Matriz de Correlación materia Inglés V.

Fuente: Autor
Figura 86. Matriz de Correlación materia Probabilidad y Estadística.

Fuente: Autor
Figura 87. Matriz de Correlación materia Desarrollo Orientado a Servicios.

Fuente: Autor
Figura 88. Matriz de Correlación materia Redes.

Fuente: Autor
Figura 89. Matriz de Correlación materia Inglés VI.

Fuente: Autor
Figura 90. Matriz de Correlación materia Optimización.

Fuente: Autor
Figura 91. Matriz de Correlación materia Gerencia de Software.

Fuente: Autor
Figura 92. Matriz de Correlación materia Electivas de la Carrera.

Fuente: Autor
Figura 93. Matriz de Correlación materia Calidad de Software.

Fuente: Autor
Figura 94. Matriz de Correlación materia Simulación.

Fuente: Autor
Figura 95. Matriz de Correlación materia Electivas Sociohumanísticas.

Fuente: Autor
Figura 96. Matriz de Correlación materia Practica Empresarial.

Fuente: Autor
Figura 97. Matriz de Correlación materia Filosofía Política.

Fuente: Autor
Figura 98. Matriz de Correlación materia Auditoría de Sistemas.

Fuente: Autor
Figura 99. Matriz de Correlación materia Trabajo de Grado I.

Fuente: Autor
Figura 100. Matriz de Correlación materia Legislación Informática.

Fuente: Autor
Figura 101. Matriz de Correlación materia Trabajo de Grado II.

Fuente: Autor
Figura 102. Matriz de Correlación materia Ética.

Fuente: Autor
Anexo 4. Certificaciones de participación en la Ponencia del Congreso XI Clabes

Figura 103. Certificación de Presentación del Proyecto en el evento del Congreso Clabes.
Figura 104. Certificación de Participación como ponente en el Congreso Clabes.
Figura 105. Distinción como mejor Trabajo Innovador en el Congreso Clabes.
Anexo 5. Libro de Actas del Congreso XI Clabes
Anexo 6. Documento de Levantamiento de Requerimientos

Universidad Santo Tomás


seccional Tunja
Dashboard para generar predicciones de deserción
estudiantil para el programa de Ingeniería de
Sistemas

Juana Valentina Mendoza Santamaría


Ingeniera Martha Susana Contreras Ortiz

Información general

Las instituciones de educación superior se enfrentan al desafiante reto de prevenir la deserción


estudiantil y, asimismo, los estudiantes experimentan diferentes problemáticas socioeconómicas,
académicas, institucionales y personales que afectan su rendimiento y permanencia. En su
compromiso con el proceso educativo de los estudiantes, la Universidad Santo Tomás seccional Tunja
desea implementar un proyecto que se centra en cómo predecir la deserción académica, con base en
los datos históricos de los estudiantes de Ingeniería de Sistemas de la USTA Tunja.

Propósito

• Diseñar y desarrollar un dashboard que permita la integración y la visualización de los


resultados obtenidos al ejecutar el modelo predictivo.

El proyecto

La metodología empleada para este proyecto fue CRISP-DM (Cross Industry Standard Process for
Data Mining), la cual está compuesta por 6 fases iterativas:
1. Comprensión del negocio
La fase inicial del proyecto se enfoca en comprender la situación del negocio. Primero se
determina el objetivo general del proyecto, posteriormente, la definición del problema y un plan
previo para cumplir con los objetivos.
2. Comprensión de los datos
La fase de compresión de datos comienza con un proceso de recolección preliminar de datos.
Posteriormente, se debe realizar minuciosamente un análisis de los datos. Asimismo,
identificar los posibles problemas de calidad y detectar los subconjuntos de los datos. Esta
fase va de la mano con la anterior fase, ya que la formulación del plan del proyecto requiere
una comprensión de la información.
3. Preparación de los datos
La fase de preparación de datos abarca las actividades para construir el dataset final, a partir
de los datos sin procesar. Estos procesos pueden ser realizados iterativamente y no en un
orden establecido. Algunas de las tareas destacadas en esta fase son: selección de tablas,
registros y atributos, limpieza de datos, construcción de nuevos atributos y transformación de
datos para herramientas de modelado.
4. Modelado
En la fase del modelado, se seleccionan los modelos de Machine Learning que mejor se
ajusten al dataset. Para elegir el modelo indicado, se deben calibrar los parámetros para
obtener los valores más óptimos, respecto a las métricas de evaluación como lo son: precision,
recall, f1 y accuracy.
5. Evaluación
En la fase de evaluación, los resultados se comparan con los objetivos definidos del proyecto
y se toman decisiones respecto a la configuración del modelo.
6. Despliegue
En la fase de despliegue, se elabora detalladamente la guía del usuario. Este documento
describe cómo utilizar, supervisar y mantener el aplicativo. Además, se implementa una
aplicación de visualización para los datos.
Cada una de estas etapas requiere del acompañamiento permanente del cliente y su avance está
condicionado a su aprobación.

Funcionalidades del producto

• El cliente podrá visualizar en una pantalla del dashboard, los datos académicos de los
estudiantes del programa de Ingeniería de Sistemas de los periodos 2018-1 al 2021-2. Las
gráficas muestran cuáles son los posibles factores que conllevan a una deserción estudiantil.

• El cliente podrá visualizar la segunda pantalla del dashboard las predicciones de los
estudiantes. En la pantalla se observa un input para ingresar el código institucional del
estudiante y un botón para generar la predicción. Asimismo, se encuentra un apartado para
observar el porcentaje de riesgo de deserción que puede tener ese estudiante. Finalmente,
se proyectan las métricas de evaluación del Modelo de Machine Learning, como lo son: el
accuracy y precision y la imagen de la Matriz de Confusión.
Actores del sistema

Actores Funciones

Estudiantes Buscan culminar su carrera universitaria en Ingeniería de Sistemas. Además, desean


recibir un apoyo oportuno en campos académicos, disciplinares, psicológicos, etc. por
parte de la universidad; en caso de ser necesario. De esta manera, generan los datos
para el sistema.

Facultad de Es la facultad conformada por docentes y estudiantes del programa de Ingeniería de


ingeniería de Sistemas. Los docentes orientan a los estudiantes en temas académicos, sin embargo,
sistemas hay un líder docente encargado de acompañar y recopilar la información de los
estudiantes de la facultad. Finalmente, esta información es reportada a UDIES de la
seccional.

Es la entidad encargada de recolectar y proporcionar los datos académicos de los


estudiantes de Ingeniería de Sistemas al sistema. A su vez, brinda una asesoría sobre
Registro y Control los principales factores que conllevan a la deserción estudiantil. También, administra los
sistemas SAC y SIIM de la Universidad Santo Tomás.

Es la entidad encargada de realizar el seguimiento y acompañamiento académico,


disciplinario, psicológico, etc. de los estudiantes en la universidad. Asimismo, pretenden
UDIES realizar una detección temprana de los posibles casos de deserción estudiantil, para
poder atenderlos y en lo posible evitarlos. Además, se encarga de recolectar y
proporcionar los datos de los estudiantes de Ingeniería de Sistemas al sistema. También,
administra los sistemas SAC y SIIM de la Universidad Santo Tomás.

Sistema Realiza el dashboard para desplegar gráficas con la información académica de los
estudiantes del programa de Ingeniería de Sistemas. Asimismo, genera las predicciones
del riesgo de deserción estudiantil del programa.

Cliente Ingresa los datos del estudiante y visualiza los datos de los estudiantes y la predicción
del riesgo de deserción estudiantil.
Requerimientos

<id>F001 <Generar una predicción a partir de la información proporcionada por el


cliente>

[Versión] <1.0> (<27/03/2023>)

[Dependencias] • <Sistema>
• <Cliente>

Descripción El cliente suministra el código institucional del estudiante. Posteriormente, el sistema


accede al Modelo de Machine Learning, mediante la solicitud del cliente para generar
una predicción del riesgo de deserción del estudiante.

Datos específicos • Código institucional del estudiante


• Modelo de Machine Learning

[Importancia] Alta.

[Prioridad] Alta, es fundamental que el sistema genere una predicción del estudiante.

Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.

<id>F002 <Validar la información ingresada de un estudiante por el cliente>

[Versión] <1.0> (<27/03/2023>)

[Dependencias] • <Sistema>
• <Cliente>

Descripción El sistema realiza una predicción de deserción estudiantil a partir de los datos
suministrados por el cliente. Es necesario que el sistema valide la existencia del
estudiante de acuerdo con el código institucional del estudiante. De no existir ese
estudiante, no se realizará la predicción.

Datos específicos • Código institucional del estudiante

[Importancia] Alta.

[Prioridad] Alta, sin la información no se puede generar el porcentaje de riesgo de deserción del
estudiante.

Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.
<id>F003 <Generar una predicción en tiempo real a partir de la información
proporcionada por el cliente>

[Versión] <1.0> (<27/03/2023>)

[Dependencias] • <Sistema>
• <Cliente>

Descripción El cliente suministra las características de un nuevo estudiante. Posteriormente, el


sistema accede al Modelo de Machine Learning mediante la solicitud del cliente para
generar una predicción del riesgo de deserción del nuevo estudiante.

Datos específicos • Código institucional del estudiante


• Modelo de Machine Learning

[Importancia] Alta.

[Prioridad] Alta, es fundamental que el sistema genere una predicción del estudiante.

Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.

<id>F004 <Mostrar los factores que conllevan a la deserción académica>

[Versión] <1.0> (<27/03/2023>)

[Dependencias] • <Sistema>

Descripción El sistema proyecta por medio del Dashboard cuáles son los factores que conllevan a
una posible deserción estudiantil, a partir de la información de los estudiantes del
Programa de Ingeniería de Sistemas. La información será representada por medio de
gráficos.

Datos específicos • Información académica de los estudiantes del Programa de Ingeniería de


Sistemas.

[Importancia] Alta.

[Prioridad] Alta, es fundamental conocer cuáles son los factores que conllevan a una posible
deserción estudiantil.

Comentarios La información académica de los estudiantes es suministrada por las Entidades de


Registro y Control y UDIES.
<id>F005 <Almacenar la información de los estudiantes del Programa de Ingeniería de
Sistemas>

[Versión] <1.0> (<27/03/2023>)

[Dependencias] • <Sistema>
• <UDIES y Registro y Control>

Descripción Las entidades de UDIES y Registro y Control suministran al sistema los datos
académicos de los estudiantes del Programa de Ingeniería de Sistemas por medio de
un archivo separados por comas (csv). Este archivo es integrado por el sistema en el
modelo de ML y en el Dashboard.

Datos específicos • Información académica de los estudiantes del Programa de Ingeniería de


Sistemas.

[Importancia] Alta.

[Prioridad] Alta, sin los datos almacenados no se pueden generar las predicciones para un
estudiante, ni proyectar la información de las posibles causad de deserción de los
estudiantes del programa.

Comentarios La información corresponde a un reporte académico de los periodos 2018-1 al 2021-


2.
Anexo 7. Cronograma del Proyecto

Figura 106. Cronograma del Proyecto y Ponencia Clabes.


Anexo 8. Wireframes y Mockups del Proyecto

Figura 107. Wireframe de gráficas del Dashboard.

Figura 108. Wireframe de predicciones del Dashboard.


Figura 109. Mockup de gráficas del Dashboard.

Figura 110. Mockup de predicciones del Dashboard.

También podría gustarte