Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROPONENTE(S)
1049659604
2274474
DIRECTOR
Tunja
El modelo predictivo propuesto es una herramienta que puede apoyar a los directivos de
UDIES, y el Departamento de Registro y Control con la toma de decisiones y mecanismos,
para la prevención de la deserción académica en los estudiantes de la Facultad de
Ingeniería de Sistemas. Cabe resaltar que, el modelo propuesto genera predicciones a partir
de solicitudes, que constituyen un insumo significativo para la atención oportuna a los
estudiantes.
Figura 2. Reporte académico de las cohortes 2008-1 a 2015-1 de Periodo académico vs Cantidad estudiantes
Por lo tanto, para la Universidad Santo Tomás seccional Tunja es fundamental tomar
acciones preventivas, para reducir las tasas de deserción académica en los estudiantes, y
dar acompañamiento oportuno a la comunidad estudiantil.
4. OBJETIVOS
Fuente: Autor
5. ESTADO DEL ARTE
Fuente: Autor
Figura 4. Búsqueda sistemática en la base de datos de WoS.
Fuente: Autor
Cabe resaltar que, para la base de datos de Scopus finalmente se recopilaron un total de 91
investigaciones, como se puede apreciar en la Figura 3, mientras que para la base de datos
WoS, se obtuvieron un total de 16 estudios (ver Figura 4). Por lo tanto, se reúnen un total de
107 estudios que utilizan técnicas de aprendizaje automático, para identificar los principales
factores que conllevan a la deserción estudiantil.
Además, de acuerdo con la Figura 5, se puede afirmar que los estudios de la base de datos
de Scopus fueron publicados en su mayoría dentro de los periodos 2020 a 2022. Por otra
parte, en la Figura 7 los estudios que más fueron publicados en WoS se encuentran dentro
de los periodos 2019 a 2021, por lo tanto, la predicción de la deserción estudiantil es un
tema vigente y en tendencia. En la Figura 6, se observa que a nivel latinoamericano los
países con mayores publicaciones son Brasil y Chile. Sin embargo, en el caso de WoS se
evidencia que los países con más concurrencia en el tema son Estados Unidos de América
e Italia (ver Figura 8).
Figura 5. Años de publicación de los documentos en la base de datos de Scopus.
Fuente: Scopus
Fuente: Scopus
Figura 7. Años de publicación de los documentos en la base de datos de WoS.
Fuente: WoS
Fuente: WoS
Posteriormente, para la recopilación y análisis de los artículos se emplean las herramientas
de software VOSviewer y ScientoPy. ScientoPy es una herramienta de análisis
cienciométrico de código abierto basada en Python. Permite importar los conjuntos de datos
de WoS y Scopus. Además, filtra las publicaciones por tipo de documento y combina el
conjunto de datos de WoS y Scopus en función de una tabla de correlación de etiquetas de
campo (Ruiz-Rosero et al., 2019). Mediante la herramienta de ScientoPy se preprocesaron
los 91 documentos de Scopus, de manera que, se eliminaron los documentos duplicados
equivalentes a un 11%. Por otra parte, en el caso de WOS no se presenta ningún
documento duplicado (ver Figura 9).
Fuente: ScientoPy
Fuente: ScientoPy
Fuente: VOSviewer
En la Figura 12 de visualización de la red, se pueden identificar 3 clústeres: clasificación,
predicción de deserción e Inteligencia Artificial. Del clúster de clasificación se desprenden
las ramas de deserción estudiantil, Decision Trees, deserción, Random Forest y predicción.
Por otro lado, para el clúster de predicción de deserción se desprenden las ramas de
educación superior y Machine Learning. Por último, en el clúster de Inteligencia Artificial se
desprenden las ramas de predicción de deserción estudiantil y Minería de Datos
Educacional.
Fuente: VOSviewer
Finalmente, para las bases de datos de Scopus y WoS (Web Of Science) se aplican los
siguientes criterios de exclusión (ver Figura 13):
Fuente: Autor
(G. A. S.
EvolveDTree: Analyzing Student Académicos
Santos et 2020 Decision Tree
Dropout in Universities Socioeconómicos
al., 2020)
(Timaran
A machine learning approach to Pereira & Académicos Support Vector Machine
identifying students at risk of Caicedo 2020 Socioeconómicos Logistic Regression
dropout: a case study Zambrano, Personales Decision Tree
2017)
Supervised learning in the
(de O. Decision Tree
context of educational data
Santos et 2019 Académicos Random Forest
mining to avoid university
al., 2019) Support Vector Machine
students dropout
Educational data mining:
(da Fonseca Generalized Linear Model
Analysis of drop out of Académicos
Silveira et 2019 Random Forest
engineering majors at the UnB – Socioeconómicos
al., 2019) Gradient Boosting Machine
Brazil
Predictive modelling of student
(Hutagaol & Académicos Ensemble model
dropout using ensemble
Suharjito, 2019 Socioeconómicos Naive Bayes
classifier method in higher
2019) Personales K-Nearest Neighbor
education
(Timaran
Application of decision trees for Pereira & Académicos
detection of student dropout Caicedo 2017 Socioeconómicos Decision Tree
profiles Zambrano, Personales
2017)
Fuente: Autor
6. MODELO DE DESARROLLO
La metodología empleada para este proyecto fue CRISP-DM (Cross Industry Standard
Process for Data Mining), la cual está compuesta por 6 fases iterativas: a) Comprensión del
negocio, b) Comprensión de los datos, c) Preparación de los datos, d) Modelado, e)
Evaluación y f) Despliegue, ver Figura 14.
La fase inicial del proyecto se enfoca en comprender la situación del negocio. Primero se
determina el objetivo general del proyecto, posteriormente, la definición del problema y un
plan previo para cumplir con los objetivos (Wirth & Hipp, 2000).
La fase de preparación de datos abarca las actividades para construir el dataset final, a
partir de los datos sin procesar. Estos procesos pueden ser realizados iterativamente y no
en un orden establecido. Algunas de las tareas destacadas en esta fase son: selección de
tablas, registros y atributos, limpieza de datos, construcción de nuevos atributos y
transformación de datos para herramientas de modelado (Wirth & Hipp, 2000).
Modelado
En la fase del modelado, se seleccionan los modelos de Machine Learning que mejor se
ajusten al dataset. Para elegir el modelo indicado, se deben calibrar los parámetros para
obtener los valores más óptimos, respecto a las métricas de evaluación, como lo son:
precision, recall, f1 y accuracy (Wirth & Hipp, 2000).
Evaluación
En la fase de evaluación, los resultados se comparan con los objetivos definidos del
proyecto y se toman decisiones respecto a la configuración del modelo (Schröer et al.,
2020).
Despliegue
En la fase de despliegue, se elabora detalladamente la guía del usuario. Este documento
describe cómo utilizar, supervisar y mantener el aplicativo. Además, se implementa una
aplicación de visualización para los datos (Schröer et al., 2020).
En la fase de Compresión del Negocio, se realizó un estudio del entorno del proyecto para
poder identificar las personas y entidades involucradas (ver Tabla 3). Para ello, se llevó a
cabo una reunión con las entidades de la universidad de Registro y Control y UDIES, donde
expresaron sus funciones, intereses y necesidades por el desarrollo de un modelo de
predicción de deserción estudiantil (ver anexo 1 - Actas de Reuniones con Registro y
Control y UDIES). Asimismo, compartieron las clasificaciones de los determinantes de la
deserción estudiantil del Sistema Nacional de Información de la Educación Superior SNIES
(Sistema Nacional de Información de la Educación Superior), aplicados en la universidad.
Los determinantes son: académicos, personales, socioeconómicos, e institucionales
(Universidad de los Andes, 2014). Sin embargo, la mayoría de estas categorías
corresponden a contextos sensibles y de difícil acceso. Por lo cual, este estudio se centró
en la información académica de los estudiantes.
Cabe aclarar que para este trabajo se tomaron como sinónimos los tres términos
denominados materias, asignaturas y espacios académicos. Esto debido a que los
documentos compartidos por las dependencias de la institución manejaban el término de
materia como nombre del campo o atributo. Por otra parte, a nivel internacional se utiliza el
término de asignatura y finalmente, el término de espacios académicos es actualmente el
utilizado por la institución en términos de procesos de calidad.
Fuente: Autor
Fuente: Autor
Decision Tree 6
Random Forest 4
Logistic Regression 2
Ensemble Model 2
Naive Bayes 2
K-Nearest Neighbors 1
Neural Network 1
TOTAL 27
Fuente: Autor
Finalmente, se elaboró el Cronograma del Proyecto para poder establecer cuáles tareas se
debían de realizar para el desarrollo del trabajo de grado (ver Anexo 7 - Cronograma del
Proyecto).
Fuente: Autor
Fuente: autor
Sin embargo, era fundamental conocer cuáles estudiantes habían desertado del programa
dentro de los periodos 2018-1 al 2021-2. Por lo tanto, se realizó la solicitud de los datos a
Registro y Control y UDIES. En la tabla 6, se puede apreciar que en total se han retirado 13
estudiantes del programa, en los periodos mencionados, lo que es equivalente a 117 de
5945 registros del dataset.
Tabla 6. Listado de estudiantes desertores de Ingeniería de Sistemas proporcionado por Registro y Control.
2019-1 1 7
2019-1 2 6
2019-1 3 5
2019-1 4 7
2019-2 5 13
2020-1 6 18
2020-1 7 7
2020-1 8 19
2020-2 9 22
2021-1 10 18
2021-2 11 7
2021-2 12 14
2021-2 13 34
Fuente: Autor
Finalmente, los últimos entregables consisten en los tres pensums que ha tenido la carrera
de Ingeniería de Sistemas. En el 2007 el programa tenía la denominación de Ingeniería
Informática, y a partir del 2009 comenzó a regir la de Ingeniería de Sistemas.
Adicionalmente, desde el 2009 al 2018 se ha renovado dos veces el plan de estudios. Por
consiguiente, fue necesario agrupar los diferentes espacios académicos basados en
similitudes curriculares.
7. 3 Preparación de los datos
Esta fase empezó por una limpieza de los datos del rendimiento académico de los
estudiantes de Ingeniería de Sistemas. Las columnas que contenían valores flotantes
contaban con el signo de coma (,), por lo que presentaría problemas en la ejecución del
código. Por tanto, se reemplazó el signo por un punto (.). Estos cambios se implementaron
para las columnas de: nota 1, nota 2, nota 3, nota del periodo, nota de la habilitación, nota
definitiva, promedio acumulado y promedio por nivel.
Posteriormente, para preservar el anonimato de los datos, basados en la columna de los
nombres de los docentes, se creó una columna con códigos únicos para cada profesor. En
total se registraron 127 docentes de las cinco áreas de la carrera: ciencias básicas, básicas
de ingeniería, ingeniería aplicada, socio-humanística e institucional.
A continuación, con base en la información del listado de los estudiantes desertores dentro
de los periodos 2018-1 al 2021-2, se creó la columna deserción en el dataset. Esta columna
registra con un ‘si’ a los estudiantes desertores del listado y ‘no’ a los demás estudiantes.
De acuerdo con los datos de la columna deserción estudiantil, solo el 5% de los estudiantes
durante el periodo mencionado han desertado del programa, como se evidencia en la Figura
18.
Fuente: Autor
Debido a la información de los espacios académicos de los tres pensums, se realizó una
agrupación de materias y actualización de códigos y nombres, como se puede observar en
la Tabla 7.
Tabla 7. Pénsum de Ingeniería Informática 2007, Ingeniería de Sistemas 2009 e Ingeniería de Sistemas 2018.
CATEDRA HENRI
95303 CULTURA FISICA I 95303 CULTURA FISICA I 95303
DIDON I
COMUNICACION
15135
ORAL Y ESCRITA
CATEDRA HENRI
95304 CULTURA FISICA II 95304 CULTURA FISICA II 95304
DIDON II
2
96113 CALCULO INTEGRAL 96113 CALCULO INTEGRAL 96113 CALCULO INTEGRAL
MATEMATICAS MATEMATICAS
96180 96180 96113 CALCULO INTEGRAL
DISCRETAS DISCRETAS
ELECTRICIDAD Y
4 95501 ONDAS 95501 ONDAS 43002
MAGNETISMO
METODOS
10115 ANALISIS NUMERICO 10115 ANALISIS NUMERICO 83007
NUMERICOS
DESARROLLO
AMBIENTES AMBIENTES
96602 96602 41115 ORIENTADO A
DISTRIBUIDOS DISTRIBUIDOS
SERVICIOS
95348 INGLES VI
MODELOS MODELOS
95701 95701 95602 OPTIMIZACION
ESTOCASTICOS ESTOCASTICOS
ELECTIVA I ELECTIVA I
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA I
97701 DE CIENCIAS 97701 DE CIENCIAS 41117
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA I DE ELECTIVA I DE
ELECTIVA I
97700 CIENCIAS BASICAS 97700 CIENCIAS BASICAS 41118
PROFUNDIZACION
DE INGENIERIA DE INGENIERIA
CALIDAD DE
7 41119
SOFTWARE
ELECTIVA II ELECTIVA II
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA II
96802 DE CIENCIAS 96802 DE CIENCIAS 41120
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA III ELECTIVA III
INTERDISCIPLINARIA INTERDISCIPLINARIA
ELECTIVA III
96902 DE CIENCIAS 96902 DE CIENCIAS 41121
INTERDISCIPLINARIA
BASICAS DE BASICAS DE
INGENIERIA INGENIERIA
ELECTIVA III DE ELECTIVA III DE
ELECTIVA III
96903 INGENIERIA 96903 INGENIERIA 41121
INTERDISCIPLINARIA
8 APLICADA APLICADA
ELECTIVA II DE ELECTIVA II DE
ELECTIVA II
96801 CIENCIAS BASICAS 96801 CIENCIAS BASICAS 41122
PROFUNDIZACION
DE INGENIERIA DE INGENIERIA
ELECTIVA II DE ELECTIVA II DE
ELECTIVA II
96803 INGENIERIA 96803 INGENIERIA 41122
PROFUNDIZACION
APLICADA APLICADA
INGENIERIA INFORMATICA INGENIERIA SISTEMAS INGENIERIA SISTEMAS
Pensum
2007 2009 2018
AUDITORIA DE
37606
SISTEMAS
LEGISLACION
96099 INGENIERIA LEGAL 96099 INGENIERIA LEGAL 18689
INFORMATICA
Fuente: Autor
No obstante, el banco de electivas es bastante amplio por lo que se decidió agrupar las
electivas en dos grupos: electivas de la carrera y electivas sociohumanísticas y unificar los
códigos (ver Tabla 8). Por tanto, resultaron 47 espacios académicos y 2 tipos de electivas,
para un total de 49 espacios académicos en el programa de Ingeniería de Sistemas.
Tabla 8. Electivas de Ingeniería de Sistemas.
10585 / 99109 /
CIENCIA, TECNOLOGIA Y BIOETICA 99998
99121
Fuente: Autor
Asimismo, cabe resaltar que se encontraron estudiantes con dos códigos institucionales en
la columna cod_alumno. Por lo que se realizó una validación donde el número de
identificación del estudiante coincidiera con dos códigos institucionales. Posteriormente, se
asignó como código institucional el código de mayor magnitud (más reciente).
Luego, se pasaron los datos de variables categóricas a numéricas, como lo es el caso de la
columna género y deserción. La columna de género se convirtió la ‘f’ en 0 y la ‘m’ en 1. Por
otra parte, la columna de deserción el ‘si’ se convirtió en 1 y el ‘no’ en 0.
Finalmente, el dataset de reporte académico de los estudiantes contaba con un registro por
cada materia que había cursado un estudiante. Por lo tanto, se decidió redimensionar el
dataset, de manera que, un solo registro proporcionara la información académica de un
estudiante como se aprecia en la Tabla 9. Sin embargo, es necesario aclarar que las 5
columnas (resaltadas en color azul) se deben relacionar con cada materia del programa
(49). A partir del anterior procedimiento se generaron 245 columnas. Además, se incluyeron
las 5 características mencionadas en la tabla 7, que se encuentran sin resaltar en azul. En
conclusión, se conformó un dataset con una dimensión de 246 filas y 250 columnas. Este
proceso se puede apreciar de forma detallada en la Figura 19.
Fuente: Autor
Sin embargo, es necesario mencionar que al tener más columnas que número de registros
hay un problema de dimensionalidad, donde el alto número de características en relación
con los datos puede afectar el análisis y el desempeño del modelo y aumentar el riesgo de
sobreajuste. El sobreajuste ocurre cuando el modelo se acostumbra demasiado a los datos
de entrenamiento y tiene dificultades para generalizar correctamente a nuevos datos. La
falta de muestras de entrenamiento puede hacer que el modelo "memorice" los datos de
entrenamiento en lugar de aprender patrones más amplios y aplicables (Sarkar et al., 2017).
Una matriz de correlación es una herramienta estadística utilizada para analizar y visualizar
la relación entre múltiples variables. Consiste en una tabla cuadrada que muestra los
coeficientes de correlación entre pares de variables. La correlación es una medida
estadística que indica el grado de relación lineal entre dos variables. Los coeficientes de
correlación varían en un rango de -1 a 1. Un coeficiente de correlación de 1 indica una
correlación positiva perfecta, lo que significa que las dos variables están perfectamente
relacionadas de manera lineal positiva. Por otro lado, un coeficiente de -1 indica una
correlación negativa perfecta, lo que significa que las dos variables están perfectamente
relacionadas de manera lineal negativa. Un coeficiente de correlación de 0 indica que no
hay correlación lineal entre las variables.
Con base en las matrices de correlación, se puede concluir que, en la mayoría de los casos,
las variables o características que presentan una mayor correlación entre ellas son: el
profesor que dictó la materia, la cantidad de veces que fue cursada la materia por el
estudiante y la nota final de la materia obtenida por el estudiante.
7. 4 Modelado
Para poder evaluar y validar el rendimiento de un modelo es necesario dividir los datos de
los estudiantes en datos de entrenamiento y datos de testeo. El conjunto de datos de
entrenamiento se utiliza para entrenar el modelo y ajustar sus parámetros, mientras que el
conjunto de datos de prueba se reserva para evaluar el rendimiento del modelo en datos no
utilizados previamente. Como se puede apreciar en la Figura 20, se dividieron los datos en
80% de entrenamiento y en 20% para pruebas.
Figura 20. Separación de los datos para entrenar el modelo de Machine Learning.
Fuente: Autor
Basados en los hallazgos obtenidos en el Capítulo del Estado del arte, con la búsqueda de
aplicación de modelos de Machine Learning en el tema de deserción estudiantil, se tomó la
decisión de entrenar los siguientes modelos de aprendizaje automático supervisado:
Fuente: Autor
Fuente: Autor
En cuanto a la Matriz de Confusión (ver Figura 22), los enunciados en la parte izquierda
hacen referencia a la información histórica de los estudiantes y los enunciados en la parte
inferior a los datos clasificados por el modelo de Machine Learning. La Matriz de Confusión
se lee por las filas (valores actuales) y luego las columnas (valores de predicción). De
acuerdo a la Matriz de Confusión, se puede concluir que la mayor confusión se presentó en
la clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (2
estudiantes). Este valor corresponde a los falsos negativos. Por otra parte, en el caso de los
falsos positivos, no se obtuvo la clasificación de ningún estudiante. En el caso de los
verdaderos negativos, se puede observar que 46 estudiantes, que se mantienen activos
académicamente en el programa, se clasificaron como “estudiantes que no desertaron”. Por
otra parte, 2 estudiantes se clasificaron como verdaderos positivos, puesto que
efectivamente eran desertores y el modelo los clasificó como estudiantes desertores.
Finalmente, la cantidad de estudiantes clasificados deben sumar 50, ya que corresponden a
la cantidad de datos asignados a las pruebas.
Fuente: Autor
Adicionalmente, se realizó el diagrama de árbol (ver Figura 22). La estructura del árbol inicia
por un nodo raíz del cual se dividen dos hijos nodos y, dependiendo del caso, continúa
dividiéndose. Los nodos de las variaciones del color naranja hacen referencia a la etiqueta
de estudiantes que no desertan, mientras que el color azul hace referencia a la etiqueta de
estudiantes que desertan. Asimismo, cada nodo muestra cómo se afecta el nombre de cada
característica según una suposición (se desglosan diferentes escenarios, según la condición
que se cumpla en un momento dado). En la Figura 22, se puede apreciar qué tan
desbalanceado está el nodo respecto al otro del mismo nivel de profundidad y que hayan
surgido a partir del mismo nodo padre (gini), la cantidad de muestras tomadas para el nodo,
la fila y columna del registro, y la clase resultante (desertó o no desertó).
Fuente: Autor
Cabe aclarar que, a partir de la matriz de confusión, se pueden calcular diversas métricas
de evaluación, como lo son accuracy, precision, recall y F1-score, que proporcionan
información más detallada sobre el rendimiento del modelo en términos de verdaderos
positivos, falsos positivos y falsos negativos.
TP+TN
Accuracy=
TP+TN + FP+ FN
TP
Pr e cision=
TP+ FP
Recall: La recuperación, también conocida como sensibilidad, es una medida de un
modelo que permite identificar el porcentaje de puntos de datos relevantes. Se
define como el número de instancias de la clase positiva que se predijeron
correctamente. Esto también se conoce como tasa de acierto, cobertura o
sensibilidad (Sarkar et al., 2017). La fórmula de Recall es la siguiente:
TP
Recall=
TP+ FN
F1: Hay algunos casos en los que queremos una optimización equilibrada de la
precisión y la recuperación (Sarkar et al., 2017). La puntuación F1 es una métrica
que es la media armónica de precisión y recuperación y nos ayuda a optimizar un
clasificador para una precisión (Precision) equilibrada y un rendimiento de
recuperación (Recall). La fórmula para la puntuación F1 es:
Pr e cision × Recall
F 1=2×
Pr e cision+ Recall
Finalmente, para el Modelo de Decision Tree se obtuvieron los siguientes resultados de las
métricas de evaluación de modelos de Machine Learning (ver Tabla 13).
Fuente: Autor
Para las pruebas del modelo de SVM, se modificó el parámetro del kernel. Como se puede
apreciar en la Tabla 14, los accuracy no varían, por lo tanto, los datos son linealmente
separables. De esta manera, se eligió el kernel linear, debido a su simplicidad y eficiencia
computacional.
Tabla 14. Pruebas del parámetro kernel en el modelo SVM.
Logistic Regression Parámetro Accuracy Precision
Fuente: Autor
Con base en la Figura 23, se puede concluir que la mayor confusión se presentó en la
clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (4). Por
otra parte, se puede observar que los estudiantes restantes los clasificó correctamente el
modelo, como estudiantes que no desertaron académicamente del programa (46). En este
caso, se puede observar que no hubo ningún estudiante que desertó académicamente.
Fuente: Autor
Finalmente, para el Modelo de SVM se obtuvieron los siguientes resultados de las métricas
de evaluación de modelos de Machine Learning (ver Tabla 15).
Fuente: Autor
En cuanto a la Matriz de Confusión (ver Figura 24), se puede concluir que la mayor
confusión se presentó en la clasificación de “estudiantes que desertaron” como “estudiantes
que no desertaron” (3). También, se puede observar que 46 estudiantes que se mantienen
académicamente en el programa y fueron clasificados de esta manera. Por otra parte, 1
estudiante desertor se clasificó como estudiante desertor.
Fuente: Autor
Por otra parte, debido a que Random Forest pertenece a la familia de los modelos de
árboles, se realizó el diagrama de árbol (ver Figura 25). Esto parte por un nodo raíz del cual
se dividen dos hijos nodos y, dependiendo del caso, continúa dividiéndose. Los nodos de
color naranja oscuro o naranja claro hacen referencia a la etiqueta de estudiantes que no
desertan, mientras que el color azul hace referencia a la etiqueta de estudiantes que
desertan.
Asimismo, cada nodo muestra cómo se afecta el nombre de cada característica según una
suposición (se desglosan diferentes escenarios, según la condición que se cumpla en un
momento dado). En la Figura 25 se puede apreciar qué tan desbalanceado está el nodo
respecto al otro del mismo nivel de profundidad y que hayan surgido a partir del mismo nodo
padre (gini), la cantidad de muestras tomadas para el nodo, la fila y columna del registro, y
la clase resultante (desertó o no desertó).
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
Con base en la Figura 26, se puede concluir que la mayor confusión se presentó en la
clasificación de “estudiantes que desertaron” como “estudiantes que no desertaron” (4). Por
otra parte, se puede observar que los estudiantes restantes fueron clasificados
correctamente por el modelo, como “estudiantes que no desertaron” académicamente del
programa (46). En este caso, se puede observar que no hubo ningún estudiante que
desertó académicamente.
Figura 26. Matriz de Confusión del Modelo de Logistic Regression.
Fuente: Autor
Fuente: Autor
En el caso del modelo de Bayes no se modificaron sus parámetros por defecto. En cuanto a
la Matriz de Confusión (ver Figura 26), se puede concluir que la mayor confusión se
presentó en la clasificación de estudiantes que no desertaron como estudiantes que si
desertaron (14). Por otra parte, se puede observar que 32 estudiantes que se mantienen
académicamente en el programa y fueron clasificados como estudiantes que no desertaron.
Asimismo, los 4 estudiantes desertores, se clasificaron como estudiantes desertores.
Fuente: Autor
Fuente: Autor
K-Nearest Neighbors (KNN)
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
7. 5 Evaluación
Fuente: Autor
En las diferentes iteraciones que tuvo la validación cruzada para el modelo de Decision
Tree, se puede observar que se lograron buenos resultados de accuracy (ver Tabla 25). El
accuracy que presentó el modelo fue de 94% (ver Tabla 24) y la validación cruzada
presentó un promedio de 90%. Sin embargo, en algunas de las iteraciones del accuracy, en
la validación cruzada, se presentó el valor de 94%.
Tabla 25. Resultados de Cross Validation del modelo Decision Tree.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio
Fuente: Autor
El modelo de Support Vector Machine con los datos de prueba consiguió un accuracy de
92% (ver Tabla 24), mientras que el promedio de las iteraciones de la validación cruzada
consiguió un valor mayor de 95% (ver Tabla 26).
Tabla 26. Resultados de Cross Validation del modelo Support Vector Machine.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio
Fuente: Autor
Fuente: Autor
Fuente: Autor
Gaussian Naive Bayes Cross Validation
En las diferentes iteraciones que tuvo la validación cruzada para el modelo de Gaussian
Naive Bayes, se puede observar que se obtuvieron unos resultados de accuracy (ver Tabla
29 mayores a los del modelo con los datos de prueba (ver Tabla 24).
Tabla 29. Resultados de Cross Validation del modelo Gaussian Naive Bayes.
Métrica Iteración 1 Iteración 2 Iteración 3 Iteración 4 Iteración 5 Promedio
Fuente: Autor
El modelo de K-Nearest Neighbors con los datos de prueba consiguió un accuracy de 92%
(ver Tabla 24), mientras que el promedio de las iteraciones de la validación cruzada
consiguió un valor mayor de 95% (ver Tabla 30).
Fuente: Autor
En la mayoría de los casos los resultados obtenidos por los modelos de Machine Learning
con los datos de prueba se encuentran dentro de los valores de las iteraciones de la
validación cruzada. Sin embargo, hay que recordar que la selección de los datos de prueba
es de manera aleatoria, esta es la razón de la variación de los resultados Ver Tabla 31.
Tabla 31. Resultados finales de los promedios de la validación cruzada aplicada a los modelos de ML.
Modelo de ML Accuracy Precision Recall F1-Score
Fuente: Autor
7. 6 Despliegue
Fuente: Autor
Fuente: Autor
Para conocer cuáles eran los requerimientos para el desarrollo del dashboard, se realizó
una reunión con las dependencias de Registro y Control y UDIES. A partir de ello, se
elaboró un documento de Levantamiento de Requerimientos (ver Anexo 6 - Documento de
Levantamiento de Requerimientos). Posteriormente, se diseñaron los wireframes y mockups
del dashboard para tener una idea del resultado que se deseaba lograr (ver Anexo 8 -
Wireframes y Mockups del Proyecto).
Figura 31. Gráfica del Dashboard de las características más importantes del dataset.
Fuente: Autor
Figura 32. Tabla del Dashboard de la descripción de las características del dataset.
Fuente: Autor
Módulo de Classification Stats
La Figura 33 muestra una lista de las métricas de desempeño. Las cuales son:
Figura 33. Gráfica del Dashboard de los resultados de las métricas de evaluación del modelo de ML.
Fuente: Autor
Fuente: Autor
Figura 35. Gráfica del Dashboard de la Matriz de Confusión de los datos de predicciones del Modelo de ML.
Fuente: Autor
La Figura 36 permite observar la comparación entre el porcentaje de deserción y la
probabilidad de predicción, con base en los resultados obtenidos por la matriz de confusión.
Un modelo perfectamente calibrado mostraría una línea recta desde la esquina inferior
izquierda hasta la esquina superior derecha. Un modelo sólido clasificaría la mayoría de las
observaciones correctamente y con una probabilidad cercana al 0 % o al 100 %.
Figura 36. Gráfica del Dashboard del Porcentaje de deserción vs la probabilidad de predicción.
Fuente: Autor
La Figura 37 muestra la gráfica de la fracción de cada clase por encima y por debajo del
corte (cutoff).
Figura 37. Gráfica del Distribución de la columna etiqueta por encima y debajo del corte.
Fuente: Autor
La Figura 38 muestra la compensación entre los falsos positivos (FP) y falsos negativos
(FN). El gráfico ROC o de características operativas del receptor se utiliza para visualizar el
rendimiento de un clasificador binario (vijh, 2019).
Figura 38. Gráfica de la compensación entre falsos positivos y falsos negativos.
Fuente: Autor
Fuente: Autor
Fuente: Autor
Asimismo, se realizó la predicción con un estudiante desertor, que para permanecer en el
anonimato se refirió a él como estudiante desertor (ver Figura 41).
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
Fuente: Autor
En este módulo se pueden ajustar los valores de entrada para ver predicciones de
escenarios hipotéticos. De esta manera, se pueden realizar predicciones en tiempo real (ver
Figura 49).
Figura 49. Gráfica que muestra los valores de entrada para una predicción en tiempo real.
Fuente: Autor
Módulo de Feature Dependence
Fuente: Autor
La Figura 51 muestra la relación entre los valores de características y los valores de forma.
Esto permite investigar la relación general entre el valor de la característica y el impacto en
la predicción.
Figura 51. Resumen de la dependencia de Shap.
Fuente: Autor
La Figura 52 muestra la relación entre los valores de las características y los valores de
interacción de las formas. Esto permite investigar las interacciones entre las características
para determinar la predicción del modelo.
Figura 52. Resumen de las interacciones de Shap.
Fuente: Autor
La Figura 53 muestra la relación entre los valores de las características. Esto permite
investigar las interacciones entre las características para determinar la predicción del
modelo.
Figura 53. Comparación de la interacción de las características.
Fuente: Autor
Transversalmente al desarrollo del proyecto se participó en una ponencia del Congreso
CLABES (Congreso Latinoamericano sobre ABandono en la Educación Superior), que
abordaba la problemática asociada al abandono de estudios superiores. Su primera edición
se realizó en 2011, y en el año 2022 se presentó su décima primera convocatoria, XI-
CLABES. Esta versión se realizó en la Universidad Católica de Brasilia en Brasilia - Brasil
(Universidad Católica de Brasilia, 2022). La línea temática que se seleccionó fue la primera,
que abordó las teorías y factores asociados a la permanencia y el abandono, así como, los
tipos y perfiles de abandono. Para la aceptación del trabajo fue necesario pasar por
diferentes filtros: enviar un abstract, enviar las correcciones del abstract, enviar un
documento con abstract, introducción, resultados y conclusiones, enviar las correcciones del
documento y finalmente, enviar la presentación a exponer en el Congreso (ver Anexo 7 -
Cronograma del Proyecto). El Congreso se llevó a cabo los días 16 a 18 de noviembre del
2022. Finalmente, se logró obtener una publicación del proyecto (ver Anexo 5 - Libro de
Actas del Congreso XI Clabes) y la participación y distinción del proyecto (ver Anexo 4 -
Certificaciones de participación en la Ponencia del Congreso XI Clabes).
8. CONCLUSIONES Y ANÁLISIS DE RESULTADOS
Según el estado del arte del proyecto, se implementaron los modelos de Machine Learning
de Decision Tree, Random Forest, Support Vector Machine, Logistic Regression, K-Nearest
Neighbors y Gaussian Naive Bayes. La mayoría de los modelos presentaron un desempeño
alto de accuracy para Decision Tree 94%, Random Forest 94%, Support Vector Machine
92%, Logistic Regression 92% y K-Nearest Neighbors 92%. Sin embargo, el modelo que
menos se acopló a los datos (accuracy de 72%) y con mayores confusiones al momento de
clasificar los datos fue el Gaussiano. Finalmente, los modelos que mejor se ajustaron al
dataset del reporte académico de los estudiantes, para realizar las predicciones de la
deserción estudiantil, fueron los de la familia de los árboles: Decision Tree y Random
Forest.
Para la evaluación del desempeño de los modelos de Machine Learning con las
predicciones de deserción estudiantil se aplicó la herramienta de Cross Validation. La
validación cruzada se realizó con 5 subconjuntos, y finalmente se obtuvieron los siguientes
promedios de accuracy en cada iteración: Decision Tree con 90%, Random Forest con 90%,
Support Vector Machine con 95%, Logistic Regression con 94%, K-Nearest Neighbors con
95% y Gaussian Naive Bayes con 81%. Comparado los valores de accuracy obtenidos con
los datos de prueba y los promedios de la validación cruzada de los modelos, se puede
observar que se presentaron valores muy similares.
Para la limpieza de los datos del se recomienda tener en cuenta aspectos como: la unión de
diferentes datasets, algunos de los estudiantes del programa presentan 2 códigos
institucionales, fue necesario realizar una actualización de los nombres y códigos del
programa con base en el pensum vigente (2018), entre otras.
Como trabajo a futuro se propone complementar la información del dataset, con datos de
otros programas, teniendo en cuenta características distintas a las académicas. Además, se
plantea probar con otros algoritmos de Machine Learning, configurando los parámetros de
modo que se ajusten a los datos históricos, en especial algoritmos de Deep Learning,
mediante redes convolucionales.
Este trabajo suministra una herramienta que apoya a las instituciones de educación superior
en la implementación de escenarios de ingeniería de características, aplicación de
algoritmos y técnicas de aprendizaje automático. Además, aplica una reflexión del estatus
quo de los programas de ingeniería de un país latinoamericano, con respecto a la
mortalidad y deserción académica.
9. REFERENCIAS
da Fonseca Silveira, R., Holanda, M., de Carvalho Victorino, M., & Ladeira, M. (2019).
Educational Data Mining: Analysis of Drop out of Engineering Majors at the UnB -
Brazil. 2019 18th IEEE International Conference On Machine Learning And
Applications (ICMLA), 259–262. https://doi.org/10.1109/ICMLA.2019.00048
Del Bonifro, F., Gabbrielli, M., Lisanti, G., & Zingaro, S. P. (2020). Student Dropout
Prediction (pp. 129–140). https://doi.org/10.1007/978-3-030-52237-7_11
Hernández Romero, Ó. A., Novoa Beltrán, M. F., Hernández Molina, L. E., & Salina Casas,
E. C. (2021, November 19). PERMANENCIA EN EL PRIMER AÑO DE VIDA
UNIVERSITARIA EN TIEMPOS DE PANDEMIA. Línea Temática: Teorías y Factores
Asociados a La Permanencia y El Abandono.
https://revistas.utp.ac.pa/index.php/clabes/article/view/3363/4071
Hutagaol, N., & Suharjito, S. (2019). Predictive Modelling of Student Dropout Using
Ensemble Classifier Method in Higher Education. Advances in Science, Technology
and Engineering Systems Journal, 4(4), 206–211. https://doi.org/10.25046/aj040425
kdnuggets. (2017). Four Problems in Using CRISP-DM and How To Fix Them.
https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html
Kemper, L., Vorhoff, G., & Wigger, B. U. (2020). Predicting student dropout: A machine
learning approach. European Journal of Higher Education, 10(1), 28–47.
https://doi.org/10.1080/21568235.2020.1718520
Lottering, R., Hans, R., & Lall, M. (2020). A Machine Learning Approach to Identifying
Students at Risk of Dropout: A Case Study. International Journal of Advanced
Computer Science and Applications, 11(10).
https://doi.org/10.14569/IJACSA.2020.0111052
Maksimova, N., Pentel, A., & Dunajeva, O. (2021). Predicting First-Year Computer Science
Students Drop-Out with Machine Learning Methods: A Case Study (pp. 719–726).
https://doi.org/10.1007/978-3-030-68201-9_70
Opazo, D., Moreno, S., Álvarez-Miranda, E., & Pereira, J. (2021). Analysis of First-Year
University Student Dropout through Machine Learning Models: A Comparison between
Universities. Mathematics, 9(20), 2599. https://doi.org/10.3390/math9202599
Sarkar, D., Bali, R., & Sharma, T. (2017). Practical machine learning with python: A problem-
solver’s guide to building real-world intelligent systems. Apress.
Schröer, C., Kruse, F., & Marx Gómez, J. C. (2020). A Systematic Literature Review on
Applying CRISP-DM Process Model. Procedia Computer Science. CENTERIS -
International Conference on ENTERprise Information Systems / ProjMAN -
International Conference on Project MANagement / HCist - International Conference on
Health and Social Care Information Systems and Technologies 2020, 526–534.
https://www.researchgate.net/publication/349527794_A_Systematic_Literature_Review
_on_Applying_CRISP-DM_Process_Model
Sierra, H., & Hernández, O. (2014, November 3). SISTEMA DE ALERTAS TEMPRANAS
COMO HERRAMIENTA DE INNOVACIÓN TECNOLÓGICA EN LA UNIVERSIDAD
SANTO TOMÁS PARA EL FORTALECIMIENTO DE LA PERMANENCIA
ESTUDIANTIL Y GRADUACIÓN OPORTUNA. Línea Temática 4: Prácticas de La
Integración Universitaria Para La Reducción Del Abandono Tipo de Comunicación:
Experiencia/Reporte de Caso. https://core.ac.uk/download/pdf/234020468.pdf
Theobald, O. (2017). Machine Learning For Absolute Beginners (Second Edition).
Timaran Pereira, R., & Caicedo Zambrano, J. (2017). Application of Decision Trees for
Detection of Student Dropout Profiles. 2017 16th IEEE International Conference on
Machine Learning and Applications (ICMLA), 528–531.
https://doi.org/10.1109/ICMLA.2017.0-107
vijh, samarth. (2019, June 12). What is ROC curve in machine learning? ROC curve in
python with example. Intellipaat. https://intellipaat.com/blog/roc-curve-in-machine-
learning/?US
Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a Standard Process Model for Data
Mining. 4th International Conference on the Practical Applications of Knowledge
Discovery and Data Mining, 29–30.
http://www.cs.unibo.it/~danilo.montesi/CBD/Beatriz/10.1.1.198.5133.pdf
10. ANEXOS
Página 1 de 3
ACTA Nº 01
DD MM AA
LUGAR: Campus Centro Histórico, oficina Registro y Control FECHA:
23 06 2022
AUSENTES:
INVITADOS:
AGENDA
1. Socialización del proyecto de grado “Modelo predictivo de la mortalidad académica del programa de
Ingeniería de Sistemas de la USTA Seccional Tunja basado en técnicas de Machine Learning”.
2. Determinar fuentes primarias para el proyecto de investigación por parte de las oficinas de Registro y
Control y UDIES.
3. Compromiso de confidencialidad y datos personales.
4. Varios.
Reunión seguimiento proyecto de grado
Página 2 de 3
SEGUIMIENTO A COMPROMISOS
No hay compromisos previos.
DESARROLLO DE LA REUNIÓN
1. Socialización del proyecto de grado “Modelo predictivo de la mortalidad académica del programa de
Ingeniería de Sistemas de la USTA Seccional Tunja basado en técnicas de Machine Learning”.
La estudiante y la directora del proyecto de grado agradecieron a los asistentes por su presencia en
la reunión. Posteriormente, la estudiante expuso mediante una presentación de diapositivas la
propuesta del proyecto de investigación. A continuación, intervino la Ingeniera Angélica e indagó a la
estudiante sobre el alcance del proyecto y el tipo de información requerida. A su vez, sugirió
informarse acerca del Sistema Integrado de Información Multicampus (SIIM). Posteriormente, el
personal de UDIES intervino para hablar sobre el SIIM, el proyecto de las alertas tempranas, la falta
de automatización para realizar los reportes académicos y el cuadro muestreo que maneja el
Sistema Nacional de Información de la Educación Superior (SNIES). A su vez, extendieron una
invitación para mostrar el sistema SIIM y el SAC de la Universidad.
2. Determinar fuentes primarias para el proyecto de investigación por parte de las oficinas de Registro y
Control y UDIES.
La Ingeniera Angélica ofreció compartir el informe del rendimiento académico estudiantil de los
periodos 2018-1 a 2021-2, por medio de un archivo Excel. De otra parte, el señor Alexander mostró
el sistema SIIM y SAC, para poder conocer el tipo de información que manejan estas plataformas.
4. Varios.
Se dialogó sobre el proyecto de alertas tempranas, también, fue posible la visualización del sistema
SIIM y el SAC.
Reunión seguimiento proyecto de grado
Página 3 de 3
COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
Juana Valentina Mendoza Santamaría
Revisión del archivo Excel 09 08 2022
Martha Susana Contreras Ortiz
Juana Valentina Mendoza Santamaría
Envío de documento de confidencialidad 29 08 2022
Martha Susana Contreras Ortiz
Los departamentos de Registro y Control y
UDIES quedan atentos para resolver
Angélica Maria Salazar Madrigal
alguna inquietud y de ser necesario 31 12 2022
Alexander Toro Cruz
colaborar con la recopilación de nueva
información.
Nombre: Luis Eduardo Piña Jiménez Nombre: Martha Susana Contreras Ortiz
Firma: ________________________________
Cargo: Estudiante
Reunión seguimiento proyecto de grado
Página 1 de 3
ACTA Nº 02
DD MM AA
LUGAR: Encuentro remoto por Meet FECHA:
23 09 2022
AUSENTES:
INVITADOS:
AGENDA
Página 2 de 3
SEGUIMIENTO A COMPROMISOS
1. La estudiante y la directora del proyecto revisaron el documento Excel con los reportes académicos
de los estudiantes. Actividad completada.
2. Envío de documento de confidencialidad. Actividad en proceso.
DESARROLLO DE LA REUNIÓN
La estudiante socializó brevemente cada uno de los ítems del documento enviado al Congreso
Clabes. El señor Alexander realizó las preguntas pertinentes sobre el documento.
Se realizó la solicitud al señor Alexander para obtener la siguiente información vital para el proyecto:
Se dialogó sobre el sistema SIIM y sus fallas en la detección de los diferentes tipos de deserción
académica en la universidad. Además, se revisó la solicitud realizada por la UDIES en Bogotá a la
estudiante.
Reunión seguimiento proyecto de grado
Página 3 de 3
COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
Revisión del documento enviado al
Alexander Toro Cruz 29 09 2022
Congreso Xl CLABES
La UDIES se compromete a enviar la
Alexander Toro Cruz 29 09 2022
información solicitada
Firma: ________________________________
Cargo: Estudiante
Reunión seguimiento proyecto de grado
Página 1 de 3
ACTA Nº 03
DD MM AA
LUGAR: Campus Centro Histórico, oficina de Registro y Control FECHA:
11 10 2022
AUSENTES:
INVITADOS:
AGENDA
Página 2 de 3
SEGUIMIENTO A COMPROMISOS
1. Envío de información por parte de UDIES y Registro y Control. Actividad en proceso.
2. Revisión del documento enviado al Congreso Claves. Actividad finalizada.
DESARROLLO DE LA REUNIÓN
3. Varios.
Se dialogó sobre los tres tipos de deserción académica en la universidad. Además, la estudiante
socializó las actas de reuniones previas.
Reunión seguimiento proyecto de grado
Página 3 de 3
COMPROMISOS
FECHA
ACTIVIDAD RESPONSABLE AAA
DD MM
A
El UDIES y Registro y Control se
Angélica Maria Salazar Madrigal
comprometen a enviar la información 21 10 2022
Alexander Toro Cruz
solicitada
Nombre: Martha Susana Contreras Ortiz Nombre: Juana Valentina Mendoza Santamaría
IDENTIFICACIÓN DE LA ESTUDIANTE
NOMBRE: Juana Valentina Mendoza Santamaría
NÚMERODE IDENTIFICACIÓN: 1.049.659.604
PROGRAMA: Ingeniería de Sistemas.
CLAÚSULAS
PRIMERA. LA ESTUDIANTE se obliga a no divulgar a terceras partes, la “Información confidencial”, que reciba por parte de
UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL, y a darle a dicha información el mismo tratamiento que le darían a la
información confidencial de su propiedad. Para efectos del presente acuerdo, “Información Confidencial” comprende toda
la información divulgada por UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL, ya sea en forma oral, visual, escrita,
grabada en medios magnéticos o en cualquier otra forma tangible y que se encuentre claramente marcada como tal, al ser
entregada a la parte receptora.
SEGUNDA. La parte receptora se obliga a mantener de manera confidencial la “Información confidencial” que reciba de
UDIES Y LA DEPENDENCIA DE REGISTRO Y CONTROL y a no darla a una tercera parte diferente de su directora, que tengan
la necesidad de conocer dicha información para los propósitos autorizados, y quienes deberán estar de acuerdo en
mantener de manera confidencial dicha información.
CUARTA. La ESTUDIANTE se obliga a utilizar la “Información confidencial” recibida, únicamente para el desarrollo del
proyecto objeto de este acuerdo y los productos asociados al mismo.
QUINTA. La ESTUDIANTE se compromete a efectuar una adecuada custodia y reserva de la información y gestión -es decir
tratamiento- de los datos suministrados por UDIES Y la DEPENDENCIA DE REGISTRO Y CONTROL al interior de las redes y
bases de datos (físicas y/o electrónicas) en donde se realice su recepción y tratamiento en general.
SEXTA. Para el caso del manejo de información que incluya datos personales, la ESTUDIANTE dará estricto cumplimiento a
las disposiciones constitucionales y legales sobre la protección del derecho
fundamental de habeas data, en particular lo dispuesto en el artículo 15 de la Constitución Política y la ley 1581 de 2012.
SÉPTIMA. En caso de que la ESTUDIANTE incumpla parcial o totalmente con las obligaciones establecidas en el presente
acuerdo, ella será responsable de los daños y perjuicios que dicho incumplimiento llegase a ocasionar a UDIES Y LA
DEPENDENCIA DE REGISTRO Y CONTROL.
OCTAVA. La vigencia del presente acuerdo será definida por el tiempo de duración del proyecto vinculado y permanecerá
vigente mientras exista relación receptora, se hará acreedora a la Pena Convencional establecida en la Cláusula Séptima del
presente Contrato.
Firma:
Fuente: Autor
Figura 55. Matriz de Correlación materia Introducción a la Ingeniería de Sistemas.
Fuente: Autor
Figura 56. Matriz de Correlación materia Introducción a la Programación.
Fuente: Autor
Figura 57. Matriz de Correlación materia Filosofía Institucional.
Fuente: Autor
Figura 58. Matriz de Correlación materia Inglés I.
Fuente: Autor
Figura 59. Matriz de Correlación materia Cátedra de Henri Didon I.
Fuente: Autor
Figura 60. Matriz de Correlación materia Cálculo Diferencial.
Fuente: Autor
Figura 61. Matriz de Correlación materia Comunicación Oral y Escrita.
Fuente: Autor
Figura 62. Matriz de Correlación materia inglés II.
Fuente: Autor
Figura 63. Matriz de Correlación materia Cátedra de Henri Didon II.
Fuente: Autor
Figura 64. Matriz de Correlación materia Álgebra Lineal.
Fuente: Autor
Figura 65. Matriz de Correlación materia Cálculo Integral.
Fuente: Autor
Figura 66. Matriz de Correlación materia Programación Orientada a Objetos.
Fuente: Autor
Figura 67. Matriz de Correlación materia Bases de Datos.
Fuente: Autor
Figura 68. Matriz de Correlación materia Requerimientos y Diseño de Software.
Fuente: Autor
Figura 69. Matriz de Correlación materia Antropología.
Fuente: Autor
Figura 70. Matriz de Correlación materia inglés III.
Fuente: Autor
Figura 71. Matriz de Correlación materia Física Mecánica.
Fuente: Autor
Figura 72. Matriz de Correlación materia Cálculo Vectorial.
Fuente: Autor
Figura 73. Matriz de Correlación materia Estructura de Datos.
Fuente: Autor
Figura 74. Matriz de Correlación materia Ecuaciones Diferenciales.
Fuente: Autor
Figura 75. Matriz de Correlación materia Electricidad y Magnetismo.
Fuente: Autor
Figura 76. Matriz de Correlación materia Epistemología.
Fuente: Autor
Figura 77. Matriz de Correlación materia inglés IV.
Fuente: Autor
Figura 78. Matriz de Correlación materia Arquitectura del Computador.
Fuente: Autor
Figura 79. Matriz de Correlación materia Construcción de Software.
Fuente: Autor
Figura 80. Matriz de Correlación materia Arquitectura Empresarial.
Fuente: Autor
Figura 81. Matriz de Correlación materia Desarrollo Empresarial.
Fuente: Autor
Figura 82. Matriz de Correlación materia Sistemas Operativos.
Fuente: Autor
Figura 83. Matriz de Correlación materia Métodos Numéricos.
Fuente: Autor
Figura 84. Matriz de Correlación materia Cultura Teológica.
Fuente: Autor
Figura 85. Matriz de Correlación materia Inglés V.
Fuente: Autor
Figura 86. Matriz de Correlación materia Probabilidad y Estadística.
Fuente: Autor
Figura 87. Matriz de Correlación materia Desarrollo Orientado a Servicios.
Fuente: Autor
Figura 88. Matriz de Correlación materia Redes.
Fuente: Autor
Figura 89. Matriz de Correlación materia Inglés VI.
Fuente: Autor
Figura 90. Matriz de Correlación materia Optimización.
Fuente: Autor
Figura 91. Matriz de Correlación materia Gerencia de Software.
Fuente: Autor
Figura 92. Matriz de Correlación materia Electivas de la Carrera.
Fuente: Autor
Figura 93. Matriz de Correlación materia Calidad de Software.
Fuente: Autor
Figura 94. Matriz de Correlación materia Simulación.
Fuente: Autor
Figura 95. Matriz de Correlación materia Electivas Sociohumanísticas.
Fuente: Autor
Figura 96. Matriz de Correlación materia Practica Empresarial.
Fuente: Autor
Figura 97. Matriz de Correlación materia Filosofía Política.
Fuente: Autor
Figura 98. Matriz de Correlación materia Auditoría de Sistemas.
Fuente: Autor
Figura 99. Matriz de Correlación materia Trabajo de Grado I.
Fuente: Autor
Figura 100. Matriz de Correlación materia Legislación Informática.
Fuente: Autor
Figura 101. Matriz de Correlación materia Trabajo de Grado II.
Fuente: Autor
Figura 102. Matriz de Correlación materia Ética.
Fuente: Autor
Anexo 4. Certificaciones de participación en la Ponencia del Congreso XI Clabes
Figura 103. Certificación de Presentación del Proyecto en el evento del Congreso Clabes.
Figura 104. Certificación de Participación como ponente en el Congreso Clabes.
Figura 105. Distinción como mejor Trabajo Innovador en el Congreso Clabes.
Anexo 5. Libro de Actas del Congreso XI Clabes
Anexo 6. Documento de Levantamiento de Requerimientos
Información general
Propósito
El proyecto
La metodología empleada para este proyecto fue CRISP-DM (Cross Industry Standard Process for
Data Mining), la cual está compuesta por 6 fases iterativas:
1. Comprensión del negocio
La fase inicial del proyecto se enfoca en comprender la situación del negocio. Primero se
determina el objetivo general del proyecto, posteriormente, la definición del problema y un plan
previo para cumplir con los objetivos.
2. Comprensión de los datos
La fase de compresión de datos comienza con un proceso de recolección preliminar de datos.
Posteriormente, se debe realizar minuciosamente un análisis de los datos. Asimismo,
identificar los posibles problemas de calidad y detectar los subconjuntos de los datos. Esta
fase va de la mano con la anterior fase, ya que la formulación del plan del proyecto requiere
una comprensión de la información.
3. Preparación de los datos
La fase de preparación de datos abarca las actividades para construir el dataset final, a partir
de los datos sin procesar. Estos procesos pueden ser realizados iterativamente y no en un
orden establecido. Algunas de las tareas destacadas en esta fase son: selección de tablas,
registros y atributos, limpieza de datos, construcción de nuevos atributos y transformación de
datos para herramientas de modelado.
4. Modelado
En la fase del modelado, se seleccionan los modelos de Machine Learning que mejor se
ajusten al dataset. Para elegir el modelo indicado, se deben calibrar los parámetros para
obtener los valores más óptimos, respecto a las métricas de evaluación como lo son: precision,
recall, f1 y accuracy.
5. Evaluación
En la fase de evaluación, los resultados se comparan con los objetivos definidos del proyecto
y se toman decisiones respecto a la configuración del modelo.
6. Despliegue
En la fase de despliegue, se elabora detalladamente la guía del usuario. Este documento
describe cómo utilizar, supervisar y mantener el aplicativo. Además, se implementa una
aplicación de visualización para los datos.
Cada una de estas etapas requiere del acompañamiento permanente del cliente y su avance está
condicionado a su aprobación.
• El cliente podrá visualizar en una pantalla del dashboard, los datos académicos de los
estudiantes del programa de Ingeniería de Sistemas de los periodos 2018-1 al 2021-2. Las
gráficas muestran cuáles son los posibles factores que conllevan a una deserción estudiantil.
• El cliente podrá visualizar la segunda pantalla del dashboard las predicciones de los
estudiantes. En la pantalla se observa un input para ingresar el código institucional del
estudiante y un botón para generar la predicción. Asimismo, se encuentra un apartado para
observar el porcentaje de riesgo de deserción que puede tener ese estudiante. Finalmente,
se proyectan las métricas de evaluación del Modelo de Machine Learning, como lo son: el
accuracy y precision y la imagen de la Matriz de Confusión.
Actores del sistema
Actores Funciones
Sistema Realiza el dashboard para desplegar gráficas con la información académica de los
estudiantes del programa de Ingeniería de Sistemas. Asimismo, genera las predicciones
del riesgo de deserción estudiantil del programa.
Cliente Ingresa los datos del estudiante y visualiza los datos de los estudiantes y la predicción
del riesgo de deserción estudiantil.
Requerimientos
[Dependencias] • <Sistema>
• <Cliente>
[Importancia] Alta.
[Prioridad] Alta, es fundamental que el sistema genere una predicción del estudiante.
Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.
[Dependencias] • <Sistema>
• <Cliente>
Descripción El sistema realiza una predicción de deserción estudiantil a partir de los datos
suministrados por el cliente. Es necesario que el sistema valide la existencia del
estudiante de acuerdo con el código institucional del estudiante. De no existir ese
estudiante, no se realizará la predicción.
[Importancia] Alta.
[Prioridad] Alta, sin la información no se puede generar el porcentaje de riesgo de deserción del
estudiante.
Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.
<id>F003 <Generar una predicción en tiempo real a partir de la información
proporcionada por el cliente>
[Dependencias] • <Sistema>
• <Cliente>
[Importancia] Alta.
[Prioridad] Alta, es fundamental que el sistema genere una predicción del estudiante.
Comentarios El modelo de Machine Learning seleccionado será el que presente mejor rendimiento
con los datos de entrenamiento.
[Dependencias] • <Sistema>
Descripción El sistema proyecta por medio del Dashboard cuáles son los factores que conllevan a
una posible deserción estudiantil, a partir de la información de los estudiantes del
Programa de Ingeniería de Sistemas. La información será representada por medio de
gráficos.
[Importancia] Alta.
[Prioridad] Alta, es fundamental conocer cuáles son los factores que conllevan a una posible
deserción estudiantil.
[Dependencias] • <Sistema>
• <UDIES y Registro y Control>
Descripción Las entidades de UDIES y Registro y Control suministran al sistema los datos
académicos de los estudiantes del Programa de Ingeniería de Sistemas por medio de
un archivo separados por comas (csv). Este archivo es integrado por el sistema en el
modelo de ML y en el Dashboard.
[Importancia] Alta.
[Prioridad] Alta, sin los datos almacenados no se pueden generar las predicciones para un
estudiante, ni proyectar la información de las posibles causad de deserción de los
estudiantes del programa.