Está en la página 1de 8

Informe de análisis de Artículo (Paper 01)

Autor(es): V. Miguéis, Ana Freitas, Paulo García, André Silva


Título del paper: Early segmentation of students according to their academic
performance: a predictive modeling approach
Journal: Decision Support Systems
Volumen (issue): Volume 115
Páginas (year): Pages 36-51, 2018

Problema que el autor desea resolver

El problema que los autores propusieron resolver es segmentar de manera temprana a los alumnos según su
rendimiento académico en cualquier institución de educación superior, limitándose en este estudio en la
facultad de ingeniería de la Universidad de Porto (Portugal), para poder tomar las mejores decisiones para
una correcta distribución de recursos con el objetivo de ayudar a aquellos alumnos de bajo rendimiento y
seguir motivando (o recompensando) a aquellos de alto rendimiento académico.

Importancia del problema

La importancia de la problemática es poder predecir el rendimiento de los estudiantes y comparar los


resultados predichos con un indicador, que los autores sustentan en base a otros estudios realizados, con el
fin de segmentar a los estudiantes para crear diferentes estrategias educativas según el grupo segmentado a
donde pertenezcan.
Uno de los más grandes objetivos de los estados europeos en el 2020 es que al menos un 40% de la población
con edades entre los 30 y 34 años haya completado una carrera de educación superior al 2020. Por otro
lado, uno de los objetivos de los Estados Unidos para el 2020 es liderar mundialmente en el número de
graduados de universidades. Es por ello que las instituciones de educación superior necesitan una
herramienta que les ayude a poder tomar las mejores decisiones con el fin de atraer un mayor número de
estudiantes y, además, tratar efectivamente a los alumnos en base a su desempeño académico.
Es por ello que los autores mediante este estudio se proponen en apoyar a una universidad europea de
ingeniería en promover el potencial académico de cada estudiante mediante la aplicación de modelos
creados utilizando minería de datos.
Este trabajo realizado por los autores se diferencia de otros estudios del mismo ámbito pues está basado en
un gran número de estudiantes (2459), mientras que el resto solo consideran pequeños conjuntos de
registros para validar sus modelos.
Estado del arte que hace el autor
Uno de los artículos analizados por los autores, elaborado por Huang y Fang (2013), se enfocó en predecir
las notas de los exámenes finales de estudiantes de ingeniería extraídos de diferentes fuentes, y para ello
utilizaron los algoritmos de regresión lineal múltiple (MLR), perceptrón multicapas (MLP), redes RBF y
máquinas de vectores de soporte (SVM). Al terminar de realizar las experimentaciones, los autores
encontraron que el algoritmo SVM brindó los mejores resultados de predicción.

Por otro lado, Marbouti et al (2016) en sus estudios tuvieron como objetivo el predecir si un estudiante
aprobaría o desaprobaría un determinado curso de ingeniería. Para lograr tal objetivo, primero extrajeron
datos una universidad de los Estados Unidos y se valieron del uso de las técnicas de regresión logística,
redes neuronales, SVM, árboles de decisión, naïve Bayes, la técnica del vecino más cercano y una última
técnica híbrida para poder realizar las predicciones. Al concluir con el estudio, se determinó que la técnica
híbrida diseñada por los autores llegó a tener los mejores resultados, con una precisión del 85%.

Además, Gray et al (2014) se planteó en identificar a aquellos alumnos con riesgo de desaprobar el primer
año de estudios en el instituto de tecnología Blanchardstown, Irlanda. Por ello utilizaron un dataset que
consistía de 1193 registros de estudiantes de primer año. Para realizar la identificación de los alumnos con
riesgo a desaprobar, los autores utilizaron las técnicas de regresión logística, redes neuronales, SVM,
árboles de decisión, naïve Bayes y la técnica del vecino más cercano. Los autores al finalizar concluyeron
que la técnica del vecino más cercano fue la mejor de todas, superando el 90% de precisión para algunos
casos, mientras que los algoritmos de Naïve Bayes y regresión logística fueron los que brindaron los peores
resultados.

Finalmente, Hoffait y Schyns (2017) se propusieron en encontrar si un estudiante podría o no, terminar su
primer año de estudios en la Universidad de Lieja, Francia. Para ello extrajeron los datos de 6845
estudiantes y una vez transformados los datos, evaluaron los algoritmos de regresión logística, redes
neuronales y random forests. Al terminar con el estudio, determinaron que todas las técnicas utilizadas
brindaron resultados pobres, sin embargo, lograron elevar la precisión de estas técnicas cambiando ciertos
atributos, destacando el Random Forest por brindar mejores resultados.

Motivación del autor


La motivación de los autores en realizar este estudio radica en segmentar a los alumnos de educación
superior mediante el uso de técnicas de minería de datos para poder tomar decisiones en base a sus
rendimientos académicos y de esta manera poder ayudar a los que tienen un pobre desempeño y aprovechar
las cualidades de aquellos alumnos con alto rendimiento académico.
Luego de que los autores hayan realizado un estudio de estados del arte, encontraron que previamente se
habían realizado ya otros trabajos de minería de datos educativa, sin embargo, un considerable número de
estos trabajos se enfocaron en predecir las notas de un solo curso, mientras que, aquellos estudios que
predecían el rendimiento de los alumnos tomando en cuenta todos los cursos que rendían estaban basados
principalmente en el promedio académico que estos tenían y es que, según los autores, basarse en el
promedio académico no es del todo correcto, debido a que, por ejemplo, dos estudiantes A y B podrían
tener el mismo promedio académico en un mismo ciclo, sin embargo, el estudiante A pudo haber repetido
dos de sus cursos en el ciclo anterior mientras que B es un estudiante invicto, por lo que B tendría mejor
rendimiento académico que A, sin embargo, si únicamente se tomase en cuenta el promedio académico, se
asumiría que tanto A y B poseen el mismo desempeño en la universidad.
Por otro lado, los autores también destacan que muchos de los estudios analizados no toman en cuenta
técnicas “ensemble” (aquellas que combinan varios clasificadores o regresores, como el Random Forest o
predictores Bagging) que han demostrado un gran potencial en otros contextos.
Adicionalmente, también resaltaron que los otros estudios analizados solo utilizaron pequeños conjuntos
de datos de estudiantes para validar sus modelos.

Descripción del aporte del autor


Los autores proponen la segmentación de alumnos de la facultad de ingeniería de la universidad de Porto
mediante la predicción de rendimiento de desempeño académico usando el algoritmo Random Forest, para
Tomaron en cuenta no solo las notas de los alumnos, sino también la cantidad de créditos en la que ellos
estuvieron matriculados mediante una fórmula creada por ellos. A partir de estos resultados, se dividieron
los registros de alumnos según su desempeño académico en 5 grupos y utilizando los resultados de las
predicciones (donde el random forest demostró ser el más eficiente, con una precisión de 96.1%) llegaron
a segmentar a los alumnos de la facultad de ingeniería de la universidad de Porto.
Basándose en las segmentaciones de los alumnos, se llegó a encontrar que la mayoría de alumnos ya se
encontraban a la fecha en el grupo donde los algoritmos de predicción los colocaban. Pero a su vez también
se encontró que los rendimientos de un considerable número de alumnos no llegan a ser iguales a los
rendimientos predichos por el algoritmo, lo que significa que o bien van a mejorar y empeorar.
Es por ello que los autores plantean una serie de propuestas según el caso para algunos segmentos de
alumnos, por ejemplo, de todos los estudiantes que pertenecen al grupo A, 114 estudiantes seguirán
permaneciendo en ese grupo según las predicciones. Entonces, si la universidad en algún momento se
interesase por hacer un llamado de tutores voluntarios de alto nivel académico, podría empezar con esos
114 alumnos que ya demuestran un buen desempeño estudiantil. No obstante, el algoritmo predijo que 4
alumnos del segmento A pasarían al segmento C, entonces, si la universidad escogiese a esos 4 alumnos
como tutores sin importar los resultados predichos, estos 4 estudiantes podrían no lograr los objetivos como
tutores.
Proceso para resolver el problema (solo si hay validación)
Los autores siguieron el modelo de la Figura I con el objetivo de segmentar de manera temprana a los
alumnos según su rendimiento académico.

Por ello, primero tuvieron que extraer los datos de los estudiantes de la universidad de Porto, obteniendo
un total de 2459 registros que datan del año 2003 al 2015 y según los posibles valores del indicador AP1,
se crearon 5 categorías de estudiantes según su desempeño (A, B, C, D, E), las cuales serían los valores
dependientes para predecir.
Luego, los autores decidieron utilizar 6 algoritmos de clasificación, los cuales fueron Random Forest,
árboles de decisión, máquinas de vectores de soporte (SVM), Naïve Bayes, Bagged trees y Adaptative
Boosting Trees.
Entonces, una vez escogidos los algoritmos, se decidió empezar con la validación de cada uno de estos
utilizando una validación cruzada de 10 etapas, es decir, los datos se dividen en 10 grupos de cantidades
iguales y 9 de las 10 partes son utilizadas para entrenar al algoritmo, mientras la parte sobrante es usada
para realizar pruebas de validación. Una vez esta validación acaba, se procede nuevamente a repetir lo
mismo, pero con otro bloque hasta que todos los 10 bloques hayan servido como validación.
Una vez terminado este bucle, los autores procedieron calculando la precisión y la sensibilidad de cada
algoritmo según segmento para encontrar al que tenga un mayor rendimiento mediante el uso de la matriz

1
Nivel de desempeño
de confusión, tal como se muestra en la tabla I. Entonces, se tomaron los resultados del algoritmo con mayor
precisión, el cual terminó siendo el Random Forest.

Tabla I: Desempeño de los algoritmos de clasificación según segmento

A continuación, los autores proceden identificando las variables más influyentes en el desempeño de los
alumnos, valiéndose del uso de Random Forest y aplicando una técnica propuesta por Menze et al (2009).
Finalmente, los autores empezaron a segmentar a los alumnos según su AP actual y su AP predicho por el
Random Forest y una vez terminado con este paso, empezaron a plantear posibles alternativas a partir de
dicha segmentación.

Principal resultado (solo si hay validación)


Mediante este estudio se logró segmentar de manera temprana a los alumnos de la facultad de ingeniería de
la universidad de Porto (Portugal), demostrando que la mayor cantidad de alumnos se concentra en el
segmento de notas BB, lo que significa que 562 alumnos que pertenecen al grupo B seguirán perteneciendo
al mismo grupo según los resultados predichos.
Figura I: Matriz de segmentación de alumnos

Finalmente, como el gran aporte de este estudio destaca el algoritmo de Random forest es el que ha brindado
los mejores resultados para la segmentación de los estudiantes de la facultad de ingeniería de la universidad
de Porto, con una precisión aproximada al 96.1%, mientras que el algoritmo de Naïve Bayes demostró tener
los peores resultados de todos los algoritmos utilizados.
Los autores esperan que, mediante estos resultados, la universidad de Porto pueda tomar mejores decisiones
con el objetivo de maximizar el aprovechamiento de sus recursos y a su vez, actuar de manera proactiva
con el objetivo de mejorar la educación brindada.

Referencias bibliográficas referenciadas en este informe


Huang, S. and Fang, N. (2013). Predicting student academic performance in an engineering
dynamics course: A comparison of four types of predictive mathematical models. Computers &
Education, 61:133-145.

Marbouti, F., Diefes-Dux, H. A., and Madhavan, K. (2016). Models for early prediction of at-risk
students in a course using standards-based grading. Computers & Education, 103:1-15.

Gray, G., McGuinness, C., and Owende, P. (2014). An application of classi_cation models to
predict learner progression in tertiary education. In Advance Computing Conference (IACC),
2014 IEEE International, pages 549{554.

Hoffait, A.-S. and Schyns, M. (2017). Early detection of university students with potential
difficulties. Decision Support Systems.
Página de la publicación con impacto (index)

Síntesis - Aporte a la Tesis


Tabla Artículos vs Preguntas
Nro Paper Título Paper Q1 Q2 Q3 Q4 Q5
02 Early segmentation of students X X
according to their academic
performance: a predictive modeling
approach

2. ¿Cómo identificamos a los factores tanto académicos como no académicos que podrían
afectar el rendimiento de los estudiantes?

Miguéis et al (2018), luego de haber realizado el proceso de predicción del desempeño


académico de los estudiantes de la facultad de ingeniería de la universidad de Porto, procedieron
a identificar los factores más influyentes en el desempeño de los alumnos, valiéndose del uso
del Random Forest y aplicando una técnica propuesta por Menze et al (2009). En donde se
consideraron todos los nodos repetidos por cada factor y se sumaron y normalizaron para llevar
los valores en un intervalo de [0, 1]. Sin embargo, a diferencia de Menze et al, donde utilizaron
el índice de Gini para evaluar el impacto de cada variable, los autores utilizaron el indicador de
precisión para este propósito.
3. ¿Qué algoritmos y/o técnicas se pueden utilizar para predecir las notas de los estudiantes
utilizando factores académicos y no académicos?

Miguéis et al (2018) utilizó 6 diferentes tipos de clasificadores para predecir el desempeño


académico de los estudiantes de la facultad de ingeniería de la universidad de Porto, los cuales
fueron el Random Forest, árbol de decisiones, SVM, Naïve Bayes, Bagging y Adaptative Boosting
decision trees. De los cuales, el Random Forest llegó a brindar los mejores resultados con una
precisión aproximada del 96.1%, mientras que el algoritmo Naïve Bayes, demostró tener la peor
precisión en general.

También podría gustarte