Predicting Student Performance Using Data Mining and Learning Analytics Techniques - En.es

Traducido del inglés al español - www.onlinedoctranslator.
com
aplicado
ciencias
Revisar
Predecir el rendimiento de los estudiantes utilizando técnicas de análisis de

aprendizaje y minería de datos: una revisión sistemática de la literatura
Abdallah Namoun * y Abdullah Alshanqiti
Facultad de Computación y Sistemas de Información, Universidad Islámica de Medina, Medina 42351, Arabia Saudita;
amma@iu.edu.sa
* Correspondencia: a.namoun@iu.edu.sa ; Teléfono: +966-598009417
Aplicación destacada: La presente encuesta se encuentra entre los primeros esfuerzos de investigación para sintetizar
los modelos y paradigmas inteligentes aplicados en la educación para predecir el logro de los resultados de aprendizaje
de los estudiantes, que representan un indicador del desempeño de los estudiantes. La encuesta identifica varios
desafíos clave y proporciona recomendaciones para futuras investigaciones en el campo de la minería de datos
educativos.
Abstracto:La predicción del rendimiento académico de los estudiantes ha llamado mucho la atención en la educación. Sin
embargo, aunque se cree que los resultados del aprendizaje mejoran el aprendizaje y la enseñanza, el pronóstico del logro de los
resultados de los estudiantes sigue estando poco explorado. Se analizó una década de trabajo de investigación realizado entre
2010 y noviembre de 2020 para presentar una comprensión fundamental de las técnicas inteligentes utilizadas para la predicción
del rendimiento de los estudiantes, donde el éxito académico se mide estrictamente utilizando los resultados de aprendizaje de
los estudiantes. Las bases de datos bibliográficas electrónicas buscadas incluyen ACM, IEEE Xplore, Google Scholar, Science
Direct, Scopus, Springer y Web of Science. Finalmente, sintetizamos y analizamos un total de 62 artículos relevantes con un
enfoque en tres perspectivas, (1) las formas en que se predicen los resultados del aprendizaje, (2) los modelos analíticos
predictivos desarrollados para pronosticar el aprendizaje de los estudiantes y (3) los factores dominantes que afectan los
resultados de los estudiantes. Se aplicaron las mejores prácticas para realizar revisiones sistemáticas de la literatura, por
----
--- ejemplo, PICO y PRISMA, para sintetizar y reportar los principales resultados. El logro de los resultados del aprendizaje se midió
Citación:Namun, A.; Alshanqiti, A. Predecir el principalmente como posiciones de clase de desempeño (es decir, rangos) y puntajes de rendimiento (es decir, calificaciones).
rendimiento de los estudiantes utilizando Los modelos de regresión y aprendizaje automático supervisado se emplearon con frecuencia para clasificar el rendimiento de
técnicas de análisis de aprendizaje y minería los estudiantes. Finalmente, las actividades de aprendizaje en línea de los estudiantes, las calificaciones de las evaluaciones
de datos: una revisión sistemática de la trimestrales y las emociones académicas de los estudiantes fueron los predictores más evidentes de los resultados del
literatura.aplicación ciencia2021,11, 237. aprendizaje. Concluimos la encuesta destacando algunos de los principales desafíos de investigación y sugiriendo un resumen de
https://doi.org/10.3390/ app11010237 recomendaciones significativas para motivar futuros trabajos en este campo.
Recibido: 10 de diciembre de 2020

Palabras clave:predicción del rendimiento; resultados de aprendizaje de los estudiantes; revisión sistemática de la literatura;
Aceptado: 25 de diciembre de 2020
desempeño académico; éxito estudiantil; análisis de aprendizaje; aprendizaje automático; minería de datos educativos
Publicado: 29 de diciembre de 2020
Nota del editor:MDPI se mantiene neutral
con respecto a reclamos jurisdiccionales en
mapas publicados y afiliaciones

1. Introducción
institucionales. El desempeño académico de los estudiantes en la educación superior (ES) se investiga ampliamente para abordar
el bajo rendimiento académico, el aumento de las tasas de deserción universitaria, los retrasos en la graduación, entre
otros desafíos tenaces [1]. En términos simples, el rendimiento de los estudiantes se refiere al grado de logro de los
objetivos educativos a corto y largo plazo.2]. Sin embargo, los académicos miden el éxito de los estudiantes desde
Derechos de autor:© 2020 por los autores.
diferentes perspectivas, que van desde las calificaciones finales de los estudiantes, el promedio de calificaciones (GPA)
Licenciatario MDPI, Basilea, Suiza. Este artículo
hasta las perspectivas laborales futuras.3]. La literatura ofrece una gran cantidad de esfuerzos computacionales que se
es un artículo de acceso abierto distribuido bajo
esfuerzan por mejorar el desempeño de los estudiantes en escuelas y universidades, más notablemente aquellos
los términos y condiciones de la licencia
impulsados por técnicas de análisis de aprendizaje y minería de datos.4]. Sin embargo, aún prevalece la confusión con
Creative Commons Attribution (CC BY) (https://
respecto a la efectividad de las técnicas y modelos inteligentes existentes.
creativecommons.org/licenses/by/4.0/).
aplicación ciencia2021,11, 237. https://doi.org/10.3390/app11010237 https://www.mdpi.com/journal/applsci

aplicación ciencia2021,11, 237 2 de 28
La predicción oportuna del desempeño de los estudiantes permite la detección de estudiantes de bajo
desempeño, lo que permite a los educadores intervenir temprano durante el proceso de aprendizaje e
implementar las intervenciones requeridas. Las intervenciones fructíferas incluyen, entre otras, asesoramiento
a los estudiantes, seguimiento del progreso del rendimiento, desarrollo de sistemas de tutoría inteligente y
formulación de políticas [5]. Este esfuerzo está fuertemente impulsado por los avances computacionales en la
minería de datos y el análisis de aprendizaje [6]. Una encuesta exhaustiva reciente destaca que
aproximadamente el 70 % del trabajo revisado investigó la predicción del desempeño de los estudiantes
utilizando las calificaciones y los GPA de los estudiantes, mientras que solo el 10 % de los estudios inspeccionó
la predicción del rendimiento de los estudiantes utilizando los resultados del aprendizaje.3]. Esta brecha nos
incitó a investigar a fondo el trabajo realizado donde los resultados de aprendizaje se utilizan como proxy del
rendimiento académico de los estudiantes.
La educación basada en resultados es un paradigma de educación que se enfoca en implementar y lograr
los llamados resultados de aprendizaje.7]. En efecto, los resultados del aprendizaje de los estudiantes son
metas que miden hasta qué punto los estudiantes alcanzan las competencias previstas, específicamente
conocimientos, habilidades y valores, al final de un determinado proceso de aprendizaje. Desde nuestro punto
de vista, los resultados de los estudiantes representan una métrica más holística para juzgar los logros
académicos de los estudiantes que las meras calificaciones de las evaluaciones. Este punto de vista coincide con
la afirmación de que los resultados del aprendizaje representan factores críticos del éxito académico de los
estudiantes.8]. Además, reconocidas organizaciones de acreditación de educación superior, como ABET y
ACBSP, utilizan los resultados del aprendizaje como elementos básicos para evaluar la calidad de los programas
educativos [9]. Tal importancia exige más esfuerzos de investigación para predecir el logro de los resultados del
aprendizaje, tanto a nivel de curso como de programa.
La falta de encuestas sistemáticas que investiguen la predicción del desempeño de los estudiantes utilizando los
resultados de los estudiantes nos ha motivado a perseguir los objetivos de esta investigación. En una revisión
sistemática de la literatura (es decir, SLR), se ejecuta un protocolo paso a paso para identificar, seleccionar y evaluar los
estudios sintetizados para responder preguntas de investigación específicas.10,11]. Nuestra encuesta sistemática tiene
como objetivo revisar los trabajos de investigación realizados en este campo entre 2010 y 2020 para:
• Comprenda profundamente los enfoques y técnicas inteligentes desarrollados para pronosticar los resultados de
aprendizaje de los estudiantes, que representan el rendimiento académico de los estudiantes.
• Compare el rendimiento de los modelos y técnicas existentes en diferentes
aspectos, incluida su precisión, fortalezas y debilidades.
• Especificar los predictores dominantes (p. ej., factores y características) de los resultados de aprendizaje de los
estudiantes en función de la evidencia de la síntesis.
• Identificar los retos y limitaciones de investigación a los que se enfrentan las técnicas inteligentes actuales
para predecir el rendimiento académico a partir de resultados de aprendizaje.
• Resalte las áreas de investigación futuras para mejorar la predicción del desempeño de los estudiantes utilizando
los resultados del aprendizaje.
El resto de este documento está organizado en ocho secciones. Sección2presenta los conceptos
fundamentales de la predicción del rendimiento de los estudiantes y destaca las encuestas realizadas en
este campo en cuanto a sus deficiencias. Sección3describe la metodología de encuesta sistemática que
adoptamos en esta investigación, así como las preguntas de investigación y los objetivos que
pretendíamos abordar. Sección4detalla las respuestas a las preguntas de investigación sobre la
predicción del desempeño de los estudiantes utilizando resultados de aprendizaje. Sección 5discute los
hallazgos clave y especifica las limitaciones. Sección6propone varias recomendaciones, mientras que la
Sección7define futuras líneas de investigación.
2. Antecedentes y trabajos relacionados
Esta sección presenta los conceptos básicos de los resultados de los estudiantes y el rendimiento de los
estudiantes, seguido de la identificación de las lagunas de investigación en la literatura sobre la predicción de los
resultados de aprendizaje de los estudiantes.
2.1. Resultados de los estudiantes
La educación basada en resultados (OBE) ha surgido como una nueva escuela de pensamiento en
educación y recientemente ha disfrutado de una amplia aceptación y adopción.12]. Este paradigma
educativo cambia el enfoque del proceso de enseñanza y aprendizaje de los objetivos tradicionales del
maestro a los llamados resultados de los estudiantes. En términos simples, los resultados de los
estudiantes se refieren a los conocimientos, habilidades y valores que deben alcanzar los estudiantes al
momento de graduarse o al final de un curso.13]. Los resultados, que representan las competencias
específicas, pueden definirse y medirse a nivel de curso, es decir, resultados de curso, oa nivel de
programa, es decir, resultados de programa. Esencialmente, los resultados del curso permiten el logro
de los resultados del programa, y su alineación (es decir, cursos con el programa) se realiza en una
actividad crítica denominada mapeo curricular. Se desarrollaron herramientas computarizadas para
asistir en la realización de las metas de OBE [14] y documentar eficazmente las actividades de evaluación
educativa [15]. Su utilidad podría extenderse incorporando modelos inteligentes que puedan pronosticar
la consecución de resultados de aprendizaje durante los períodos académicos.
Indiscutiblemente, medir los resultados de los estudiantes en la educación superior genera varios
beneficios, incluido el establecimiento de expectativas de programas para estudiantes e instructores de cursos,
la evaluación práctica de la calidad de los cursos y programas, y la provisión de indicadores clave de éxito del
programa, entre otros.7,dieciséis]. Varios instrumentos de evaluación de la calidad, por ejemplo, [17], y marcos
de aseguramiento de la calidad, p. ej., [18], se propusieron hacer realidad la filosofía de la educación basada en
resultados y adquirir acreditaciones del programa. Además, la capacidad de pronosticar el logro de los
resultados de los estudiantes agrega otras ventajas invaluables, como la capacidad de introducir intervenciones
correctivas en los procesos de aprendizaje. Sin embargo, pocos trabajos examinaron la predicción inteligente de
los resultados de los estudiantes. Además, los factores y atributos que impactan los resultados educativos aún
son vagos. Los estudios sugieren que estos factores oscilan entre los factores académicos, por ejemplo, la
calidad de la enseñanza [19] y participación en línea [20], y rasgos no académicos, por ejemplo, compromiso
familiar [21] y la motivación de los estudiantes [22]. En este trabajo, nuestro objetivo, a través de una encuesta
sistemática, es comprender el panorama de la predicción de los resultados de los estudiantes mediante la
minería de datos y el aprendizaje automático, identificar los principales desafíos que dificultan la predicción de
los resultados de los estudiantes y proponer recomendaciones relevantes.
2.2. Rendimiento del estudiante
Aunque, debido al cambio educativo sustancial en la enseñanza y el aprendizaje, es decir, OBE, el desempeño de
los estudiantes sigue siendo una preocupación importante en la educación superior [5], especialmente dadas las bajas
calificaciones y las crecientes tasas de deserción incluso en universidades de clase mundial [23]. Las revisiones
anteriores mostraron que el GPA acumulativo y las evaluaciones del curso son los predictores más utilizados del
rendimiento y el éxito de los estudiantes [24,25]. De hecho, varios estudios utilizaron las calificaciones de los cursos del
próximo trimestre como el principal indicador del desempeño de los estudiantes, por ejemplo, [26,27]. Sin embargo, no
es raro medir el rendimiento de los estudiantes de otras formas, incluida la tasa de abandono, el conocimiento de los
estudiantes, los resultados posteriores al curso, entre otros indicadores.28]. Desde nuestro punto de vista, el
rendimiento académico de los estudiantes no debe evaluarse utilizando únicamente calificaciones de evaluación. En su
lugar, debe estudiarse dentro de un contexto más amplio, particularmente utilizando los resultados de los estudiantes,
que ahora guían el proceso de aprendizaje al observar el desempeño de la cohorte. Además, investigaciones recientes
recomiendan explorar la perspectiva de predecir el logro de los resultados de los estudiantes para inferir el rendimiento
de los estudiantes.29].
Las técnicas inteligentes empleadas en el análisis del aprendizaje para pronosticar los logros de los
estudiantes generalmente se clasifican en aprendizaje supervisado, aprendizaje no supervisado, minería
de datos y enfoques estadísticos.3,28]. Cada categoría incorpora una gran cantidad de algoritmos
inteligentes, como redes neuronales artificiales, máquina de vectores de soporte, vecino más cercano K y
bosques aleatorios. Los atributos que predicen el desempeño de los estudiantes se examinan
ampliamente en la literatura, lo que lleva a una combinación de factores académicos (p. ej., puntajes
previos a la admisión y calificaciones de ingreso) y no académicos (p. ej., inteligencia emocional y
resiliencia) [30,31]. Sin embargo, el misterio aún rodea los factores que influyen en el logro de los
resultados del curso y del programa.
Se desarrollan resultados medibles de los estudiantes para mejorar la calidad de los procesos de
aprendizaje y los programas educativos [13]. Efectivamente, estos resultados evalúan lo que los estudiantes
pueden realizar con lo que han aprendido. El logro de los resultados del aprendizaje, tanto a nivel de curso
como de programa, se realiza utilizando métodos de evaluación directos e indirectos al final del proceso de
aprendizaje. Los métodos de evaluación directa buscan encontrar evidencia tangible que demuestre el
aprendizaje de los estudiantes, mientras que los métodos indirectos se basan en las reflexiones de los
estudiantes sobre su experiencia de aprendizaje. Para calcular la tasa de logro de los resultados, se deben
identificar a priori los objetivos y niveles de logro y luego alinear adecuadamente las calificaciones de los
estudiantes con el nivel de logro apropiado [13]. En nuestro trabajo, examinamos los estudios que predicen el
logro de los resultados de los estudiantes, independientemente de su forma.
2.3. Revisiones de desempeño estudiantil existentes y brechas en la literatura
Nuestra extensa revisión de encuestas anteriores reveló que, hasta donde sabemos, no se llevó a
cabo ninguna encuesta sistemática de literatura centrada en la predicción del rendimiento académico de
los estudiantes desde la perspectiva de los resultados del aprendizaje. Mesa1resume las encuestas
destacadas realizadas sobre la predicción del desempeño de los estudiantes y enfatiza su enfoque y
debilidades. De hecho, nuestra búsqueda arrojó numerosas encuestas sobre el uso de técnicas de
minería de datos en la educación (es decir, EDM) para desentrañar las actividades de modelado de los
estudiantes y predecir el rendimiento académico. Estas revisiones tenían varias limitaciones, ya que (1)
eran generalmente amplias, (2) no se enfocaban en usar los resultados de los estudiantes como un
indicador del desempeño de los estudiantes, (3) tenían problemas de calidad (p. ej., metodologías no
definidas a fondo), y (4) no fueron publicados en lugares altamente indexados. Estas debilidades se
destacan en la Tabla1.
Tabla 1.Encuestas existentes sobre predicción del desempeño de los estudiantes, sus debilidades y fortalezas.
Número de bibliográfico
Enfoque de la encuesta y Métrica de estudiante Modelos y
Tipo de encuesta bases de datos exploradas; Años cubiertos Debilidad Fortaleza
lugar de publicación Comparación de rendimiento Enfoques revisados
Artículos revisados
− No pronosticó los resultados de los estudiantes + Identificado que los atributos y

Predicción del rendimiento de los alumnos
Cuatro bases de datos; − Revisó una pequeña cantidad métodos que predicen
usando minería de datos [24]; Revisión sistemática Precisión de la predicción (%) Técnicas de minería de datos (2002–enero de 2015)
30 papeles de artículos rendimiento estudiantil
Conferencia indexada
− No discutió las limitaciones. + Aplicada la metodología PICO
− Enfocado solo en el sistema de

aprendizaje virtual Moodle
Predicción del resultado de los estudiantes usando − No abordó el resultado de los estudiantes
10 bases de datos; + bien formulado
procesamiento de datos [32]; Revisión sistemática Precisión de la predicción (%) Técnicas de minería de datos No indicado desde diferentes perspectivas.
preguntas definidas
42 papeles
Simposio − No discutió las limitaciones.
− No comparó los
modelos predictivos
Técnicas y algoritmos utilizados para la predicción del − No evaluó la calidad de los + Enumeró las técnicas utilizadas en el análisis
Una base de datos;
rendimiento de los estudiantes [5]; Revisión de la literatura tradicional No reportado Analítica educativa (2013-2017) estudios. de aprendizaje para predecir el rendimiento
88 artículos/proyectos/informes
Conferencia indexada − No comparó los modelos. de los estudiantes.
Técnicas de minería de datos para descubrir − No se centró en los resultados de los estudiantes. + Cubrió diferentes áreas, como el
Bases de datos no indicadas;
conocimiento en educación [33]; Revisión tradicional No reportado Minería de datos educativos (2010–primer trimestre de 2013) − Solo se informaron 46 artículos modelado del desempeño de los
240 papeles
Revista indexada sobre modelado de rendimiento. estudiantes y los enfoques de evaluación.
− No encuestó los resultados de los estudiantes
Predicción de rendimiento utilizando datos − Reportó solo cinco técnicas

+ Se discutieron los factores que predicen el
técnicas de minería [34]; Revisión sistemática Seis bases de datos Precisión de la predicción (%) Técnicas de minería de datos (2007—julio de 2016) − No discutió las limitaciones.
desempeño de los estudiantes.
Revista no indexada − Adoptó un débil
metodología de la encuesta
Predicción de rendimiento usando

+ Comparó el rendimiento de los modelos
aprendizaje automático [35]; Encuesta literaria No indicado Precisión de la predicción (%) Modelos de aprendizaje automático No indicado − No encuestó los resultados de los estudiantes
de aprendizaje automático
Revista no indexada
+ Adoptó una metodología robusta

Características que predicen al estudiante Enfoques estadísticos, técnicas + Destacaron los predictores del
Tres bases de datos; Diferentes medidas de
actuación [3]; Revisión sistemática de minería de datos, máquina (2010-2018) − No discutió los resultados de los estudiantes. rendimiento de los estudiantes
357 papeles se consideró el rendimiento.
Revista indexada modelos de aprendizaje + Describió los métodos de
predicción más utilizados.
− Presentó un estudio preliminar (de 2

Resultados preliminares de predictivo páginas) al que le faltaba
Bases de datos no indicadas; + Informó el contexto general de los
análisis de aprendizaje [36]; Revisión sistemática Precisión de la predicción (%) Modelos de aprendizaje automático (2002-2016) detalles cruciales
39 papeles resultados de los estudiantes
Conferencia indexada − No publicó los resultados completos de
la encuesta.
Otras encuestas menos relevantes publicadas en el campo se centraron en los efectos de las tareas asignadas en
el desempeño de los estudiantes [37], el impacto del uso de pizarras interactivas en el rendimiento de los estudiantes [
38], los predictores del éxito estudiantil en el primer año de estudio [39], y los factores del éxito de los graduados [40]. A
diferencia de las encuestas mencionadas anteriormente, nuestra investigación optó por realizar una revisión
sistemática mediante la implementación de un proceso de revisión integral que permite sintetizar respuestas concretas
a preguntas de investigación bien definidas, en el contexto de la predicción de los resultados de aprendizaje de los
estudiantes.
3. Metodología de la encuesta
Esta investigación realizó una revisión sistemática en la que se identificaron, seleccionaron y evaluaron
críticamente los trabajos académicos relevantes que predicen el rendimiento de los estudiantes a partir de los
resultados de aprendizaje, utilizando varios criterios, tal como se presenta en la sección de resultados. Para simplificar
nuestras contribuciones, formulamos tres preguntas clave de investigación de la siguiente manera:
• RQ1-Predicción de resultados de aprendizaje. ¿Cómo se mide el rendimiento académico de los estudiantes utilizando los
resultados del aprendizaje?
• RQ2-Enfoques de predicción del rendimiento académico. ¿Qué modelos y técnicas inteligentes se diseñan
para pronosticar el rendimiento académico de los estudiantes utilizando los resultados del aprendizaje?
• RQ3-Predictores de Rendimiento Académico. ¿Qué predictores dominantes del rendimiento de los estudiantes
utilizando los resultados del aprendizaje se informan?
El objetivo principal de esta encuesta fue crear una comprensión integral del panorama de la
predicción del rendimiento académico centrándose en el logro de los resultados del aprendizaje. Para
responder con precisión a las preguntas de investigación anteriores, adoptamos el modelo PICO bien
fundamentado [41]. El protocolo PICO enfatiza la definición de cuatro elementos clave, a saber,
población, intervención, comparación y resultado. En cuanto a nuestra investigación, la población se
refiere a la investigación de los estudios de predicción de resultados de aprendizaje, la intervención se
refiere a los enfoques y factores inteligentes utilizados para predecir el logro de los resultados de los
estudiantes, la comparación se refiere a la variabilidad de la predicción del rendimiento entre los
modelos encuestados y el resultado se refiere a la precisión de estos enfoques, así como los predictores
de los resultados del aprendizaje. Mesa2detalla los elementos PICO de nuestra encuesta.
Tabla 2.Protocolo PICO adoptado en nuestra encuesta.
Población/Problema Intervención Comparación Resultado
Estudios que predicen el desempeño Comparación a través de la Calidad y precisión de los enfoques Conjunto de
Lista de modelos y
de los estudiantes usando el modelos identificados predictores de rendimiento de los resultados del
técnicas inteligentes
los resultados del aprendizaje y técnicas aprendizaje
Además, aplicamos las mejores prácticas para realizar revisiones sistemáticas útiles [10]. Como tal,
identificamos y buscamos siete bases de datos bibliográficas en línea importantes, que contienen
publicaciones científicas y de ingeniería. Estas bases de datos incluyen la biblioteca digital ACM, IEEE
Xplore, Google Scholar, Science Direct, Scopus, Springer y Web of Science. Estas son las bases de datos
comunes buscadas por las revisiones de ingeniería de software y se espera que incorporen los estudios
que investigan el modelado predictivo de los resultados de los estudiantes. Otras bases de datos
electrónicas, como DBLP y CiteSeer, fueron excluidas de la búsqueda ya que sus resultados son
inclusivos dentro de las siete bases de datos anteriores. Además, se ignoraron las bases de datos que
publican artículos no revisados. Cifra1resume los pasos generales de nuestra revisión sistemática
completa.
Figura 1.Pasos principales de nuestra metodología de encuestas.
Realizamos las búsquedas en noviembre de 2020 utilizando las bases de datos anteriores con un enfoque
en los estudios publicados entre 2010 y noviembre de 2020. Los términos clave que se idearon para realizar las
búsquedas estaban directamente relacionados con los conceptos de las preguntas de investigación y los
elementos PICO.
(predecir* O pronosticar)
Y
(“resultados de aprendizaje de los estudiantes” O “resultados de los estudiantes” O “resultados de aprendizaje”) Y
("inteligencia artificial" O "aprendizaje automático" O "minería de datos" O "aprendizaje profundo" O

"análisis de aprendizaje")
Vale la pena señalar que la sintaxis de la cadena de búsqueda se probó varias veces y se modificó
ligeramente en cada base de datos para obtener todos los resultados relevantes, como se recomienda en [10].
Cuando las búsquedas se realizaron en los textos completos de nuestras bases de datos seleccionadas, se
recuperaron y devolvieron miles de estudios irrelevantes. Por lo tanto, restringimos nuestras búsquedas solo a
los títulos, resúmenes y palabras clave, lo que arrojó un grupo de estudios más razonable, como se muestra en
la Tabla3.
Tabla 3.Criterios de inclusión en nuestra revisión sistemática de la literatura.
Criterios de inclusión Descripción de los criterios
Estudios que predicen explícitamente el desempeño de los estudiantes

I1. foco de estudio
con una referencia directa a los resultados del aprendizaje
Estudios que contienen evidencia empírica de la

I2. Evidencia empírica de predicción
predicción del rendimiento
I3. Idioma de publicación Solo se consideran artículos escritos en inglés.

Estudios publicados entre 2010 y 2020 (ambos
I4. Año de publicacion
años inclusive)
Estudios publicados en lugares científicos revisados por pares
I5. Lugar de publicación
(por ejemplo, conferencia o revista)
I6. Disponibilidad de texto Se puede acceder al texto completo para su análisis.
3.1. Criterios de inclusión
Mesa3enumera los criterios de inclusión que se aplicaron para preseleccionar los artículos candidatos para su
consideración en esta revisión. En otras palabras, se descartaron los estudios que no cumplieron con los criterios
enumerados a continuación. Por ejemplo, se excluyeron los artículos no arbitrados, como los informes técnicos y los
documentos que no están en inglés.
Para garantizar la claridad y la calidad de nuestra metodología, esta revisión sistemática siguió las
cuatro etapas recomendadas por la declaración PRISMA y las pautas de presentación de informes [42].
La primera fase de PRISMA identifica los estudios potenciales para investigar utilizando búsquedas
automatizadas y manuales. La fase de selección de los estudios sigue a la fase de identificación para
excluir estudios duplicados e irrelevantes. A continuación, los artículos calificados se leen
minuciosamente y se evalúa su elegibilidad, lo que conduce al conjunto final de estudios que se incluirán
en nuestra síntesis. En las fases de selección y elegibilidad, aplicamos estrictamente los criterios de
inclusión enumerados en la Tabla3. Se excluyeron de la síntesis los estudios que no hacían referencia
directa a la predicción de los resultados del aprendizaje (es decir, la variable de resultado). Además, no es
raro ver una caída tan grande en el número de artículos que no cumplen con los criterios de inclusión.
Cifra2 muestra el diagrama de flujo PRISMA de nuestra encuesta.
Figura 2.Diagrama de flujo PRISMA de nuestra metodología de encuestas.
La ronda inicial de búsquedas automatizadas en las bases de datos electrónicas arrojó un corpus
que contenía un total de 586 artículos, como se enumeran en la Tabla4. Después de eliminar las
publicaciones duplicadas y escanear los títulos y resúmenes, el número se redujo a 187 artículos
potencialmente relevantes. El escaneo completo de los artículos elegibles redujo los resultados de
búsqueda a 51 artículos relevantes. Además, los autores realizaron búsquedas manuales para considerar
otros 11 artículos primarios.
En resumen, la búsqueda automática arrojó 51 artículos relevantes. Sin embargo, las pautas de
SLR sugieren realizar búsquedas manuales para superar la amenaza de perder estudios primarios y
mejorar la fiabilidad de la encuesta [10]. Con este fin, (1) realizamos búsquedas manuales en diferentes revistas
y publicaciones de congresos y (2) buscamos en las listas de referencias de nuestros artículos candidatos.
para identificar nuevos artículos relevantes. Estos enfoques de búsqueda manual dieron 11 artículos primarios
adicionales. Por lo tanto, la muestra final de artículos considerados relevantes para la predicción
de los resultados de los estudiantes utilizando enfoques inteligentes, por ejemplo, aprendizaje automático, ascendió a
62 artículos.
Tabla 4.Resultados de búsqueda de varias rondas de las bases de datos bibliográficas electrónicas.
MCA Explorar IEEE Google Académico ciencia directa Scopus Saltador Web de la Ciencia Ronda total
La ronda 1
64 152 sesenta y cinco 91 63 115 36 586
(Resultados iniciales)
La ronda 2
64 148 sesenta y cinco 91 28 114 33 543
(Eliminación de duplicados)
Ronda 3
(Escaneando el título 12 63 10 13 53 9 27 187
y Resumen)
Ronda 4
3 7 5 5 12 2 17 51
(Leyendo Texto Completo)
Ronda 5
Se agregaron otros 11 artículos a través de búsquedas manuales. 62
(Búsquedas manuales)
3.2. Extracción de datos
Al aplicar el enfoque PRISMA [42], el grupo final de estudios seleccionados se analizó

minuciosamente para extraer los datos que ayudan a responder las preguntas de investigación.
Los datos extraídos incluyeron:
• Información general sobre la publicación, por ejemplo, año de publicación, tipo de
lugar, país de publicación y número de autores;
• Conjunto de datos educativos y contexto de predicción (p. ej., estudiantes, cursos, escuela,
universidad, . . . etc.);
• Variables de entrada utilizadas para la predicción de los resultados de los estudiantes y la forma en que se
predijeron;
• Modelos y enfoques inteligentes utilizados para la predicción del rendimiento académico;
• Predictores significativos de los resultados del aprendizaje.
Aplicamos análisis temático a los datos extraídos para responder a RQ1, RQ2 y RQ3. Los datos fueron
agrupados y categorizados de acuerdo con los temas informados en la sección de resultados. Sin embargo, no
fue factible realizar el metanálisis de los estudios seleccionados, principalmente porque la mayoría de los
conjuntos de datos educativos eran privados o no era posible obtenerlos. A continuación detallamos los
resultados de nuestro análisis de síntesis.
4. Resultados de la encuesta
Esta sección brinda información general sobre los artículos encuestados, las formas en que se
pronosticaron los resultados de los estudiantes, los modelos inteligentes desarrollados para la predicción del
desempeño y los predictores del logro de los resultados de aprendizaje de los estudiantes.
4.1. Lugares de publicación y años

Se analizaron un total de 62 estudios para ayudar a responder las preguntas planteadas en nuestra
investigación. Cifra3muestra que estos estudios se publicaron en revistas revisadas por pares (35
estudios, 56,45%) y conferencias (27 estudios, 43,55%). En general, las publicaciones aparecieron en
cuatro categorías, entre las que destacan Informática e Ingeniería (22 estudios, 35,48%) y Tecnologías de
la Información y Educación (13 estudios, 20,96%). Los trabajos de predicción del desempeño de los
estudiantes también aparecieron en las áreas de estudio de Educación (17 estudios, 27,41%) y Psicología
(8 estudios, 12,90%), como se muestra en la Figura4.
Se puede observar que el número de estudios que se esfuerzan por pronosticar los resultados del
aprendizaje como indicador del éxito de los estudiantes está en constante aumento. Cifra5muestra que el
interés en los modelos de predicción de los resultados de los estudiantes aumentó desde 2017, lo que coincide
con el cambio educativo global hacia la evaluación basada en los resultados y los esfuerzos de acreditación.
Nuestra búsqueda en las bases de datos recuperó artículos publicados hasta principios de noviembre de 2020,
lo que podría explicar la ligera disminución en el número de artículos publicados en el año 2020.
Figura 4.Categoría de los lugares de publicación.
Figura 5.Número de artículos distribuidos por año de publicación, de 2010 a noviembre de 2020.
Cifra6muestra que aproximadamente el 48,38% (30) de los modelos predictivos publicados fueron
producidos por los esfuerzos de más de tres autores. Los autores individuales produjeron solo el 8% (5)
de los estudios.
Figura 6.Frecuencia de artículos en función del número de autores de cada publicación.
4.2. Conjuntos de datos experimentales y el contexto de la predicción del rendimiento
Todos los estudios seleccionados informaron el uso de al menos un conjunto de datos educativos
para probar su modelo de predicción o comprender los factores que influyen en el logro de los
resultados de los estudiantes. Treinta y dos estudios (51,6 %) informaron la recopilación de datos de
rendimiento del aprendizaje tradicional en el aula, 21 estudios (33,8 %) de entornos de aprendizaje
virtual y nueve estudios (14,5 %) de entornos de aprendizaje combinados (p. ej., una combinación de
aprendizaje en línea y presencial). -Actividades de aprendizaje presencial). Los modelos de predicción del
rendimiento se aplicaron a los datos de la universidad (72,58 %), la escuela (25,81 %) y el jardín de
infancia (1,61 %). Cuando exploramos el tipo de carreras que cursan los estudiantes cuyo desempeño se
estaba pronosticando, 43 (69,35%) estudios examinaron el desempeño de estudiantes universitarios de
pregrado y siete (11,29%) estudios investigaron el desempeño de estudiantes de secundaria. Sólo dos
estudios (3.43,44].
Cuando analizamos el contexto de la predicción, los conjuntos de datos y los modelos de predicción
se aplicaron principalmente a cursos en el campo de las ciencias naturales (es decir, STEM) (33 estudios,
53,22 %). Cifra7muestra un menor énfasis en los cursos pertenecientes al campo de las ciencias sociales
(8 estudios, 12,90%). Más precisamente, se desarrollaron predicciones de resultados de aprendizaje para
Informática (13 estudios, 20,96 %), Matemáticas (5 estudios, 8,06 %) e Ingeniería (4 estudios, 6,45 %),
como se muestra en la Figura8.
Figura 7.Disciplina de predicciones de rendimiento académico utilizando resultados de aprendizaje.

Figura 8.Frecuencia de los estudios de predicción por tipo de carrera.
Dado que los estudios se realizaron en 23 países diferentes, optamos por agruparlos por
continente, como se muestra en la Figura9. Veinticinco estudios (40 %) se realizaron solo en EE.
UU., seguidos de Europa (18 estudios, 29 %) y Asia (13 estudios, 20 %). Además, los conjuntos de
datos de capacitación para 59 estudios se recopilaron de un solo país. Sin embargo, dos estudios
recopilaron sus datos de estudiantes matriculados en más de un país [45,46].
Figura 9.Distribución de los estudios en los continentes.
Todos los modelos intentaron predecir los resultados académicos excepto uno [47], que predijo los
resultados académicos y no académicos. Los resultados no académicos se midieron utilizando los
autoinformes de autoestima, satisfacción con la vida y sentido de significado de los estudiantes. Treinta y
siete (59,67%) conjuntos de datos experimentales se recopilaron del mismo entorno (es decir, una sola
escuela o universidad). Sin embargo, hay algunos estudios que ampliaron sus actividades de recopilación
de datos a múltiples escuelas o universidades dentro del mismo distrito, por ejemplo, ref. [48] recolectó
datos de estudiantes de 750 escuelas, [49] de 113 escuelas, y [45] de 5 universidades. En general, se
puede observar que los estudios que investigan el desempeño de los estudiantes en las escuelas
recopilaron sus datos educativos de múltiples escuelas, como se informa en la Tabla5. Por el contrario,
los estudios que investigan el rendimiento académico en la educación superior emplean datos de una
sola universidad (36 artículos, 58,06%). Sin embargo, 12 artículos no especificaron el número de escuelas
o universidades involucradas en el proceso de recolección de datos.
Tabla 5.Fuente del conjunto de datos educativos en los estudios.
Número de estudios
Fuente Número Estudios
(Porcentaje de Ocurrencia)
Uno 1 (1,61%) [50]
Escuela
Múltiple 11 (17,74%) [47–49,51–58]
Uno 36 (58,06%) [42,44,59–92]
Universidad
Múltiple 2 (3,22%) [45,93]
No especificado 12 (19,35%) [46,94–104]
Cuando inspeccionamos la cantidad de cursos de los que se extrajeron los datos

experimentales, descubrimos que diez estudios usaron un solo curso/materia, ocho estudios
usaron dos cursos y tres estudios usaron cuatro cursos, lo que representa el 35,48 % de los
artículos encuestados. Además, 18 (29,03%) estudios utilizaron entre cuatro cursos (es decir, [80]) y
270 cursos (es decir, [70]) para probar la corrección de sus modelos predictivos. No obstante, no
estaba claro cuántos cursos se utilizaron en los 22 estudios restantes (35,48 %).
Los conjuntos de datos experimentales incluyeron datos de rendimiento de tan solo menos de 1000
estudiantes (50% de los estudios encuestados). Cifra10muestra que el número de estudios que utilizan conjuntos
de datos que incluyen 1001 a 10.000 estudiantes, asciende a 13 (20,96%) artículos. En general, los estudios que
incluyeron puntos de datos de más de 10 000 estudiantes ascendieron a 11 (17,74 %), tres de los cuales utilizaron
un tamaño de muestra superior a 100 000 estudiantes (es decir, [78,85,102]). Los siete estudios restantes (11,29
%) no especificaron el tamaño de la muestra del conjunto de datos de sus estudiantes. Cuando inspeccionamos
la precisión de predicción de los modelos en función del tamaño del conjunto de datos, encontramos resultados
variados. Por ejemplo, los conjuntos de datos que contenían menos de 100 estudiantes dieron predicciones
débiles (por ejemplo, 83 estudiantes resultaron en una precisión = (48–100%) [69]; 134 estudiantes dieron como
resultado una precisión = 81.3% [64]) y predicciones aceptables (p. ej., 100 estudiantes dieron como resultado
una precisión = 90 %, recuperación = 90 % y precisión = 74 % [59]). Del mismo modo, los conjuntos de datos de
más de 100 000 estudiantes dieron resultados mixtos. Por ejemplo, un grupo de 597.692 estudiantes dio una
precisión impresionante = 98,81 %, AUC = 99,73 %, sensibilidad = 98,46 % y especificidad = 99,20 % [85]. Sin
embargo, una muestra de 130 000 estudiantes dio una precisión = 48–55 %, RMSE = 8,65–10,00 y MAE = 6,09–
7,74 [78]. Del mismo modo, una muestra de 142.438 estudiantes dio un RMSE = 0,34 y AUC = 0,81 [102].
Figura 10.Frecuencia de estudios basada en el número de estudiantes en los conjuntos de datos experimentales.
Vale la pena señalar aquí que clasificar los conjuntos de datos de entrenamiento en dos grupos, con un
tamaño de muestra pequeño o suficiente, para sacar conclusiones significativas sobre la importancia
de los resultados no es una cuestión sencilla. Esto se debe a que dicha división está influenciada por varios
factores entrelazados, incluida la diversidad de características de entrada que afectan la variable de resultado,
la tolerancia a los errores y el tipo de predicción (por ejemplo, análisis estadístico o aprendizaje) implementada.
Además, comparar el rendimiento de los modelos que fueron entrenados en diferentes conjuntos de datos (es
decir, características y tamaños) podría no ser concluyente. No hay desacuerdo en que cuanto mayor sea el
tamaño de la muestra que tenemos para entrenar los modelos predictivos, más fuertes serán las predicciones
que obtengamos. Sin embargo, esto no fue evidente a partir de nuestro análisis de la síntesis.
4.3. Resultados de aprendizaje como indicadores del desempeño de los estudiantes
Como se indicó anteriormente, consideramos solo los artículos de investigación que predijeron los
resultados de los estudiantes como representantes del rendimiento y el éxito de los estudiantes. Vale la pena
señalar que los artículos que definen los resultados del aprendizaje como su variable de resultado se
consideraron en nuestro análisis, independientemente de la forma de los resultados del aprendizaje. Sin
embargo, se excluyeron de la encuesta otros estudios que hacían referencia a los logros académicos de los
estudiantes utilizando métricas de evaluación en clase, como el GPA o las calificaciones, sin ninguna referencia a
los resultados del aprendizaje. En general, 56 (90,32%) estudios intentaron pronosticar los resultados del curso,
mientras que tres estudios analizaron la viabilidad de predecir los resultados del programa. Sólo dos estudios,
(es decir, [103,104]), calculó el rendimiento de los estudiantes tanto a nivel de curso como de programa.
Además, la mayoría de los modelos predictivos estimaron el logro de aprendizaje de los estudiantes
individualmente (55 estudios, 88,70%) en lugar de colectivamente (es decir, cohortes de estudiantes) (4 estudios,
6,45%). Sin embargo, tres estudios (es decir, [52,77,94]) predijo el desempeño de estudiantes individuales así
como de cohortes de estudiantes.
La predicción del desempeño de los estudiantes se logró de dos maneras, formativa y sumativa. En la
predicción formativa de los resultados de aprendizaje, se consideran las características de los estudiantes a lo
largo de diferentes momentos del semestre académico, con el fin de informar a los docentes sobre los logros
esperados de sus estudiantes. Esta predicción formativa empodera a los instructores para implementar las
intervenciones necesarias lo suficientemente temprano en el curso. Sin embargo, en la predicción sumativa, los
resultados del aprendizaje se predicen al final del semestre. Treinta y ocho (61,29 %) modelos proporcionaron
predicciones sumativas, mientras que 19 (30,64 %) modelos proporcionaron predicciones formativas (p. ej.,
semanales o mensuales) del rendimiento de los estudiantes. Solo cinco estudios calcularon predicciones tanto
formativas como sumativas del desempeño de los estudiantes, es decir, [46,68,76,84,88].
Por lo general, el logro de los resultados de los estudiantes, ya sea a nivel de curso o de programa, puede
evaluarse y medirse a través de métodos directos o indirectos. Los métodos directos utilizan varios tipos de
evaluaciones a nivel de curso, como tareas y exámenes, para obtener información sobre los logros de los
estudiantes. Sin embargo, los métodos indirectos de evaluación dependen principalmente de las opiniones y
comentarios de los estudiantes sobre sus experiencias de aprendizaje. En nuestra encuesta, la mayoría de los
estudios (50 estudios, 80,64 %) predijeron el aprendizaje de los estudiantes utilizando medidas directas. Nueve
(14,51%) estudios utilizaron autoinformes de los estudiantes sobre su experiencia de aprendizaje (es decir,
medidas indirectas) para predecir su desempeño. Sin embargo, tres estudios notables [56,57,97] proporcionó
predicciones de resultados de aprendizaje mediante la evaluación directa e indirecta.
Además, inspeccionamos la forma en que se pronosticaron los resultados del aprendizaje en los
estudios encuestados. Mesa6muestra los resultados del análisis temático, revelando seis tipos
distintivos. Los resultados del aprendizaje se predijeron principalmente en forma de clases de
desempeño (34 ocurrencias), puntajes de rendimiento (20 ocurrencias), competencia percibida (5
ocurrencias), autoinformes de aspectos educativos (3 ocurrencias) y tasas de fracaso/graduación (3
ocurrencias). ).
Cifra11muestra que el 80% de los modelos que predicen las posiciones de rendimiento académico
clasificaron los resultados en dos a cuatro clases. El 20% restante de los modelos pronosticó más de 4
etiquetas de clase de rendimiento de resultados de aprendizaje. Ejemplos de clases binarias
(dicotómicas) son 'aprobado' y 'reprobado' [86,87], 'certificación' y 'sin certificación' [85], y 'graduación a
tiempo' y 'graduación no a tiempo' [60]. Un ejemplo de resultado de 4 clases predijo estudiantes con
riesgos variables [101], por ejemplo, alto riesgo (HR), riesgo medio (MR), bajo
riesgo (LR) y sin riesgo (NR). También se predijeron rangos de desempeño ordinarios; por ejemplo,
Los resultados de los estudiantes se clasificaron en cinco rangos de rendimiento, específicamente suspenso,
satisfactorio, bueno, muy bueno y excelente.93].
Tabla 6.Distribución de los estudios según el tipo de resultados de aprendizaje previstos.
Tipo de resultado de aprendizaje Numero de incidentes Estudios
Clases de rendimiento [45,46,55,59–70,73–77,79,80,83–

34
(Categórica; Binaria, nominal y ordinal) 89,91,93,94,100,101,103]
Puntuaciones de logros/grados
20 [43,44,50–57,78,81,82,84,90,92,96–99,102]
(Continuo; Intervalo)
Competencia y logros percibidos
5 [47,57,71,72,97]
(Continuo; Escala de intervalo)
Autoinformes sobre aspectos educativos

3 [56,81,97]
(Continuo; Escala de intervalo)
Tasas de fracaso/abandono/graduación
3 [48,49,95]
(Continuo; Relación)
Otros (p. ej., matrícula universitaria, carreras, tiempo para
6 [45,48,49,56,58,66]
posgrado, asistencia, . . . etc.)
NS 1 [104]
Figura 11.Distribución de las etiquetas de clase de rendimiento de los estudiantes predichas en los modelos que predicen el resultado del
aprendizaje como posiciones (es decir, rangos).
4.4. Modelos predictivos de resultados de aprendizaje
En el análisis de aprendizaje, el modelado predictivo se enfoca principalmente en mejorar la

precisión de las predicciones de rendimiento de los estudiantes. Por el contrario, el modelo explicativo se
centra en identificar y explicar los factores que conducen a los logros previstos de los estudiantes.105].
Los modelos inteligentes sugeridos para predecir los resultados del aprendizaje fueron principalmente
de naturaleza predictiva (52 estudios, 87,09 %), con solo diez modelos (16,12 %) tratando de explicar las
predicciones vinculándolas con las características exactas que conducen al rendimiento observado, es
decir, [46–48,62,77,82,85,87,95,102].
Cincuenta y cuatro (87,70%) estudios emplearon modelos inteligentes únicos para predecir el logro de los
resultados del aprendizaje. Sorprendentemente, sólo ocho estudios (es decir, [60,sesenta y cinco,66,80,84,93,96,101])
exploró el uso de modelos inteligentes híbridos para mejorar la precisión del rendimiento académico.
predicciones de mance. Los clasificadores híbridos o de conjunto implican la integración de técnicas de

aprendizaje heterogéneas para impulsar el rendimiento predictivo.106].
Mesa7categoriza los 62 artículos según el género de aprendizaje inteligente que implementaron
para predecir el rendimiento académico. En general, surgieron cinco tipos de análisis predictivo, siendo
los modelos estadísticos los que más aparecieron (28 estudios, 45,61 %), seguidos de los modelos de
aprendizaje supervisado (25 estudios, 40,32 %). El uso del aprendizaje no supervisado solo apareció solo
en un estudio [67].
Tabla 7.Distribución de los modelos predictivos de los resultados de los estudiantes por tipo de aprendizaje.
Número de estudios
Tipo de aprendizaje Estudios
(Porcentaje de Ocurrencia (%))
[43–45,47–50,52–54,56–58,64,71–
análisis estadístico 28 (45,16%)
73,75,76,81–83,90–92,97–99]
[46,51,55,59–62,sesenta y cinco,68–70,74,78,80,84–
Aprendizaje automático supervisado 25 (40,32%)
89,95,96,101–103]
Procesamiento de datos 5 (8,06%) [63,77,94,100,104]
Aprendizaje supervisado y no supervisado 3 (4,83%) [66,79,93]
Aprendizaje automático no supervisado 1 (1,61%) [67]
Profundizamos en los tipos de métodos y algoritmos inteligentes que se utilizan para pronosticar el
logro de los resultados de los estudiantes y agrupamos los modelos propuestos en seis categorías. Mesa
8muestra que el análisis de regresión fue la técnica de predicción más utilizada (51,61%). Las redes
neuronales artificiales y los modelos basados en árboles ocuparon la segunda posición, sumando en
conjunto un 29,02%. Los enfoques bayesianos realizaron solo el 8% de los modelos predictivos. En
particular, las máquinas de vectores de soporte se emplearon en dos estudios (es decir, [59,60]).
Tabla 8.Distribución de algoritmos predictivos inteligentes por categoría.
Número de estudios
modelo de aprendizaje Estudios
(Porcentaje de Ocurrencia (%))
Modelos estadísticos
32 (51,61%) [43–47,49,50,52–54,56–58,64,67,69,71–73,76,81–83,88–92,97–99]
(Correlación y regresión)
Redes neuronales 9 (14,51%) [51,68,70,74,78,86,95,96,102]
Modelos basados en árboles

9 (14,51%) [55,63,sesenta y cinco,66,75,77,85,101,104]
(Árboles de decisión)
Modelos basados en bayesianos 5 (8,06%) [61,62,79,93,94]
Máquinas de vectores de soporte 2 (3,22%) [59,60]
Modelos basados en instancias 1 (1,62%) [103]

Otro 4 (6,45%) [48,80,84,100]
La literatura postula varias métricas para evaluar los modelos de aprendizaje automático propuestos [2,3,
5]. La precisión es probablemente la métrica más popular empleada para juzgar la efectividad de un modelo
predictivo. La precisión se refiere a la relación entre las salidas predichas correctamente sobre las predicciones
totales. Otras métricas de evaluación incluyen precisión, recuperación, ROC-AUC, R Square, F1-score, entre
otras. Los trabajos encuestados utilizaron múltiples métricas de rendimiento para evaluar la calidad de las
predicciones de rendimiento de sus estudiantes. Veintiún estudios (33,87%) utilizaron una sola métrica para
evaluar el pronóstico de los resultados del aprendizaje. Siete estudios (11,29%) utilizaron dos métricas, mientras
que otros siete estudios (11,29%) utilizaron tres métricas de rendimiento. En particular, dos estudios utilizaron
cinco métricas de evaluación, incluida la precisión, kappa, AUC, sensibilidad, especificidad, error absoluto
relativo (RAE), relativo
error cuadrático (RSE), y R-cuadrado [66,85]. Sin embargo, 21 (33,87%) estudios no especificaron
las métricas que utilizaron, por lo que la calidad de sus predicciones no fue concluyente.
Cuando contamos la frecuencia de las métricas de rendimiento utilizadas en los estudios,
encontramos que 28 (45,16 %) modelos inteligentes utilizaron la "precisión" para medir la calidad de la
predicción, seguidos del error cuadrático medio (RMSE) (10 estudios, 16,12 %). , ROC-AUC (8 estudios,
12,90 %), R cuadrado (8 estudios, 12,90 %) y error absoluto medio (MAE) (7 estudios, 11,29 %). Mesa9
resume los mejores y los peores modelos de predicción de resultados de aprendizaje.
En consecuencia, el bosque aleatorio híbrido [101] demostró la mejor precisión de clasificación, mientras
que la regresión lineal dio las peores predicciones [88].
Tabla 9.Resumen de los mejores y peores modelos de predicción en función de la precisión de las predicciones.
Los 5 mejores modelos de predicción de rendimiento Los 5 peores modelos de predicción de rendimiento
(Exactitud %) (Exactitud %)
Bosque aleatorio híbrido [101]: 99,25–99,98 % Redes Regresión lineal [88]: 50%
neuronales de 3 L alimentadas hacia adelante [74]: 98,81% embolsado [78]: 48–55%
bosque aleatorio [85]: 98 % Bayesiano ingenuo [93]: 96,87% Regresión logística de efectos mixtos [76]: 69%
Análisis de función discriminante [45]: 64–73%
Red neuronal artificial [86]: 95,16–97,30 % Regresión logística [89]: 76,2%
Cifra12muestra que 38 (61,29 %) estudios no compararon el rendimiento de sus modelos

inteligentes con ningún competidor de referencia. Quince (24,19%) estudios compararon sus
modelos con uno a tres modelos de la competencia. Los estudios restantes (14,51%) realizaron
una comparación de rendimiento con cuatro o más clasificadores de referencia. Las técnicas más
comparadas incluyeron el árbol de decisión (9 veces), K-Nearest Neighbor (9 veces), Support
Vector Machines (8 veces), Naïve Bayes (8 veces) y Random Forest (6 veces).
Figura 12.Número de métodos inteligentes contra los que se compara cada modelo predictivo.
Solo 5 (8,06%) estudios informaron el uso de múltiples conjuntos de datos para verificar el rendimiento
de sus modelos predictivos para verificar la consistencia y validez de las predicciones de resultados de
aprendizaje [sesenta y cinco,80,86,96,102]. Los estudios restantes (91,93%) utilizaron solo un conjunto de datos.
Con respecto al software utilizado para analizar los conjuntos de datos, las herramientas estadísticas (p. ej.,
SPSS, R y Mplus) aparecieron en 14 estudios, seguidas de las herramientas de minería de datos (p. ej., WEKA) y
los marcos de aprendizaje automático (p. ej., Keras, TensorFlow, y Scikit-learn). Otras herramientas utilizadas
incluyeron computación numérica (p. ej., Octave) y software desarrollado internamente (6 estudios). Vale la
pena señalar que 29 artículos no especificaron las herramientas de software que utilizaron para desarrollar sus
modelos predictivos.
4.5. Factores dominantes que predicen los resultados del aprendizaje de los estudiantes
Nuestra encuesta reveló que 23 (37,09%) estudios exploraron el impacto de uno a tres factores en
el logro de los resultados de los estudiantes. Sin embargo, 32 (51,61%) estudios utilizaron más de tres
características para pronosticar el desempeño de los estudiantes. El rango de características varió entre
4 (por ejemplo, [53]) a 263 (p. ej., [55]). Siete estudios no indicaron el número de factores utilizados para
pronosticar el éxito de los estudiantes. Sin embargo, los factores dominantes que demostraron influir en
el logro de los resultados de los estudiantes fueron sustancialmente menores. La fuerza de la evidencia
se agrupó en tres clases, a saber, fuerte, media y débil. Treinta y un (50%) estudios informaron haber
encontrado pruebas sólidas (es decir, pruebas estadísticas o alta precisión de predicción) sobre el poder
predictivo de sus factores. Seis modelos mostraron evidencia media de los efectos de los factores,
mientras que siete modelos informaron una significación débil de los factores predictivos que
inspeccionaron. Sin embargo, 18 estudios no fueron concluyentes sobre la solidez de sus hallazgos.
Codificamos los factores (100 ocurrencias con 14 estudios que no informaron los factores influyentes) que
impactaron el desempeño de los estudiantes en temas. En general, surgieron seis temas principales de nuestro
análisis cualitativo. Cifra13muestra que las actividades y patrones de aprendizaje en línea (19 veces) fueron los
predictores clave de los resultados de aprendizaje de los estudiantes. Esto fue principalmente relevante para los
estudios de aprendizaje virtual o combinado, donde todo o parte del aprendizaje de los estudiantes ocurre en
línea. Los ejemplos de comportamiento de aprendizaje en línea incluyeron el tiempo de acceso a los recursos [
84], participación en el sitio [62], y tiempo y número de sesiones en línea [76]. El siguiente predictor destacado
del rendimiento de los estudiantes fueron los datos de evaluación durante el semestre (17 veces), como la
asignación [102] y puntuaciones de cuestionarios [44,82], y calificaciones de exámenes [69]. Un factor
dominante sorprendente de los logros de los estudiantes que prevaleció fueron las emociones académicas de
los estudiantes, que se refieren a los intereses y el entusiasmo de los estudiantes.83], motivaciones intrínsecas [
92], y la relación profesor-alumno [71]. Las siguientes características influyentes se agruparon en logros
académicos anteriores [45,46,48,66] y el ambiente y estilo de enseñanza [81,98,99].
Figura 13.Factores dominantes que influyen en el logro de los resultados del aprendizaje.; NS = no especificado.
4.6. Evaluación de la calidad de los modelos revisados
Para evaluar la calidad de los estudios sintetizados, aplicamos ocho pautas sugeridas en [3]. Estas pautas
se desarrollaron para evaluar los modelos de análisis de datos. Las directrices evaluaron la claridad de las
preguntas de investigación y la minuciosidad de la metodología, y el uso de un segundo conjunto de datos para
validar los modelos de predicción del rendimiento, entre otros aspectos vitales. Además, nos tomamos la
libertad de agregar dos criterios de evaluación de la calidad, específicamente (1) las implicaciones prácticas del
modelo de predicción del desempeño de los estudiantes y (2) las limitaciones del modelo. Mesa10muestra los
resultados generales de evaluación de la calidad de nuestros 62 artículos. Cada estudio fue cuidadosamente
inspeccionado y calificado en cuanto a si cumplía con cada uno de los
las diez directrices. Se asumió que los estudios que no reportaron información sobre una directriz
específica no cumplían con el criterio.
Tabla 10.Evaluación de la calidad de los estudios encuestados; Sí = Condición satisfecha, No = Condición no

satisfecha.
Criterio de evaluación Sí (%) No (%)

1. Verificación del modelo predictivo con un segundo conjunto de datos 8,06% 91,94%
2. Amenazas a la validez reportadas 12,90% 87,10%
3. Implicaciones y recomendaciones de la investigación 20,96% 79,04%
4. Preguntas de investigación bien definidas 33,87% 66,13%
5. Uso de conjuntos de datos de entrenamiento y prueba separados 35,48% 64,52%
6. Limitaciones y desafíos de la investigación 37,09% 62,91%
7. Resultados suficientemente detallados 56,45% 43,56%
8. Variables predictoras claramente descritas 77,42% 22,58%
9. Las predicciones que se hacen son claras 82,25% 17,75%
10. Instrumentos de recolección de datos indicados 82,25% 17,75%
11. Metodología de investigación sólida 83,87% 16,13%
12. Aportes claros a la investigación 90,32% 9,68%
Sorprendentemente, solo 21 estudios (33,87%) plantearon preguntas de investigación claras para motivar
el desarrollo del modelo de análisis de aprendizaje. Si bien muchos estudios describieron claramente sus
contribuciones y la metodología de investigación, sufrieron graves inconvenientes. Solo cinco (8,06%) estudios
declararon verificar sus modelos predictivos utilizando un segundo conjunto de datos. La mayoría de los
estudios (87,10%) no discutieron las amenazas a la validez de las predicciones de desempeño de sus
estudiantes. Además, 49 artículos (79,04%) no extrajeron ninguna implicación práctica de los resultados de sus
investigaciones, lo que restringió considerablemente la utilidad de los resultados para la analítica del
aprendizaje y la educación superior. Finalmente, los modelos que discutieron sus limitaciones y desafíos se
limitaron a solo 23 (37,09%).
5. Discusión
5.1. Resultados clave
La educación basada en resultados se ha vuelto fundamental para los líderes de la educación superior y
las organizaciones de acreditación [12]. Además, el análisis del aprendizaje ha ganado un tremendo impulso en
la última década para superar las barreras que obstaculizan el aprendizaje de los estudiantes.107]. Se proclama
que el análisis de aprendizaje y la minería de datos educativos (es decir, EDM) mejoran el logro de los resultados
de aprendizaje de los estudiantes [108]. También hay varias llamadas para automatizar la evaluación de los
resultados de los estudiantes, que representan un indicador del rendimiento y el éxito de los estudiantes [9,29].
Sin embargo, no está claro cómo se modelan y predicen los resultados de los estudiantes a nivel de curso y
programa utilizando modelos de aprendizaje automático y minería de datos. La encuesta actual se llevó a cabo
como un intento de cerrar esta brecha de investigación.
La elección de encuestar la última década estuvo motivada por los recientes avances tecnológicos
en inteligencia artificial y minería de datos, junto con la importancia de la teoría basada en resultados en
la educación. El estudio más cercano al nuestro fue la encuesta reportada en [36], que exploró 39
estudios que predijeron resultados de aprendizaje en análisis de aprendizaje entre 2002 y 2016. Aunque
la encuesta trató de resumir las principales técnicas utilizadas para predecir los resultados de
aprendizaje, no detalló los resultados de las predicciones. Nuestros hallazgos confirmaron algunas
observaciones previas. Por ejemplo, parecía haber un interés creciente en comprender el rendimiento de
los estudiantes en los sistemas de gestión del aprendizaje (LMS). El tamaño de la muestra de los
conjuntos de datos siguió siendo pequeño para entrenar suficientemente los modelos predictivos. La
variable predicha (es decir, el resultado del aprendizaje) evolucionó de un término binario para tomar un
forma de rango; sin embargo, las calificaciones de los estudiantes todavía se usan para referirse a los resultados del aprendizaje.
Por último, la precisión de los modelos de aprendizaje supervisado mejoró hasta alcanzar niveles sin precedentes.
Nuestra encuesta mostró que el desarrollo de modelos que pronostican los resultados de aprendizaje de
los estudiantes está en aumento desde 2017, con una parte significativa de los artículos publicados en lugares
de informática y TI. Aproximadamente la mitad de los estudios encuestados predijeron resultados de
aprendizaje del aprendizaje tradicional en el aula, mientras que la otra mitad se centró en el aprendizaje en
línea y semipresencial, debido a su importancia cada vez mayor. Se pone más énfasis en los cursos
universitarios de pregrado y las especialidades STEM (es decir, ciencia, tecnología, ingeniería y matemáticas).
Los países desarrollados (por ejemplo, EE. UU. y Europa) están tomando la delantera en la investigación de
análisis de aprendizaje de los resultados de los estudiantes. A continuación, revisamos cada pregunta de
investigación por separado y destacamos los principales hallazgos.
• RQ1-Predicción de resultados de aprendizaje. ¿Cómo se mide el rendimiento académico de los estudiantes utilizando los
resultados del aprendizaje?
Aquí nuestro análisis se centró en comprender las formas en que se midieron los resultados del
aprendizaje en los estudios seleccionados. Nuestra primera observación fue que la literatura sintetizada usaba
el término 'resultados de los estudiantes' o 'resultados de aprendizaje' con despreocupación, sin adoptarlos ni
vincularlos a ninguna definición formal. La definición bastante vaga de la variable pronosticada (es decir, los
resultados del aprendizaje) por parte de los modelos predictivos se consideró una debilidad importante que
genera inquietudes sobre la utilidad y validez de los resultados del análisis del aprendizaje. Por lo tanto, es
importante que los investigadores definan claramente la variable de resultados de aprendizaje de los
estudiantes que estimarían sus modelos inteligentes.
Nuestra siguiente observación fue que la mayoría de los conjuntos de datos experimentales provenían de una
sola entidad educativa, y el 35 % de los estudios predijeron los resultados de aprendizaje para no más de cuatro cursos.
Los conjuntos de datos utilizados para entrenar los modelos predictivos fueron relativamente pequeños en muchos
estudios, con un tamaño de muestra inferior a 1000 estudiantes. En particular, la mayoría de los modelos encuestados
intentaron predecir los resultados a nivel de curso (90%). El rendimiento académico se midió principalmente para
estudiantes individuales en lugar de cohortes. Solo unos pocos estudios modelaron resultados a nivel de programa. Las
predicciones de los resultados educativos se realizaron tanto durante como al final del semestre. Sin embargo, las
proyecciones se centraron en las medidas directas del desempeño de los estudiantes más que en las percepciones de
los estudiantes sobre el proceso de aprendizaje.
En general, los modelos desarrollados analizaron los datos de los estudiantes para predecir los resultados
del aprendizaje en sus formas variantes, incluidos los logros de los estudiantes, las tasas de abandono y riesgo,
y la retroalimentación y la recomendación. Aproximadamente 34 estudios pronosticaron el desempeño de los
estudiantes en forma de clases académicas destacadas (la mayoría de dos a cuatro clases académicas). La
evaluación del programa educativo es la actividad epicentro que se lleva a cabo para lograr una miríada de
objetivos estratégicos.17], como la mejora de la calidad del programa y la realización de una educación basada
en resultados. Por lo general, el desempeño de los estudiantes, ya sea que se evalúe directamente (p. ej.,
exámenes) o indirectamente (p. ej., autoinformes de los estudiantes), se mide mediante rúbricas. Las rúbricas
pueden considerarse el equivalente de las clases de rendimiento académico para evaluar si los resultados del
aprendizaje cumplen con ciertos umbrales o niveles de logro.
• RQ2-Enfoques de predicción del rendimiento académico. ¿Qué enfoques y técnicas inteligentes se diseñan para
pronosticar el rendimiento académico de los estudiantes utilizando los resultados del aprendizaje?
Aunque el número de publicaciones en el campo de la minería de datos educativos crece cada año [109,
110], los esfuerzos de investigación centrados en desarrollar modelos que puedan estimar los resultados del
aprendizaje siguen siendo insatisfactorios. Por ejemplo, muchas herramientas de evaluación de resultados
carecen de inteligencia suficiente para predecir el rendimiento de los estudiantes.15]. En nuestra encuesta,
encontramos que los modelos de predicción de desempeño se desarrollaron, en la mayoría de los casos, como
módulos independientes y no como parte de un software de evaluación de programas. Alrededor del 87,70% de
los modelos ideados se basaron en una única técnica inteligente, aunque se sabe que las técnicas de conjunto
aumentan la precisión de la predicción.3]. Además, se aumentaron menos modelos para explicar y justificar la
predicción de los resultados del aprendizaje, a pesar de su importancia.111].
Casi el 86% de los modelos sintetizados caen dentro del modelado estadístico y el aprendizaje súper
automático. Solo unos pocos modelos intentaron pronosticar los resultados de los estudiantes utilizando
Técnicas de aprendizaje supervisado. Utilizamos la taxonomía presentada en [109] para clasificar las
técnicas predictivas que surgen de nuestra síntesis. La regresión, la red neuronal y los modelos basados
en árboles fueron las técnicas de clasificación más utilizadas para predecir el logro de los resultados de
aprendizaje de los estudiantes. La precisión fue la métrica más calculada para evaluar el rendimiento de
los modelos predictivos. Otras métricas de evaluación informadas incluyeron RMSE, ROC-AUC, R
cuadrado y MAE. Los modelos predictivos con mejor rendimiento fueron Hybrid Random Forest,
Feedforward 3-L Neural Network y Naïve Bayes, mientras que los modelos con peor rendimiento fueron
Linear Regression y Mixed-effects Logistic Regression. Sorprendentemente, el 61 % de los modelos
propuestos no comparó su desempeño con otros clasificadores de referencia. Finalmente, cinco estudios
volvieron a examinar la validez de sus modelos en múltiples conjuntos de datos.
• RQ3-Predictores de Rendimiento Académico. ¿Qué predictores dominantes del rendimiento de los estudiantes
utilizando los resultados del aprendizaje se informan?
Los conocimientos de análisis de aprendizaje sobre los resultados de los estudiantes en el dominio de la
educación requieren la investigación de las características que afectan el rendimiento académico.107]. Tal
comprensión empodera la implementación de recomendaciones personales por parte de las partes interesadas
en la educación [112]. Sin embargo, nuestra encuesta sistemática demostró la falta de modelos explicativos que
vayan más allá de predecir el desempeño de los estudiantes para identificar las características que realmente
impactan el logro de los resultados del curso y del programa.
Aproximadamente un tercio de los estudios enumeraron no más de tres factores dominantes que influyen en la
precisión de las predicciones de los resultados académicos. De manera similar, casi el 30% de los estudios no fueron
concluyentes sobre los efectos de las características que exploraron. El análisis temático reveló que los patrones de
aprendizaje en línea de los estudiantes, los puntajes de las evaluaciones trimestrales y las emociones académicas de los
estudiantes son los tres principales predictores de los resultados del aprendizaje.
El tamaño de la muestra de los estudios sintetizados difería significativamente, así como la cantidad de cursos
utilizados para comprender el impacto de algunas características en los resultados de aprendizaje de los estudiantes.
Lo que funciona para un curso puede no funcionar para otro, y lo que funciona para un grupo de estudiantes puede
comportarse de manera adversa para otro. De hecho, se sabe que los modelos predictivos del desempeño de los
estudiantes funcionan bien, particularmente para los conjuntos de datos en los que fueron entrenados (es decir,
sobreajuste del modelo) y, por lo tanto, tienen una capacidad de generalización limitada para nuevos estudiantes y
disciplinas.111].
5.2. Desafíos y debilidades de los modelos predictivos existentes

En nuestra búsqueda de la encuesta, nos ilustraron sobre varios desafíos y áreas poco exploradas que
prevalecen en los modelos de predicción de resultados de aprendizaje existentes. Los estudios futuros que
implementen modelos de aprendizaje automático para pronosticar el logro de los resultados de aprendizaje de los
estudiantes deben prestar mucha atención a los desafíos de investigación a continuación y tomar las medidas
necesarias para mitigarlos.
• Desafío de investigación uno: la predicción del rendimiento académico de las cohortes de estudiantes
para ayudar en la automatización de la evaluación de resultados a nivel de curso y programa.
• Desafío de investigación dos: el uso y la disponibilidad de múltiples conjuntos de datos de varias
disciplinas para fortalecer la validez del modelo predictivo. Los conjuntos de datos deben
comprender una muestra grande de estudiantes para sacar conclusiones significativas.
• Desafío de investigación tres: la inspección de los efectos de diferentes características en el logro
de los resultados de los estudiantes para contribuir a las intervenciones correctivas académicas en
la educación superior, es decir, el cambio de análisis predictivo a análisis explicativo.
• Desafío de investigación cuatro: el uso de múltiples métricas de evaluación del desempeño para evaluar la
calidad de las predicciones de los resultados del aprendizaje.
• Desafío de investigación cinco: La falta de técnicas de aprendizaje no supervisadas diseñadas para pronosticar el
logro de los resultados del aprendizaje por parte de los estudiantes.
• Desafío de investigación seis: la aplicación del aprendizaje automático automatizado (es decir, AutoML) al
problema de la predicción de los resultados de los estudiantes rara vez se llevó a cabo, excepto en [84].
Abordar este desafío permitiría el desarrollo de modelos ML que automaticen las tareas de canalización
de aprendizaje automático, haciendo que las tareas de caracterización, clasificación,
y pronósticos eficientes y accesibles para la audiencia no técnica (por ejemplo, líderes

educativos e instructores de cursos) en diferentes disciplinas.
5.3. Amenazas a la validez

En ingeniería de software, la evaluación de la validez incorpora cuatro tipos, a saber, validez
interna, externa, de construcción y de conclusión.113]. En esta encuesta, seguimos los protocolos
recomendados para reducir las amenazas a la validez y mejorar la calidad de nuestras
conclusiones. Como tal, tenemos:
• Definí la metodología, incluyendo términos y frases clave de búsqueda, lugares de publicación. . .
etc., para permitir la replicabilidad de la encuesta.
• Usó la búsqueda manual para incorporar cualquier artículo faltante en la síntesis.
• Aplicó los criterios de inclusión y exclusión apropiados para centrarse en el modelado del desempeño de los
estudiantes utilizando los resultados del aprendizaje. Estos constituyeron los criterios de selección de la encuesta.
• Se seleccionaron todos los estudios que cumplieron con los criterios de inclusión independientemente de los antecedentes o la
nacionalidad de los investigadores para eliminar cualquier sesgo cultural.
• Se aseguró de que los estudios primarios no se repitan en la síntesis eliminando los

duplicados.
• Definió los criterios de evaluación de la calidad en base a encuestas y recomendaciones anteriores [
3].
Sin embargo, la validez de nuestros hallazgos estuvo influenciada en gran medida por la calidad de los
modelos que sintetizamos. Notamos que la mayoría de los estudios se centraron en resaltar los modelos y
factores que lograron pronosticar el rendimiento de los estudiantes, introduciendo así un sesgo de publicación.
Rara vez se publicaron resultados negativos en los artículos seleccionados, lo que podría haber afectado los
resultados de nuestra revisión. De hecho, esto limita la practicidad de las implicaciones y recomendaciones.
Entre las amenazas críticas que dificultan la realización de encuestas válidas está la falta de estudios
primarios durante el proceso de búsqueda. Para minimizar este riesgo, seguimos las mejores prácticas para
realizar revisiones de literatura de encuestas en ingeniería de software [10,11]. También variamos las frases de
búsqueda críticas para cada base de datos bibliográfica electrónica para recuperar tantos artículos relevantes
como fuera posible. Para reducir cualquier interpretación subjetiva, revisamos los datos extraídos y la
clasificación.
Con respecto a la validez externa, es peligroso asumir las mismas observaciones para diferentes
disciplinas (por ejemplo, economía, historia, . . . etc.), ya que la mayoría de los estudios encuestados
modelaron el desempeño de los estudiantes en una sola disciplina. Además, los resultados deben
tratarse con cautela, especialmente con respecto a la generalización a otros sistemas educativos en todo
el mundo. Alrededor del 70 % de los estudios se realizaron solo en EE. UU. y Europa, lo que restringe la
aplicabilidad de los resultados a los países en desarrollo.
5.4. Limitaciones de la encuesta
Este trabajo adolece de varias limitaciones calificativas que vale la pena reconocer aquí. Al igual que con
todos los tipos de revisiones, existe la probabilidad de que nos perdimos algunos trabajos que predicen los
resultados de aprendizaje de los estudiantes debido a nuestras palabras clave y frases de búsqueda
seleccionadas, o durante el proceso de selección. Además, no fue posible realizar un metanálisis de los
hallazgos anteriores para confirmar la significancia estadística de los modelos predictivos sintetizados, debido a
la falta de disponibilidad de los conjuntos de datos y las diversas técnicas utilizadas para pronosticar los
resultados de los estudiantes. Restringimos deliberadamente nuestra búsqueda de modelos predictivos
inteligentes de resultados de aprendizaje solo a la última década (es decir, 2010-2020), que fue testigo de un
impulso significativo en el aprendizaje automático, por un lado, y en la educación basada en resultados, por el
otro. Por lo tanto, es posible que nos hayamos perdido algunos trabajos críticos publicados antes de 2010.
También se observó que algunos estudios no informaron todos los detalles experimentales y de predicción, por
ejemplo, las características del conjunto de datos, el tipo de modelos predictivos y los factores que influyen en el
éxito académico de los estudiantes. Por ejemplo, 21 estudios no especificaron las métricas de rendimiento de
los modelos predictivos que diseñaron. Esto eventualmente afectó la calidad de nuestro sintetizador.
análisis de sis. Desafortunadamente, muchos estudios no siguieron una metodología detallada, lo que hizo que
la evaluación fuera más desafiante. Nuestra encuesta estuvo motivada por tres preguntas de investigación, que
podrían haber enmarcado el proceso de revisión y, por lo tanto, las conclusiones a las que llegamos. Otras
preguntas de investigación pueden formularse y responderse de manera diferente, lo que conduce a
resultados diferentes. Nuestra búsqueda se limitó a revistas revisadas por pares y artículos de congresos, lo
que podría haber pasado por alto estudios valiosos informados en disertaciones, así como en la literatura no
publicada.
6. Implicaciones prácticas y recomendaciones

Con base en los desafíos y limitaciones anteriores, sugerimos las siguientes recomendaciones para la
investigación que explora el análisis de aprendizaje predictivo de los resultados de los estudiantes.
• Recomendación uno: formalizar una definición clara de la variable 'resultados del aprendizaje'
antes de embarcarse en el desarrollo de modelos predictivos que midan el logro de los
resultados del aprendizaje.
• Recomendación dos: construir modelos predictivos para carreras no técnicas, por ejemplo,
humanidades, y para apoyar la enseñanza y el aprendizaje en los países en desarrollo. Estos
escenarios y contextos educativos tienen características y rasgos diferentes; por lo tanto, se deben
desarrollar modelos analíticos especializados para que funcionen correctamente en estos entornos.
• Recomendación tres: Producir y compartir conjuntos de datos educativos para que otros investigadores los
exploren y usen después de anonimizar cualquier dato confidencial de los estudiantes.
• Recomendación cuatro: construya modelos inteligentes que predigan los resultados a nivel de
programa, así como el rendimiento académico de la cohorte. Esto ayudaría a los líderes educativos
a emprender las actividades de evaluación y mejorar la calidad de sus programas.
• Recomendación cinco: diseñar modelos de aprendizaje automático que se esfuercen por explicar y
justificar los niveles de logro de los resultados de los estudiantes y explorar la eficacia de los modelos
híbridos para mejorar la precisión de las predicciones de los resultados de los estudiantes.
7. Direcciones futuras
Alentamos enfáticamente a la comunidad de investigación a realizar más trabajo en el área de modelar el
logro de los resultados de los estudiantes, que evidentemente aún está en pañales, especialmente a nivel de
programa. La precisión de los modelos existentes debe mejorarse y probarse en múltiples conjuntos de datos
para juzgar su validez y generalización. Se deben dedicar más esfuerzos a comprender el impacto de varios
factores en el desempeño de los estudiantes y cómo estos factores impulsan profundamente la toma de
decisiones en los resultados del curso y del programa. En otras palabras, los nuevos esfuerzos deberían trabajar
en el desarrollo de predicciones explicativas en lugar de modelos que simplemente pronostican el rendimiento
de los estudiantes. Existe una necesidad general de explicar la relación entre los predictores posiblemente
significativos y el logro observado de los resultados del aprendizaje, es decir, definiendo relaciones causales y
explicaciones que sirvan a las analíticas de aprendizaje. Además, la predicción de los resultados del aprendizaje
debería extenderse a otras carreras, como las humanidades. El trabajo futuro debe considerar reportar
resultados con respecto a los modelos inteligentes y factores que no pronostican resultados de aprendizaje de
los estudiantes, es decir, resultados negativos, además de publicar los resultados positivos.
8. Conclusiones
Esta encuesta sistemática aplicó las recomendaciones de investigación de SLR para investigar
la predicción de los resultados de los estudiantes, que se considera un indicador del desempeño
de los estudiantes, utilizando modelos de aprendizaje automático y minería de datos. En
particular, aplicamos el protocolo PRISMA y las pautas SLR para producir la revisión. La búsqueda
exhaustiva de siete bases de datos bibliográficas produjo una síntesis de 62 artículos primarios.
Estos artículos presentaron modelos inteligentes para pronosticar el desempeño de los
estudiantes utilizando resultados de aprendizaje. Los modelos predictivos se publicaron en
lugares revisados por pares, desde 2010 hasta noviembre de 2020. Hasta donde sabemos, este
fue el primer trabajo publicado que resumió los esfuerzos sobresalientes de otros investigadores
que estudiaron el logro de los resultados de los estudiantes.
cohortes de estudiantes, la falta de análisis explicativos de los resultados del aprendizaje, la validación de los modelos
de predicción del rendimiento para minimizar el problema de subespecificación inherente de los modelos inteligentes y
la automatización de las tareas de análisis del aprendizaje. Hacemos un llamado a la comunidad de investigación para
que implemente las recomendaciones relacionadas con (1) la predicción de los resultados a nivel de programa y (2) la
validación de los modelos predictivos utilizando múltiples conjuntos de datos de diferentes especializaciones y
disciplinas.
Contribuciones de autor:Conceptualización, AN; metodología, AN y AA; análisis formal, AN y AA;

redacción—preparación del borrador original, AN; redacción—revisión y edición, AN y
AUTOMÓVIL CLUB BRITÁNICO; adquisición de fondos, AA y AN Todos los autores han leído y están de acuerdo con la versión publicada del
manuscrito.
Fondos:Esta investigación fue financiada por el Decanato de Investigación Científica, Proyecto Distinguido, Universidad
Islámica de Medina, KSA, con el número de subvención 22–2018–2019.
Declaración de la Junta de Revisión Institucional:No aplica.
Declaración de consentimiento informado:No aplica.
Declaración de disponibilidad de datos:El intercambio de datos no se aplica.
Conflictos de interés:Los autores declaran no tener conflicto de intereses. Los financiadores no tuvieron ningún papel
en el diseño del estudio; en la recopilación, análisis o interpretación de datos; en la redacción del manuscrito, o en la
decisión de publicar los resultados.
Referencias
1. Daniel, B. Big data y análisis en educación superior: Oportunidades y desafíos.Hermano J. Educ. Tecnología2015,46, 904–920. [Referencia cruzada]
2. Zohair, LMA Predicción del rendimiento de los estudiantes mediante el modelado de conjuntos de datos pequeños.En t. J. Educ. Tecnología Alto. Educ.2019,dieciséis, 27. [Referencia
cruzada]
3. Hellas, A.; Ihantola, P.; Petersen, A.; Ajanovski, VV; Gútica, M.; Hynninen, T.; Knutas, A.; Leinonen, J.; Messom, C.; Liao, SN Predicción del
rendimiento académico: una revisión sistemática de la literatura. En Actas de la 23.ª Conferencia Anual de ACM sobre Innovación y
Tecnología en la Educación en Ciencias de la Computación, Larnaca, Chipre, 2 al 4 de julio de 2018; págs. 175–199.
4. Baradwaj, BK; Pal, S. Minería de datos educativos para analizar el desempeño de los estudiantes.En t. j adv. computar ciencia aplicación2012,2, 63–69. [Referencia cruzada
]
5. Zhang, L.; Li, KF Analítica educativa: desafíos y enfoques. En las Actas de la 32.ª Conferencia Internacional sobre Talleres de Aplicaciones y
Redes de Información Avanzadas (WAINA) de 2018, Cracovia, Polonia, del 16 al 18 de mayo de 2018; IEEE: Piscataway,
Nueva Jersey, EE. UU., 2018; págs. 193–198. [Referencia cruzada]
6. Daud, A.; Aljohani, NR; Abbasi, RA; Lytras, MD; Abbas, F.; Alowibdi, JS Predecir el desempeño de los estudiantes usando análisis de aprendizaje
avanzado. En las Actas de la 26.ª Conferencia Internacional sobre World Wide Web Companion, Perth, Australia, del 3 al 7 de abril de 2017;
págs. 415–421.
7. Macayan, JV Implementación del marco de educación basada en resultados (OBE): Implicaciones para la evaluación del desempeño de los estudiantes. Educ.
medida Eval. Rdo.2017,8, 1–10.
8. Yassine, S.; Kadry, S.; Sicilia, MA Un marco de análisis de aprendizaje en moodle para evaluar los resultados del curso. En las actas de la Conferencia mundial sobre
educación en ingeniería (EDUCON) del IEEE de 2016, Abu Dhabi, Emiratos Árabes Unidos, 10 al 13 de abril de 2016; IEEE: Piscataway, Nueva Jersey, EE. UU., 2016;
págs. 261–266.
9. Rajak, A.; Shrivastava, Alaska; Shrivastava, DP Automatización de la educación basada en resultados para el logro de resultados de cursos y programas. En
Proceedings of the 2018 Fifth HCT Information Technology Trends (ITT), Dubái, Emiratos Árabes Unidos, 28 y 29 de noviembre de 2018; IEEE: Piscataway,
Nueva Jersey, EE. UU., 2018; págs. 373–376.
10. Kitchenham, B.; Cartas, S.Pautas para realizar revisiones sistemáticas de literatura en ingeniería de software; EBSE: Keele, Reino Unido, 2007;
págs. 1–65.
11. Okoli, C.; Schabram, K. Una guía para realizar una revisión sistemática de la literatura sobre la investigación de sistemas de información.Ssrn Electrónica J. 2010,10. [
Referencia cruzada]
12. Kaliannan, M.; Chandran, SD Empoderar a los estudiantes a través de la educación basada en resultados (OBE).Res. Educ.2012,87, 50–63. [Referencia
cruzada]
13. Premalatha, K. Métodos de evaluación de resultados de cursos y programas en la educación basada en resultados: una revisión.J. Educ.2019,199, 111–127. [
Referencia cruzada]
14. Kanmani, B.; Babu, KM Aprovechando la tecnología en la educación basada en resultados. En Actas de la Conferencia Internacional sobre
Transformaciones en la Educación en Ingeniería, Nueva Delhi, India, 5–8 de enero de 2015; Natarajan, R., Ed.; Springer: Nueva Delhi, India,
2015; págs. 415–421.
15. Namun, A.; Taleb, A.; Benaida, M. Una comparación experta de herramientas de apoyo a la acreditación para los programas de pregrado en computación.
En t. j adv. computar ciencia aplicación (IJACSA)2018,9, 371–384. [Referencia cruzada]
16. Mahajan, M.; Singh, MKS Importancia y beneficios de los resultados del aprendizaje.IOSR J. Humanidad. Soc. ciencia2017,22, 65–67. [Referencia cruzada]
17. Namun, A.; Taleb, A.; Al-Shargabi, M.; Benaida, M. Un instrumento de encuesta inspirado en resultados de aprendizaje para evaluar la calidad del
ciclo de mejora continua.En t. J.Inf. común Tecnología Educ. (IJICTE)2019,15, 108–129. [Referencia cruzada]
18. Taleb, A.; Namun, A.; Benaida, M. Un marco holístico de aseguramiento de la calidad para adquirir nacional e internacional.J. Ing. aplicación ciencia 2019,14,
6685–6698. [Referencia cruzada]
19. Singh, R.; Sarkar, S.La calidad de la enseñanza cuenta: cómo se relacionan los resultados de los estudiantes con la calidad de la enseñanza en las escuelas públicas y privadas de la
India; Young Lives: Oxford, Reino Unido, 2012; págs. 1–48.
20. Felipe, K.; Lee, A. Educación en salud pública en línea para países de ingresos bajos y medianos: factores que influyen en los resultados exitosos de los estudiantes.En t.
J.Emerg. Tecnología Aprender. (IJET)2011,6, 65–69. [Referencia cruzada]
21. Garbacz, SA; Herman, KC; Thompson, AM; Reinke, WM Participación familiar en la educación y la intervención: implementación y evaluación para
maximizar los resultados de la familia, la escuela y los estudiantes.J. Sch. psicol.2017,62, 1–10. [Referencia cruzada] [PubMed]
22. Nonis, SA; Fenner, GH Un estudio exploratorio de las motivaciones de los estudiantes para tomar cursos en línea y los resultados del aprendizaje.
J. Instr. Pedagogo.2012,7, 2–13.
23. Polyzou, A.; Karypis, G. Extracción de funciones para la predicción del desempeño estudiantil deficiente en el próximo trimestre.Trans. IEEE. Aprender. Tecnología 2019,
12, 237–248. [Referencia cruzada]
24. Shahiri, AM; Husain, W.; Abdul Rashid, N. Una revisión sobre la predicción del rendimiento de los estudiantes mediante técnicas de minería de datos. Cómputo de
procedimientos. ciencia2015,72, 414–422. [Referencia cruzada]
25. Tártaro, AE; Düştegör, D. Predicción del rendimiento académico en la graduación de pregrado: ¿Calificaciones del curso o promedio de calificaciones? aplicación ciencia
2020,10, 4967. [Referencia cruzada]
26. Elbadrawy, A.; Polyzou, A.; Ren, Z.; Sweeney, M.; Karypis, G.; Rangwala, H. Predicción del rendimiento de los estudiantes mediante análisis personalizados.
Computadora2016,49, 61–69. [Referencia cruzada]
27. Cui, Y.; Chen, F.; Shiri, A.; Fan, Y. Modelos analíticos predictivos del éxito de los estudiantes en la educación superior: una revisión de la metodología. información
Aprender. ciencia2019,120, 208–227. [Referencia cruzada]
28. Rastrollo-Guerrero, JL; GRAMOomez-Pulido, JA; Duran-Dominguez, A. Análisis y predicción del rendimiento de los estudiantes mediante el aprendizaje
automático: una revisión.aplicación ciencia2020,10, 1042. [Referencia cruzada]
29. Alshanqiti, A.; Namoun, A. Predicción del rendimiento de los estudiantes y sus factores influyentes mediante regresión híbrida y clasificación de etiquetas
múltiples.Acceso IEEE2020,8, 203827–203844. [Referencia cruzada]
30. Mthimunye, K.; Daniels, FM Predictores del rendimiento académico, el éxito y la retención entre los estudiantes de pregrado de enfermería: una
revisión sistemática.S.Afr. J. Alto. Educ.2019,33, 200–220. [Referencia cruzada]
31. Dixson, DD; Worrell FC; Olszewski-Kubilius, P.; Subotnik, RF Más allá de la capacidad percibida: La contribución de los factores psicosociales al rendimiento
académico.Ana. Academia de Nueva York. ciencia2016,1377, 67–77. [Referencia cruzada] [PubMed]
32. Félix, I.; ambarosio, AP; Lima, PDS; Brancher, JD Minería de datos para la predicción de los resultados de los estudiantes en moodle: un mapeo
sistemático. En Actas del Simposio Brasileño sobre Informática en la Educación (Simposio brasileño de informaratica na Educaçao-SBIE),
Fortaleza, Brasil, del 29 de octubre al 1 de noviembre de 2018; Volumen 29, pág. 1393. [Referencia cruzada]
33. Peña-Ayala, A. Minería de datos educativos: una encuesta y un análisis basado en la minería de datos de trabajos recientes.Sistema experto aplicación2014,41, 1432–
1462. [Referencia cruzada]
34. Kumar, M.; Singh, AJ; Handa, D. Encuesta bibliográfica sobre la predicción del rendimiento de los estudiantes en educación utilizando técnicas de minería de
datos.En t. J. Educ. Administrar Ing.2017,7, 40–49. [Referencia cruzada]
35. Ofori, F.; Maina, E.; Gitonga, R. Uso de algoritmos de aprendizaje automático para predecir el rendimiento de los estudiantes y mejorar el resultado del aprendizaje: una
revisión basada en la literatura.J.Inf. Tecnología2020,4, 33–55.
36. Hu, X.; Cheong, CW; Ding, W.; Woo, M. Una revisión sistemática de los estudios sobre la predicción de los resultados del aprendizaje de los estudiantes mediante el
análisis del aprendizaje. En Actas de la Séptima Conferencia Internacional sobre Análisis y Conocimiento del Aprendizaje, Vancouver, BC, Canadá, 13–17 de marzo de
2017; págs. 528–529. [Referencia cruzada]
37. Magaláaes, P.; Ferreira, D.; Cunha, J.; rosaario, P. Tareas en línea vs tradicionales: una revisión sistemática sobre los beneficios para el desempeño de los
estudiantes.computar Educ.2020,152, 103869. [Referencia cruzada]
38. Digregorio, P.; Sobel-Lojeski, K. Los efectos de las pizarras interactivas (IWB) en el rendimiento y el aprendizaje de los estudiantes: una revisión de la
literatura.J. Educ. Tecnología sist.2010,38, 255–312. [Referencia cruzada]
39. van der Zanden, PJ; Denessen, E.; Cillessen, AH; Meijer, PC Dominios y predictores del éxito de los estudiantes de primer año: una revisión sistemática.Educ.
Res. Rdo.2018,23, 57–77. [Referencia cruzada]
40. Bain, S.; Fedynich, L.; Knight, M. El estudiante graduado exitoso: una revisión de los factores para el éxito.J. Acad. Autobús. Ética2011, 3,
1.
41. Petersen, K.; Vakkalanka, S.; Kuzniarz, L. Pautas para realizar estudios de mapeo sistemático en ingeniería de software: una actualización.
información suave Tecnología2015,64, 1–18. [Referencia cruzada]
42. Moher, D.; Liberati, A.; Tetzlaff, J.; Altman, DG; Grupo Prisma. Elementos de informe preferidos para revisiones sistemáticas y
metanálisis: la declaración PRISMA.BMJ2009,6, 1–8. [Referencia cruzada]
43. Ming, Carolina del Norte; Ming, VL Predecir los resultados de los estudiantes a partir de datos no estructurados. EnTalleres UMAP; Actas del taller CEUR:
Aquisgrán, Alemania, 2012.
44. Heise, N.; Meyer, CA; Garbe, BA; Pasillo, HA; Clapp, TR Table quizzes como herramienta de evaluación en el laboratorio de anatomía macroscópica.
J.Med. Educ. currículo desarrollo2020,7. [Referencia cruzada]
45. Shulruf, B.; Bagg, W.; Comenzado, M.; Hay, M.; Lichtwark, I.; Turnock, A.; Warnecke, E.; Wilkinson, TJ; Poole, PJ La eficacia de las herramientas de selección de
estudiantes de medicina en Australia y Nueva Zelanda.Medicina. J. Aust.2018,208, 214–218. [Referencia cruzada] [PubMed]
46. Moreno-Marcos, PM; Pong, CT; Muñoz-Merino, PJ; Kloos, CD Análisis de los factores que influyen en la predicción del rendimiento de los
alumnos con análisis de aprendizaje.Acceso IEEE2020,8, 5264–5282. [Referencia cruzada]
47. Martín, AJ; Nejad, HG; Colmar, S.; Liem, GAD Adaptabilidad: cómo las respuestas de los estudiantes a la incertidumbre y la novedad predicen sus
resultados académicos y no académicos.J. Educ. psicol.2013,105, 728. [Referencia cruzada]
48. Bowers, AJ; Zhou, X. Área bajo la curva (AUC) de la característica operativa del receptor (ROC): una medida de diagnóstico para evaluar la precisión de los
predictores de los resultados educativos.J. Educ. Semental. Riesgo Colocado (JESPAR)2019,24, 20–46. [Referencia cruzada]
49 Palmer, LE; Erford, BT Predicción de las medidas de los resultados de los estudiantes utilizando la auditoría del programa modelo nacional ASCA.Prof. Cons.2012, 2, 152–
159. [Referencia cruzada]
50. Fauth, B.; Decristán, J.; Rieser, S.; Klieme, E.; Büttner, G. Calificaciones de los estudiantes sobre la calidad de la enseñanza en la escuela primaria: dimensiones y predicción de los
resultados de los estudiantes.Aprender. instrumento2014,29, 1–9. [Referencia cruzada]
51. Harred, R.; Cody, C.; Maniktala, M.; Shabrina, P.; Barnes, T.; Lynch, C. ¿Cuánto tiempo es suficiente? Predicción de los resultados de los estudiantes con datos
de juego del mismo día en un juego educativo de matemáticas. En Actas de Minería de Datos Educativos (Talleres), Montrmial, QC, Canadá, del 2 al 5 de
julio de 2019; págs. 60–68.
52. Aldrup, K.; Klusmann, U.; Ludtke, O.; Gollner, R.; Trautwein, U. El apoyo social y la gestión del aula están relacionados con el ajuste escolar general
de los estudiantes de secundaria: un modelo de ecuación estructural multinivel que utiliza calificaciones de estudiantes y maestros.
J. Educ. psicol.2018,110, 1066. [Referencia cruzada]
53. Van Ryzin, M. Asesores de escuelas secundarias como mentores y figuras de apego secundarias.J. Psicología Comunitaria.2010,38, 131–154. [Referencia
cruzada]
54. Porayska-Pomsta, K.; Mavrikis, M.; Cukurova, M.; Margarita, M.; Samani, T. Aprovechamiento de los autoinformes no cognitivos de los estudiantes para
predecir los resultados del aprendizaje. En Actas de la Conferencia Internacional sobre Inteligencia Artificial en la Educación, Londres, Reino Unido, 27–30
de junio de 2018; Springer: Cham, Suiza, 2018; págs. 458–462.
55. Korosi, G.; Esztelecki, P.; Farkas, R.; Toth, K. Predicción de resultados basada en flujo de clics en MOOC de video corto. En Actas de la Conferencia
Internacional sobre Sistemas Informáticos, de Información y de Telecomunicaciones (CITS) de 2018, Colmar, Francia, 11 a 13 de julio de 2018; IEEE:
Piscataway, Nueva Jersey, EE. UU., 2018; págs. 1 a 5.
56. Brinkworth, Estados Unidos; McIntyre, J.; Juraschek, AD; Gehlbach, H. Relaciones profesor-alumno: los aspectos positivos y negativos de evaluar ambas
perspectivas.Aplicación J. desarrollo psicol.2018,55, 24–38. [Referencia cruzada]
57. Mantzicopoulos, P.; Patricio, H.; Strati, A.; Watson, JS Predicción del rendimiento y la motivación de los niños de jardín de infantes a partir de medidas observacionales de
la eficacia de la enseñanza.Exp. J. Educ.2018,86, 214–232. [Referencia cruzada]
58. Aelterman, N.; Vansteenkiste, M.; Haerens, L. Correlatos de la internalización y el desafío de las reglas del aula por parte de los estudiantes: una perspectiva de la teoría
de la autodeterminación.Hermano J. Educ. psicol.2019,89, 22–40. [Referencia cruzada]
59. Simjanoska, M.; Gusev, M.; Ristov, S.; Bogdanova, AM Elaboración inteligente de perfiles de estudiantes para predecir los resultados de las evaluaciones
electrónicas. En Actas de la Conferencia Global de Educación en Ingeniería (EDUCON) IEEE 2014, Estambul, Turquía, 3–5 de abril de 2014; IEEE:
Piscataway, Nueva Jersey, EE. UU., 2014; págs. 616–622.
60. Pang, Y.; Judd, N.; O'Brien, J.; Ben-Avie, M. Predicción de los resultados de graduación de los estudiantes a través de máquinas de vectores de soporte. En
Actas de la Conferencia IEEE Frontiers in Education (FIE) de 2017, Indianápolis, IN, EE. UU., 18 al 21 de octubre de 2017; IEEE: Piscataway, Nueva Jersey, EE.
UU., 2017; págs. 1 a 8.
61. Liu, KFR; Chen, JS Predicción y evaluación de los resultados de aprendizaje de los estudiantes en cálculo, un apoyo a la decisión de integrar la minería de
datos y las redes de creencias bayesianas. En Actas de la Tercera Conferencia Internacional sobre Investigación y Desarrollo Informático de 2011,
Shanghái, China, 11 a 13 de marzo de 2011; IEEE: Piscataway, NJ, EE. UU., 2011; págs. 299–303.
62. Smith, VC; Lange, A.; Houston, DR Modelado predictivo para pronosticar los resultados de los estudiantes e impulsar intervenciones efectivas en cursos de colegios
comunitarios en línea.J. Aprendizaje asincrónico. Neto.2012,dieciséis, 51–61. [Referencia cruzada]
63. Pavani, M.; Teja, AR; Neelima, A.; Bhavishya, G.; Sukrutha, DS Predicción del resultado de los estudiantes en el sector educativo mediante el uso de árboles
de decisión.En t. J. Tecnología. Res. Ing.2017,4, 2347–4718.
64. Zacharis, NZ Un enfoque multivariante para predecir los resultados de los estudiantes en cursos de aprendizaje combinado habilitados para la web. Internet
alto. Educ.2015,27, 44–53. [Referencia cruzada]
65. Gris, CC; Perkins, D. Utilizando el compromiso temprano y el aprendizaje automático para predecir los resultados de los estudiantes.computar Educ.2019,131, 22–32. [
Referencia cruzada]
66. Iatrellis, O.; Savvas, IK; Fitsilis, P.; Gerogiannis, VC Un enfoque de aprendizaje automático de dos fases para predecir los resultados de los estudiantes. Educ. información
Tecnología2020, 1–20. [Referencia cruzada]
67. Kuzilek, J.; Vaclavek, J.; Zdrahal, Z.; Fuglik, V. Análisis de la intensidad y el rendimiento del comportamiento VLE de los estudiantes. En Actas de la
Conferencia Europea sobre Aprendizaje Mejorado por Tecnología, Delft, Países Bajos, 16–19 de septiembre de 2019; Springer: Cham, Suiza,
2019; págs. 587–590.
68. Raga, R.; Raga, J. Predicción temprana del rendimiento de los estudiantes en cursos de aprendizaje mixto utilizando redes neuronales profundas. En Actas
del Simposio Internacional sobre Tecnología Educativa (ISET) de 2019, Hradec Kralove, República Checa, 2 al 4 de julio de 2019; IEEE: Piscataway, Nueva
Jersey, EE. UU., 2019; págs. 39–43.
69. Walsh, KR; Mahesh, S. Estudio exploratorio que utiliza el aprendizaje automático para hacer predicciones tempranas de los resultados de los estudiantes. En Actas de la
Vigesimotercera Conferencia de las Américas sobre Sistemas de Información, Ciencia de Datos y Análisis para el Apoyo a la Decisión (SIGDSA), Boston, MA, EE. UU.,
10 al 12 de agosto de 2017; AIS: Atlanta, GA, EE. UU., 2017; págs. 1 a 5.
70. Olama, MM; Thakur, G.; McNair, AW; Sukumar, SR Predicción del éxito de los estudiantes mediante análisis en los sistemas de gestión del aprendizaje del
curso. EnAnalista de próxima generación II; Sociedad Internacional de Óptica y Fotónica: Washington, DC, EE. UU., 2014; pag. 91220M.
71. Wilson, JH; Ryan, RG Escala de relación profesor-alumno: seis ítems predicen los resultados de los alumnos.Enseñar. psicol.2013,40, 130–133. [Referencia
cruzada]
72. Wilson, JH; Ryan, RG; Pugh, JL La escala de relación profesor-estudiante predice los resultados de los estudiantes.Enseñar. psicol.2010,37, 246–251. [Referencia cruzada]
73. Kuzilek, J.; Vaclavek, J.; Fuglik, V.; Zdrahal, Z. Modelado de abandono de estudiantes utilizando datos de comportamiento del entorno de aprendizaje virtual.
En Actas de la Conferencia Europea sobre Aprendizaje Mejorado por Tecnología, Leeds, Reino Unido, 3–5 de septiembre de 2018; Springer: Cham, Suiza,
2018; págs. 166–171.
74. Zaporozhko, VV; Parfenov, DI; Shardakov, VM Enfoque de desarrollo de la formación de trayectorias educativas individuales basado en la
predicción de redes neuronales de los resultados de aprendizaje de los estudiantes. En Actas de la Conferencia Internacional de Inteligencia
Artificial, Ingeniería Médica, Educación, Moscú, Rusia, 3 y 4 de octubre de 2019; Springer: Cham, Suiza, 2019; págs. 305–314.
75. Ruíz, S.; Urretavizcaya, M.; rodriGuez, C.; Helechoandez-Castro, I. Predecir los resultados de los estudiantes a partir de la respuesta emocional en el aula y la
asistencia.Interactuar. Aprender. Reinar.2020,28, 107–129. [Referencia cruzada]
76. Águila, M.; Carmichael, T.; Stokes, J.; Parpadeo, MJ; Stamper, JC; Levin, J. Modelado estudiantil predictivo para intervenciones en clases en línea. En
Actas de la 11.ª Conferencia Internacional sobre EDM de Minería de Datos Educativos, Buffalo, NY, EE. UU., 15–18 de julio de 2018; págs. 619–
624.
77. Alonso, JM; Casalino, G. Inteligencia artificial explicable para el análisis de datos centrado en humanos en entornos de aprendizaje virtual. En
Actas del Taller internacional sobre metodologías y tecnologías de aprendizaje en la educación superior en línea, Novedrate, Italia, 6 y 7 de
junio de 2019; Springer: Cham, Suiza, 2019; págs. 125–138.
78. Körösi, G.; Farkas, R. Predicción del rendimiento de MOOC mediante aprendizaje profundo a partir de datos sin procesar de flujo de clics. En Actas de la
Conferencia Internacional sobre Avances en Computación y Ciencias de Datos, Maharashtra, India, 23 y 24 de abril de 2020; Springer: Singapur, 2020;
págs. 474–485.
79. Culligan, N.; Quille, K.; Bergin, S. Veap: Un motor de visualización y analizador para prensa#. En Actas de la 16.ª Conferencia internacional Koli
Calling sobre investigación en educación informática, Koli, Finlandia, 24 a 27 de noviembre de 2016; págs. 130–134.
80. Umer, R.; Mathrani, A.; Susnjak, T.; Lim, S. Minería de datos de registro de actividad para predecir el resultado del estudiante en un curso. En Actas de la
Conferencia Internacional sobre Big Data y Educación de 2019, Londres, Reino Unido, 27–29 de marzo de 2019; págs. 52–58.
81. Yadav, A.; Alejandro, V.; Mehta, S. Instrucción basada en casos en ingeniería de pregrado: ¿La confianza del estudiante predice el
aprendizaje?En t. J. Ing. Educ.2019,35, 25–34.
82. Strang, KD Más allá del análisis de compromiso: ¿Qué factores de datos mixtos en línea predicen los resultados de aprendizaje de los estudiantes?Educ. información Tecnología 2017,
83. Ketonen, E.; Lonka, K. ¿Las emociones académicas situacionales predicen los resultados académicos en un curso de lectura?Procedia Soc. Comportamiento ciencia 2012,
84. Tsiakmaki, M.; Kostopoulos, G.; Kotsiantis, S.; Ragos, O. Implementación de AutoML en minería de datos educativos para tareas de predicción. aplicación
ciencia2020,10, 90. [Referencia cruzada]
85. Al-Shabandar, R.; Hussain, A.; Leyes, A.; Keight, R.; Lunn, J.; Radi, N. Enfoques de aprendizaje automático para predecir los resultados del aprendizaje en
cursos masivos abiertos en línea. En Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales (IJCNN) de 2017, Anchorage, AK, EE. UU., 14–
19 de mayo de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 713–720.
86. Yu, CH; Wu, J.; Liu, AC Predicción de resultados de aprendizaje con flujos de clics MOOC.Educ. ciencia2019,9, 104. [Referencia cruzada]
87. Zabriskie, C.; Yang, J.; De Vore, S.; Stewart, J. Uso del aprendizaje automático para predecir los resultados del curso de física.física Rev. Phys. Educ. Res.2019,
15, 020120. [Referencia cruzada]
88. Nguyen, VA; Nguyen, mariscal de campo; Nguyen, VT Un modelo para pronosticar los resultados de aprendizaje de los estudiantes en cursos de aprendizaje mixto
basado en análisis de aprendizaje. En Actas de la 2.ª Conferencia Internacional sobre Sociedad Electrónica, Educación Electrónica y Tecnología Electrónica, Taipei,
Taiwán, 13–15 de agosto de 2018; págs. 35–41.
89. Guo, S.; Wu, W. Modelado de los resultados de aprendizaje de los estudiantes en los MOOC. En Actas de la 4.ª Conferencia Internacional sobre Enseñanza,
Evaluación y Aprendizaje de Ingeniería, Zhuhai, China, 10–12 de diciembre de 2015; págs. 1305-1313.
90. Foung, D.; Chen, J. Un enfoque de análisis de aprendizaje para la evaluación de un paquete de aprendizaje en línea en una Universidad de Hong Kong.
Electrón. J. E. Aprender.2019,17, 11–24.
91. Akhtar, S.; Warburton, S.; Xu, W. El uso de un sistema de aprendizaje y enseñanza en línea para monitorear la participación de los estudiantes en el diseño asistido por
computadora y predecir el éxito de los estudiantes.En t. J. Tecnología. Des. Educ.2017,27, 251–270. [Referencia cruzada]
92. Gratiano, SM; Palm, WJ ¿Puede una encuesta de tres preguntas y cinco minutos predecir el rendimiento y la retención de los estudiantes de ingeniería de
primer año? En Actas de la 123.ª Conferencia y Exposición Anual de ASEE, Nueva Orleans, LA, EE. UU., 26–29 de junio de 2016.
93. Vasic, D.; Kundid, M.; Pinjuh, A.; Šerić, L. Predicción del resultado del aprendizaje de los estudiantes a partir de los registros del sistema de gestión del
aprendizaje. En Actas de la 23.ª Conferencia Internacional sobre Software, Telecomunicaciones y Redes Informáticas (SoftCOM) de 2015,
Bol (Isla de Brac), Croacia, 16 a 18 de septiembre de 2015; IEEE: Piscataway, Nueva Jersey, EE. UU., 2015; págs. 210–214.
94. Félix, I.; Ambrosio, A.; Duilio, J.; Simões, E. Prediciendo el resultado de los estudiantes en moodle. En Actas de la Conferencia: Éxito Académico en
la Educación Superior, Oporto, Portugal, 14 y 15 de febrero de 2019; págs. 1 y 2.
95. Alkoot, FM Uso de clasificadores para predecir el resultado de los estudiantes en HITN-PAAET. En Actas de la 18.ª Conferencia internacional sobre
aprendizaje automático y análisis de datos, Tokio, Japón, 22–24 de mayo de 2016.
96. Wang, X.; Mei, X.; Huang, Q.; Han, Z.; Huang, C. Predicción detallada del rendimiento del aprendizaje a través de redes de autoatención dispersas adaptativas.
información ciencia2020,545, 223–240. [Referencia cruzada]
97. Pianta, RC; Ansari, A. ¿La asistencia a escuelas privadas predice los resultados de los estudiantes a los 15 años? Evidencia de un estudio longitudinal.Educ.
Res.2018,47, 419–434. [Referencia cruzada]
98. Colina, HC; Charalambous, CY; Chin, MJ Características de los docentes y aprendizaje de los estudiantes en matemáticas: una evaluación integral.
Educ. Política2019,33, 1103–1134. [Referencia cruzada]
99. Anderson, KA Un estudio nacional del impacto diferencial de la certificación de maestros novatos en las características de los maestros y el rendimiento en matemáticas
basado en la raza.J. Enseñar. Educ.2020,71, 247–260. [Referencia cruzada]
100. Lima, PDSN; ambarosio, APL; Fmilix, IM; Ramificador, JD; Ferreira, DJ Análisis de Contenido de los Exámenes de Evaluación de Estudiantes. En
Actas de la Conferencia IEEE Frontiers in Education (FIE) de 2018, San José, CA, EE. UU., 3 al 6 de octubre de 2018; IEEE: Piscataway,
Nueva Jersey, EE. UU., 2018; págs. 1 a 9.
101. Sokkhey, P.; Okazaki, T. Desarrollo de sistemas de soporte basados en la web para predecir estudiantes con bajo rendimiento utilizando técnicas de minería de datos
educativos.En t. j adv. computar ciencia aplicación2020,11, 23–32. [Referencia cruzada]
102. Ventas, A.; Botelho, AF; Patikorn, T.; Heffernan, NT Uso de big data para mejorar la inferencia basada en el diseño en las pruebas A/B. En Actas de la
Undécima Conferencia Internacional sobre Minería de Datos Educativos, Buffalo, NY, EE. UU., 15 al 18 de enero de 2018.
103. Bhatia, J.; Girdhar, A.; Singh, I. Una herramienta de diseño de encuestas automatizadas para la evaluación indirecta en la educación basada en resultados
mediante la minería de datos. En Actas de la 5.ª Conferencia Internacional IEEE de 2017 sobre MOOC, Innovación y Tecnología en Educación (MITE),
Bangalore, India, 27 y 28 de octubre de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 95–100.
104. Bindra, SK; Girdhar, A.; Bamrah, IS Análisis predictivo basado en resultados de cuestionarios automáticos utilizando minería de datos. En Actas
de la 2.ª Conferencia Internacional sobre Sistemas Electrónicos y de Comunicación (ICCES) de 2017, Coimbatore, India, 19 y 20 de octubre de
2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 629–634.
105. Joksimovic, S.; Kovanovic, V.; Dawson, S. El viaje de la analítica de aprendizaje.Herdsa Rev. Alta. Educ.2019,6, 27–63.
106. Kumari, P.; jainista, PK; Pamula, R. Un uso eficiente de métodos de conjunto para predecir el rendimiento académico de los estudiantes. En Actas de la
Cuarta Conferencia Internacional sobre Avances Recientes en Tecnología de la Información (RAIT) de 2018, Dhanbad, India, 15 a 17 de marzo de 2018;
IEEE: Piscataway, Nueva Jersey, EE. UU., 2018; págs. 1 a 6.
107. Arroway, P.; Morgan, G.; O'Keefe, M.; Yansky, R.Analítica de aprendizaje en la educación superior; Informe de investigación; ECAR: Louisville, CO, EE. UU.,
2016; pag. 17
108. Viberg, O.; Hatakka, M.; Balter, O.; Mavroudi, A. El panorama actual de las analíticas de aprendizaje en la educación superior. computar Tararear.
Comportamiento2018,89, 98–110. [Referencia cruzada]
109. Manjarrés, AV; Sandoval, LGM; doarez, MS Técnicas de minería de datos aplicadas en entornos educativos: revisión de la literatura.
Dígito. Educ. Rdo.2018,33, 235–266.
110. Romero, C.; Ventura, S. Minería de datos educativos y análisis de aprendizaje: una encuesta actualizada.Wiley Interdiscip. Rev. Datos mín. Saber Descubrir
2020,10, e1355. [Referencia cruzada]
111. Shmueli, G. ¿Explicar o predecir?Estadística ciencia2010,25, 289–310. [Referencia cruzada]
112. Ranjeeth, S.; Latchumi, TP; Paul, PV Una encuesta sobre modelos predictivos de análisis de aprendizaje.Cómputo de procedimientos. ciencia2020,167, 37–46. [
Referencia cruzada]
113. Zhou, X.; Jin, Y.; Zhang, H.; Li, S.; Huang, X. Un mapa de amenazas a la validez de revisiones sistemáticas de literatura en ingeniería de software.
En Actas de la 23.ª Conferencia de Ingeniería de Software de Asia-Pacífico (APSEC) de 2016 IEEE, Hamilton, Nueva Zelanda, 6–9 de diciembre de
2016; págs. 153–160.

Predicting Student Performance Using Data Mining and Learning Analytics Techniques - En.es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Predicting Student Performance Using Data Mining and Learning Analytics Techniques - En.es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Predecir el rendimiento de los estudiantes utilizando técnicas de análisis de

Abdallah Namoun * y Abdullah Alshanqiti

Recibido: 10 de diciembre de 2020

Nota del editor:MDPI se mantiene neutral

con respecto a reclamos jurisdiccionales en

mapas publicados y afiliaciones

aplicación ciencia2021,11, 237. https://doi.org/10.3390/app11010237 https://www.mdpi.com/journal/applsci

2. Antecedentes y trabajos relacionados

2.1. Resultados de los estudiantes

2.2. Rendimiento del estudiante

2.3. Revisiones de desempeño estudiantil existentes y brechas en la literatura

− No pronosticó los resultados de los estudiantes + Identificado que los atributos y

− Enfocado solo en el sistema de

− No encuestó los resultados de los estudiantes

Predicción de rendimiento utilizando datos − Reportó solo cinco técnicas

Predicción de rendimiento usando

+ Adoptó una metodología robusta

− Presentó un estudio preliminar (de 2

Tabla 2.Protocolo PICO adoptado en nuestra encuesta.

Población/Problema Intervención Comparación Resultado

Figura 1.Pasos principales de nuestra metodología de encuestas.

("inteligencia artificial" O "aprendizaje automático" O "minería de datos" O "aprendizaje profundo" O

Tabla 3.Criterios de inclusión en nuestra revisión sistemática de la literatura.

Criterios de inclusión Descripción de los criterios

Estudios que predicen explícitamente el desempeño de los estudiantes

Estudios que contienen evidencia empírica de la

I3. Idioma de publicación Solo se consideran artículos escritos en inglés.

I6. Disponibilidad de texto Se puede acceder al texto completo para su análisis.

3.1. Criterios de inclusión

Figura 2.Diagrama de flujo PRISMA de nuestra metodología de encuestas.

3.2. Extracción de datos

Al aplicar el enfoque PRISMA [42], el grupo final de estudios seleccionados se analizó

4.1. Lugares de publicación y años

Figura 4.Categoría de los lugares de publicación.

Figura 6.Frecuencia de artículos en función del número de autores de cada publicación.

4.2. Conjuntos de datos experimentales y el contexto de la predicción del rendimiento

Figura 7.Disciplina de predicciones de rendimiento académico utilizando resultados de aprendizaje.

Figura 8.Frecuencia de los estudios de predicción por tipo de carrera.

Figura 9.Distribución de los estudios en los continentes.

Tabla 5.Fuente del conjunto de datos educativos en los estudios.

No especificado 12 (19,35%) [46,94–104]

Cuando inspeccionamos la cantidad de cursos de los que se extrajeron los datos

4.3. Resultados de aprendizaje como indicadores del desempeño de los estudiantes

Tabla 6.Distribución de los estudios según el tipo de resultados de aprendizaje previstos.

Tipo de resultado de aprendizaje Numero de incidentes Estudios

Clases de rendimiento [45,46,55,59–70,73–77,79,80,83–

Autoinformes sobre aspectos educativos

aprendizaje como posiciones (es decir, rangos).

4.4. Modelos predictivos de resultados de aprendizaje

En el análisis de aprendizaje, el modelado predictivo se enfoca principalmente en mejorar la

predicciones de mance. Los clasificadores híbridos o de conjunto implican la integración de técnicas de

Procesamiento de datos 5 (8,06%) [63,77,94,100,104]

Aprendizaje supervisado y no supervisado 3 (4,83%) [66,79,93]

Aprendizaje automático no supervisado 1 (1,61%) [67]

Tabla 8.Distribución de algoritmos predictivos inteligentes por categoría.

Modelos basados en árboles

Modelos basados en bayesianos 5 (8,06%) [61,62,79,93,94]

Máquinas de vectores de soporte 2 (3,22%) [59,60]

Modelos basados en instancias 1 (1,62%) [103]

Cifra12muestra que 38 (61,29 %) estudios no compararon el rendimiento de sus modelos

4.6. Evaluación de la calidad de los modelos revisados

Tabla 10.Evaluación de la calidad de los estudios encuestados; Sí = Condición satisfecha, No = Condición no