Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
Sesión T2G
Abstracto - Este artículo compara la precisión de los algoritmos del para predecir el GPA al final del primer año. Este artículo compara
árbol de decisiones y la red bayesiana para predecir el rendimiento la precisión de los árboles de decisión y los algoritmos de la red
académico de estudiantes de pregrado y bayesiana para predecir el rendimiento de los estudiantes en estos
estudiantes de posgrado en dos institutos académicos muy dos casos de estudio muy diferentes.
diferentes: Can Tho University (CTU), una gran universidad Esta investigación tiene varias contribuciones importantes. Primero,
nacional de Vietnam; y el Instituto Asiático de Tecnología (AIT), nuestros resultados brindan información sobre todo el proceso de aplicación de
un pequeño instituto internacional de posgrado en Tailandia herramientas de minería de datos a conjuntos de datos del mundo real, incluidos
que atrae a estudiantes de 86 países diferentes. Aunque la los métodos para refinar los datos y mejorar la precisión de la predicción. En
diversidad de estas dos poblaciones de estudiantes es muy segundo lugar, los resultados de estos estudios de caso muestran que el
diferente, las herramientas de extracción de datos lograron algoritmo del árbol de decisiones fue significativamente más preciso que el
niveles similares de precisión para predecir el rendimiento de algoritmo de la red bayesiana para predecir el rendimiento de los estudiantes,
los estudiantes: 73/71% para {reprobado, regular, bueno, muy basándose en las implementaciones no modificadas proporcionadas por la
bueno} y 94/93% para {falla, pasa} en la CTU / AIT herramienta de extracción de datos de código abierto Weka [1].
respectivamente. Estas predicciones son muy útiles para En la siguiente sección describimos la metodología general de la
identificar y ayudar a los estudiantes reprobados en CTU (64% de investigación, desde la selección de una plataforma de minería de datos
precisión) y para seleccionar a estudiantes muy buenos para becas hasta el modelado del problema de predicción del rendimiento académico.
en la AIT (82% de precisión). En este análisis, el árbol de decisiones A continuación, comparamos los resultados de los dos algoritmos de
fue consistentemente entre un 3 y un 12% más preciso que la red predicción, seguidos de una comparación de nuestros resultados con el
bayesiana. Los resultados de estos estudios de caso brindan trabajo relacionado. Finalmente, discutimos la importancia práctica de esta
información sobre las técnicas para predecir con precisión el investigación y nuestras conclusiones.
rendimiento de los estudiantes, comparar la precisión de los
algoritmos de minería de datos y demostrar la madurez de las METROEtodologia
herramientas de código abierto.
Esta sección describe el proceso que seguimos para recopilar y analizar los
datos de rendimiento académico. Discutimos nuestra selección de una
Términos del Índice - Redes bayesianas, minería de datos, árboles de
herramienta de minería de datos, seguida de la difícil tarea de preparar los
decisión, predicción.
datos para el análisis. A continuación, presentamos nuestro modelo del
problema de predicción del rendimiento académico y cómo ajustamos los
INTRODUCCIÓN
parámetros de los algoritmos de predicción para mejorar nuestros
La predicción precisa del desempeño de los estudiantes es útil en resultados iniciales.
muchos contextos diferentes en las universidades. Por ejemplo,
I. Seleccionar una herramienta de minería de datos
identificar estudiantes excepcionales para becas es una parte esencial
del proceso de admisión en instituciones de pregrado y posgrado, y la Primero, realizamos una comparación detallada de herramientas de minería
identificación de estudiantes débiles que probablemente fracasen de datos para seleccionar una plataforma adecuada para realizar nuestra
también es importante para asignar recursos de tutoría limitados. Este investigación. Comenzamos con una lista de 30 herramientas de minería de
artículo investiga la idoneidad de las herramientas de minería de datos datos, que filtramos a 10 con un buen soporte para el análisis visual. Luego
para predecir el rendimiento académico mediante dos estudios de aplicamos la metodología detallada sugerida por [2] para identificar una
caso. En el primer estudio de caso, Can Tho University (CTU) en serie de criterios computacionales, funcionales, de usabilidad y de soporte
Vietnam, usamos registros de estudiantes y GPA al final del 2Dakota del Norte necesarios para este proyecto. Desde la perspectiva computacional,
año para predecir el rendimiento en los 3rd año. En el segundo estudio necesitábamos que el sistema operara en una amplia gama de plataformas
de caso, el Instituto Asiático de Tecnología (AIT) en Tailandia, usamos y fuera de código abierto. Esto redujo aún más la lista corta a tres: Weka [1],
información de admisiones, como instituto académico y GPA, Orange [3] y Yale [4].
1 Nguyen Thai Nghe, anteriormente estudiante de maestría, AIT, Tailandia, y actualmente profesor, Universidad Can Tho, Vietnam, ntnghe@cit.ctu.edu.vn.
2 Paul Janecek, profesor asistente, AIT, Tailandia, paul_janecek@ait.ac.th
3 Peter Haddawy, profesor, AIT, Tailandia, haddawy@ait.ac.th
TABLA II
FIGURA 1 AIT ATRIBUTOS, INFORMACIÓN GRAMOAIN, Y RELATIVO CONTRIBUCIÓN
DATRIBUCIÓN DE ACTUAL GPA POR CTU (IZQUIERDA) Y AIT (DERECHA) # Atributo # Valores Información Rel
Val Ganar Ganar
En la fase de preparación de datos, seleccionamos los atributos 1 Rango del Instituto 10 {1, 2,…, 10} 0,046 24,5%
relevantes de los datos disponibles, creamos grupos significativos {Bangladesh, Camboya,
dentro de los atributos y derivamos nuevos atributos de nuestro India, Indonesia, Laos,
Myanmar, Nepal, Pakistán,
conocimiento del dominio. Las Tablas I y II muestran resúmenes de los República Popular China, SriLanka,
principales atributos de los conjuntos de datos de CTU y AIT, y la 2 País 13 Tailandia, Vietnam, otros} 0,035 18,9%
“Ganancia de información” de cada atributo para predecir el 3 GPA de entrada 4 {2.0-3.0, 3.0-3.3, 3.3-4.0} 0,019 10,2%
rendimiento académico. La ganancia de información con respecto a un inglés
4 Competencia 4 {TOEFL, Certificado, Otro, No} 0.017… 9,3%
conjunto de ejemplos es la reducción esperada en la entropía que 5 Donante 8 proveedores de becas… 0.016 8.5%
resulta de dividir un conjunto de ejemplos usando los valores de ese 6 FOS actual 10 {Grupo de TIC,…, Otros} 0,011 6,1%
atributo. Esta medida se utiliza en la inducción del árbol de decisión y 7 FOS anterior 8 {Grupo de TI,…, otros} 0,008 4,3%
es útil para identificar aquellos atributos que tienen la mayor influencia Actual {Ingeniería, Recursos y Desarrollo,
8 Colegio 3 Gestión} 0,008 4,3%
en la clasificación. {Fellowship, Scholarship, Self-Support,
Para el conjunto de datos de CTU que se muestra en la Tabla I, los dos 9 Categoría de fondo 4 Others} 0,007 3,8%
atributos con la mayor ganancia de información son el Promedio de calificaciones 10 Estado civil 2 {Casado, Soltero} 0,006 3,4%
acumulado para los 2Dakota del Norte año (CGPA2), y Habilidad en inglés. Nacional Bruto
11 Ingresos 3 {Inferior, Medio, Superior} 0,006 3,2%
El entorno social y de enseñanza en CTU es completamente en 12 Rango de edad 4 {20-24, 25-26, 27-30, 31-50} 0,005 2,9%
vietnamita, pero una posible explicación de la importancia del 13 Género 2 {M, F} 0,001 0,4%
inglés para predecir el rendimiento académico es la mayor 14 TOEFL 3 {500-550, 551, 590, 591-677}
accesibilidad de la información en inglés en Internet.
Para el conjunto de datos AIT que se muestra en la Tabla II, el Para compensar estas diferencias entre los institutos, obtuvimos
atributo con la mayor ganancia de información es el rango del un "rango" para cada instituto en una escala del 1 al 10. Primero,
instituto, que es un atributo derivado. Un problema particularmente asumimos que, en promedio, las calificaciones que los estudiantes
desafiante en la preparación de los datos de AIT fue cómo comparar reciben al graduarse de nuestro instituto deben ser las mismas que las
los promedios de calificaciones (GPA) de los estudiantes de 329 calificaciones. recibieron en su instituto anterior. Calculamos la
institutos y más de 40 países diferentes. Este problema tiene dos diferencia promedio de cada instituto a partir de este supuesto
partes. Primero, los institutos tienen diferentes escalas de calificación utilizando la siguiente ecuación:
(p. Ej., [0-10], [1-5], [0% -100%], [0-4]), que convertimos a la escala 4.0
que se usa comúnmente en América del Norte. . Segundo y más DiferenciaInstituto = AVGInstituto (GPAGraduación -GPAEntrada ) (1)
desafiante, cada instituto tiene una política de distribución de
calificaciones diferente, lo que dificulta equiparar el mismo GPA de Luego derivamos un "rango" para cada instituto
diferentes institutos. Por ejemplo, los graduados con GPA altos de normalizando el rango resultante de diferencias entre
algunos institutos se gradúan constantemente con GPA más bajos institutos y escalando de 1 a 10. La distribución resultante de
de nuestro instituto. Rango del Instituto para CTU y AIT se muestra en la Figura 2. El
1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI
37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-8
Sesión T2G
La distribución de la izquierda ya se ha redondeado al valor de rango y El rango de la distribución continua que se muestra en la primera
la distribución de la derecha sigue siendo continua. Los colores fila de la Tabla III es de 2.0 a 4.0, con el mayor número de estudiantes
corresponden a las clases en la Figura 1. Por ejemplo, azul indica en 3.0. La solución de 4 categorías divide el rango en grupos {Fall,
aquellos estudiantes que tendrán una calificación reprobatoria, rojo Regular, Good, Very Good} (es decir, {C, C +, B, B + / A} o {2.0-2.5,
indica aquellos con una calificación regular, etc. Es importante notar 2.5-3.0, 3.0-3.5, 3.5- 4.0}), y da como resultado una precisión
que este rango refleja diferencias en las políticas de calificación, no ligeramente menor para la predicción. La tercera solución agrupó el
necesariamente diferencias en la calidad de la educación. 2.0-3.0 estudiantes en un solo grupo, con resultados ligeramente
mejores, pero aún más bajos que la distribución continua. La cuarta
CTU AIT solución divide a los estudiantes en 3,3 en lugar de 3,5, lo que da como
resultado tres grupos de tamaño similar y una precisión un 1,3% más
alta para la predicción que con la distribución continua.
Analizamos cada atributo para determinar si agrupar los
datos mejoraría la precisión y encontramos ligeras mejoras (<1%)
FIGURA 2 en el conjunto de datos de CTU para Religión, marca de entrada,
DATRIBUCIÓN DE INSTITUCIÓN RANQUILLOS PARA CTU (IZQUIERDA) Y AIT (DERECHA)
prioridad de área, prioridad de política. Probamos varias divisiones
Como se muestra en la Tabla II, la derivada Rango del Instituto El atributo de Dominio del Inglés y TOEFL puntuación, pero no llevaron a
tuvo la mayor ganancia de información para el conjunto de datos AIT y mejoras sobre la clasificación básica de {TOEFL, Certificado, Otro -
proporcionó 2.5 veces más ganancia de información que el GPA de entrada Sí, No}. Los resultados finales de las clasificaciones son los valores
para predecir el desempeño de los estudiantes. Rango del Instituto fue mucho menos que se muestran en las Tablas I y II.
importante para el conjunto de datos CTU que para el conjunto de datos AIT,
IV. Ajuste de los parámetros de los algoritmos
posiblemente porque CTU utiliza una prueba estandarizada, Marca de entrada,
en vez de GPA de entrada. Comparamos tres de los algoritmos de predicción proporcionados
por Weka: el árbol de decisión J48, el árbol modelo M5P y la red
III. Modelado del problema de predicción del rendimiento académico
bayesiana BayesNet. En esta sección describimos la configuración
El siguiente paso en el problema de predicción del rendimiento de estos algoritmos para nuestros experimentos.
académico fue construir y evaluar modelos con los algoritmos Decision El algoritmo J48 Decision Tree en Weka está disponible en
Tree y Bayesian Network disponibles en la herramienta de minería de la clase Java “weka.classifiers.trees.J48”. Esta clase genera un
datos de Weka. Usando estos modelos, “ajustamos” los atributos de árbol de decisión C4.5 podado o no podado, y tiene los
entrada de los conjuntos de datos subdividiendo el rango de valores en siguientes tres parámetros principales (ver Tabla IV):
nuevas clases y evaluando los cambios en la precisión de la predicción. • trustFactor: El factor de confianza utilizado para la poda (los
En algunos casos, esto condujo a mejoras significativas en la precisión. valores más pequeños incurren en más poda)
Por ejemplo, experimentamos con varias divisiones del atributo • minNumObj: El número mínimo de instancias por hoja.
continuoGPA de entrada como se muestra en la Tabla III.
probabilidad condicional. SimpleEstimator estima las % Pegar 34% 61% 79% 53% 55% 66% 84% 58%
probabilidades directamente a partir de los datos.
• Algoritmo de búsqueda: El método utilizado para buscar TABLA IX
DECISIÓN TREE CONFUSION METROATRIX, AIT CPlaza bursátil norteamericana STUDY, 4 CLASSES
las estructuras de la red.
Clase prevista (AIT)
TABLA VI Datos originales Datos re-muestreados
resultados detallados de las predicciones del árbol de decisión Clase prevista (CTU)
para cada 4, 3 y 2 clases. La predicción de CTU es para el CGPA de Datos originales Datos re-muestreados
estudiantes de pregrado al final de sus 3rd año dado datos desde el Real Muy Muy
Fallar Bien Fallar Bien
Clase Bien Bien
final de su 2Dakota del Norte año, y la predicción de AIT es para
Fallar 468 1090 7 579 984 2
estudiantes de maestría al final de su 1S t año dada su información
Bien 312 14707 505 177 14985 360
de admisiones. La precisión de la predicción se evalúa mediante la
Muy bien 0 1174 1267 3 1117 1323
validación cruzada con 10 pliegues. Los resultados para CTU y AIT
en las Tablas VII a XII se muestran tanto con los datos originales % Pegar 30% 95% 52% 37% 97% 54%
fue 47%. Por lo tanto, si bien el sistema es confiable para [4] Yale, Rapid-I, http://rapid-i.com/
Al identificar a estudiantes excelentes para el AIT, tendremos que seguir
[5] Luan, J., Zhao, C.-M. y Hayek, J., "Explorando una nueva frontera en la investigación de la
trabajando en el problema de clasificación para identificar a los estudiantes educación superior: un análisis de estudio de caso sobre el uso de técnicas de minería de
que tienen más probabilidades de reprobar. datos para crear una tipología institucional NSSE", Papel
Hemos implementado e implementado este sistema como una presentado en la Asociación de California para la Investigación Institucional,
Anaheim, California, 17-19 de noviembre de 2004.
aplicación basada en la web para los profesores de la AIT. Aunque
Weka no fue diseñado para ejecutarse en la web, como una aplicación [6] Delavari N. & Beikzadeh M. R & Shirazi MRA, "Un nuevo modelo para el
uso de la minería de datos en el sistema educativo superior", en
de código abierto, pudimos extraer las clases necesarias y envolverlas
Actas de la 5a Conferencia Internacional sobre Educación Superior y
en una interfaz basada en web. Formación Basada en Tecnología de la Información (ITHET),
Estambul, Turquía, 31 de mayo al 2 de junio de 2004.
AAGRADECIMIENTO
[7] Bekele, R. y Menzel, W., “Un enfoque bayesiano para predecir el
Esta investigación se realizó como parte de la tesis de maestría desempeño de un estudiante (BAPPS): un caso con etíopes
estudiantes "en Actas de la Conferencia Internacional sobre
del primer autor y fue financiada por una beca del Ministerio
Inteligencia Artificial y Aplicaciones (AIA-2005), Viena,
de Educación de Vietnam. Austria, 2005.