Está en la página 1de 6

Traducido del inglés al español - www.onlinedoctranslator.

com

Sesión T2G

Un análisis comparativo de técnicas


para predecir el rendimiento académico
Nguyen Thai Nghe1, Paul Janecek2, y Peter Haddawy3
Programa de Gestión de la Información y Ciencias de la Computación
Instituto Asiático de Tecnología (AIT), Tailandia 12120

Abstracto - Este artículo compara la precisión de los algoritmos del para predecir el GPA al final del primer año. Este artículo compara
árbol de decisiones y la red bayesiana para predecir el rendimiento la precisión de los árboles de decisión y los algoritmos de la red
académico de estudiantes de pregrado y bayesiana para predecir el rendimiento de los estudiantes en estos
estudiantes de posgrado en dos institutos académicos muy dos casos de estudio muy diferentes.
diferentes: Can Tho University (CTU), una gran universidad Esta investigación tiene varias contribuciones importantes. Primero,
nacional de Vietnam; y el Instituto Asiático de Tecnología (AIT), nuestros resultados brindan información sobre todo el proceso de aplicación de
un pequeño instituto internacional de posgrado en Tailandia herramientas de minería de datos a conjuntos de datos del mundo real, incluidos
que atrae a estudiantes de 86 países diferentes. Aunque la los métodos para refinar los datos y mejorar la precisión de la predicción. En
diversidad de estas dos poblaciones de estudiantes es muy segundo lugar, los resultados de estos estudios de caso muestran que el
diferente, las herramientas de extracción de datos lograron algoritmo del árbol de decisiones fue significativamente más preciso que el
niveles similares de precisión para predecir el rendimiento de algoritmo de la red bayesiana para predecir el rendimiento de los estudiantes,
los estudiantes: 73/71% para {reprobado, regular, bueno, muy basándose en las implementaciones no modificadas proporcionadas por la
bueno} y 94/93% para {falla, pasa} en la CTU / AIT herramienta de extracción de datos de código abierto Weka [1].
respectivamente. Estas predicciones son muy útiles para En la siguiente sección describimos la metodología general de la
identificar y ayudar a los estudiantes reprobados en CTU (64% de investigación, desde la selección de una plataforma de minería de datos
precisión) y para seleccionar a estudiantes muy buenos para becas hasta el modelado del problema de predicción del rendimiento académico.
en la AIT (82% de precisión). En este análisis, el árbol de decisiones A continuación, comparamos los resultados de los dos algoritmos de
fue consistentemente entre un 3 y un 12% más preciso que la red predicción, seguidos de una comparación de nuestros resultados con el
bayesiana. Los resultados de estos estudios de caso brindan trabajo relacionado. Finalmente, discutimos la importancia práctica de esta
información sobre las técnicas para predecir con precisión el investigación y nuestras conclusiones.
rendimiento de los estudiantes, comparar la precisión de los
algoritmos de minería de datos y demostrar la madurez de las METROEtodologia
herramientas de código abierto.
Esta sección describe el proceso que seguimos para recopilar y analizar los
datos de rendimiento académico. Discutimos nuestra selección de una
Términos del Índice - Redes bayesianas, minería de datos, árboles de
herramienta de minería de datos, seguida de la difícil tarea de preparar los
decisión, predicción.
datos para el análisis. A continuación, presentamos nuestro modelo del
problema de predicción del rendimiento académico y cómo ajustamos los
INTRODUCCIÓN
parámetros de los algoritmos de predicción para mejorar nuestros
La predicción precisa del desempeño de los estudiantes es útil en resultados iniciales.
muchos contextos diferentes en las universidades. Por ejemplo,
I. Seleccionar una herramienta de minería de datos
identificar estudiantes excepcionales para becas es una parte esencial
del proceso de admisión en instituciones de pregrado y posgrado, y la Primero, realizamos una comparación detallada de herramientas de minería
identificación de estudiantes débiles que probablemente fracasen de datos para seleccionar una plataforma adecuada para realizar nuestra
también es importante para asignar recursos de tutoría limitados. Este investigación. Comenzamos con una lista de 30 herramientas de minería de
artículo investiga la idoneidad de las herramientas de minería de datos datos, que filtramos a 10 con un buen soporte para el análisis visual. Luego
para predecir el rendimiento académico mediante dos estudios de aplicamos la metodología detallada sugerida por [2] para identificar una
caso. En el primer estudio de caso, Can Tho University (CTU) en serie de criterios computacionales, funcionales, de usabilidad y de soporte
Vietnam, usamos registros de estudiantes y GPA al final del 2Dakota del Norte necesarios para este proyecto. Desde la perspectiva computacional,
año para predecir el rendimiento en los 3rd año. En el segundo estudio necesitábamos que el sistema operara en una amplia gama de plataformas
de caso, el Instituto Asiático de Tecnología (AIT) en Tailandia, usamos y fuera de código abierto. Esto redujo aún más la lista corta a tres: Weka [1],
información de admisiones, como instituto académico y GPA, Orange [3] y Yale [4].

1 Nguyen Thai Nghe, anteriormente estudiante de maestría, AIT, Tailandia, y actualmente profesor, Universidad Can Tho, Vietnam, ntnghe@cit.ctu.edu.vn.
2 Paul Janecek, profesor asistente, AIT, Tailandia, paul_janecek@ait.ac.th
3 Peter Haddawy, profesor, AIT, Tailandia, haddawy@ait.ac.th

1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI


37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-7
Sesión T2G
Funcionalmente, Weka y Yale admiten una gama más amplia de algoritmos TABLA I
CTUATRIBUTOS, INFORMACIÓN GRAMOAIN, Y RELATIVO CONTRIBUCIÓN
que Orange y tienen mejores herramientas de preparación de datos.
# Atributo # Valores Información Rel
Finalmente, decidimos utilizar Weka en función de su compatibilidad con
Val Ganar Ganar
conjuntos de datos muy grandes. 1 CGPA Año2 4 {Fallido, Regular, Bueno, Muy Bueno} 0,425 44,4%
2 Habilidad en inglés 4 {A, B, C, N} 0,207 21,6%
II. Preparando los datos 3 Campo de estudio 18 {Contabilidad- Finanzas,…} 0,081 8,4%
4 Profesorado 7 {Agricultura,…} 0,067 7,0%
El siguiente paso fue recopilar, analizar y preparar los datos
5 Género 2 {M, F} 0,064 6,7%
históricos de los registros académicos de los dos institutos. Marca de entrada {5.0-11.0, 11.5-14.0, 14.5-
Para CTU, pudimos recopilar 20,492 registros completos de 6 Rango 4 18.0, 18.5-30.0} 0,043 4,5%
estudiantes admitidos de 1995 a 2002. Para el AIT, pudimos 7 Rango de edad 4 {15-17, 18, 19, 20-40} 0,020 2,1%
8 Prioridad política 2 {Sí, No} 0,012 1,2%
recopilar 936 registros completos de estudiantes admitidos de
9 Prioridad de área 2 {Sí No} 0,011 1,1%
2003 a 2005. La Figura 1 muestra una distribución de los datos 10 Instituto Rango 10 {1, 2,…, 10} 0,011 1,1%
que Me gusta predecir: el GPA real del estudiante al final de los {AnGiang, BenTre, CaMau-
3rd año de pregrado en CTU, y al final del 1S t año de posgrado BL, CanTho, DongThap,
HauGiang, KienGiang,
en AIT. Los colores { , , , }
SocTrang, TienGiang,
en la figura representan las clases {fallar, regular, bueno, muy bueno}. 11 Provincia 11 VinhLong, Otros} 0,010 1,0%
{Acuicultura, Negocio,
Empleado, Granjero, Jardinero,
CTU AIT
12 Trabajo familiar 7 Trabajador, Otros} 0,007 0,7%
13 Étnico 2 {KINH, OTROS} 0,000 0,0%
14 Religión 2 {No si} 0,000 0,0%

TABLA II
FIGURA 1 AIT ATRIBUTOS, INFORMACIÓN GRAMOAIN, Y RELATIVO CONTRIBUCIÓN
DATRIBUCIÓN DE ACTUAL GPA POR CTU (IZQUIERDA) Y AIT (DERECHA) # Atributo # Valores Información Rel
Val Ganar Ganar
En la fase de preparación de datos, seleccionamos los atributos 1 Rango del Instituto 10 {1, 2,…, 10} 0,046 24,5%
relevantes de los datos disponibles, creamos grupos significativos {Bangladesh, Camboya,
dentro de los atributos y derivamos nuevos atributos de nuestro India, Indonesia, Laos,
Myanmar, Nepal, Pakistán,
conocimiento del dominio. Las Tablas I y II muestran resúmenes de los República Popular China, SriLanka,
principales atributos de los conjuntos de datos de CTU y AIT, y la 2 País 13 Tailandia, Vietnam, otros} 0,035 18,9%
“Ganancia de información” de cada atributo para predecir el 3 GPA de entrada 4 {2.0-3.0, 3.0-3.3, 3.3-4.0} 0,019 10,2%
rendimiento académico. La ganancia de información con respecto a un inglés
4 Competencia 4 {TOEFL, Certificado, Otro, No} 0.017… 9,3%
conjunto de ejemplos es la reducción esperada en la entropía que 5 Donante 8 proveedores de becas… 0.016 8.5%
resulta de dividir un conjunto de ejemplos usando los valores de ese 6 FOS actual 10 {Grupo de TIC,…, Otros} 0,011 6,1%
atributo. Esta medida se utiliza en la inducción del árbol de decisión y 7 FOS anterior 8 {Grupo de TI,…, otros} 0,008 4,3%
es útil para identificar aquellos atributos que tienen la mayor influencia Actual {Ingeniería, Recursos y Desarrollo,
8 Colegio 3 Gestión} 0,008 4,3%
en la clasificación. {Fellowship, Scholarship, Self-Support,
Para el conjunto de datos de CTU que se muestra en la Tabla I, los dos 9 Categoría de fondo 4 Others} 0,007 3,8%
atributos con la mayor ganancia de información son el Promedio de calificaciones 10 Estado civil 2 {Casado, Soltero} 0,006 3,4%
acumulado para los 2Dakota del Norte año (CGPA2), y Habilidad en inglés. Nacional Bruto
11 Ingresos 3 {Inferior, Medio, Superior} 0,006 3,2%
El entorno social y de enseñanza en CTU es completamente en 12 Rango de edad 4 {20-24, 25-26, 27-30, 31-50} 0,005 2,9%
vietnamita, pero una posible explicación de la importancia del 13 Género 2 {M, F} 0,001 0,4%
inglés para predecir el rendimiento académico es la mayor 14 TOEFL 3 {500-550, 551, 590, 591-677}
accesibilidad de la información en inglés en Internet.
Para el conjunto de datos AIT que se muestra en la Tabla II, el Para compensar estas diferencias entre los institutos, obtuvimos
atributo con la mayor ganancia de información es el rango del un "rango" para cada instituto en una escala del 1 al 10. Primero,
instituto, que es un atributo derivado. Un problema particularmente asumimos que, en promedio, las calificaciones que los estudiantes
desafiante en la preparación de los datos de AIT fue cómo comparar reciben al graduarse de nuestro instituto deben ser las mismas que las
los promedios de calificaciones (GPA) de los estudiantes de 329 calificaciones. recibieron en su instituto anterior. Calculamos la
institutos y más de 40 países diferentes. Este problema tiene dos diferencia promedio de cada instituto a partir de este supuesto
partes. Primero, los institutos tienen diferentes escalas de calificación utilizando la siguiente ecuación:
(p. Ej., [0-10], [1-5], [0% -100%], [0-4]), que convertimos a la escala 4.0
que se usa comúnmente en América del Norte. . Segundo y más DiferenciaInstituto = AVGInstituto (GPAGraduación -GPAEntrada ) (1)
desafiante, cada instituto tiene una política de distribución de
calificaciones diferente, lo que dificulta equiparar el mismo GPA de Luego derivamos un "rango" para cada instituto
diferentes institutos. Por ejemplo, los graduados con GPA altos de normalizando el rango resultante de diferencias entre
algunos institutos se gradúan constantemente con GPA más bajos institutos y escalando de 1 a 10. La distribución resultante de
de nuestro instituto. Rango del Instituto para CTU y AIT se muestra en la Figura 2. El
1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI
37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-8
Sesión T2G
La distribución de la izquierda ya se ha redondeado al valor de rango y El rango de la distribución continua que se muestra en la primera
la distribución de la derecha sigue siendo continua. Los colores fila de la Tabla III es de 2.0 a 4.0, con el mayor número de estudiantes
corresponden a las clases en la Figura 1. Por ejemplo, azul indica en 3.0. La solución de 4 categorías divide el rango en grupos {Fall,
aquellos estudiantes que tendrán una calificación reprobatoria, rojo Regular, Good, Very Good} (es decir, {C, C +, B, B + / A} o {2.0-2.5,
indica aquellos con una calificación regular, etc. Es importante notar 2.5-3.0, 3.0-3.5, 3.5- 4.0}), y da como resultado una precisión
que este rango refleja diferencias en las políticas de calificación, no ligeramente menor para la predicción. La tercera solución agrupó el
necesariamente diferencias en la calidad de la educación. 2.0-3.0 estudiantes en un solo grupo, con resultados ligeramente
mejores, pero aún más bajos que la distribución continua. La cuarta
CTU AIT solución divide a los estudiantes en 3,3 en lugar de 3,5, lo que da como
resultado tres grupos de tamaño similar y una precisión un 1,3% más
alta para la predicción que con la distribución continua.
Analizamos cada atributo para determinar si agrupar los
datos mejoraría la precisión y encontramos ligeras mejoras (<1%)
FIGURA 2 en el conjunto de datos de CTU para Religión, marca de entrada,
DATRIBUCIÓN DE INSTITUCIÓN RANQUILLOS PARA CTU (IZQUIERDA) Y AIT (DERECHA)
prioridad de área, prioridad de política. Probamos varias divisiones
Como se muestra en la Tabla II, la derivada Rango del Instituto El atributo de Dominio del Inglés y TOEFL puntuación, pero no llevaron a
tuvo la mayor ganancia de información para el conjunto de datos AIT y mejoras sobre la clasificación básica de {TOEFL, Certificado, Otro -
proporcionó 2.5 veces más ganancia de información que el GPA de entrada Sí, No}. Los resultados finales de las clasificaciones son los valores
para predecir el desempeño de los estudiantes. Rango del Instituto fue mucho menos que se muestran en las Tablas I y II.
importante para el conjunto de datos CTU que para el conjunto de datos AIT,
IV. Ajuste de los parámetros de los algoritmos
posiblemente porque CTU utiliza una prueba estandarizada, Marca de entrada,
en vez de GPA de entrada. Comparamos tres de los algoritmos de predicción proporcionados
por Weka: el árbol de decisión J48, el árbol modelo M5P y la red
III. Modelado del problema de predicción del rendimiento académico
bayesiana BayesNet. En esta sección describimos la configuración
El siguiente paso en el problema de predicción del rendimiento de estos algoritmos para nuestros experimentos.
académico fue construir y evaluar modelos con los algoritmos Decision El algoritmo J48 Decision Tree en Weka está disponible en
Tree y Bayesian Network disponibles en la herramienta de minería de la clase Java “weka.classifiers.trees.J48”. Esta clase genera un
datos de Weka. Usando estos modelos, “ajustamos” los atributos de árbol de decisión C4.5 podado o no podado, y tiene los
entrada de los conjuntos de datos subdividiendo el rango de valores en siguientes tres parámetros principales (ver Tabla IV):
nuevas clases y evaluando los cambios en la precisión de la predicción. • trustFactor: El factor de confianza utilizado para la poda (los
En algunos casos, esto condujo a mejoras significativas en la precisión. valores más pequeños incurren en más poda)
Por ejemplo, experimentamos con varias divisiones del atributo • minNumObj: El número mínimo de instancias por hoja.
continuoGPA de entrada como se muestra en la Tabla III.

• Sin podar: Tanto si se realiza la poda como si no.


TABLA III
TUNIENDO LOS VALORES DEL "MINTRY GPA ” ATRIBUTO PARA EL AIT
TABLA IV
%Correcto - PAGARAMETRO VALUES PARA EL DECISIÓN TREE
Solución Distribución de datos
4 clases
Valores predichos: Parámetros CTU AIT
Clases de GPA

Continuo factor de confianza 0,25 0,25


4:
58,95%
[2.0…. 4.0] {Fall, Fair, Good, minNumObj 2 3
Muy bien}
Sin podar Falso Falso

factor de confianza 0,25 0,25


3:
{ Fallar,
{Fallo, bueno, minNumObj 2 3
Justa,
57,08% Muy bien}
Bien, Sin podar Falso Falso
Muy bien} 0,25 0,25
factor de confianza
2:
minNumObj 2 7
{Reprobar}
Sin podar Falso Cierto
{ Advertencia,
Bien, 58,22%
Muy bien}
El algoritmo M5P Model Tree en WEKA está disponible en la
clase Java “weka.classifiers.trees.M5P”. Los dos parámetros
principales se describen a continuación (ver Tabla V):
{2.0-3.0, • buildRegressionTree: Si es True, el algoritmo crea un árbol
3,0-3,3, 60,27%
de regresión en lugar de un árbol modelo.
3.3-4.0}
• minNumInstances: El número mínimo de
instancias para permitir en un nodo hoja.

1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI


37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-9
Sesión T2G
TABLA V {Reprobar} BN 89,75% 90,27% 90,91% 88,57%
PAGARAMETRO VALUES PARA EL METROODEL TREE TABLA VIII
Valores predichos: Parámetros CTU AIT DECISIÓN TREE CONFUSION METROATRIX, CTUCPlaza bursátil norteamericana STUDY, 4 CLASSES
Clases de GPA
Clase prevista (CTU)
construirRegresiónÁrbol Falso Datos originales Datos re-muestreados
Numérico
Real Muy Muy
minNumInstances 4
Clase Fallar Justa Bien bien Fallar Justa Bien Bien
Fallar 534 890 134 7 849 543 169 4
El algoritmo de Red Bayesiana en Weka está disponible en la
Justa 360 3499 1888 12 336 3757 1609 23
clase Java "weka.classifiers.bayes.BayesNet", y tiene los siguientes
Bien 30 1519 7701515 83 1093 8214 407
dos parámetros principales (ver Tabla VI):
Muy
• Estimador: El algoritmo utilizado para encontrar las tablas de Bien
1 15 1135 1290 6 32 977 1428

probabilidad condicional. SimpleEstimator estima las % Pegar 34% 61% 79% 53% 55% 66% 84% 58%
probabilidades directamente a partir de los datos.
• Algoritmo de búsqueda: El método utilizado para buscar TABLA IX
DECISIÓN TREE CONFUSION METROATRIX, AIT CPlaza bursátil norteamericana STUDY, 4 CLASSES
las estructuras de la red.
Clase prevista (AIT)
TABLA VI Datos originales Datos re-muestreados

PAGARAMETRO VALUES PARA EL BAYESIANO norteETWORK Real Muy Muy


Clase Advertir Justa Bien Bien Fallar Justa Bien Bien
Valores predichos: Parámetros CTU AIT
Clases de GPA Fallar 0 1 14 6 4 1 12 1

Estimador SimpleEstimator Justa 0 1 43 10 1 18 17 14


4, 3 y 2
Algoritmo de búsqueda Montañismo Bien 1 1 247 130 7 10 222 119
Muy
1 9 129 344 3 11 79 417
RESULTADOS Y ANÁLISIS Bien
% Pegar 0% 2% sesenta y cinco% 71% 22% 36% 62% 82%
Un resumen de los resultados de las predicciones de CTU y AIT
El uso de los algoritmos de árbol de decisión (DT) y red bayesiana TABLA X
(BN) se muestra en la Tabla VII. Las tablas VIII a XII muestran los DECISIÓN TREE CONFUSION METROATRIX, CTUCPlaza bursátil norteamericana STUDY, 3 CLASSES

resultados detallados de las predicciones del árbol de decisión Clase prevista (CTU)

para cada 4, 3 y 2 clases. La predicción de CTU es para el CGPA de Datos originales Datos re-muestreados

estudiantes de pregrado al final de sus 3rd año dado datos desde el Real Muy Muy
Fallar Bien Fallar Bien
Clase Bien Bien
final de su 2Dakota del Norte año, y la predicción de AIT es para
Fallar 468 1090 7 579 984 2
estudiantes de maestría al final de su 1S t año dada su información
Bien 312 14707 505 177 14985 360
de admisiones. La precisión de la predicción se evalúa mediante la
Muy bien 0 1174 1267 3 1117 1323
validación cruzada con 10 pliegues. Los resultados para CTU y AIT
en las Tablas VII a XII se muestran tanto con los datos originales % Pegar 30% 95% 52% 37% 97% 54%

como con los datos remuestreados. El propósito y la técnica del


TABLA XI
remuestreo se explica en la siguiente sección. DECIS ION TREE CONFUSION METROATRIX, AIT CPlaza bursátil norteamericana ST UDY, 3 CLAS SES
Clase prevista (AIT)
Los resultados resumidos de la Tabla VII muestran que las
Datos originales Datos re-muestreados
predicciones para el conjunto de datos de CTU son notablemente más
Real Muy Muy
precisas que para el conjunto de datos de AIT, lo que se espera dado el Fallar Bien Fallar Bien
Clase Bien Bien
número mucho mayor de registros para CTU. Los resultados también 0 15 6 1 13 4
Fallar
muestran que el algoritmo del árbol de decisiones superó sistemáticamente
Bien 1 302 130 2 298 108
al algoritmo de la red bayesiana (por ejemplo, hasta un 12% en el caso de 4
Muy bien 1 150 332 3 110 397
clases).
% Pegar 0% 70% 69% 5% 73% 78%
TABLA VII
COMPARISON DE GPA PREDICCIÓN RESULTADOS PARA CTU Y AIT
TABLA XII
Predicho Algo CTU (20492 registros) AIT (936 registros) DECISIÓN TREE CONFUSION METROATRIX, CTU Y AIT CASES, 2 CLASSES
Clases de GPA %Precisión %Precisión % Precisión% Precisión Clase prevista
Original Remuestreado Original remuestreado Datos de CTU Datos AIT
Datos Datos Datos Datos
Original Re-muestreado Original Re-muestreado
4 clases: DT 66,69% 72,95% 63,25% 70,62% Real
{Fallo, justo, Clase No pasa No pasa No pasa Aprobar Fallar Aprobar Reprobar
Bien, BN 61,32% 60,80% 57,48% 61,54%
Fallar 471 1094 997 568 2 73 32 36
Muy bien}
3 clases: DT 84,18% 86,47% 67,74% 74,36% Aprobar 300 17665 526 17439 13 848 32 836
{Fallo, bueno, 30% 98% 64% 97% 2% 98% 47% 96%
BN 78,57% 78,73% 63,89% 66,13% % Pegar
Muy bien}
2 clases: DT 92,86% 94,03% 91,98% 92,74%

1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI


37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-10
Sesión T2G
I. Nuevo muestreo REXALTADO WORK
Tras una inspección más detallada de los resultados utilizando las matrices
La minería de datos se ha utilizado para muchos propósitos
de confusión en las Tablas VIII a XII, encontramos que había grandes
diferentes en el ámbito académico. Dada la gran cantidad de datos
desequilibrios en las distribuciones de las clases de salida, y que la precisión
recopilados en las instituciones académicas, [6] propone un
en las clases más pequeñas era mucho menor que la precisión en las clases
modelo con diferentes tipos de preguntas relacionadas con la
más grandes. Por ejemplo, el número de estudiantes que se pronostica que
educación y las técnicas de minería de datos adecuadas para ellas.
fallarán para el conjunto de datos de CTU (ver Tabla VIII, "Datos originales")
Por ejemplo, predecir el desempeño de los estudiantes, agrupar
es casi 15 veces menor que el número que se predice que recibirán "Bueno",
estudiantes similares y asociar tipos de estudiantes con cursos
y las precisiones para estas dos clases son del 34% y 79%, respectivamente.
apropiados. En [5] se da un ejemplo de un estudio de caso
Las precisiones de predicción para las clases más pequeñas (es decir,
específico de agrupación de estudiantes con características
minoritarias) son consistentemente más bajas para ambos conjuntos de
similares (como "iniciadores" y "alta interacción").
datos y para todas las clases.
Comparamos nuestra investigación con dos ejemplos de investigación que
Para compensar este problema, usamos el remuestrear también intentan predecir el desempeño de los estudiantes [7,8] en la Tabla
función en Weka, que sobremuestrea la clase minoritaria y submuestra
XIII. Podemos ver que el tamaño de nuestro conjunto de datos era
la clase mayoritaria para crear una distribución más equilibrada para
mucho mayor que en estos estudios anteriores. Nuestros resultados
entrenar los algoritmos. La Tabla VII muestra la precisión de las
generales en la predicción de 3 clases fueron un poco más precisos
predicciones cuando se entrena con los conjuntos de datos originales y
que [8] con el caso AIT, y más de un 14% más precisos con el caso CTU.
re-muestreados. Las predicciones que utilizan el conjunto de datos re-
En la predicción de 2 clases, [8] se desempeñó un 3-4% mejor. Sin
muestreados son significativamente más precisas.
embargo, dado que los conjuntos de datos son completamente
II. Análisis detallado de distribuciones con matrices de confusión diferentes en tamaño y número de atributos, esta comparación es
principalmente para dar una apreciación de los diferentes enfoques al
Las matrices de confusión para la predicción en 4, 3 y 2 clases (Tablas problema de predecir el desempeño de los estudiantes y la precisión
VIII a XII) muestran los cambios en las distribuciones de los valores típica.
predichos y reales tanto para los datos originales como para los
TABLA XIII
reemuestreados. La precisión de la predicción con los conjuntos de
COMPARISON CON REXALTADO WORK
datos reemuestreados mejora significativamente cuando los datos
Esta investigación Investigación previa
originales tienen un tamaño de muestra mucho más pequeño (para Criterios
CTU AIT [7] [8]
obtener una descripción general de los valores reales, consulte los Matemáticas /
Predicción Calificación final de
histogramas en la Figura 1). Por ejemplo, el nuevo muestreo mejoró la GPA del estudiante inglés
Problema Curso de física
rendimiento
precisión de la predicción de qué estudiantes fallarían del 34% al 55%
Tipo de estudiante Graduado universitario Escuela secundaria De licenciatura
en el caso de la CTU (Tabla VIII) y del 0% al 22% en el caso de AIT (Tabla Conjunto de datos 20,492 936 514 261
IX) usando el Árbol de decisiones algoritmo. De manera similar, la Número de
15 15 8 -
precisión de la predicción de 2 clases para estudiantes reprobados atributos
• 4 clases • 9 clases
aumentó de 30% a 64% para el caso de CTU y de 2% a 47% para el caso
(Fallo, Regular, Bueno, Muy (0.0, .., 4.0)
de AIT (Tabla XII). • 3 clases
Predecir bueno), • 3 clases
(Debajo,
La Tabla VII muestra que las precisiones más altas se logran en el atributo • 3 clases (Alto, Medio,
Satisfactorio,
caso de 2 clases. Sin embargo, esto es en gran parte un producto del valores (Falla, Bien, Muy Bien), Bajo)
Encima)
• 2 clases (suspenso, • 2 clases (falla,
pequeño porcentaje de estudiantes que caen en elFallar clase
aprobado), GPA numérico Aprobar)
comparada con la Aprobar clase. Una inspección cuidadosa de las Árbol de decisión / modelo Bayesiano Genético
Técnicas
distribuciones en las matrices de confusión revela que las precisiones Árbol La red Algoritmo
más altas siempre se logran para las clases más grandes, que es laBien Precisión
62,88%
porcentaje 72,95% 70,62%
estudiantes en CTU (pregrado) y el Muy bien (9 clases)
(4 clases)
estudiantes de la AIT (posgrado). (3 clases) 86,47% 74,36% 64% 72,52%
El caso de 3 clases es más exacto en general que el caso (2 clases) 94,03% 92,74% 96,93%
de 4 clases (como se muestra en la Tabla VII), pero menos Tipo de sistema Basado en web Solicitud Solicitud
exacto en la predicción del Fallar y Muy bien clases que son Plataforma Weka BNJ, Weka MATLAB

más útiles para el contexto académico (como se muestra en


DISCUSIÓN Y CONCLUSIONES
C
las Tablas VIII a XI). El caso de 2 clases fue el más preciso para
predecirFallar para ambos conjuntos de datos (CTU, 64% y AIT, Las predicciones del desempeño de los estudiantes pueden ser útiles en
47%), y el caso de 4 clases fue el más preciso para predecir muchos contextos. Para las admisiones, es importante poder identificar a
Muy bien para ambos conjuntos de datos (CTU, 58% y AIT, 82%). La precisión los estudiantes excelentes para la asignación de becas y becas, así como a
de estos resultados es ciertamente suficiente para orientar a los tomadores aquellos estudiantes que es poco probable que se gradúen. Esta tarea es
de decisiones en la asignación de sus recursos limitados. extremadamente difícil con los estudiantes internacionales, que provienen
de instituciones con diversos sistemas de calificación y tienen antecedentes
con los que los profesores y el personal a menudo no están familiarizados.
La precisión general de la predicción de nuestro análisis fue del 86%

1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI


37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-11
Sesión T2G
(CTU) y 74% (AIT) para la predicción de 3 clases. En el caso de las en Actas de la 32a Conferencia Internacional Anual de
Hawaii sobre Ciencias de Sistemas, IEEE, 1999.
decisiones de admisión para el AIT, la precisión para predecir
estudiantes excelentes (es decir, B + / A) fue tan alta como 82%, y la [3] Orange, Universidad de Ljubljana, Eslovenia,
precisión para identificar estudiantes que probablemente reprobarían http://www.ailab.si/orange

fue 47%. Por lo tanto, si bien el sistema es confiable para [4] Yale, Rapid-I, http://rapid-i.com/
Al identificar a estudiantes excelentes para el AIT, tendremos que seguir
[5] Luan, J., Zhao, C.-M. y Hayek, J., "Explorando una nueva frontera en la investigación de la
trabajando en el problema de clasificación para identificar a los estudiantes educación superior: un análisis de estudio de caso sobre el uso de técnicas de minería de
que tienen más probabilidades de reprobar. datos para crear una tipología institucional NSSE", Papel

Hemos implementado e implementado este sistema como una presentado en la Asociación de California para la Investigación Institucional,
Anaheim, California, 17-19 de noviembre de 2004.
aplicación basada en la web para los profesores de la AIT. Aunque
Weka no fue diseñado para ejecutarse en la web, como una aplicación [6] Delavari N. & Beikzadeh M. R & Shirazi MRA, "Un nuevo modelo para el
uso de la minería de datos en el sistema educativo superior", en
de código abierto, pudimos extraer las clases necesarias y envolverlas
Actas de la 5a Conferencia Internacional sobre Educación Superior y
en una interfaz basada en web. Formación Basada en Tecnología de la Información (ITHET),
Estambul, Turquía, 31 de mayo al 2 de junio de 2004.
AAGRADECIMIENTO
[7] Bekele, R. y Menzel, W., “Un enfoque bayesiano para predecir el
Esta investigación se realizó como parte de la tesis de maestría desempeño de un estudiante (BAPPS): un caso con etíopes
estudiantes "en Actas de la Conferencia Internacional sobre
del primer autor y fue financiada por una beca del Ministerio
Inteligencia Artificial y Aplicaciones (AIA-2005), Viena,
de Educación de Vietnam. Austria, 2005.

REFERENCIAS [8] Minaei-Bidgoli, B., Kashy, DA, Kortemeyer, G. y Punch,


W. F, "Predicción del rendimiento de los estudiantes: una aplicación de métodos de
[1] Weka, Universidad de Waikato, Nueva Zelanda, minería de datos con un sistema educativo basado en la web", en
http://www.cs.waikato.ac.nz/ml/weka/ Actas de la 33a Conferencia Anual sobre Fronteras en la Educación
(FIE 2003), volumen 1, 2003, páginas 13–18.
[2] Collier, K., Carey, B., Sautter, D. y Marjaniemi, C., "Una metodología
para evaluar y seleccionar software de minería de datos",

1-4244-1084-3 / 07 / $ 25.00 © 2007 IEEE 10 al 13 de octubre de 2007, Milwaukee, WI


37th Conferencia de Fronteras en Educación de ASEE / IEEE
T2G-12

También podría gustarte