Está en la página 1de 5

View metadata, citation and similar papers at core.ac.

uk brought to you by CORE


provided by Servicio de Difusión de la Creación Intelectual

Modelos predictivos y técnicas de minería de datos para la identificación


de factores asociados al rendimiento académico de alumnos universitarios
Porcel, Eduardo; Dapozo, Gladys; López, María V.
Departamento de Informática. Facultad de Ciencias Exactas y Naturales y Agrimensura
Universidad Nacional del Nordeste. 9 de Julio Nº 1449. CP 3400. Corrientes. Argentina.
TE: (03783) 423126 - (03783) 473930 Fax)
{gndapozo, eporcel, mvlopez}@exa.unne.edu.ar

CONTEXTO académico del alumno a priori con sólo disponer de


la información de los mismos referida a sus
Las líneas de I/D presentadas en este trabajo forman
condiciones iniciales (socioeconómicas y/o de
parte de las actividades definidas en el marco del
conocimientos matemáticos previos), detectar con
proyecto F008-2008: “Rendimiento Académico de
anticipación cuáles son las acciones pertinentes para
alumnos de la FACENA – UNNE: Su análisis
contribuir a que los estudiantes superen los
mediante métodos cuantitativos”, acreditado por la
obstáculos que actualmente les impide avanzar en
Secretaría General de Ciencia y Técnica de la
sus estudios y finalizarlos en menos tiempo que el
Universidad Nacional del Nordeste. El mencionado
que hoy día emplean.
proyecto tiene como objetivo fundamental construir
modelos predictivos del rendimiento académico de
RESUMEN
los alumnos de las carreras de la Facultad de
Ciencias Exactas y Naturales y Agrimensura Este proyecto tiene por objetivo construir modelos
(FACENA). A tal fin, puede ser considerado una predictivos del rendimiento académico de los
extensión del proyecto de investigación (PI 005/06) estudiantes de las diversas carreras de la FACENA
anteriormente desarrollado por el mismo grupo de de la UNNE. Las variables a incorporar en los
investigación. modelos serán seleccionadas de acuerdo a los
resultados obtenidos a partir de los siguientes
Los resultados obtenidos en el mencionado proyecto,
análisis: a) Resultados del test de diagnóstico de
han permitido determinar, principalmente, la
conocimientos matemáticos previos; b) Condiciones
estrecha vinculación que existe entre el rendimiento
socioeconómicas de los alumnos de las distintas
académico de los alumnos del primer año de todas
carreras y datos obtenidos de encuesta directa a los
las carreras con el nivel de conocimientos
alumnos de primer año. Para la formulación y
matemáticos previos y con las condiciones
ajustes de los modelos de predicción, se utilizarán
socioeconómicas de los mismos. Así también, para
alternativamente, técnicas de minería de datos
las carreras de formación docente y licenciaturas en
clásicas y métodos simbólicos o inteligentes,
ciencias básicas, se pudo observar que el escaso
evaluando su desempeño en la predicción del
nivel de avance en los estudios y las prolongadas
rendimiento académico de los alumnos. Los
estadías de estos alumnos en el sistema guardan
resultados obtenidos a partir del desarrollo de este
relación con la estructura curricular,
proyecto, constituirán un aporte significativo para
fundamentalmente con el ordenamiento de los
los procesos de evaluación y acreditación
contenidos de enseñanza (correlatividades).
universitarios, considerando que la reflexión sobre
Sin embargo, por la permanente mutación que sufren todos los elementos proporcionados por el análisis
los factores mencionados (fluctuaciones en las del rendimiento del alumnado contribuirá a la
condiciones sociales y económicas de los alumnos, mejora de la calidad del sistema educativo.
desarrollo de programas de mejora de la calidad de
la enseñanza en los niveles educativos previos, Palabras clave: Rendimiento académico. Educación
reformas de los planes de estudios, entre otros), es Superior. Minería de datos. Métodos simbólicos.
factible pensar que las variables correspondientes a Métodos estadísticos.
estas dimensiones, no permanezcan estables con el
devenir del tiempo y, por lo tanto puedan ser 1. INTRODUCCION
reconstruidas las relaciones y tipologías obtenidas.
A partir de la década del ‘80 surge en las
De acuerdo a lo expresado anteriormente, en las
universidades de todo el mundo la preocupación por
líneas de investigación presentadas en este trabajo, la calidad del servicio educativo que prestan. Esto
se ha puesto énfasis en la construcción de modelos dio lugar a procesos de evaluación a fin de detectar
matemáticos que permitan predecir el rendimiento
las debilidades y fortalezas institucionales y generar
académico futuro de los estudiantes, tomando como
acciones correctivas de las deficiencias encontradas.
base la información de las cohortes 2001 – 2008.
En nuestro país, en la década del ’90, el Estado
Esta predicción permitirá conocer el rendimiento
Nacional incluye en su agenda de política educativa
la evaluación de la calidad del accionar forma parte. En una mirada contextualizada, el
universitario, y la mayoría de las universidades rendimiento académico es el producto de
nacionales inician procesos de evaluación condiciones institucionales (diseño curricular,
institucional. práctica docente, valores y concepciones
En 1996, se conocen los primeros resultados institucionales, etc.), socioeconómicas (situación
referidos al rendimiento académico de los laboral, estado civil, nivel educativo del grupo
estudiantes de las trece carreras que por entonces familiar, entre otras) e individuales (formación
podían cursarse en la FACENA. Dicha información previa, hábitos de estudios, etc.) de los estudiantes.
hace referencia a elevados índices de Para la construcción de modelos de predicción
desgranamiento en todos los años de estudios pero, del rendimiento académico de los estudiantes, se
fundamentalmente, al término del primer utilizará información referida a la situación
cuatrimestre del primer año de estudios. Asimismo, socioeconómica y el desempeño académico en el
da cuentas de que el retraso promedio en el egreso período 2001- 2008 de los estudiantes de las
de todas las carreras alcanza al 50% de la duración diversas carreras de FACENA. Para el análisis de
teórica de las mismas, llegando en algunas a esta información se utilizarán técnicas de minería
superarlo. de datos.
Ahora bien, ¿a qué se hace referencia con el término La minería de datos se define como el proceso de
rendimiento académico? extraer conocimiento útil y comprensible,
El rendimiento académico es un claro indicador del previamente desconocido, desde grandes cantidades
avance exitoso en la carrera de estudios de algún de datos almacenados en diferentes formatos. El
alumno en un momento particular, y a su vez objetivo es encontrar modelos inteligibles a partir de
también es un pronosticador de la posibilidad de los datos, descubrir patrones cuya utilización apoye
completar exitosamente dicha carrera de estudios. decisiones que reporten beneficios a la organización
El término "rendimiento" tiene muchas implicancias, (Hernández Orallo et al, 2004).
principalmente si se considera a las notas obtenidas
Para cumplir sus objetivos, son dos los retos de la
por los alumnos como el referente casi exclusivo.
minería de datos: por un lado, trabajar con grandes
Esta información puede generar, incluso una lectura
volúmenes de datos, que proceden generalmente de
ingenua, que centra sólo la responsabilidad
sistemas de información, con los problemas que ello
académica en el alumno. Sin embargo, la
conlleva (ruido, datos ausentes, intratabilidad,
responsabilidad institucional es clave para evaluar lo
volatilidad de los datos, etc.), y por el otro, usar
que se entiende por rendimiento. Más allá de las
técnicas adecuadas para analizar los mismos y
condiciones internas a las instituciones y de las
extraer conocimiento novedoso y útil. En muchos
prácticas docentes, resulta imprescindible también
caso, la utilidad del conocimiento extraído está
conocer las características que aportan quienes son
relacionada con la comprensibilidad del modelo
los receptores de la labor docente. Esta información
inferido (Hernández Orallo et al, 2004).
puede contribuir a estimar algunas de las razones
que inciden en el rendimiento y la deserción de los Esta tecnología emergente combina el análisis
alumnos universitarios (Toer, 2000). estadísticos y la gestión de las bases de datos para
Debe tenerse en cuenta que se trata de un constructo extraer información desde los datos, y se presenta
teórico complejo y multidimensional, atravesado y como un campo multidisciplinar que se ha
determinado por múltiples factores sociales, desarrollado en paralelo o como prolongación de
económicos, históricos, institucionales e otras tecnologías (Thuraisingham, 2000).
individuales. Por tal motivo el rendimiento Las técnicas que conforman el campo de la Minería
académico ha sido representado de diferentes de Datos buscan descubrir, en forma automática, el
maneras en los diversos estudios que han abordado conocimiento contenido en la información
el tema. En algunos, está representado sólo por el almacenada en las bases de datos de las
número de materias aprobadas por un alumno en una organizaciones. Por medio del análisis de datos, se
carrera, en otros por los resultados de tests pretende descubrir patrones, perfiles y tendencias.
específicamente diseñados o el promedio de notas de Es importante que estas técnicas sean las adecuadas
las asignaturas cursadas. Esta variedad de al problema abordado. En este sentido, se pueden
interpretaciones del concepto de rendimiento establecen dos grandes grupos de técnicas ó métodos
académico está ligada a las particularidades de las analíticos: los métodos simbólicos y los métodos
investigaciones en cuestión, principalmente al estadísticos (Britos, 2005).
momento histórico en que se realiza la investigación Entre los métodos simbólicos se incluyen a las
y las concepciones de quienes llevan a cabo y Redes Neuronales, Algoritmos Genéticos, Reglas de
financian la misma. Restringir el concepto a uno Asociación, Lógica Difusa, entre otros. Estos
solo de estos indicadores, supone una postura derivan del campo de la Inteligencia Artificial.
ingenua y hasta simplista de lo que el acto educativo
Los métodos estadísticos están constituidos por las
significa, pues equivale a descontextualizarlo,
técnicas del Análisis Multivariante de Datos, tales
aislándolo de la realidad social e histórica de la que
como Regresión Lineal simple y Múltiple, Regresión
No Lineal, Regresión Logística, Análisis problemas que mezclan datos categóricos y
Discriminante, Árboles de Regresión, entre otras. numéricos.
Las técnicas de esta categoría, de alguna manera, Básicamente, un árbol de decisión es un árbol donde
constituyen la piedra basal de la Minería de Datos cada nodo representa una condición o test sobre
(Britos, 2005). algún atributo y cada rama que parte de ese nodo
En este estudio se utilizarán las siguientes corresponde a un posible valor para ese atributo.
metodologías para analizar las variables Finalmente, las hojas representan el valor de la
socioeconómicas relacionadas con el rendimiento variable predicha. Esta técnica se usa en tareas de
académico: La Regresión Logística, los Arboles clasificación, agrupamiento y regresión. Los árboles
de Decisión y las Redes Neuronales. de decisión que se usan para predecir variables
categóricas se llaman árboles de clasificación,
El modelo de Regresión Logística es un método
mientras que los árboles de decisión que se utilizan
lineal que intenta modelizar la probabilidad de
para predecir variables continuas se llaman árboles
ocurrencia de un evento de interés. La variable
de regresión (Alcover et al, 2007).
dependiente es categórica dicotómica o
Como antecedente de aplicación de la técnica de
policotómica, a los efectos de facilitar la
árboles de regresión aplicado el rendimiento de
interpretación (Britos, 2005).
alumnos universitarios puede mencionarse aBacallao
Es una técnica adecuada cuando se pretende hacer Gallestey et al (2004).
una clasificación basada en las características de los
datos. Una ventaja adicional de esta técnica es que 2. LINEAS DE INVESTIGACION y
no requiere la normalidad estricta de los datos, DESARROLLO
además muchos estudios han evidenciado otras
características que hacen de la regresión logística a) Preprocesamiento de los datos: Actualización
una buena herramienta para la categorización de la base de datos oportunamente diseñada
(García Jiménez et al, 2000). dentro del marco del proyecto PI 005/06, con
los datos socioeconómicos y del estado
Las Redes Neuronales son modelos computacionales
académico de los alumnos de las carreras de
inspirados en las características neurofisiológicas del
FACENA a diciembre de 2008, a fin de
cerebro humano y están formadas por un gran
proveer la información que constituye el soporte
número de neuronas dispuestas en varias capas e
de las actividades del proyecto. Esto implica
interconectadas entre sí mediante conexiones con
incorporar los datos del estado académico de los
pesos. Una neurona sobre un conjunto de nodos N es
alumnos, que provee el Departamento Estudios
una tripleta (X, f, Y), donde X es un subconjunto de
de la FACENA, y los datos que surgen del
N, Y es un único nodo de N y f es una función
formulario de ingreso que completan los
neuronal que calcula un valor de salida para Y
alumnos al momento de ingresar a la UNNE.
basado en una combinación de los valores de los
b) Modelado de datos y predicción del
y= f( wi xi ) rendimiento académico en el primer
componentes de X, es decir xi N
. Los cuatrimestre del primer año de estudios en
pesos wi pueden ser positivos o negativos, función del nivel de conocimientos
reproduciendo el carácter excitador o inhibitorio de matemáticos previos de los ingresantes a la
la sinapsis de las neuronas. Las redes neuronales FACENA: Los datos del diagnóstico se
usan un proceso de aprendizaje por analogía donde utilizarán como variables explicativas en un
los pesos de las conexiones son ajustados para modelo que permita predecir el rendimiento de
reproducir un conjunto de datos representativo del los alumnos al finalizar el primer cuatrimestre,
problema a aprender. Las redes neuronales empleando métodos simbólicos y estadísticos.
constituyen herramientas analíticas que permiten c) Formulación y ajuste de modelos para
examinar los datos con el objeto de descubrir y predecir el rendimiento académico de los
modelar las relaciones funcionales existentes entre alumnos en función de las características
las variables. Pueden comportarse como técnicas de socioeconómicas de los mismos, empleando
aproximación o de clasificación universales (Castillo métodos estadísticos y simbólicos. Numerosas
et al, 1999). investigaciones han encontrado vinculación
Como antecedentes de aplicación de la técnica de entre las condiciones socioeconómicas y
redes neuronales en el ámbito de educación pueden personales de un individuo (tales como, edad,
mencionarse los trabajos de González (1999), sexo, lugar de procedencia, etc.), y su
Salgueiro et al (2006), Borracci y Arribalzaga rendimiento académico. Para el análisis de esta
(2005). relación se requiere, previamente, una etapa de
Los árboles de decisión son una serie de decisiones o preprocesamiento de los datos, que comprende
condiciones organizadas de forma jerárquica, a los siguientes pasos: Integración,
modo de árbol. Son muy útiles para encontrar Reconocimiento y Limpieza, Transformación y
estructuras en espacios de alta dimensionalidad y en Reducción. Esta etapa tiene por objeto mejorar
la calidad de los datos, teniendo en cuenta que, alumnos a través de instrumentos diseñados
a lo largo del período de estudio, se ha especialmente.
modificado, en más de una oportunidad, el
Los resultados de la investigación aportarán a un
diseño del formulario de ingreso, situación que
mayor conocimiento de los posibles factores que
exige un análisis detallado para la
inciden en el desempeño de los alumnos. Esta
determinación de equivalencias entre los
información permitirá que, desde la gestión
distintos valores de las variables en estudio.
institucional, se aborden mecanismos correctivos o
Para la construcción y ajuste de los modelos de superadores que contribuyan al mejoramiento de los
predicción del rendimiento académico de los índices de desgranamiento, abandono, bajo
alumnos se utilizarán métodos de minería de datos rendimiento académico y prolongación excesiva de
simbólicos y estadísticos, previéndose realizar un la duración de la carrera, comunes en el ambiente
estudio comparativo entre ambos grupos de aniversario nacional, principalmente notorios en la
metodologías, con el objeto de contrastar el actuación de los alumnos en el primer año de
desempeño y la eficiencia de las mismas en el carrera.
problema de la predicción del rendimiento
Por otra parte, en el marco actual de las
académico de los estudiantes.
universidades nacionales, los procesos de evaluación
y acreditación de títulos se basan en la construcción
3. RESULTADOS OBTENIDOS/ESPERADOS de indicadores que permiten descubrir fortalezas y
debilidades de la formación universitaria, por lo que
Dentro de las líneas de trabajo mencionadas, se han
“reflexionar sobre todos los elementos que la
obtenido los siguientes resultados:
evaluación del rendimiento del alumnado
a) Se han estudiado técnicas de preprocesado de proporciona se convierte en un mecanismo claro
datos para mejorar la calidad de la información para la mejora de la calidad del proceso educativo”
obtenida desde los sistemas de información (Muñoz, 2005).
existentes, y para mantener actualizado un
Finalmente, a nivel de las políticas educativas
repositorio con toda la información
nacionales, la formación en Informática, Ingeniería
sistematizada existente en la unidad académica
y Ciencias Básicas, se considera prioritaria. Se
respecto del desempeño de los alumnos
destinan recursos especiales como becas, planes de
(Dapozo et al, 2007).
tutorías y otras acciones tendientes a promover
b) Se ha analizado el perfil socioeconómico y titulaciones en estas áreas, así como también,
educativo de los alumnos ingresantes de la mejorar el índice de graduados y de retención de
FACENA y su relación con su rendimiento alumnos. Conocer las causas que subyacen en el
académico, medido en términos de su rendimiento académico, permitirá mejorar estas
desempeño en la primera asignatura de iniciativas por el aporte de mayor información.
Matemática, en el primer año de carrera
universitaria, utilizando técnicas clásicas de 4. FORMACION DE RECURSOS HUMANOS
minería de datos (Porcel et al, 2008).
En este proyecto se enfatiza el enfoque
c) Se ha analizado el rendimiento académico de interdisciplinario dado que sus integrantes proceden
los alumnos de las trece carreras de grado de la
de distintas disciplinas: Matemática, Estadística e
FACENA, utilizando indicadores basados en la
Informática. Esto permite un abordaje sistémico de
relación entre el número de exámenes rendidos
los problemas de la investigación, a la vez que se
y el número de asignaturas aprobadas por los complementan y enriquecen las distintas miradas
mismos, estimados mediante regresión lineal disciplinares. Los alumnos en proceso de formación
paramétrica y no paramétrica. Se trazaron
de la Licenciatura en Matemática y la Licenciatura
gráficos de dispersión para cada carrera que
en Sistemas de Información que se suman al
permitieron observar la eficiencia de los
proyecto en calidad de becarios o para la realización
alumnos en los exámenes, y se calculó además
del Trabajo Final de Aplicación, requisito académico
una matriz de correlación de los indicadores. de la carrera de Sistemas, tienen la oportunidad de
(Porcel et al, 2009) aplicar y ampliar sus conocimientos en estas
Como resultados esperados, se espera poder predecir aplicaciones interdisciplinarias que posibilita la
el rendimiento académico de los estudiantes de Minería de Datos.
FACENA, para lo cual se ha planificado la
construcción de modelos cuantitativos predictivos
del desempeño estudiantil en base a la información
disponible sobre las condiciones socioeconómicas de
los estudiantes, a sus conocimientos matemáticos
previos y los datos aportados por los mismos
5. BIBLIOGRAFIA • HERNÁNDEZ ORALLO, J., FERRI
RAMÍREZ, C. y RAMÍREZ QUINTANA M.
• ALCOVER, R., BENLLOCH J., BLESA, P., J. “Introducción a la Minería de Datos”.
CALDUCH, M., CELMA, M., FERRI C., España: Prentice Hall. Pearson Education.
HERNÁNDEZ ORALLO, J., Y OTROS 2004.
“Análisis del rendimiento académico en los • MUÑOZ, S. “Indicadores de rendimiento
estudios de Informática de la Universidad académico del alumnado de la universidad de
Politécnica de Valencia aplicando técnicas de La Laguna. Jornadas sobre Políticas de
Minería de Datos”. XII Jornadas de Enseñanza Calidad en la Universidad de La Laguna”,
Universitaria de la Informática 2007. 2005.
Disponible En
• PORCEL E. A., DAPOZO GLADYS N.,
http://bioinfo.uib.es/~joemiro/aenui/procjenui/j
LÓPEZ M. “Técnicas clásicas de minería de
en2007/alanal.pdf
datos aplicadas al estudio del rendimiento
• BACALLAO GALLESTEY C., PARAPAR académico de alumnos de primer año de
DE LA RISTRA, J., ROQUE GIL M., carreras de la FACENA”. Comunicaciones
BACALLOA GUERRA J. “Arboles de Científicas y Tecnológicas 2008. Universidad
regresión y otras opciones metodológicas Nacional del Nordeste. Corrientes. Argentina.
aplicadas a la predicción del rendimiento 2008.
académico”. Revista Cubana de Educación
• PORCEL, E., LÓPEZ, M. V., DAPOZO, G.,
Médica Superior, vol.18, N°3. 2004.
CAPUTO, L. “Relación entre el número de
Disponible en:
exámenes rendidos y el número de asignaturas
http://bvs.sld.cu/revistas/ems/vol18_3_04/ems
aprobadas como indicador del rendimiento
02304.htm
académico de alumnos universitarios”. XXII
• BORRACCI, R. A., ARRIBALZAGA, E. B. Encuentro Nacional de Docentes de
“Aplicación de análisis de conglomerados y Investigación Operativa (ENDIO). XX
redes neuronales artificiales para la Escuela de Perfeccionamiento en Investigación
clasificación y selección de candidatos a Operativa (EPIO). Buenos Aires. Argentina.
residencias médicas”. Educación Médica, Vol 2009.
8, Nº 1. ISSN 1575-1813. Barcelona. 2005.
• SALGUEIRO, F., COSTA, G., CÁNEPA, S.,
• BRITOS, P. V. “Minería de Datos”. Buenos LAGE,F., KRAUS, G., FIGUEROA, N.,
Aires: Nueva Librería. 2005. CATALDI, Z. “Redes Neuronales para
• CASTILLO, E., COBO, A., GUTIÉRREZ, J. predecir la aptitud del alumno y sugerir
M., PRUNEDA, R. E. “Introducción a las acciones”. VIII Workshop de Investigadores
Redes Funcionales con Aplicaciones. Un en Ciencias de la Computación (WICC 2006).
Nuevo Paradigma Neuronal”. Editorial Buenos Aires. Argentina. 2006.
Paraninfo S.A. Madrid. España. 1999. • THURAISINGHAM, B. “A primer for
• DAPOZO, G., PORCEL, E., LÓPEZ, M. V.; understanding and applying Datamining”. IT
BOGADO, V. “Técnicas de preprocesamiento Professional, 2 (1), 28-31. 2000.
para mejorar la calidad de los datos en un • TOER, M. “El caso de los ingresantes de 1998
estudio de caracterización de ingresantes al Ciclo Básico Común de la Universidad de
universitarios”. IX Workshop de Buenos Aires, para seguir carreras de la
Investigadores en Ciencias de la Computación Universidad de Derecho, Ciencias Económicas
(WICC 2007). Trelew. Chubut. Argentina. y Ciencias Sociales”. Buenos Aires,
2007. Argentina: Instituto de Investigaciones Gino
• GARCÍA JIMÉNEZ, M. V., ALVARADO Germani, FCSoc., Ciclo Básico Común,
IZQUIERDO, J. M. y JIMÉNEZ BLANCO, Universidad de Buenos Aires. 2000.
A. “La predicción del rendimiento académico: Disponible en
regresión lineal versus regresión logística”. http://caraya.cbc.uba.ar/dat/sbe/perfil/perfil.ht
Psicothema, 12 (2), 248-252. 2000. Disponible ml#1.
en
http://redalyc.uaemex.mx/redalyc/pdf/727/727
97059.pdf.
• GONZÁLEZ, D.S. “Detección de alumnos de
riesgo y medición de la eficiencia de centros
escolares mediante redes neuronales”.
Biblioteca de Económicas y Empresariales.
Servicios de Internet. Universidad
Complutense de Madrid. 1999.

También podría gustarte