View metadata, citation and similar papers at core.ac.
uk brought to you by CORE
provided by Servicio de Difusión de la Creación Intelectual
Modelos predictivos y técnicas de minería de datos para la identificación
de factores asociados al rendimiento académico de alumnos universitarios Porcel, Eduardo; Dapozo, Gladys; López, María V. Departamento de Informática. Facultad de Ciencias Exactas y Naturales y Agrimensura Universidad Nacional del Nordeste. 9 de Julio Nº 1449. CP 3400. Corrientes. Argentina. TE: (03783) 423126 - (03783) 473930 Fax) {gndapozo, eporcel, mvlopez}@exa.unne.edu.ar
CONTEXTO académico del alumno a priori con sólo disponer de
la información de los mismos referida a sus Las líneas de I/D presentadas en este trabajo forman condiciones iniciales (socioeconómicas y/o de parte de las actividades definidas en el marco del conocimientos matemáticos previos), detectar con proyecto F008-2008: “Rendimiento Académico de anticipación cuáles son las acciones pertinentes para alumnos de la FACENA – UNNE: Su análisis contribuir a que los estudiantes superen los mediante métodos cuantitativos”, acreditado por la obstáculos que actualmente les impide avanzar en Secretaría General de Ciencia y Técnica de la sus estudios y finalizarlos en menos tiempo que el Universidad Nacional del Nordeste. El mencionado que hoy día emplean. proyecto tiene como objetivo fundamental construir modelos predictivos del rendimiento académico de RESUMEN los alumnos de las carreras de la Facultad de Ciencias Exactas y Naturales y Agrimensura Este proyecto tiene por objetivo construir modelos (FACENA). A tal fin, puede ser considerado una predictivos del rendimiento académico de los extensión del proyecto de investigación (PI 005/06) estudiantes de las diversas carreras de la FACENA anteriormente desarrollado por el mismo grupo de de la UNNE. Las variables a incorporar en los investigación. modelos serán seleccionadas de acuerdo a los resultados obtenidos a partir de los siguientes Los resultados obtenidos en el mencionado proyecto, análisis: a) Resultados del test de diagnóstico de han permitido determinar, principalmente, la conocimientos matemáticos previos; b) Condiciones estrecha vinculación que existe entre el rendimiento socioeconómicas de los alumnos de las distintas académico de los alumnos del primer año de todas carreras y datos obtenidos de encuesta directa a los las carreras con el nivel de conocimientos alumnos de primer año. Para la formulación y matemáticos previos y con las condiciones ajustes de los modelos de predicción, se utilizarán socioeconómicas de los mismos. Así también, para alternativamente, técnicas de minería de datos las carreras de formación docente y licenciaturas en clásicas y métodos simbólicos o inteligentes, ciencias básicas, se pudo observar que el escaso evaluando su desempeño en la predicción del nivel de avance en los estudios y las prolongadas rendimiento académico de los alumnos. Los estadías de estos alumnos en el sistema guardan resultados obtenidos a partir del desarrollo de este relación con la estructura curricular, proyecto, constituirán un aporte significativo para fundamentalmente con el ordenamiento de los los procesos de evaluación y acreditación contenidos de enseñanza (correlatividades). universitarios, considerando que la reflexión sobre Sin embargo, por la permanente mutación que sufren todos los elementos proporcionados por el análisis los factores mencionados (fluctuaciones en las del rendimiento del alumnado contribuirá a la condiciones sociales y económicas de los alumnos, mejora de la calidad del sistema educativo. desarrollo de programas de mejora de la calidad de la enseñanza en los niveles educativos previos, Palabras clave: Rendimiento académico. Educación reformas de los planes de estudios, entre otros), es Superior. Minería de datos. Métodos simbólicos. factible pensar que las variables correspondientes a Métodos estadísticos. estas dimensiones, no permanezcan estables con el devenir del tiempo y, por lo tanto puedan ser 1. INTRODUCCION reconstruidas las relaciones y tipologías obtenidas. A partir de la década del ‘80 surge en las De acuerdo a lo expresado anteriormente, en las universidades de todo el mundo la preocupación por líneas de investigación presentadas en este trabajo, la calidad del servicio educativo que prestan. Esto se ha puesto énfasis en la construcción de modelos dio lugar a procesos de evaluación a fin de detectar matemáticos que permitan predecir el rendimiento las debilidades y fortalezas institucionales y generar académico futuro de los estudiantes, tomando como acciones correctivas de las deficiencias encontradas. base la información de las cohortes 2001 – 2008. En nuestro país, en la década del ’90, el Estado Esta predicción permitirá conocer el rendimiento Nacional incluye en su agenda de política educativa la evaluación de la calidad del accionar forma parte. En una mirada contextualizada, el universitario, y la mayoría de las universidades rendimiento académico es el producto de nacionales inician procesos de evaluación condiciones institucionales (diseño curricular, institucional. práctica docente, valores y concepciones En 1996, se conocen los primeros resultados institucionales, etc.), socioeconómicas (situación referidos al rendimiento académico de los laboral, estado civil, nivel educativo del grupo estudiantes de las trece carreras que por entonces familiar, entre otras) e individuales (formación podían cursarse en la FACENA. Dicha información previa, hábitos de estudios, etc.) de los estudiantes. hace referencia a elevados índices de Para la construcción de modelos de predicción desgranamiento en todos los años de estudios pero, del rendimiento académico de los estudiantes, se fundamentalmente, al término del primer utilizará información referida a la situación cuatrimestre del primer año de estudios. Asimismo, socioeconómica y el desempeño académico en el da cuentas de que el retraso promedio en el egreso período 2001- 2008 de los estudiantes de las de todas las carreras alcanza al 50% de la duración diversas carreras de FACENA. Para el análisis de teórica de las mismas, llegando en algunas a esta información se utilizarán técnicas de minería superarlo. de datos. Ahora bien, ¿a qué se hace referencia con el término La minería de datos se define como el proceso de rendimiento académico? extraer conocimiento útil y comprensible, El rendimiento académico es un claro indicador del previamente desconocido, desde grandes cantidades avance exitoso en la carrera de estudios de algún de datos almacenados en diferentes formatos. El alumno en un momento particular, y a su vez objetivo es encontrar modelos inteligibles a partir de también es un pronosticador de la posibilidad de los datos, descubrir patrones cuya utilización apoye completar exitosamente dicha carrera de estudios. decisiones que reporten beneficios a la organización El término "rendimiento" tiene muchas implicancias, (Hernández Orallo et al, 2004). principalmente si se considera a las notas obtenidas Para cumplir sus objetivos, son dos los retos de la por los alumnos como el referente casi exclusivo. minería de datos: por un lado, trabajar con grandes Esta información puede generar, incluso una lectura volúmenes de datos, que proceden generalmente de ingenua, que centra sólo la responsabilidad sistemas de información, con los problemas que ello académica en el alumno. Sin embargo, la conlleva (ruido, datos ausentes, intratabilidad, responsabilidad institucional es clave para evaluar lo volatilidad de los datos, etc.), y por el otro, usar que se entiende por rendimiento. Más allá de las técnicas adecuadas para analizar los mismos y condiciones internas a las instituciones y de las extraer conocimiento novedoso y útil. En muchos prácticas docentes, resulta imprescindible también caso, la utilidad del conocimiento extraído está conocer las características que aportan quienes son relacionada con la comprensibilidad del modelo los receptores de la labor docente. Esta información inferido (Hernández Orallo et al, 2004). puede contribuir a estimar algunas de las razones que inciden en el rendimiento y la deserción de los Esta tecnología emergente combina el análisis alumnos universitarios (Toer, 2000). estadísticos y la gestión de las bases de datos para Debe tenerse en cuenta que se trata de un constructo extraer información desde los datos, y se presenta teórico complejo y multidimensional, atravesado y como un campo multidisciplinar que se ha determinado por múltiples factores sociales, desarrollado en paralelo o como prolongación de económicos, históricos, institucionales e otras tecnologías (Thuraisingham, 2000). individuales. Por tal motivo el rendimiento Las técnicas que conforman el campo de la Minería académico ha sido representado de diferentes de Datos buscan descubrir, en forma automática, el maneras en los diversos estudios que han abordado conocimiento contenido en la información el tema. En algunos, está representado sólo por el almacenada en las bases de datos de las número de materias aprobadas por un alumno en una organizaciones. Por medio del análisis de datos, se carrera, en otros por los resultados de tests pretende descubrir patrones, perfiles y tendencias. específicamente diseñados o el promedio de notas de Es importante que estas técnicas sean las adecuadas las asignaturas cursadas. Esta variedad de al problema abordado. En este sentido, se pueden interpretaciones del concepto de rendimiento establecen dos grandes grupos de técnicas ó métodos académico está ligada a las particularidades de las analíticos: los métodos simbólicos y los métodos investigaciones en cuestión, principalmente al estadísticos (Britos, 2005). momento histórico en que se realiza la investigación Entre los métodos simbólicos se incluyen a las y las concepciones de quienes llevan a cabo y Redes Neuronales, Algoritmos Genéticos, Reglas de financian la misma. Restringir el concepto a uno Asociación, Lógica Difusa, entre otros. Estos solo de estos indicadores, supone una postura derivan del campo de la Inteligencia Artificial. ingenua y hasta simplista de lo que el acto educativo Los métodos estadísticos están constituidos por las significa, pues equivale a descontextualizarlo, técnicas del Análisis Multivariante de Datos, tales aislándolo de la realidad social e histórica de la que como Regresión Lineal simple y Múltiple, Regresión No Lineal, Regresión Logística, Análisis problemas que mezclan datos categóricos y Discriminante, Árboles de Regresión, entre otras. numéricos. Las técnicas de esta categoría, de alguna manera, Básicamente, un árbol de decisión es un árbol donde constituyen la piedra basal de la Minería de Datos cada nodo representa una condición o test sobre (Britos, 2005). algún atributo y cada rama que parte de ese nodo En este estudio se utilizarán las siguientes corresponde a un posible valor para ese atributo. metodologías para analizar las variables Finalmente, las hojas representan el valor de la socioeconómicas relacionadas con el rendimiento variable predicha. Esta técnica se usa en tareas de académico: La Regresión Logística, los Arboles clasificación, agrupamiento y regresión. Los árboles de Decisión y las Redes Neuronales. de decisión que se usan para predecir variables categóricas se llaman árboles de clasificación, El modelo de Regresión Logística es un método mientras que los árboles de decisión que se utilizan lineal que intenta modelizar la probabilidad de para predecir variables continuas se llaman árboles ocurrencia de un evento de interés. La variable de regresión (Alcover et al, 2007). dependiente es categórica dicotómica o Como antecedente de aplicación de la técnica de policotómica, a los efectos de facilitar la árboles de regresión aplicado el rendimiento de interpretación (Britos, 2005). alumnos universitarios puede mencionarse aBacallao Es una técnica adecuada cuando se pretende hacer Gallestey et al (2004). una clasificación basada en las características de los datos. Una ventaja adicional de esta técnica es que 2. LINEAS DE INVESTIGACION y no requiere la normalidad estricta de los datos, DESARROLLO además muchos estudios han evidenciado otras características que hacen de la regresión logística a) Preprocesamiento de los datos: Actualización una buena herramienta para la categorización de la base de datos oportunamente diseñada (García Jiménez et al, 2000). dentro del marco del proyecto PI 005/06, con los datos socioeconómicos y del estado Las Redes Neuronales son modelos computacionales académico de los alumnos de las carreras de inspirados en las características neurofisiológicas del FACENA a diciembre de 2008, a fin de cerebro humano y están formadas por un gran proveer la información que constituye el soporte número de neuronas dispuestas en varias capas e de las actividades del proyecto. Esto implica interconectadas entre sí mediante conexiones con incorporar los datos del estado académico de los pesos. Una neurona sobre un conjunto de nodos N es alumnos, que provee el Departamento Estudios una tripleta (X, f, Y), donde X es un subconjunto de de la FACENA, y los datos que surgen del N, Y es un único nodo de N y f es una función formulario de ingreso que completan los neuronal que calcula un valor de salida para Y alumnos al momento de ingresar a la UNNE. basado en una combinación de los valores de los b) Modelado de datos y predicción del y= f( wi xi ) rendimiento académico en el primer componentes de X, es decir xi N . Los cuatrimestre del primer año de estudios en pesos wi pueden ser positivos o negativos, función del nivel de conocimientos reproduciendo el carácter excitador o inhibitorio de matemáticos previos de los ingresantes a la la sinapsis de las neuronas. Las redes neuronales FACENA: Los datos del diagnóstico se usan un proceso de aprendizaje por analogía donde utilizarán como variables explicativas en un los pesos de las conexiones son ajustados para modelo que permita predecir el rendimiento de reproducir un conjunto de datos representativo del los alumnos al finalizar el primer cuatrimestre, problema a aprender. Las redes neuronales empleando métodos simbólicos y estadísticos. constituyen herramientas analíticas que permiten c) Formulación y ajuste de modelos para examinar los datos con el objeto de descubrir y predecir el rendimiento académico de los modelar las relaciones funcionales existentes entre alumnos en función de las características las variables. Pueden comportarse como técnicas de socioeconómicas de los mismos, empleando aproximación o de clasificación universales (Castillo métodos estadísticos y simbólicos. Numerosas et al, 1999). investigaciones han encontrado vinculación Como antecedentes de aplicación de la técnica de entre las condiciones socioeconómicas y redes neuronales en el ámbito de educación pueden personales de un individuo (tales como, edad, mencionarse los trabajos de González (1999), sexo, lugar de procedencia, etc.), y su Salgueiro et al (2006), Borracci y Arribalzaga rendimiento académico. Para el análisis de esta (2005). relación se requiere, previamente, una etapa de Los árboles de decisión son una serie de decisiones o preprocesamiento de los datos, que comprende condiciones organizadas de forma jerárquica, a los siguientes pasos: Integración, modo de árbol. Son muy útiles para encontrar Reconocimiento y Limpieza, Transformación y estructuras en espacios de alta dimensionalidad y en Reducción. Esta etapa tiene por objeto mejorar la calidad de los datos, teniendo en cuenta que, alumnos a través de instrumentos diseñados a lo largo del período de estudio, se ha especialmente. modificado, en más de una oportunidad, el Los resultados de la investigación aportarán a un diseño del formulario de ingreso, situación que mayor conocimiento de los posibles factores que exige un análisis detallado para la inciden en el desempeño de los alumnos. Esta determinación de equivalencias entre los información permitirá que, desde la gestión distintos valores de las variables en estudio. institucional, se aborden mecanismos correctivos o Para la construcción y ajuste de los modelos de superadores que contribuyan al mejoramiento de los predicción del rendimiento académico de los índices de desgranamiento, abandono, bajo alumnos se utilizarán métodos de minería de datos rendimiento académico y prolongación excesiva de simbólicos y estadísticos, previéndose realizar un la duración de la carrera, comunes en el ambiente estudio comparativo entre ambos grupos de aniversario nacional, principalmente notorios en la metodologías, con el objeto de contrastar el actuación de los alumnos en el primer año de desempeño y la eficiencia de las mismas en el carrera. problema de la predicción del rendimiento Por otra parte, en el marco actual de las académico de los estudiantes. universidades nacionales, los procesos de evaluación y acreditación de títulos se basan en la construcción 3. RESULTADOS OBTENIDOS/ESPERADOS de indicadores que permiten descubrir fortalezas y debilidades de la formación universitaria, por lo que Dentro de las líneas de trabajo mencionadas, se han “reflexionar sobre todos los elementos que la obtenido los siguientes resultados: evaluación del rendimiento del alumnado a) Se han estudiado técnicas de preprocesado de proporciona se convierte en un mecanismo claro datos para mejorar la calidad de la información para la mejora de la calidad del proceso educativo” obtenida desde los sistemas de información (Muñoz, 2005). existentes, y para mantener actualizado un Finalmente, a nivel de las políticas educativas repositorio con toda la información nacionales, la formación en Informática, Ingeniería sistematizada existente en la unidad académica y Ciencias Básicas, se considera prioritaria. Se respecto del desempeño de los alumnos destinan recursos especiales como becas, planes de (Dapozo et al, 2007). tutorías y otras acciones tendientes a promover b) Se ha analizado el perfil socioeconómico y titulaciones en estas áreas, así como también, educativo de los alumnos ingresantes de la mejorar el índice de graduados y de retención de FACENA y su relación con su rendimiento alumnos. Conocer las causas que subyacen en el académico, medido en términos de su rendimiento académico, permitirá mejorar estas desempeño en la primera asignatura de iniciativas por el aporte de mayor información. Matemática, en el primer año de carrera universitaria, utilizando técnicas clásicas de 4. FORMACION DE RECURSOS HUMANOS minería de datos (Porcel et al, 2008). En este proyecto se enfatiza el enfoque c) Se ha analizado el rendimiento académico de interdisciplinario dado que sus integrantes proceden los alumnos de las trece carreras de grado de la de distintas disciplinas: Matemática, Estadística e FACENA, utilizando indicadores basados en la Informática. Esto permite un abordaje sistémico de relación entre el número de exámenes rendidos los problemas de la investigación, a la vez que se y el número de asignaturas aprobadas por los complementan y enriquecen las distintas miradas mismos, estimados mediante regresión lineal disciplinares. Los alumnos en proceso de formación paramétrica y no paramétrica. Se trazaron de la Licenciatura en Matemática y la Licenciatura gráficos de dispersión para cada carrera que en Sistemas de Información que se suman al permitieron observar la eficiencia de los proyecto en calidad de becarios o para la realización alumnos en los exámenes, y se calculó además del Trabajo Final de Aplicación, requisito académico una matriz de correlación de los indicadores. de la carrera de Sistemas, tienen la oportunidad de (Porcel et al, 2009) aplicar y ampliar sus conocimientos en estas Como resultados esperados, se espera poder predecir aplicaciones interdisciplinarias que posibilita la el rendimiento académico de los estudiantes de Minería de Datos. FACENA, para lo cual se ha planificado la construcción de modelos cuantitativos predictivos del desempeño estudiantil en base a la información disponible sobre las condiciones socioeconómicas de los estudiantes, a sus conocimientos matemáticos previos y los datos aportados por los mismos 5. BIBLIOGRAFIA • HERNÁNDEZ ORALLO, J., FERRI RAMÍREZ, C. y RAMÍREZ QUINTANA M. • ALCOVER, R., BENLLOCH J., BLESA, P., J. “Introducción a la Minería de Datos”. CALDUCH, M., CELMA, M., FERRI C., España: Prentice Hall. Pearson Education. HERNÁNDEZ ORALLO, J., Y OTROS 2004. “Análisis del rendimiento académico en los • MUÑOZ, S. “Indicadores de rendimiento estudios de Informática de la Universidad académico del alumnado de la universidad de Politécnica de Valencia aplicando técnicas de La Laguna. Jornadas sobre Políticas de Minería de Datos”. XII Jornadas de Enseñanza Calidad en la Universidad de La Laguna”, Universitaria de la Informática 2007. 2005. Disponible En • PORCEL E. A., DAPOZO GLADYS N., http://bioinfo.uib.es/~joemiro/aenui/procjenui/j LÓPEZ M. “Técnicas clásicas de minería de en2007/alanal.pdf datos aplicadas al estudio del rendimiento • BACALLAO GALLESTEY C., PARAPAR académico de alumnos de primer año de DE LA RISTRA, J., ROQUE GIL M., carreras de la FACENA”. Comunicaciones BACALLOA GUERRA J. “Arboles de Científicas y Tecnológicas 2008. Universidad regresión y otras opciones metodológicas Nacional del Nordeste. Corrientes. Argentina. aplicadas a la predicción del rendimiento 2008. académico”. Revista Cubana de Educación • PORCEL, E., LÓPEZ, M. V., DAPOZO, G., Médica Superior, vol.18, N°3. 2004. CAPUTO, L. “Relación entre el número de Disponible en: exámenes rendidos y el número de asignaturas http://bvs.sld.cu/revistas/ems/vol18_3_04/ems aprobadas como indicador del rendimiento 02304.htm académico de alumnos universitarios”. XXII • BORRACCI, R. A., ARRIBALZAGA, E. B. Encuentro Nacional de Docentes de “Aplicación de análisis de conglomerados y Investigación Operativa (ENDIO). XX redes neuronales artificiales para la Escuela de Perfeccionamiento en Investigación clasificación y selección de candidatos a Operativa (EPIO). Buenos Aires. Argentina. residencias médicas”. Educación Médica, Vol 2009. 8, Nº 1. ISSN 1575-1813. Barcelona. 2005. • SALGUEIRO, F., COSTA, G., CÁNEPA, S., • BRITOS, P. V. “Minería de Datos”. Buenos LAGE,F., KRAUS, G., FIGUEROA, N., Aires: Nueva Librería. 2005. CATALDI, Z. “Redes Neuronales para • CASTILLO, E., COBO, A., GUTIÉRREZ, J. predecir la aptitud del alumno y sugerir M., PRUNEDA, R. E. “Introducción a las acciones”. VIII Workshop de Investigadores Redes Funcionales con Aplicaciones. Un en Ciencias de la Computación (WICC 2006). Nuevo Paradigma Neuronal”. Editorial Buenos Aires. Argentina. 2006. Paraninfo S.A. Madrid. España. 1999. • THURAISINGHAM, B. “A primer for • DAPOZO, G., PORCEL, E., LÓPEZ, M. V.; understanding and applying Datamining”. IT BOGADO, V. “Técnicas de preprocesamiento Professional, 2 (1), 28-31. 2000. para mejorar la calidad de los datos en un • TOER, M. “El caso de los ingresantes de 1998 estudio de caracterización de ingresantes al Ciclo Básico Común de la Universidad de universitarios”. IX Workshop de Buenos Aires, para seguir carreras de la Investigadores en Ciencias de la Computación Universidad de Derecho, Ciencias Económicas (WICC 2007). Trelew. Chubut. Argentina. y Ciencias Sociales”. Buenos Aires, 2007. Argentina: Instituto de Investigaciones Gino • GARCÍA JIMÉNEZ, M. V., ALVARADO Germani, FCSoc., Ciclo Básico Común, IZQUIERDO, J. M. y JIMÉNEZ BLANCO, Universidad de Buenos Aires. 2000. A. “La predicción del rendimiento académico: Disponible en regresión lineal versus regresión logística”. http://caraya.cbc.uba.ar/dat/sbe/perfil/perfil.ht Psicothema, 12 (2), 248-252. 2000. Disponible ml#1. en http://redalyc.uaemex.mx/redalyc/pdf/727/727 97059.pdf. • GONZÁLEZ, D.S. “Detección de alumnos de riesgo y medición de la eficiencia de centros escolares mediante redes neuronales”. Biblioteca de Económicas y Empresariales. Servicios de Internet. Universidad Complutense de Madrid. 1999.