Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad Tecnolgica
de Izcar de Matamoros
Sergio Valero Orea
[APLICACIN DE TCNICAS
DE MINERA DE DATOS PARA
PREDECIR DESERCIN]
La desercin escolar es un problema complejo que enfrentan las Instituciones de Educacin Superior (ANUIES, 2001). Se
han hecho una gran cantidad de esfuerzos para combatir este problema como programas de tutoras, asesoras, talleres,
entre otros, sin lograr mejorar esta situacin. El caso de la Universidad Tecnolgica de Izcar de Matamoros es nuestro
objeto de estudio para identificar las causas que motivan la desercin de nuestros estudiantes desde que ingresan.
Mediante tcnicas de minera de datos, podemos encontrar relaciones entre atributos acadmicos para identificar y
predecir la probabilidad de desercin, previendo los factores que indicen para que deserten, mejorando la eficiencia
terminal y brindndoles una oportunidad de vida como consecuencia de su permanencia en nuestra Institucin.
Finalizaremos nuestra investigacin proponiendo una herramienta para el tutor que le permitir predecir la probabilidad
de desercin de cualquier alumno en cualquier momento de su estancia escolar.
1. Antecedentes de la investigacin
La desercin, el rezago estudiantil y los bajos ndices de eficiencia terminal se encuentran entre los
problemas ms complejos y frecuentes que enfrentan las Instituciones de Educacin Superior del
pas, en la actualidad son reconocidos prcticamente por todas ellas (ANUIES, 2001). La desercin
escolar, es un problema que caracteriza a la mayora de las instituciones mexicanas de educacin
superior. La mayora de las instituciones han hecho algn tipo de esfuerzos por disminuir estos
ndices realizando y estableciendo programas de tutoras, asesoras, congresos, talleres, eventos
para que los alumnos se involucren directamente y aumente su compromiso y una serie de
actividades ms. Sin embargo, muchos de estos esfuerzos no han sido suficientes y el fenmeno se
sigue repitiendo constantemente.
En ese sentido, el estudio de los factores e ndices que afectan a la desercin ha cobrado mayor
importancia en los ltimos aos. La necesidad de identificar y predecir la desercin de los
estudiantes en los primeros cuatrimestres es indispensable para tomar las acciones pertinentes y
poder disminuir este ndice, y no menos importante, predecir su desercin en cualquier momento
para su correcto seguimiento tutoral.
La minera de datos orientada a la educacin permite predecir cualquier tipo de factor o
caracterstica de un caso, fenmeno o situacin. De esta forma, utilizando las tcnicas que nos
ofrece la minera, podemos predecir, con un porcentaje muy alto de credibilidad, la probabilidad de
desertar de cualquier alumno con la ventaja de que se puede pronosticar en los primeros
cuatrimestres. La minera de datos en la educacin no es un tpico nuevo y ha venido utilizndose
considerablemente en los ltimos aos.
Sobre este tema se han hecho algunas investigaciones muy similares, tal es el caso de la
Universidad de La Sabana en Colombia (Restrepo, 2008), en donde el objetivo era seleccionar, de
una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la desercin de la
Universidad en los ltimos cuatro aos, para ste proyecto se utiliz una tcnica de minera de datos
llamada Rough Sets. Se han realizado estudios sobre minera de datos en sistemas educativos
basados en tecnologas web, como educacin a distancia o asistida por computadora. Agathe
Merceron y Kalina Yacef, de la Universidad Leonardo Da Vinci en Francia y la Universidad de
Sydney en Australia (Merceron, 2004), respectivamente, mostraron cmo utilizar los algoritmos de
minera de datos para descubrir conocimiento pedaggico relevante que se almacenaba en bases de
datos. Estos descubrimientos ayudaron, tanto a docentes como administrativos y directivos a
entender el aprendizaje de sus estudiantes y ofrecer sus enseanzas de una mejor manera hacia
ellos.
En Chile, Eduardo Quiroga realiz un modelo de alerta acadmica (Quiroga, 2001), aplicado a la
educacin superior utilizando tcnicas de minera de datos para identificar problemas dentro del
mbito educativo. En los Estados Unidos, Jing Luan desarroll un modelo predictivo de minera de
datos para predecir la posibilidad de regreso a clases de cada alumno que se encontraba
matriculado en Silicon Valley (Luan, 2002). En el mismo pas, William Veitch (Veitch, 2004) utiliz
tcnicas de minera de datos para identificar patrones que permitan relacionar los factores y
variables que afectan a la desercin de los alumnos, entre ellas las econmicas, sociales y
psicolgicas.
Los ejemplos anteriores solo son una pequea muestra de lo que se puede hacer con la minera de
2
2. Justificacin de la investigacin
La Universidad Tecnolgica de Izcar de Matamoros (UTIM) naci para responder a las necesidades
de Educacin Superior en la regin mixteca del Estado de Puebla y la determinacin expresada en el
Plan Nacional de Desarrollo. La UTIM ofrece nivel Tcnico Superior Universitario (TSU), nivel 5B con
una formacin de 3150 horas, en 6 cuatrimestres a lo largo de 2 aos. Con poco ms de 11 aos de
vida, la UTIM tiene como visin ofrecer educacin de calidad en sus 6 Programas Educativos (PE):
Agrobiotecnologa, Tecnologa de Alimentos, Administracin, Contadura, Paramdico y Tecnologas
de la Informacin y Comunicacin rea Sistemas Informticos (TIC-SI).
Se puede observar que a travs de los aos existen muchos factores que influyen para que nuestros
alumnos deserten, puesto que generalmente no se le da el seguimiento adecuado y no se hace un
diagnstico a tiempo antes de que esto suceda, ni siquiera cuando el alumno aun no deserta.
Como se mencion anteriormente, la desercin escolar es un problema de mbito y magnitudes
nacionales y mundiales. En la UTIM no es la excepcin y el problema lo encontramos periodo a
periodo. Nuestros alumnos desertan como en cualquier Institucin Educativa y los tutores no pueden
hacer mucho al respecto.
La tabla 1, muestra el concentrado de alumnos que han desertado desde el ao 2004, segn los
reportes del departamento de servicios escolares de la Universidad.
Periodo
Sep-Dic 2004
Ene-Abr 2005
May-Ago 2005
Sep-Dic 2005
Ene-Abr 2006
May-Ago 2006
Sep-Dic 2006
Ene-Abr 2007
May-Ago 2007
Sep-Dic 2007
Ene-Abr 2008
May-Ago 2008
Sep-Dic 2008
Ene-Abr 2009
Matricula
881
779
706
742
665
610
789
711
681
871
801
754
1104
1036
Nmero de bajas
102
73
37
77
55
20
78
30
30
70
47
33
68
86
3. Objetivos de investigacin
Desarrollar una herramienta de anlisis de datos a partir de la generacin de un modelo
predictivo que surja de la aplicacin de las tcnicas de minera de datos para predecir la
probabilidad de desercin de los alumnos del PE de TIC-SI de la UTIM.
Hiptesis principal
Con la construccin de un modelo predictivo utilizando tcnicas de minera de datos que interacte,
mediante una interfaz de software, con la informacin personal, acadmica y socioeconmica de
cada alumno, el tutor podr predecir la probabilidad de desercin de dicho alumno.
6. Viabilidad de la Investigacin
La puesta en marcha de la investigacin resulta bastante viable desde los puntos de vista
econmico, material y humano.
Desde el punto de vista econmico, no se genera gastos por el desarrollo del modelo predictivo, ya
que no es necesaria la adquisicin de alguna licencia de software, ni de equipo, ni de cualquier otra
herramienta. Desde el punto de vista material se requiere una PC para la captura y seleccin de
datos, una hoja electrnica, un motor de bases de datos y el software para el modelo predictivo,
contamos con dichas herramientas y no generarn un costo adicional ni para nosotros ni para la
UTIM. Los recursos humanos necesarios tampoco sern obstculo para el proyecto, con el equipo
de trabajo creado, ser suficiente para alcanzar el objetivo planteado, los datos sern tomados
desde las fuentes descritas anteriormente y los departamentos participantes se encuentran en la
disposicin de participar para proporcionrnoslos.
escolar
Cambio de carrera o de institucin
Baja de los alumnos que alteran el orden y la disciplina institucional
Se ha detectado que la desercin responde a una multiplicidad de factores que afectan a los
estudiantes (ANUIES, 2002). Entre ellos se encuentran:
Datos iniciales
1. Integracin y recopilacin
Almacn de
datos
2. Seleccin, limpieza y
transformacin
Datos
seleccionados
3. Minera de datos
+ +
+
- Patrones
4. Evaluacin e interpretacin
Conocimiento
5. Difusin y uso
Decisiones
Cada fase tiene sus objetivos claramente definidos y sus actividades perfectamente delimitadas. A
continuacin, las mencionaremos brevemente.
-
8. Metodologa de investigacin
El tipo de investigacin ser descriptivo, ya que buscamos especificar las propiedades importantes
de un grupo de personas para su anlisis, en este caso, su informacin acadmica y personal. El
enfoque de la misma, ser cuantitativo.
En la primera fase, se estudiarn las causas de desercin y su parte terica, as como las diferentes
tcnicas de minera de datos para poder llevar a cabo la investigacin, es decir, la revisin
bibliogrfica del tema de estudio.
En la segunda fase, se har el concentrado de los datos histricos sobre los estudiantes: informacin
personal, acadmica y socioeconmica.
En la tercera fase, se pasar al anlisis de la informacin y generacin del modelo de minera de
datos para determinar el porcentaje de desercin que presentan nuestros alumnos, a travs de una
interfaz web que permita determinar a cada uno de los tutores esta informacin para tomar las
medidas necesarias.
10
12. Cronograma
CRONOGRAMA DE ACTIVIDADES
Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep
1 Revisin bibliogrfica
Aplicacin de encuestas y
2 entrevistas
3 Recoleccin de datos
4 Preprocesamiento de datos
5 Anlisis de datos
Aplicacin de tcnicas de minera
6 de datos
7 Desarrollo del modelo predictivo
8 Desarrollo de interfaz grfica
9 Pruebas
10 Propuestas
14. Referencias
ANUIES (2001), Desercin, rezago y eficiencia terminal en la IES. Propuesta metodolgica para su
estudio, Mxico.
ANUIES (2002), Programas Institucionales de Tutoras. Una propuesta de la ANUIES para su
organizacin y funcionamiento en las IES, Mxico.
ANUIES (2007), Retencin y desercin en un grupo de Instituciones Mexicanas de Educacin
Superior, Mxico
Frawley, W. (1992), Knowledge discover in databases, USA.
Gonzlez, A. (2006), Manual de tutoras en la UTIM, Mxico.
Gonzlez, L (2005), Zombi, una arquitectura para el anlisis de informacin que integra
procesamiento analtico en lnea con minera de datos, Mxico.
Han, J., Kamber M. (2006), Data mining: concepts and techniques, USA.
Hernndez J. (2005), Introduccin a la minera de datos, Espaa.
Jing, L. (2002), Data mining and Knowledge management in higher education, Presentacin en el
foro AIR, Toronto, Canada.
Kotsiantis, S., Pintelas, P. (2003), A decision support prototype tool for predicting student
performance in an ODL environment, Grecia.
Merceron A., Yacef K. (2004), Educational Data Mining: a case of study, Universidad de Sydney,
Australia.
Quiroga, E. (2008), Minera de datos en educacin superior aplicada a un modelo de alerta
acadmica, Chile.
Restrepo, M. (2000), Uso de la metodologa Rough Sets para la identificacin de atributos en una
base de datos sobre desercin, Universidad de La Sabana, Colombia.
Veitch, W. (2004), Identifying characteristics of high school dropouts: data mining with a decision
tree model, San Diego California, USA.
11