Está en la página 1de 11

2009

Universidad Tecnolgica
de Izcar de Matamoros
Sergio Valero Orea

[APLICACIN DE TCNICAS
DE MINERA DE DATOS PARA
PREDECIR DESERCIN]
La desercin escolar es un problema complejo que enfrentan las Instituciones de Educacin Superior (ANUIES, 2001). Se
han hecho una gran cantidad de esfuerzos para combatir este problema como programas de tutoras, asesoras, talleres,
entre otros, sin lograr mejorar esta situacin. El caso de la Universidad Tecnolgica de Izcar de Matamoros es nuestro
objeto de estudio para identificar las causas que motivan la desercin de nuestros estudiantes desde que ingresan.
Mediante tcnicas de minera de datos, podemos encontrar relaciones entre atributos acadmicos para identificar y
predecir la probabilidad de desercin, previendo los factores que indicen para que deserten, mejorando la eficiencia
terminal y brindndoles una oportunidad de vida como consecuencia de su permanencia en nuestra Institucin.
Finalizaremos nuestra investigacin proponiendo una herramienta para el tutor que le permitir predecir la probabilidad
de desercin de cualquier alumno en cualquier momento de su estancia escolar.

1. Antecedentes de la investigacin
La desercin, el rezago estudiantil y los bajos ndices de eficiencia terminal se encuentran entre los
problemas ms complejos y frecuentes que enfrentan las Instituciones de Educacin Superior del
pas, en la actualidad son reconocidos prcticamente por todas ellas (ANUIES, 2001). La desercin
escolar, es un problema que caracteriza a la mayora de las instituciones mexicanas de educacin
superior. La mayora de las instituciones han hecho algn tipo de esfuerzos por disminuir estos
ndices realizando y estableciendo programas de tutoras, asesoras, congresos, talleres, eventos
para que los alumnos se involucren directamente y aumente su compromiso y una serie de
actividades ms. Sin embargo, muchos de estos esfuerzos no han sido suficientes y el fenmeno se
sigue repitiendo constantemente.
En ese sentido, el estudio de los factores e ndices que afectan a la desercin ha cobrado mayor
importancia en los ltimos aos. La necesidad de identificar y predecir la desercin de los
estudiantes en los primeros cuatrimestres es indispensable para tomar las acciones pertinentes y
poder disminuir este ndice, y no menos importante, predecir su desercin en cualquier momento
para su correcto seguimiento tutoral.
La minera de datos orientada a la educacin permite predecir cualquier tipo de factor o
caracterstica de un caso, fenmeno o situacin. De esta forma, utilizando las tcnicas que nos
ofrece la minera, podemos predecir, con un porcentaje muy alto de credibilidad, la probabilidad de
desertar de cualquier alumno con la ventaja de que se puede pronosticar en los primeros
cuatrimestres. La minera de datos en la educacin no es un tpico nuevo y ha venido utilizndose
considerablemente en los ltimos aos.
Sobre este tema se han hecho algunas investigaciones muy similares, tal es el caso de la
Universidad de La Sabana en Colombia (Restrepo, 2008), en donde el objetivo era seleccionar, de
una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la desercin de la
Universidad en los ltimos cuatro aos, para ste proyecto se utiliz una tcnica de minera de datos
llamada Rough Sets. Se han realizado estudios sobre minera de datos en sistemas educativos
basados en tecnologas web, como educacin a distancia o asistida por computadora. Agathe
Merceron y Kalina Yacef, de la Universidad Leonardo Da Vinci en Francia y la Universidad de
Sydney en Australia (Merceron, 2004), respectivamente, mostraron cmo utilizar los algoritmos de
minera de datos para descubrir conocimiento pedaggico relevante que se almacenaba en bases de
datos. Estos descubrimientos ayudaron, tanto a docentes como administrativos y directivos a
entender el aprendizaje de sus estudiantes y ofrecer sus enseanzas de una mejor manera hacia
ellos.
En Chile, Eduardo Quiroga realiz un modelo de alerta acadmica (Quiroga, 2001), aplicado a la
educacin superior utilizando tcnicas de minera de datos para identificar problemas dentro del
mbito educativo. En los Estados Unidos, Jing Luan desarroll un modelo predictivo de minera de
datos para predecir la posibilidad de regreso a clases de cada alumno que se encontraba
matriculado en Silicon Valley (Luan, 2002). En el mismo pas, William Veitch (Veitch, 2004) utiliz
tcnicas de minera de datos para identificar patrones que permitan relacionar los factores y
variables que afectan a la desercin de los alumnos, entre ellas las econmicas, sociales y
psicolgicas.
Los ejemplos anteriores solo son una pequea muestra de lo que se puede hacer con la minera de
2

datos enfocados a la docencia y educacin: desde el descubrimiento pedaggico, los sistemas de


enseanza basada en Web hasta anlisis predictivo para determinar el porcentaje de probabilidad de
desertar que tiene un alumno, este ltimo es un tema de gran inters el cual trabajaremos durante el
desarrollo de este trabajo de tesis.

2. Justificacin de la investigacin
La Universidad Tecnolgica de Izcar de Matamoros (UTIM) naci para responder a las necesidades
de Educacin Superior en la regin mixteca del Estado de Puebla y la determinacin expresada en el
Plan Nacional de Desarrollo. La UTIM ofrece nivel Tcnico Superior Universitario (TSU), nivel 5B con
una formacin de 3150 horas, en 6 cuatrimestres a lo largo de 2 aos. Con poco ms de 11 aos de
vida, la UTIM tiene como visin ofrecer educacin de calidad en sus 6 Programas Educativos (PE):
Agrobiotecnologa, Tecnologa de Alimentos, Administracin, Contadura, Paramdico y Tecnologas
de la Informacin y Comunicacin rea Sistemas Informticos (TIC-SI).
Se puede observar que a travs de los aos existen muchos factores que influyen para que nuestros
alumnos deserten, puesto que generalmente no se le da el seguimiento adecuado y no se hace un
diagnstico a tiempo antes de que esto suceda, ni siquiera cuando el alumno aun no deserta.
Como se mencion anteriormente, la desercin escolar es un problema de mbito y magnitudes
nacionales y mundiales. En la UTIM no es la excepcin y el problema lo encontramos periodo a
periodo. Nuestros alumnos desertan como en cualquier Institucin Educativa y los tutores no pueden
hacer mucho al respecto.
La tabla 1, muestra el concentrado de alumnos que han desertado desde el ao 2004, segn los
reportes del departamento de servicios escolares de la Universidad.
Periodo
Sep-Dic 2004
Ene-Abr 2005
May-Ago 2005
Sep-Dic 2005
Ene-Abr 2006
May-Ago 2006
Sep-Dic 2006
Ene-Abr 2007
May-Ago 2007
Sep-Dic 2007
Ene-Abr 2008
May-Ago 2008
Sep-Dic 2008
Ene-Abr 2009

Matricula
881
779
706
742
665
610
789
711
681
871
801
754
1104
1036

Nmero de bajas
102
73
37
77
55
20
78
30
30
70
47
33
68
86

Tabla 1. Concentrado de bajas por periodo

Como se puede observar en la tabla, en el periodo Septiembre-Diciembre es cuando ms


deserciones se acumulan, sin menospreciar a los dems periodos, que tambin presentan valores
importantes a considerar. Los principales factores por los que se presenta este fenmeno son:
3

reprobacin, incumplimiento de expectativas, problemas econmicos, motivos personales y una gran


cantidad de causas desconocidas, todas estas conclusiones estn basadas en datos que
proporcion el departamento de servicios escolares. Aqu recae la importancia de predecir la
posibilidad de desercin de un alumno, desde que ingresa y se inscribe a nuestra Universidad, con la
finalidad de que pueda concluir sus estudios, evitar que se vaya y poder modificar los factores que
pudieran estar causando su desercin.
Los tutores, son profesores de tiempo completo que guan u orientan a los alumnos de un curso o
asignatura (Gonzlez, 2006). Histricamente, identifican a los alumnos que desertarn en el
momento en que ellos solicitan su baja, sin encontrar claramente las causas. Con este trabajo
construiremos una herramienta que permitir encontrar el mayor nmero de factores que provocan la
desercin y entregaremos al personal de UTIM un medio que permita predecir cules alumnos,
nuevos o que estn realizando sus estudios, son candidatos a desertar de la universidad.
Respecto a la herramienta que queremos construir, hemos investigado sobre software que nos
permiten descubrir comportamientos, patrones recurrentes, segmentar datos y otras funcionalidades
relacionadas con el anlisis de datos, estos son los mineros de datos. Con una herramienta como
esta, podremos obtener conocimiento a partir de un conjunto de datos y consideramos que con este
conocimiento empezaremos a tomar decisiones que permitan disminuir el ndice de desercin en
UTIM.
As, usando un minero de datos podemos identificar y calcular el porcentaje de probabilidad de que
un alumno pueda desertar, desde que inicia su vida estudiantil en la Universidad. De esta manera
podemos proponer las estrategias necesarias con mucha anticipacin para disminuir el ndice de
desercin.
Es de vital importancia conocer desde los primeros cuatrimestres cules alumnos son candidatos a
desertar, cul es su probabilidad de hacerlo y sobre qu factor inciden las causas de que lo haga
(factores acadmicos, personales, econmicos, entre otros). Al no realizar este tipo de
investigaciones se tiene como consecuencia que los tutores, sigan sin identificar a los alumnos que
sean candidatos a desertar y solamente los identifiquen hasta cuatrimestres avanzados cuando
posiblemente ya no sea posible ayudarlos.
El resultado de nuestro trabajo, ser una herramienta que les permitir a los tutores determinar la
probabilidad de desercin de cualquier alumno en cualquier momento, desde que inicia o cuando se
encuentra cursando algn cuatrimestre ms avanzado. Esta herramienta mejorar el proceso
educativo como se marca en los lineamientos de titulacin para el convenio SEP-UPAEP, ya que un
tutor podr identificar un alumno candidato a desertar para darle el seguimiento adecuado a travs
de esta herramienta didctica.
Este trabajo de investigacin se desarrollar en equipo. Por un lado, una persona ser la encargada
de realizar el trabajo que abarca la recoleccin de datos histricos y actuales, depuracin, limpieza y
extraccin de datos, hasta construir un almacn de datos, que servir de base para realizar el
modelo predictivo. Por el otro, un segundo participante, trabajar con la creacin del modelo
predictivo, para que posteriormente desarrolle la interfaz que permitir determinar la probabilidad de
desercin de los alumnos. Ambos actores participaremos activamente en cada una de las etapas del
desarrollo de la tesis, sin embargo consideramos importante aclarar los motivos por los cuales
trabajaremos de esta manera.
4

3. Objetivos de investigacin
Desarrollar una herramienta de anlisis de datos a partir de la generacin de un modelo
predictivo que surja de la aplicacin de las tcnicas de minera de datos para predecir la
probabilidad de desercin de los alumnos del PE de TIC-SI de la UTIM.

Revisar las causas que afectan a la desercin escolar a nivel superior


Reunir todos los datos existentes de cada alumno para generar el modelo predictivo
Integrar, seleccionar y limpiar los datos para prepararlos para su anlisis
Crear un repositorio de datos para almacenar los datos obtenidos
Analizar las distintas tcnicas de minera de datos para elegir la adecuada de acuerdo al
problema planteado
Generar el modelo predictivo a partir de los datos obtenidos
Analizar los datos generados por la minera de datos y prepararlos para la toma de
decisiones
Disear una interfaz web que permita alimentar con datos de los alumnos al modelo

4. Preguntas de Investigacin (incluir hiptesis inicial si aplica)

Cul es la probabilidad de desercin de un alumno del PE de TIC-SI de la UTIM?


Cules son los factores que inciden en la desercin de los alumnos del PE de TIC-SI de la
UTIM?
De qu manera nos puede ayudar la minera de datos para predecir esta desercin?
Cmo construir un modelo predictivo que me permita identificar a los alumnos vulnerables
al inicio de su estancia en la Universidad?
Cmo generar una interfaz que me permita determinar la probabilidad de desercin de un
alumno a partir de un conjunto de variables?

Hiptesis principal
Con la construccin de un modelo predictivo utilizando tcnicas de minera de datos que interacte,
mediante una interfaz de software, con la informacin personal, acadmica y socioeconmica de
cada alumno, el tutor podr predecir la probabilidad de desercin de dicho alumno.

5. Alcances y limitaciones del proyecto


Los datos con los que se trabajar correspondern a los alumnos inscritos desde el periodo
Septiembre/Diciembre del 2003 al periodo Enero/Abril del 2009 del PE de TIC, momentneamente
los otros PE quedan fuera de nuestro objeto de estudio y su participacin se propone al corto plazo,
una vez analizados los datos de este cuerpo acadmico.

6. Viabilidad de la Investigacin
La puesta en marcha de la investigacin resulta bastante viable desde los puntos de vista
econmico, material y humano.
Desde el punto de vista econmico, no se genera gastos por el desarrollo del modelo predictivo, ya
que no es necesaria la adquisicin de alguna licencia de software, ni de equipo, ni de cualquier otra
herramienta. Desde el punto de vista material se requiere una PC para la captura y seleccin de
datos, una hoja electrnica, un motor de bases de datos y el software para el modelo predictivo,
contamos con dichas herramientas y no generarn un costo adicional ni para nosotros ni para la
UTIM. Los recursos humanos necesarios tampoco sern obstculo para el proyecto, con el equipo
de trabajo creado, ser suficiente para alcanzar el objetivo planteado, los datos sern tomados
desde las fuentes descritas anteriormente y los departamentos participantes se encuentran en la
disposicin de participar para proporcionrnoslos.

7. Esbozo del Marco Terico


La desercin escolar
Entre los problemas ms complejos y frecuentes que enfrentan las Instituciones de Educacin
Superior (IES) del pas, en el nivel superior, se encuentran la desercin, el rezago estudiantil y los
bajos ndices de eficiencia terminal. Tanto la desercin como el rezago son condiciones que afectan
el logro de una alta eficiencia terminal en las instituciones (ANUIES, 2002). Los fenmenos de la
retencin y de la desercin tienen que estudiarse de manera obligada en el marco de la compleja
dinmica de la educacin superior.
La trayectoria escolar es un proceso durante el cual cada alumno est sometido a un conjunto de
reglas que le permiten avanzar de forma diferenciada, en la medida en la que cumpla o no los
requerimientos establecidos (ANUIES, 2007).
La desercin, entendida como una forma de abandono de los estudios superiores, adopta distintos
comportamientos en los estudiantes que afecta la continuidad de sus trayectorias escolares. Estos
comportamientos se caracterizan por:

Abandono o suspensin voluntaria y definitiva de los estudios y del sistema de educacin


superior por parte del alumno
Salida de los alumnos debido a las deficiencias acadmicas y consecuente bajo rendimiento
6

escolar
Cambio de carrera o de institucin
Baja de los alumnos que alteran el orden y la disciplina institucional

Se ha detectado que la desercin responde a una multiplicidad de factores que afectan a los
estudiantes (ANUIES, 2002). Entre ellos se encuentran:

Las condiciones econmicas desfavorables de los estudiantes


El deficiente nivel cultural de la familia al que pertenece
Las expectativas del estudiante con respecto a la importancia de la educacin
La incompatibilidad del tiempo dedicado al trabajo y a los estudios
La responsabilidad que implica el matrimonio
Las caractersticas personales del estudiante, por ejemplo, la falta de actitud de logro
El poco inters por los estudios en general, por la carrera y la institucin
Las caractersticas previas del estudiante, como los bajos promedios obtenidos en la
educacin media superior que reflejan la insuficiencia de los conocimientos y las habilidades
con que egresan los estudiantes, en relacin con los requeridos para mantener las
exigencias acadmicas del nivel superior
La deficiente orientacin vocacional recibida, antes de ingresar a la educacin superior, que
provoca que los alumnos se inscriban en las carreras profesionales sin sustentar su decisin
en una slida informacin sobre la misma

En resumen, se puede considerar a la desercin como el abandono o suspensin temporal o


definitiva, voluntaria o forzada de sus estudios, marcada por alguna de las causas mencionadas
anteriormente, o una combinacin de ellas.
Minera de datos
Minera de datos es el proceso mediante el cual generamos un modelo que sirva para la prediccin,
este modelo se genera con base en los datos que se encuentran en un almacn de datos o una
base de datos aplicndoles algn algoritmo que construya el modelo (Gonzlez, 2005).
La existencia de voluminosas bases de datos conteniendo grandes cantidades de datos, que
exceden en mucho las capacidades humanas de reduccin y anlisis a fin de obtener informacin
til, actualmente son una realidad en muchas organizaciones. Debido a esto, frecuentemente las
decisiones importantes se toman en base a la intuicin y experiencia en lugar de tomar como
referencia la riqueza de estos datos almacenados, provocando que seamos vistos como ricos en
datos, pero pobres en informacin (Han y Kamber, 2006), debido a la problemtica planteada
anteriormente.
Esta situacin se intenta solucionar a travs del proceso de KDD (Knowledge Discovery from
Databases por sus siglas en ingles). Este proceso consta de 5 fases (Hernndez, 2005) como se
puede apreciar en la siguiente figura:

Datos iniciales

1. Integracin y recopilacin

Almacn de
datos

2. Seleccin, limpieza y
transformacin

Datos
seleccionados

3. Minera de datos
+ +
+
- Patrones

4. Evaluacin e interpretacin

Conocimiento

5. Difusin y uso

Decisiones

Fig. 1. El proceso KDD

Cada fase tiene sus objetivos claramente definidos y sus actividades perfectamente delimitadas. A
continuacin, las mencionaremos brevemente.
-

Integracin y recopilacin de datos. Integrar mltiples bases de datos en un almacn de


datos (data warehouse coleccin de datos de las bases de datos transaccionales y otras
fuentes diversas). Se determinan las fuentes de informacin que pueden ser tiles y dnde
conseguirlas.
Seleccin, limpieza y transformacin. El objetivo es mejorar la calidad de los datos. Algunos
datos son irrelevantes o necesarios para la tarea de minera que se desea realizar. Se
eliminan o corrigen los datos incorrectos.
Minera de datos. El objetivo es producir conocimiento nuevo que pueda utilizar el usuario,
realizando un modelo predictivo basado en los datos recopilados para tal efecto.
Evaluacin e interpretacin. Se evalan los patrones y se analizan por los expertos para
que, de ser necesario, se vuelva a las fases anteriores para una nueva iteracin.
Difusin y uso. Una vez construido y validado el modelo, es usado por los analistas para
8

recomendar acciones y se hace partcipe de l a todos los posibles usuarios.


En sntesis, las tcnicas de minera de datos, nos van a permitir construir modelos predictivos,
basados en datos histricos almacenados en distintas fuentes: bases de datos, archivos de texto
plano, documentos impresos, reportes, entre otros. Usando todos estos datos, es posible predecir un
fenmeno dado, a partir de las herramientas que la minera nos ofrece, obteniendo conocimiento que
nos ayuda en la toma de decisiones.

8. Metodologa de investigacin
El tipo de investigacin ser descriptivo, ya que buscamos especificar las propiedades importantes
de un grupo de personas para su anlisis, en este caso, su informacin acadmica y personal. El
enfoque de la misma, ser cuantitativo.
En la primera fase, se estudiarn las causas de desercin y su parte terica, as como las diferentes
tcnicas de minera de datos para poder llevar a cabo la investigacin, es decir, la revisin
bibliogrfica del tema de estudio.
En la segunda fase, se har el concentrado de los datos histricos sobre los estudiantes: informacin
personal, acadmica y socioeconmica.
En la tercera fase, se pasar al anlisis de la informacin y generacin del modelo de minera de
datos para determinar el porcentaje de desercin que presentan nuestros alumnos, a travs de una
interfaz web que permita determinar a cada uno de los tutores esta informacin para tomar las
medidas necesarias.

9. Resultados (a priori) esperados


El resultado de la investigacin y trabajo de tesis, mostrar y propondr una interfaz de software que
trabajar con el modelo predictivo, efecto de la aplicacin de las tcnicas de minera de datos y que
le permita a cada tutor, capturar algunas variables o datos de sus alumnos para predecir y
determinar la probabilidad de desertar que tienen desde los primeros cuatrimestres para tomar las
acciones preventivas o remediales y en cualquier cuatrimestre, segn sea el caso, y mejorar
nuestros ndices de eficiencia terminal.

10. Contribuciones originales esperadas


Como resultado de nuestra investigacin, propondremos una herramienta que permitir predecir el
porcentaje de desercin de cualquier alumno inscrito en cualquier periodo. Este tipo de herramientas
no existe en Mxico. Hemos encontrado un trabajo similar en Grecia en la Universidad de Patras
(Kotsiantis, 2003) en donde predicen el porcentaje de desercin de un alumno o desempeo en
cursos de aprendizaje a distancia, nico en el mundo.
Podemos concluir argumentando la originalidad de nuestra investigacin, ya que sera pionera
dentro de nuestro pas, trabajando exclusivamente con datos de nuestros estudiantes, con las
variables que les afectan y causan su abandono de estudios. Adems, de que todo ello lo pueden
consultar de manera indefinida para cualquier alumno en cualquier periodo, resultando un trabajo
original.

11. Impacto Social Esperado


El impacto esperado dentro de nuestra Universidad sera muy alto. Una vez que realicemos el
estudio y obtengamos los primeros resultados sobre el PE de TIC-SI para mejorar los ndices de
eficiencia terminal disminuyendo la desercin al detectar la vulnerabilidad de algn alumno candidato
a desertar, podemos ampliar la aplicacin de nuestra herramienta a todos los PEs de la UTIM. De
esta forma, tendremos menos desertados y nuestros alumnos tendrn una preparacin acadmica
ms adecuada para enfrentar los obstculos encontrados en su vida diaria.
Con esta herramienta entonces, podremos evitar que un alumno deserte al identificar las causas por
las cuales lo hara, detectndolo a tiempo y proponiendo las estrategias adecuadas para su correcto
seguimiento. As, cada uno de estos alumnos tendr ms probabilidades de finalizar sus estudios de
educacin superior y contar con mejores oportunidades laborales en el futuro al estar mejor
preparados.

10

12. Cronograma
CRONOGRAMA DE ACTIVIDADES
Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep
1 Revisin bibliogrfica
Aplicacin de encuestas y
2 entrevistas
3 Recoleccin de datos
4 Preprocesamiento de datos
5 Anlisis de datos
Aplicacin de tcnicas de minera
6 de datos
7 Desarrollo del modelo predictivo
8 Desarrollo de interfaz grfica
9 Pruebas
10 Propuestas

14. Referencias
ANUIES (2001), Desercin, rezago y eficiencia terminal en la IES. Propuesta metodolgica para su
estudio, Mxico.
ANUIES (2002), Programas Institucionales de Tutoras. Una propuesta de la ANUIES para su
organizacin y funcionamiento en las IES, Mxico.
ANUIES (2007), Retencin y desercin en un grupo de Instituciones Mexicanas de Educacin
Superior, Mxico
Frawley, W. (1992), Knowledge discover in databases, USA.
Gonzlez, A. (2006), Manual de tutoras en la UTIM, Mxico.
Gonzlez, L (2005), Zombi, una arquitectura para el anlisis de informacin que integra
procesamiento analtico en lnea con minera de datos, Mxico.
Han, J., Kamber M. (2006), Data mining: concepts and techniques, USA.
Hernndez J. (2005), Introduccin a la minera de datos, Espaa.
Jing, L. (2002), Data mining and Knowledge management in higher education, Presentacin en el
foro AIR, Toronto, Canada.
Kotsiantis, S., Pintelas, P. (2003), A decision support prototype tool for predicting student
performance in an ODL environment, Grecia.
Merceron A., Yacef K. (2004), Educational Data Mining: a case of study, Universidad de Sydney,
Australia.
Quiroga, E. (2008), Minera de datos en educacin superior aplicada a un modelo de alerta
acadmica, Chile.
Restrepo, M. (2000), Uso de la metodologa Rough Sets para la identificacin de atributos en una
base de datos sobre desercin, Universidad de La Sabana, Colombia.
Veitch, W. (2004), Identifying characteristics of high school dropouts: data mining with a decision
tree model, San Diego California, USA.

11

También podría gustarte