Está en la página 1de 6

Aplicacin de minera de datos con una herramienta de software libre en la

evaluacin del rendimiento acadmico de los alumnos de la carrera de


Sistemas de la FACENA-UNNE
Dapozo, Gladys; Porcel, Eduardo; Lpez, Mara V.; Bogado,Vernica; Bargiela,
Roberto
Departamento de Informtica. Facultad de Ciencias Exactas y Naturales y Agrimensura
Universidad Nacional del Nordeste. 9 de Julio n 1449. CP: 3400. Corrientes. Argentina.
TE: (03783) 423126 gndapozo@exa.unne.edu.ar; eporcel@exa.unne.edu.ar; mvlopez@exa.unne.edu.ar

RESUMEN indicador desfavorable para la frmula


polinmica de asignacin de recursos
El sistema preuniversitario argentino tiene
econmicos a la Universidad.
serias deficiencias, y una de las consecuencias
Con respecto a los estudios de rendimiento
se manifiesta en que el piso cognitivo y
acadmico, se sabe que se trata de un problema
actitudinal con el que ingresan los alumnos a la
multifactico resultante de numerosas causas y
Universidad es muy bajo y atenta contra el
condicionantes econmicos, culturales,
rendimiento acadmico de los mismos, adems
polticos, demogrficos. Esta complejidad
de contribuir a la extensin de la duracin real
exige que el problema sea abordado
de las carreras. La Minera de Datos abarca
considerando la totalidad de la informacin de
una variedad de mtodos estadsticos y
los alumnos que las instituciones universitarias
computacionales para investigar la existencia
disponen en formato electrnico [1].
de relaciones y patrones de comportamiento en
La Minera de Datos (Datamining), o
almacenamientos electrnicos de datos. El
Descubrimiento de Conocimiento en Bases de
Software Libre resulta ms adecuado que el
Datos, abarca una variedad de mtodos
software propietario para entornos acadmicos
estadsticos y computacionales para investigar
al ser ms fiable, robusto y seguro y de
la existencia de relaciones y patrones de
reducido costo. En este trabajo se presenta un
comportamiento en almacenamientos
estudio a travs de tcnicas de minera de datos
electrnicos de datos. Relaciones y patrones
que permiten determinar, a travs de un
emergentes pueden sugerir al investigador
clasificador, el rendimiento acadmico de los
explicaciones causales que puedan ser
alumnos ingresantes de la carrera de
verificadas posteriormente o bien pueden
Licenciatura en Sistemas de Informacin de la
sugerir estrategias de accin para lograr ciertos
Facultad de Ciencias Exactas de la
objetivos de cambio [7].
Universidad Nacional del Nordeste
Esta tecnologa emergente combina los anlisis
(FACENA-UNNE). Se llev a cabo un estudio
estadsticos, mquina de aprendizaje y la
comparativo de diferentes algoritmos
gestin de las bases de datos para extraer
clasificadores disponibles en el software
informacin de voluminosas tablas de datos
Weka, de libre distribucin, y se seleccion el
[9].
que ofreca mejores resultados.
La implementacin de las tcnicas de minera
no implica siempre grandes inversiones.
Palabras clave: Minera de datos.
Generalmente se recurren a programas
Herramienta de software libre. Rendimiento
costosos para este tipo de tareas. Sin embargo,
acadmico de alumnos universitarios.
existen herramientas ms simples y menos
costosas que pueden brindar las mismas
1. INTRODUCCIN prestaciones para el conjunto de datos con que
El sistema preuniversitario argentino tiene se cuenta [4].
serias deficiencias, y una de las consecuencias Por tales motivos, se debe realizar un anlisis
se manifiesta en que el piso cognitivo y de los sistemas implementados y de los datos,
actitudinal con el que ingresan los alumnos a la determinar la tcnica de Datamining que ms
Universidad es muy bajo y atenta contra el se adecue y, luego, elegir la herramienta, si es
rendimiento acadmico de los mismos, adems que existiere una, o programarla en caso
de contribuir a la extensin de la duracin real contrario. Esto permite dotar a la
de las carreras. Todo ello constituye un organizacin de un potente Datamining y tener
un costo menor que adquirir una solucin sinergia, esto es, por la convergencia de
propietaria de grandes dimensiones y esfuerzos individuales en pro de un objetivo
compleja, donde el tiempo invertido en comn.
aprendizaje puede ser demasiado [6]. En el movimiento de SL, la interactividad y la
El papel del software libre (SL) en la participacin activa se revelan como las reglas
universidad no se reduce a la disponibilidad de bsicas del juego. Con su llegada, los mtodos
una sofisticada plataforma de desarrollo de desarrollo de software y de acceso y
tecnolgico. Por el contrario, es un fenmeno distribucin de la informacin cambiaron
de gran calado cuyas dimensiones ticas y radicalmente. Para el mundo de la formacin,
sociales pueden transformar el marco especialmente, el de la universidad, esta
acadmico, hacindolo ms democrtico, caracterstica posee una tremenda carga
participativo y viable en trminos financieros transgresora con respecto a los modos clsicos
[2]. de aprender, producir y distribuir en este
Propiciada por las Tecnologas de la mbito [2].
Informacin y de la Comunicacin (TICs), La clasificacin de las tcnicas de la minera
surge una nueva ecologa del conocimiento de datos se divide en dos categoras:
que consiste en otras formas epistmicas y supervisadas y no supervisadas [3] [10]. Las
metodologas de conocimiento que definen el primeras predicen los valores de un atributo
trnsito de una sociedad de la informacin a etiqueta u objetivo con la ayuda de los valores
una sociedad del conocimiento, donde ese de otros atributos, por lo que van a estar
saber que fluye por las venas del tejido social dirigidas a la clasificacin y a los sistemas de
se verticaliza, se transforma cualitativamente prediccin. En el caso de las tcnicas no
en su recurso fundamental de supervivencia. Y supervisadas, a partir de un conjunto de datos
es aqu donde el SL tiene un papel disponible se persigue encontrar relaciones
fundamental, pues su metodologa se entre los atributos, patrones habituales de
corresponde con una revolucin organizacional comportamiento, desconocidos antes del
fundamental: el paso de los modelos anlisis, de ah que a este tipo de tcnicas
jerrquicos a los modelos en red, a las tambin se les llame de descubrimiento del
organizaciones e instituciones flexibles y conocimiento [8].
dinmicas que se adaptan con mayor facilidad En este estudio, el trabajo est encaminado a
a su medio ambiente. comparar algoritmos supervisados a travs de
A nivel institucional, tres ventajas son claves: clasificadores.
En primer lugar, el SL es ms adecuado que el El objetivo de este trabajo es presentar un
software propietario para entornos acadmicos estudio a travs de tcnicas de minera de
al ser ms fiable, robusto y seguro. En segundo datos que permitan determinar, a travs de
lugar, su reducido costo permite localizar un clasificador, el rendimiento acadmico
recursos financieros en otras reas de las de los alumnos ingresantes de la carrera de
universidades (infraestructuras, becas, apoyo a Licenciatura en Sistemas de Informacin de
la investigacin, etc.). En tercer lugar, al la Facultad de Ciencias Exactas de la
demandar menores recursos computacionales, Universidad Nacional del Nordeste
se extiende la vida til de los equipamientos (FACENA-UNNE). Se llev a cabo un estudio
informticos, evitando ciclos rpidos de comparativo de diferentes algoritmos
obsolescencia y optimizando as las clasificadores disponibles en el software
inversiones. Weka, de libre distribucin, y se analizaron los
A nivel acadmico, el SL refleja mucho mejor resultados que se obtuvieron como resultado
los valores tradicionales de la investigacin de la aplicacin de cada uno de ellos.
universitaria desde su propia definicin de
libre: libertad para analizar cmo trabaja un
2. MATERIALES Y TCNICAS A
programa y adaptarlo a nuestras necesidades,
EMPLEAR
libertad para mejorar un programa y compartir
con otros las adaptaciones, beneficiando as a En este trabajo se utiliz la herramienta Weka
toda la comunidad. (Waikato Environment for Knowledge
A nivel metodolgico, se quiebra el paradigma Analysis) de la Universidad de Waikato,
neoliberal de maximizacin del beneficio software que se encuentra de manera gratuita
individual, sustituyendo la competicin por la en el sitio oficial de esta institucin en Internet
y contiene mltiples algoritmos para la dependencia del establecimiento secundario
aplicacin de tcnicas supervisadas y no (DEPENSEC) y categora de alumno segn la
supervisadas [5]. cantidad de materias aprobadas en primer ao
Los datos utilizados en este anlisis fueron (CAT_ALUMNO).
obtenidos de un almacn de datos que integra Para facilitar la comprensin de las salidas y
toda la informacin sistematizada de los grficos de los algoritmos de Weka, conviene
alumnos de la Facultad de Ciencias Exactas de que las variables sean de tipo cualitativo. Por
la UNNE. El mismo contiene los datos tanto, se codificaron todas las variables como
particulares y socio econmicos que se cualitativas o nominales, lo cual requiri un
registran en el ingreso, los datos de todas las trabajo previo realizado con planillas de
actividades acadmicas, como asignaturas clculo. Luego se procedi a la construccin
cursadas y rendidas, trmites de reinscripcin y del archivo en formato AARF, empleando un
readmisin, reconocimiento de materias y editor de textos.
datos del egreso o trmite de graduacin [1]. La variable o atributo conocido a predecir en
El almacn de datos est contenido en una base este trabajo est representada por
de datos Access. A travs de consultas SQL se CAT_ALUMNO. La misma comprende tres
obtuvo el conjunto de datos para este anlisis categoras de alumnos, segn su rendimiento
particular, integrando los datos de la tabla acadmico durante el primer ao, relacionado
Ingresantes que posee la informacin con los intentos y resultados de exmenes
socioeconmica y del nivel educativo previo finales: 1 (no se present a rendir nunca), 2 (se
del alumno y los datos de la tabla Situacin present a rendir pero no aprob ninguna
Acadmica, que contiene el registro de todas materia) y 3 (aprob una o ms materias).
las actividades de los alumnos.
Luego se seleccionaron los alumnos que 2. RESULTADOS Y DISCUSIN
pertenecen a la carrera Licenciatura en
En la Figura 1 se muestra a travs del Explorer
Sistemas de Informacin que rindieron
de Weka la composicin del conjunto de datos
exmenes finales de las materias que
y el nmero de registros por categora de la
corresponden al primer ao en fechas
variable CAT_ALUMNO. Por su parte, en la
correspondientes al ao del ingreso. Con esta
Figura 2 se visualiza el nmero de registros
informacin, para cada alumno se calcul: la
por ao de ingreso (ANIO), y la proporcin de
cantidad de exmenes finales rendidos
alumnos de categoras 1, 2 y 3 en cada ao. Se
(nmero de intentos), la cantidad de exmenes
observa que en los aos 2004 y 2005 ha
finales aprobados y la cantidad de exmenes
aumentado la proporcin de alumnos que no
finales desaprobados. En funcin de estos
rinden ninguna materia en el primer ao y ha
valores, se generaron las tres categoras que
disminuido la proporcin de alumnos que
identificarn a los alumnos que: 1) en el ao de
aprueban al menos una materia durante el
ingreso no rindieron ninguna materia, 2)
primer ao.
rindieron pero no aprobaron ninguna y 3)
Finalmente, en la Figura 3 se ilustra el nmero
rindieron y aprobaron por lo menos una
de registros para las distintas variables en
materia. La consulta resultante se export a
funcin de las categoras de CAT_ALUMNO.
una planilla de clculo.
A continuacin, se probaron diferentes
El archivo fue formateado para cumplir con las
algoritmos clasificadores del software Weka,
restricciones del programa Weka que fue
para seleccionar aqul que con un menor error
utilizado para el procesamiento de los datos, y
construyese un clasificador para la prediccin
contiene 2887 registros con las siguientes
de la categora de alumno segn su
variables referidas a los alumnos: ao de
comportamiento durante el primer ao
ingreso (ANIO), sexo (SEXO), estado civil
(CAT_ALUMNO).
(CIVIL), situacin laboral del alumno
Los mejores resultados fueron obtenidos con el
(SILAAL), grado de instruccin del padre
clasificador Logistic (Figura 4), el cual
(GRAINSPA), situacin laboral del padre
permite estimar y luego emplear modelos de
(SILAPA), categora ocupacional del padre
regresin logstica mltiple. En el estudio de
(CAOCPA), grado de instruccin de la madre
estos datos se obtuvieron resultados con
(GRAINSMA), situacin laboral de la madre
mediano grado de precisin, ya que el error del
(SILAMA), categora ocupacional de la madre
clasificador fue de 36,024%, y el porcentaje de
(CAOCMA), ttulo secundario (TITULO),
instancias clasificadas correctamente fue de 63,97%.

Figura 1. Composicin de la primera base de datos estudiada a travs de Weka y visualizacin


del nmero de registros en funcin de las categoras de CAT_ALUMNO

Figura 2. Visualizacin del nmero de registros de la variable Ao de ingreso (ANIO) en funcin


de la variable CAT_ALUMNO
Figura 3. Visualizacin del nmero de registros de cada variable en funcin de la variable
CAT_ALUMNO

Figura 4. Parte de la salida obtenida mediante el clasificador Logistic de Weka

4. CONCLUSIONES exmenes finales de las materias del primer


ao de la carrera. Esto permiti estimar el
A travs del uso de la minera de datos se han
rendimiento acadmico de los alumnos
probado diferentes algoritmos clasificadores
ingresantes de la carrera de Licenciatura en
disponibles en el software Weka de libre
Sistemas de Informacin de FACENA-UNNE.
distribucin, con el objeto de encontrar un
Si bien no se encontrado un clasificador que
clasificador que predijera los valores de la
prediga la variable en estudio con un alto
variable CAT_ALUMNO, que describe la
grado de precisin, el uso de la herramienta
categora de alumno segn los intentos
informtica Weka permiti realizar un anlisis
realizados y resultados obtenidos en los
descriptivo de los datos mediante grficos, de mediante la aplicacin de algunas tcnicas de
modo sencillo. Sin embargo, se ha observado minera de datos". Instituto de Estadstica
que, a pesar de que este software ofrece Aplicada y Computacin, Universidad de Los
muchos algoritmos para la construccin de Andes, Mrida, Venezuela. Escuela de
clasificadores, carece de una documentacin o Estadstica, Universidad de Los Andes,
ayuda adecuada. Mrida, Venezuela.
Los autores proponen continuar con el estudio
y prueba de los algoritmos que ofrece el [8] Segrera, Saddys; Moreno, Mara N.;
software Weka (ms de 20), que podran Miguel, Luis A. "Aplicacin de la minera de
mejorar los resultados obtenidos en este datos en la evaluacin de la aptitud fsica de
trabajo. las tierras para el cultivo de la caa de azcar".
Dept. de Informtica. Instituto Nacional de
5. REFERENCIAS Investigaciones de la Caa de Azcar. Ciudad
[1] Dapozo, G., Porcel, E. Metodologa de de la Habana. Dept. de Informtica y
integracin de datos para apoyar el Automtica. Facultad de Ciencias. Univ. de
seguimiento y anlisis del rendimiento Salamanca. Salamanca.
acadmico de los alumnos de la FACENA.
Comunicaciones Cientficas y Tecnolgicas de [9] Thuraisingham, B. A primer for
la UNNE 2005. understanding and applying Datamining. IT
http://www.unne.edu.ar/Web/cyt/com2005/8- Professional. Volume 2, Issue 1, Jan.-Feb.,
Exactas/E-032.pdf. pp. 28-31, 2000.

[2] Bustamante Donas, Javier. El software [10] Weiss, S.M. and N. Indurkhyya.
libre y la universidad. "Predictive Datamining. A Practical Guide".
http://www.libroblanco.com/html/modules.php Morgan Kaufmann Publishers, San Francisco,
?op=modload&name=News&file=article&sid= 1998.
164&mode=thread&order=0&thold=0.

[3] Herschkowitz, D. and J. P. Nadal.


Unsupervised and supervised learning:
Mutual information between parameters and
observations. Physical Review E, The
American Physical Society, Volume 59,
Number 3, March, pp. 3344-3360, 1999.
http://www.menem.com/~ilya/digital_library/l
earning/hershkowitz-nadal.pdf.

[4] Kleissner, C. Datamining for the


enterprise.System Sciences, Proceedings of
the Thirty-First Hawaii International
Conference on,Volume 7, 6-9 Jan., pp. 295-
304, 1998.

[5] Machine Learning Project at the


Department of Computer Science of The
University of Waikato, New Zealand.
http://www.cs.waikato.ac.nz/ml/weka/

[6] Redondo, Juan U. "Cmo sacar partido con


inteligencia de los datos".
http://c.microsoft.com/trans_pixel.asp

[7] Sananes, Marta; Torres, Elizabeth; Sinha,


Surendra P. y Nava Puente, Luis. "Bsqueda y
caracterizacin de subgrupos de pobreza

También podría gustarte