Está en la página 1de 11

Minera de Datos aplicada al anlisis de la desercin en la Carrera de Analista en Sistemas de Computacin.

J. G. A. PAUTSCH, D. . A !"D MA!T#$"%, . A. CUT!& Dpto. #n'ormtica. (C")*$. Uni+. $ac. de Misiones ,--../ Posadas. Ar0entina "1mail2 0pautsc34'ce5*n.unam.edu.ar 67 de (e8rero de 6.9.

A:ST!ACT "n la presente in+esti0acin se reali; una Minera de Datos so8re el Cu8o .7 Des0ranamiento, e<portado del Sistema de Gestin Acad=mica S#U1Guaran, pro+istos por el Ministerio de "ducacin, Ciencia * Tecnolo0a de la $acin. "l o8>eti+o principal 'ue ma<imi;ar la calidad 5ue los modelos tienen para clasi'icar * a0rupar a los estudiantes, de acuerdo a sus caractersticas acad=micas, 'actores sociales * demo0r'icos, 5ue 3an desertado de la Carrera Analista en Sistemas de Computacin de la (acultad de Ciencias "<actas, )umicas * $aturales de la Uni+ersidad $acional de Misiones. ue0o, estos modelos 'ueron utili;ados para reali;ar pronsticos so8re el resto de los alumnos. "l pro*ecto se desarroll 8a>o la metodolo0a de li8re di'usin Crisp1DM * con la 3erramienta comercial #:M D:6 ?are3ouse ,+ersin @.A/. a calidad de los modelos o8tenidos a tra+=s de la clasi'icacin con r8oles de decisin super a la t=cnica de a0rupamiento a tra+=s de la 0eneracin de clBsteres * am8as 3an superado ampliamente lo planteado. Pala8ras Cla+es2 Minera de datos, clasi'icacin, a0rupamiento, almacenes de datos, descu8rimiento de conocimiento, desercin uni+ersitaria, per'iles de alumnos. 9 #$T!&DUCC#C$ Todos los das, * casi sin darnos cuenta, se 0eneran 0ran cantidad de datos in'ormati;ados. ?.J. (raDle* * otrosE9F,

estiman 5ue las 8ases de datos ,:D/ de las or0ani;aciones se duplican cada +einte ,6./ meses. Por el contrario las t=cnicas de anlisis de esta in'ormacin no 3an tenido un desarrollo e5ui+alente. Muc3as or0ani;aciones mantienen 0randes :D. Dentro de esta masa de datos 3a* in'ormacin oculta de 0ran importancia 5ue, aplicando procesos de Minera de Datos ,MD/ ,data minin0/, se podra lle0ar a descu8rir. ,(i0ura 9.9/

(i0ura 9.9. Tipos de conocimiento.

Se estima 5ue un G.H de la in'ormacin contenida en una :D corresponde al conocimiento e+idente ,'cilmente recupera8le/. "l otro 6.H re5uiere de t=cnicas ms comple>as para su o8tencin ,(i0ura 9.6/ Puede 5ue esta ci'ra pare;ca desprecia8le, pero la in'ormacin oculta en ese pe5ueIo porcenta>e puede ser de +ital importancia para el =<ito de la empresa u or0ani;acin.

(i0ura 9.6. !elacin entre potencial de anlisis * comple>idad.

o 5ue se 8usca con esta tecnolo0a es re+elar conocimiento oculto Btil * no e+idente a partir de 0randes :D E6F. Desde la d=cada pasada la MD se 3a ido incorporando a las or0ani;aciones para constituirse en un apo*o esencial en el proceso de toma de decisiones. 6 &:J"T#J& P!#$C#PA Ho* da la Uni+ersidad $acional de Misiones cuenta con el Sistema de Gestin Acad=mica S#U1Guaran ,S#U1G/. Su si0la si0ni'ica Sistema de In'ormacin Uni+ersitaria * Kes un consorcio de uni+ersidades 5ue desarrolla soluciones in'ormticas * 8rinda ser+icios para el Sistema Uni+ersitario $acional * distintos or0anismos de 0o8ierno. Su o8>eti+o es contri8uir a me>orar la 0estin de las instituciones, permiti=ndoles contar con in'ormacin se0ura, nte0ra * disponi8le, optimi;ar sus recursos * lo0rar 5ue el so'tDare sea apro+ec3ado en toda su potencialidad.L E9GF. "l sistema, produce una 0ran cantidad de datos, los cuales pueden ser mu* +aliosos, pero 5ue resultan mu* di'ciles de anali;ar ,de8ido a su +olumen/ por las autoridadesM aBn con el uso de las 3erramientas estadsticas, esta tarea se di'iculta. Dentro de esta masa de datos 3a* in'ormacin oculta de 0ran importancia 5ue se podra lle0ar a descu8rir con t=cnicas de MD. !eali;ando un rele+amiento preliminar, se o8ser+ 5ue en el S#U1G

e<iste un mdulo ,#nter'a;/ 5ue e<porta +arios Data Mart de una D?. os mismos estn orientados al & AP * a8arcan di'erentes temticas. ue0o de anali;ar detalladamente la documentacin 5ue descri8e cada Data MartE6.F, se determin 5ue el Cu8o .7 N Des0ranamiento, pueden ser de 0ran utilidad para la presente in+esti0acin, *a 5ue a8orda la temtica de la desercin desde el punto de +ista acad=mico, social * demo0r'ico. "l o8>eti+o es reali;ar una MD, so8re las co3ortes 5ue se encuentran entre los aIos 6... * 6..O, a tra+=s de t=cnicas super+isadas * no super+isadas, so8re el Cu8o .7 e<portado de la :D del S#U1G. De esta 'orma se 8usca determinar cules son las t=cnicas, al0oritmos * parmetros ptimos para e<traer el conocimiento de la :D * as, con'eccionar modelos para intentar pronosticar con cierto 0rado de certe;a, * en 8ase a patrones acad=micos, 'actores sociales * demo0r'icos, si un alumno posee o no caractersticas 5ue aumenten su pro8a8ilidad de desertar de la carrera Analista en Sistemas de Computacin. a meta es lo0rar diseIar modelos de minera cu*a calidad de prediccin o clasi'icacin supere el OAH. Por otra parte se 8uscar estandari;ar * automati;ar los procesos ".T. . para 5ue cada unidad acad=mica pueda reali;ar la MD so8re el Data Mart e<portado del S#U1G. - !"J#S#C$ C&$C"PTUA a MD 8usca determina modelos compactos * comprensi8les 5ue rinden cuenta de las relaciones esta8lecidas entre la descripcin de una situacin * un resultado. (undamentalmente, la di'erencia de la MD con otras t=cnicas reside en 5ue permite construir modelos de manera automtica. Ca8e destacar 5ue la MD es una etapa dentro de un proceso ms amplio llamado Descu8rimiento de Conocimiento en :D ,PnoDled0e Disco+er* in Data :ase N PDD/. "n t=rminos estrictamente acad=micos, los t=rminos MD * PDD no de8en utili;arse de manera indistinta. a MD es un paso esencial en el PDD 5ue utili;a al0oritmos para 0enerar

patrones a partir de los procesados E99F ,(i0ura -.9/.

datos

pre

"llos de'inen 'ormalmente a la MD como Kun con>unto de t=cnicas * 3erramientas aplicadas al proceso no tri+ial de e<traer * presentar conocimiento implcito, pre+iamente desconocido, potencialmente Btil * 3umanamente comprensi8le, a partir de 0randes con>untos de datos, con o8>eto de predecir, de 'orma automati;ada, tendencias o comportamientos * descu8rir modelos pre+iamente desconocidosLE@F. a MD 0enera modelos 5ue pueden ser descripti+os o predicti+osE96F.

(i0ura -.9. "tapas en el PDD

"n la (i0ura -.6 se pueden o8ser+ar, al0unas de las disciplinas 5ue inter+ienen en la MD.

Descripti+os o $o Super+isados2 este modelo aspira a descu8rir patrones * tendencias so8re el con>unto de datos sin tener nin0Bn tipo de conocimiento pre+io de la situacin a la cual se 5uiere lle0ar. Descu8re patrones en los datos anali;ados. Proporciona in'ormacin so8re las relaciones entre los mismos. Predicti+os o Super+isados2 crean un modelo de una situacin donde las respuestas son conocidas * lue0o, lo aplica en otra situacin de la cual se desconoce la respuesta. Conociendo * anali;ando un con>unto de datos, intentan predecir el +alor de un atri8uto ,"ti5ueta/, esta8leciendo relaciones entre ellos.

(i0ura -.6. Disciplinas 5ue inter+ienen en la Minera de Datos

"l concepto de Data Minin0 no es nue+o. Desde los aIos O., los estadsticos, mane>a8an t=rminos como Data Fishing, Data Mining o Data Archaeology. a idea principal era encontrar correlaciones sin una 3iptesis pre+ia en :D con ruido. Tampoco nin0uno de los modelos estadsticos presentes en la MD son nue+os. os r8oles de decisin * de re0resin ,classification and regression trees 1 CART/ son utili;ados desde los aIos O.. as 8ases de re0las 'ueron populari;adas durante el au0e de los Sistemas "<pertos en los G. * las redes neuronales se conocen desde los aIos 7., pero 3an sido necesarios +arios aIos de desarrollo para 5ue 'ueran utili;a8les de manera sencilla. (ue a principios de la d=cada del G. 5ue !aQes3 A0raDal, Gio ?ieder3old, !o8ert :lum * Gre0or* PiatetsQ*1S3apiro, entre otros, empe;aron a consolidar los t=rminos de DM * PDD.

Uno de los 'actores cla+es 5ue de'ine la +erdadera MD es 5ue la aplicacin misma reali;a el anlisis so8re los datos. "n otros casos, el anlisis es 0uiado por una interaccin con el usuario. as aplicaciones 5ue no son, en al0Bn 0rado, auto 0uiadas estn reali;ando anlisis de datos * no MD. 7 S&(T?A!" UT# #%AD& "l so'tDare empleado para diseIar el modelo, crear la Almac=n de Datos * reali;ar la MD 'ue #:M Data ?are3ouse "dition ,D?"/J.@.A, 5ue inclu*e al D:6 "nterprise Ser+er "dition ,D:6 "S"/, al Desi0n Studio ,DS/ * al #ntelli0ent Miner ,#M/, cu*o permiso se encuentra autori;ado por medio de las resoluciones $R 979ST.7 * $R GAGT.O de la (acultad de Ciencias "<actas, $aturales * A0rimensura ,(AC"$A/ de la Uni+ersidad $acional del $ordeste * el KAcuerdo de Cooperacin Tecnol0ica (AC"$A N #:M Ar0entinaL.

5 METODOLOGA a metodolo0a seleccionada 'ue C!#SP1DM, *a 5ue esta a8arca una perspecti+a ms amplia contemplando tam8i=n los o8>eti+os empresariales del pro*ecto. Como re'le>o de lo antes mencionado, podemos citar las primeras etapas de otras metodolo0as. Mientras 5ue en ellas se comien;a reali;ando un muestreo de datos, la metodolo0a C!#SP1 DM se inicia reali;ando un anlisis del pro8lema de la empresa u or0ani;acin, para su posterior trans'ormacin en un pro8lema t=cnicoE9AF. a metodolo0a C!#SP1DM se acerca ms al concepto real de pro*ecto, esto permite 5ue pueda ser inte0rada con Metodolo0as de Gestin de Pro*ectos * as, completar las tareas administrati+as * t=cnicasE9OF. &tra di'erencia si0ni'icati+a entre las metodolo0as radica en su relacin con 3erramientas comerciales. a metodolo0a S"MMA, por e>emplo, est li0ada a los productos SAS #nstitute donde se encuentra implementada. a metodolo0a C!#SP1DM es una metodolo0a li8re * 0ratuita 5ue no depende de la 3erramienta 5ue se utilice para el desarrollo del pro*ecto de Data Minin0. a metodolo0a C!#SP1DM se or0ani;a en seis etapas. Cada una de ellas a su +e; se di+ide en +arias tareas ,(i0ura A.9/, las 'lec3as muestran las relaciones ms 3a8ituales entre las etapas, aun5ue se de8e aclarar 5ue pueden esta8lecer relaciones entre cual5uiera de las 'ases. "l crculo e<terior ilustra la naturale;a cclica del proceso de modelado.

6 RESULTADOS OBTENIDOS "n la (i0ura O.9 se puede o8ser+ar la estructura del Data Mart, Cu8o .7 Des0ranamiento, e<portada del S#U1G.

(i0ura O.9. Cu8o .7 1 Des0ranamiento

Se e>ecut el (lu>o de Minera con la me>or con'i0uracin 5ue se o8tu+o en la etapa de "+aluacin del Modelo, esto es2 $ro. ClBsteres2 Um8ral Similitud2 97. @.H. pueden

os resultados o8tenidos se o8ser+ar en la (i0ura O.6.

(i0ura O.6. Gr'ico de la Generacin de ClBsteres

"n la ta8la O.- se descri8e, en 0eneral, cmo estn compuestos los primeros cinco ClBsteres, los cuales a0rupan ms del A.H de la po8lacin.
Cluster Atributo Localidad Sexo Cole io Sit!"studiante Act!Acu Act!Anual Pro#incia Co%orte "studio!Padres A'o!Acad Valor Predominante Apstoles Varones Normal P Sin acti#idad Sin acti#idad $isiones 2&&2 Pri 2&&8

Nro. 12 12,18% de la poblacin

(i0ura A.9. (ases del proceso de modelado metodolo0a C!#SP1DM.

Localidad Sexo Nro. ( Cole io Sit!"studiante 11,28% Act!Acu de la Act!Anual poblacin Pro#incia Co%orte "studio!Padres A'o!Acad Localidad Sexo Nro. * Cole io Sit!"studiante 1&,*+% Act!Acu de la Act!Anual poblacin Pro#incia Co%orte "studio!Padres A'o!Acad Localidad Sexo Nro. / Cole io Sit!"studiante (,/0% Act!Acu de la Act!Anual poblacin Pro#incia Co%orte "studio!Padres A'o!Acad Localidad Sexo Nro. 11 Cole io Sit!"studiante 1,/&% Act!Acu de la Act!Anual poblacin Pro#incia Co%orte "studio!Padres A'o!Acad

Posadas Varones )nstituto P Sin acti#idad Sin acti#idad $isiones 2&&& Pri 2&&8 ,tras Loc. $u-eres .ac%iller P Sin acti#idad Sin acti#idad $isiones 2&&& Pri 2&&8 ,tras Loc. Varones .ac%iller P Sin acti#idad Sin acti#idad $isiones 2&&& Pri 2&&8 Apstoles $u-eres Comercial P Sin acti#idad Sin acti#idad $isiones 2&&2 Pri 2&&8

tienen en un S.H el mismo +alor en los atri8utos acti+os.

(i0ura O.7. Calidad 0lo8al del modelo o8tenida con el al0oritmo Generador de ClBsteres.

!especto a la clasi'icacin con r8oles de decisin, el (lu>o de Minera se e>ecut con la me>or con'i0uracin 5ue se o8tu+o en la etapa de "+aluacin del Modelo, 5ue es la 5ue o'rece la 3erramienta por de'ecto, esto es2 Pure;a m<ima2 .. Pro'undidad m<ima2 .. $Bmero mnimo de re0istros por nodo 3o>a2 ..

as clases 5ue el al0oritmo 3a podido predecir se pueden o8ser+ar en la (i0ura O.A.

Ta8la O.-. Descripcin de los cinco ClBsteres principales ,A.H de la po8lacin/

a (i0ura O.7 muestra la calidad 0lo8al del modelo. "sta es una medida de 3omo0eneidad de los clusters. Su escala +a de cero ,./ a uno ,9/. De este modo un modelo cu*a calidad 0lo8al es uno ,./ indica 5ue las tuplas no tienen nin0una similitud con las dems tuplas de su cluster. Por el contrario un modelo cu*a calidad 0lo8al se apro<ima a uno ,9/, indica 5ue las tuplas del cluster son mu* similares entre s. Una calidad 0lo8al de .,S indica 5ue, en promedio, las tuplas en un mismo cluster

(i0ura O.A. Clases predic3as por el al0oritmo Ur8ol

a ta8la O.O descri8e, en 0eneral, cmo esta compuesta cada clase.

Clase

Atributo Localidad Sexo Cole io Sit!"studiante Act!Acu Act!Anual Pro#incia Co%orte "studio!Padres A'o!Acad Localidad Sexo Cole io Sit!"studiante Act!Acu Act!Anual Pro#incia Co%orte "studio!Padres A'o!Acad Localidad Sexo Cole io Sit!"studiante Act!Acu Act!Anual Pro#incia Co%orte "studio!Padres A'o!Acad

Valor Predominante ,tras Loc. Varones Comercial P Sin acti#idad Sin acti#idad $isiones 2&&& Pri 2&&8 ,tras Loc. Varones Comercial e )nstituto A &4A4/ 5 *4A41/ &4A4+ 5 24A4/ $isiones 2&&& Pri 2&&8 Posadas 5 ,tras Loc. Varones Comercial, )nstituto 5 .ac%iller " 1*4A41/ 5 A6+* Sin acti#idad 5 A6* $isiones 2&&& 7ni 2&&8

,bser#aciones Se mantiene la proporcin con la poblacin total Se mantiene la proporcin con la poblacin total

2P3 Alumnos Pasi#os 1/,&+% de la poblacin

Se mantiene la proporcin con la poblacin total

2A3 Alumnos Acti#os 21,(0% de la poblacin

Se mantiene la proporcin con la poblacin total Se mantiene la proporcin con la poblacin total

Se mantiene la proporcin con la poblacin total Solo 1 re istros de Apstoles Solo 1 re istros de mu-eres

2"3 Alumnos " resados 2,&+% de la poblacin

Ta8la O.O. Descripcin de clases predic3as por el al0oritmo Ur8ol

a calidad 0lo8al del modelo para clasi'icar a los alumnos Pasi+os se puede o8ser+ar en la (i0ura O.S.

Salida de Preparacin2 es la 5ue se utili;ar para crear el modelo. Salida de Prueba2 es la 5ue se utili;ar para +alidar el modelo.

(i0ura O.S. Calidad del modelo o8tenida con el al0oritmo Ur8ol

(i0ura O.@. Di+isin Aleatoria de la (uente de Datos

as re0las esta8lecidas por el r8ol de decisin resultante se pueden apreciar en la (i0ura O.G.

"n re'erencia a la cantidad de datos de'inida para una u otra salida podemos decir 5ue la proporcin de error disminu*e a medida 5ue la cantidad de datos de entrenamiento aumenta. Para la presente e+aluacin se 3an reali;ado +arias prue8as dando como resultado 5ue la calidad del modelo ms alta se lo0r con la si0uiente con'i0uracin2 datos. Salida de Prueba2 se utili; el --H de los datos. Salida de Preparacin2 se utili; el OSH de los

(i0ura O.G. Ur8ol de Decisin.

Si 8ien en la e>ecucin de cada (lu>o de Minera se mide la Calidad Glo8al del modelo, para reali;ar la +alidacin del modelo con datos reales, lue0o de seleccionar la (uente de Datos, se introduce al rea de diseIo el elemento Divisin Aleatoria. "ste elemento permitir di+idir la (uente de Datos en dos partes, una porcin se utili;ar para la construccin del modelo * la otra porcin se de>ar apartada para, una +e; creado el modelo, +alidarlo. "n la (i0ura O.@ podemos o8ser+ar en el elemento de Di+isin Aleatoria las dos salidas de datos2

Paso se0uido se introduce el elemento Pronosticador. "ste es el encar0ado de crear el modelo de MD. a entrada de =ste, de8e conectarse a la Salida de Preparacin del Di+isor Aleatorio ,(i0ura O.9./

(i0ura O.9.. Cone<in de la Di+isin Aleatoria con el Pronosticador

Para poder +alidar el modelo creado con los datos 5ue se de>aron apartados en el paso anterior, de8emos a0re0ar al rea de diseIo un elemento Probador. "ste arte'acto tiene dos entradas2 Modelo de Minera2 5ue ser sometido a prue8a utili;ando los datos de entrada. De8e conectarse al Modelo de Salida del elemento Pronosticador. ntrada2 son los datos para reali;ar la prue8a so8re el Modelo de Minera de entrada. #r conectada a la Salida de Prue8a del Di+isor Aleatorio.

Si 8ien esto Bltimo, en este caso, puede parecer o8+io, se de8e tener en cuenta 5ue la muestra para +alidar el Modelo de Minera puede pro+enir de otra 'uente de datos, por e>emplo de alumnos 5ue 5ueremos pronosticar su 'uturo comportamiento, con enca8e;ados di'erentes. A5u reside la potencia del modelo * de all la importancia de tra;ar esta correlacin entre los datos. A continuacin la (i0ura O.9muestra la calidad 5ue el modelo tiene para clasi'icar los datos reales de los alumnos cu*a Sit# studiante$%P% ,Alumnos Pasi+os/.

Por Bltimo, para +isuali;ar el resultado de la prue8a reali;ada, se puede introducir un elemento !isuali"er * conectar su entrada al Resultado de Prueba del elemento Pro8ador. a +alidacin para el Modelo de Clasi'icacin, puede o8ser+arse en la (i0ura O.99.

(i0ura O.9-. Calidad del Modelo

(i0ura O.99. Modelo de "+aluacin

"n la matri; de con'usin de la (i0ura O.97 podemos +er 5ue el modelo clasi'ic incorrectamente slo 9O tuplas de un total de 9.AO@.

Dentro del arte'acto Probador es donde se de8en 3acer correlacionar los datos de entrada, pro+enientes de la muestra 5ue se apart para la pro8ar el modelo, con los atri8utos del Modelo de Minera resultante del Pronosticador ,(i0ura O.96/.
(i0ura O.97. Matri; de Con'usin

7 CONCLUSIONES Y LNEAS FUTURAS

(i0ura O.96. Parmetros Pro8ador, correlacin de Columnas

a interpretacin de los resultados se dele0o a los e<pertos en el dominio de la desercin. Todos ellos 3an o8ser+ado 5ue, si 8ien se reali;a una 8uena clasi'icacin * a0rupamiento de las caractersticas de los alumnos Acti+os * Pasi+os, sal+o el $i+el de

"studio de los Padres, la localidad, el desarrai0o ,Dist#a#Sede/ * el cole0io, no e<isten otras +aria8les rele+antes al anlisis socio econmico de la desercin estudiantil. Sera interesante poder incorporar al estudio, indicadores 5ue permitan sa8er si el alumno tiene personas a car0o, si tra8a>a, si es 5ue +ia>a para cursar, etc. $o o8stante en los resultados o8tenidos con la 0eneracin de clBsteres se pueden o8ser+ar ma*or ni+el de alumnos Acti+os en los a0rupamientos de estudiantes 5ue +ienen de localidades le>anas. "sto, por lo 0eneral, responde a 5ue el estudiante, adems de su con+encimiento, de8en con+encer a su 'amilia, o8tener recursos, 8uscar dnde residir durante el perodo lecti+o, en'rentar el desarrai0o, etc. "sto marca otro ni+el de compromiso comparado con los estudiantes 5ue +i+en en la misma localidad donde se dicta la carrera, sumado a 5ue, particularmente en Apstoles, no e<isten muc3as opciones para los estudiantes 5ue 5uieren se0uir una carrera uni+ersitaria. !especto al tratamiento de los cole0ios, se presenta el incon+eniente de los cole0ios polimodales. "stos no poseen una orientacin espec'ica, *a 5ue los contenidos los or0ani;an cada institucin en 'orma independiente. As, por e>emplo, un cole0io con orientacin 3umanista, puede tener contenidos ms asociados a ramas t=cnicas o matemticas *, +ice+ersa con los cole0ios de orientacin t=cnica o comercial. "<isten cole0ios en 5ue, en los Bltimos dos aIos de cursado, no se 3an dictado matemticas. Un dato interesante 5ue se puede apreciar en la 0eneracin de clBsteres son los cole0ios comerciales de Apstoles * Posadas 5ue concentran la ma*ora de los alumnos pasi+os. Una +aria8le acad=mica mu* decisi+a en la clasi'icacin de los alumnos pasi+os es la Acti+idad Anual. Se0Bn los modelos o8tenidos, los alumnos 5ue en un aIo no re0istran acti+idad acad=mica ,Act#Anual $ sin actividad/, lue0o no +uel+en a re0istran nin0Bn tipo de acti+idad, 5uedando pasi+os. "ste dato es mu* interesante *a 5ue acorta en un aIo la poltica de pasi+idad con la cual se mane>an las unidades acad=micas 3o* da. Como respuesta al anlisis de la temtica a8ordada, los e<pertos conclu*eron 5ue, si 8ien se reali;a una mu* 8uena distincin entre los estudiantes acti+os * pasi+os, no puede a'irmarse 5ue esta in'ormacin sea conclu*ente para

determinar si un alumno puede o no desertar de la carrera. Sera interesante 5ue inter+en0an otras +aria8les, so8re todo socio econmicas en el estudio. Como conclusiones del lado del in0eniero en conocimiento, primeramente se de8e comentar 5ue en esta in+esti0acin slo se 3an a8arcado al0unos m=todos de e<traccin del conocimiento a tra+=s de la MD. $o o8stante, e<isten muc3as ms posi8ilidades 5ue o'recen =sta * otras 3erramientas. )ueda demostrado 5ue para reali;ar una minera de datos de 8uena calidad, =sta de8e estar acompaIada de una serie de mecanismos ,(lu>os de Datos, (lu>o de Minera, Matrices de Con'usin, etc./ 5ue 'aciliten * permiten reali;ar una +alidacin de los modelos * un anlisis de resultados ms completo * 'ia8le. Con las dos t=cnicas seleccionadas se 3an o8tenido mu* 8uenos resultados, superando lo planteado como o8>eti+o espec'ico de la MD. a aplicacin de cada al0oritmo 'acilit ad+ertir, no slo las di'erentes caractersticas pertenecientes al 0rupo de alumnos Pasi+os, sino 5ue tam8i=n 3an 5uedado mani'estadas las caractersticas de las clases contrastes ,alumnos Acti+os * "0resados/. "l modelo de Clasi'icacin a tra+=s de Ur8oles de Decisin super en calidad a los patrones o8tenidos con el m=todo de Generacin de ClBsteres. A su +e;, este ultimo, permiti ad+ertir mas detalladamente cules eran los atri8utos ms importantes por el cual el al0oritmo reali;a8a la clasi'icacin de los alumnos. Como contrapartida, la interpretacin del Ur8ol de Decisin o8tenido, no resulta 'cil de leer, de8ido a su amplitud, por personas no especiali;adas. #nclusi+e con'i0urando distintos ni+eles de poda el r8ol si0ue siendo mu* e<tenso. "sta di'icultad es compensada, tanto en la clasi'icacin como en el a0rupamiento de caractersticas, por la e<celente representacin 0r'ica 5ue reali;a la 3erramienta. Si 8ien la calidad de los modelos super las e<pectati+as planteadas, se considera mu* importante contar con la opinin de los e<pertos, no slo a la 3ora de crear los modelos sino 5ue tam8i=n en lo 5ue re'iere a la e+aluacin e interpretacin de los resultados Un aporte mu* si0ni'icati+o es el 3a8er lo0rado automati;ar los procesos "T a tra+=s de la implementacin de (lu>o de

Datos * Control. Con esta 3erramienta a su disposicin, la Unidad Acad=mica, 5ue as lo desee, podr e<traer el conocimiento de sus :D con ms 'acilidad e+itando lar0as etapas de Pre Proceso. Dada la 'le<i8ilidad 5ue otor0a la 3erramienta, * a la automati;acin de los 'lu>os de datos, no representara ma*or incon+eniente, el introducir ms +aria8les socio econmicas, como su0ieren los e<pertos. A lo lar0o del desarrollo del presente pro*ecto 3an sur0ido +arias lneas para ser a8ordadas en 'uturas in+esti0aciones. "ntre al0unas de ellas podemos mencionar2 #n+esti0ar la manera en 5ue el (lu>o de Minera pueda ser incorporado al (lu>o de Control para 5ue, de esta manera, todo el proceso 5uede automati;ado. Con'eccionar los (lu>os de Datos, Control * Minera de Datos para procesar los dems cu8os pro+istos por la Secretaria de Polticas Uni+ersitarias ,dependiente del Ministerio de "ducacin, Ciencia * Tecnolo0a de la $acin/. DiseIar nue+os cu8os incorporando ms +aria8les socio econmicas como estado ci+il, situacin la8oral, 'amiliares a car0o * otras contenidas en la :ase de Datos del S#U1G, particularmente en la ta8la s0aVDatosVCensales, * las su0eridas por los "<pertos en la Seccin 9-.9. ,por e>emplo, el desarrai0o del nBcleo 'amiliar calculado en Qilmetros/. Desarrollar la presente in+esti0acin utili;ando 3erramientas &pen Source como por e>emplo la Suite Penta3o la cual pro+ee e implementa todas las estructuras a5u +istas ,(lu>os de Datos, Control * Minera de Datos/.

E6F

Ca8ena P., Had>inian P., Stadler !., Jer3ees J. W %anasi, KDiscovering DataMining fro( Concept to )(ple(entation*, :ooQ W Cd edition, Septem8er 9@@S. Sil8ersc3art;, Port3 W Sudars3an, KFunda(entos de +ases de Datos*, i8ro, )uinta "dicion, Ma*o 6..A. C.J. Date. K)ntroduccin a los Siste(as de +ase de Datos*, i8ro, S=ptima edicin, 6..9. C3aud3uri S. et al., KAn ,vervie' of Data -arehousing and ,.AP TechnologyL, Mar;o 9@@S. #nmon ?., K+uilding Data -arehouseL, Tec3nical Pu8lis3in0 Group 9@@6. !amn Garca Martne; , Paola Jernica :ritos, Ale>andro Hossian, "nri5ue Sierra. /Minera de datos +asada en Siste(as )nteligentes/0 Primera edicin, 6..A. Pim8all, !., 1The Data -arehouse Tool2it*3 Jo3n ?ile* W Sons, 9@@O. (raDle*, PiatesQ*1S3apiro, Mat3eus, 1&no'ledge Discovery in Databases4 an ,vervie'*. A# Ma0a;ine, &toIo 9@@6. uis Carlos Molina (=li<, KTorturando a los Datos 5asta 6ue ConfiesenL. Coordinador del pro0rama de Data Minin0, Uni+ersidad &8erta de Catalun*a ,U&C/, 6..9. (raDle*, PiatesQ*1S3apiro, Sm*t3, KFro( Data Mining to &no'ledge Discovery in DatabasesL, 9@@O. !aQes3 A0raDal W Jo3n C. S3a'er2 /Parallel Mining of Association Rules/ #""" Transactions on PnoDled0e and Data "n0ineerin0, Decem8er 9@@O. Sas #nstitute, Disponi8le en2 3ttp2TT DDD.sas.comTtec3nolo0iesTanal*tics Tdataminin0TminerTsemma.3tml 2 (ec3a de Consulta2 Junio, 6..@.

E-F

E7F

EAF

EOF

ESF

EGF E@F

E9.F

E99F

E96F

8 REFERENCIAS E9F ?.J. (raDle*, G. PiatetsQi1S3apiro, C.J. Mat3eus, K&no'ledge Discovery in DatabasesL, AAA#1M#T Press, Menlo ParQ, Cali'ornia, 9@@9.

E9-F

9.

E97F

Pete C3apman ,$C!/, Julian Clinton ,SPSS/, !and* Per8er ,$C!/, T3omas P3a8a;a ,SPSS/, T3omas !einart; ,DaimlerC3r*sler/, Colin S3earer ,SPSS/ and !Xdi0er ?irt3 ,DaimlerC3r*sler/, /CR)SP7DM 8393 Step7by7step data (ining guide/0 9@@@. Jos= ". Gondar, Consultoria de Datos, KComparacin de Metodolo0as de Data Minin0L, Disponi8le en2 3ttp2TTDDD.>ose83uerta.comTdatami nin0.3tm, (ec3a de Consulta2 Julio, 6..@. DataPri<, Disponi8le en2 3ttp2TTDDD.datapri<.comTel1 modelo1crisp1dm1mineria1de1datos, (ec3a de Consulta2 Junio, 6..@. Diario Di0ital Amsa'e, entre+ista reali;ada a Carlos Pallotti, presidente de la Cmara de So'tDare * Ser+icios #n'ormticos de la !epB8lica Ar0entina ,Cessi/, Diciem8re, 6..O. S#U Guarani, Disponi8le en2 3ttp2TTDDD.siu.edu.arTacercaVdeT5u eVesVelVsiu (ec3a de Consulta2 Septiem8re 6..@. Dean A88ott, KAn valuation of 5igh7end Data Mining Tools for Fraud DetectionL, #J #""" #nternational Con'erence on S*stems, Man, and C*8ernetics 9@@G. S#U Guarani, Descripcin del Cu8o .7 Des0ranamiento, Secretaria de Polticas Uni+ersitarias dependiente del Ministerio de "ducacin, Ciencia * Tecnolo0a de la $acin. Gua YP(, Disponi8le en2 3ttp2TTDDD.0uia*p'.com.arT0uia*p'T arVesT3omeT3ome.asp< (ec3a de Consulta2 &ctu8re 6..@. ic. Mariana #n=s Pu8sQi, KMinera de Datos con )ntelligent MinerL, Uni+ersidad $acional del $ordeste, (acultad de Ciencias "<actas, $aturales * A0rimensura, 6..7.

E6-F

E9AF

Mara $. Moreno Garca, uis A. Mi0uel )uintales, (rancisco J. Garca PeIal+o * M. Jos= Polo Martn , KAplicacin de T:cnicas de Minera de Datos en la Construccin y !alidacin de Modelos Predictivos y Asociativos a Partir de specificaciones de Re6uisitos de Soft'areL, Uni+ersidad de Salamanca. Departamento de #n'ormtica * Automtica, 6..9. Ser+ente, M. W Garca1Martne;, !., KAlgorit(os TD)DT Aplicados a la Minera de Datos )nteligenteL. (acultad de #n0eniera. Uni+ersidad de :uenos Aires. 6. Director Ad>unto del Pro0rama de Ma0ister en #n0eniera de So'tDare. "scuela de Post0rado. #nstituto Tecnol0ico de :uenos Aires, 6..6. M0ter. Horacio Daniel Puna, KMe(oria de Docencia e )nvestigacinL, D"A Doctorado en #n0eniera de Sistemas * Computacin, Uni+ersidad de Mla0a, A0osto 6..G. M0ter. Da+id . la !ed Martne;, KSistemas &perati+osL, sitio De82 3ttp2TTe<a.unne.edu.arTdeparTareasT in'ormaticaTSistemas&perati+osTS&( .3tm , (ec3a de consulta .6T.GT.@. #:M Academic #nitiati+e, #nicitai+a Acad=mica de #:M para las Uni+ersidades del Mundo, sitio De82 3ttp2TTDDD1 -.7.i8m.comT>ct.9..AcTuni+ersit*Ts c3olarsTacademicinitiati+eT, (ec3a de consulta 96T9.T.@.

E67F

E9OF

E9SF

E6AF

E9GF

E6OF

E9@F

E6SF

E6.F

E69F

E66F

99

También podría gustarte