Está en la página 1de 7

Herramientas y

f u n c i o n a l i d a d e s de
minera de datos en
Oracle
Por Ing. Alexei Rodrguez Mndez, Tcnico en Sistema de Computacin,
Gerencia de Innovacin y Desarrollo, UNTISW, ETECSA
alexei.rodriguez@etecsa.cu

Introduccin encontrar patrones y relaciones no y potencialmente til de los datos


[4]. El KDD cuenta con varias etapas
H oy da la informatizacin de la
sociedad es toda una realidad,
millones de sistemas informticos
conocidas y, a veces, insospechadas
[7]. A travs de ella, pueden explicar-
se comportamientos que seran muy
compresin del negocio, seleccin
de datos, limpieza y preprocesa-
han sido desarrollados y, de una difciles de diagnosticar con otras miento, transformacin, minera de
forma u otra, apoyan, ejecutan o tcnicas tradicionales. La realizacin datos, evaluacin e interpretacin de
controlan las actividades y proce- de proyectos de minera de datos tie- los resultados.
sos diarios. El empleo estratgico ne sus peculiaridades, existen meto- La Minera de Datos es una etapa
de la informacin ha adquirido dologas, herramientas y numerosos del KDD [4], e incluye el anlisis de
nuevos matices, donde quien la estudios los cuales apoyan a los grandes volmenes de datos, con el
posee, tiene una gran ventaja y especialistas de esta rama en la ejecu- objetivo de encontrar relaciones no
posibilidades de xito. cin de tales tareas. conocidas y resumirlas de forma no-
El Descubrimiento del Conocimiento En este artculo se presentan los vedosa y til para los dueos de la
en Bases de Datos del ingls, principales conceptos relacionados informacin. Los resultados son co-
Knowledge Discovery in Databases con la Minera de Datos, con nfa- nocidos como patrones o modelos
(KDD) consiste en el proceso de sis particular en las herramientas y [5]. Los procesos pueden ser autom-
extraccin no trivial de informacin funcionalidades que aporta Oracle ticos o semiautomticos y los patrones
implcita, desconocida, y potencial- en tal sentido. descubiertos deben ser significativos
mente til de los datos. El KDD posee y ventajosos para el interesado [10].
Minera de Datos Las tcnicas de minera de datos per-
varias etapas donde la ms impor-
tante es la Minera de Datos que se Para hablar de Minera de Datos miten obtener predicciones vlidas [1].
basa en la aplicacin de tcnicas de primero es necesario mencionar el Existe un dilema dado fundamen-
diferentes campos como la inteligen- KDD, este se define como un pro- talmente por los trminos de KDD y
cia artificial y la estadstica a grandes ceso de extraccin no trivial de Minera de Datos (MD). Algunos
volmenes de datos con el objetivo de informacin implcita, desconocida, autores consideran que el primero

110 Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A.


es ms amplio y abarcador que el segn sea la naturaleza y los objetivos del proyecto. Propone modelos
segundo, donde MD slo se refiere genricos que deben ser adaptados: a esta accin se le denomina mapear el
al conjunto de algoritmos y mtodos modelo.
empleados para extraer el conoci- CRISP-DM plantea cuatro niveles de abstraccin durante un proyecto de
miento y forma parte del proceso del DM, organizados de forma jerrquica en tareas que van desde las gene-
KDD. Por otra parte, es comn en- rales hasta las especficas fases, tareas genricas, tareas especficas,
contrar el concepto de minera de instancias de procesos. Tambin propone un modelo de referencia
datos como un smil del KDD. compuesto por 6 fases relacionadas entre s y que interactan de forma
El trmino Minera de Datos es cclica como muestran la figura 1.
ms empleado por los estadsticos,
analistas de datos y los sistemas de
administracin de la informacin.
KDD, por su parte, tiene seguido-
res en los estudiosos de campos
de la inteligencia artificial y las m-
quinas de aprendizaje.
Metodologas de Minera de
Datos
Enfrentar un proyecto de Minera de
Datos requiere de experiencia, capaci-
tacin pero, sobre todo, planificacin
y organizacin. Las metodologas para
el desarrollo de software como RUP
[6], XP [11], han logrado estandarizar
los procesos de software. La Minera
de Datos no puede tratarse de forma Figura 1 Fases del modelo de referencia CRISP-DM
tradicional, tiene sus propias caracte- Metodologa SEMMA
rsticas, de ah que existen metodo- Esta metodologa es desarrollada por SAS, empresa a la vanguardia en
logas para ejecutar estos proyectos. temas de minera de datos e inteligencia de negocio business intelli-
Entre ellas las ms empleadas son gence. SEMMA define una organizacin lgica de actividades que se
CRISP-DM del ingls, CRoss-Indus- ejecutan en el empleo de SAS Enterprise Miner para realizar proyectos
try Standard Process for Data Mining de minera de datos. Su nombre est formado por las iniciales de las
y SEMMA del ingls, Sample, Ex- etapas que propone: Sample (Muestreo), Explore (Exploracin), Modif.
plore, Modify, Model, Assess. (Modificacin), Model (Modelado), Asses (Evaluacin) [2] (Figura 2).
Metodologa CRISP-DM
La metodologa CRISP-DM fue creada
en 1996 cuando un importante consor-
cio de empresas europeas NCR Figura 2 Etapas de SEMMA
(Dinamarca), AG (Alemania), SPSS Comparacin entre CRISP-DM y SEMMA
(Inglaterra) y OHRA (Holanda) Ambas metodologas son efectivas en un proyecto de minera,
unieron sus recursos para el desa- estructuran las tareas en fases donde bsicamente se manifiestan las
rrollo de esta metodologa de libre siguientes etapas: extraccin de los datos preparacinmodelado
distribucin. CRISP-DM ha tenido evaluacindespliegue. Estas etapas estn interrelacionadas, por ejemplo,
xito porque est basada en la prc- al obtener un modelo es posible que haya que realizar una nueva prepa-
tica, en experiencias reales de cmo racin de los datos u otra seleccin de los mismos.
los expertos realizan los proyectos SEMMA es ms limitada en cuanto a la comprensin del problema desde
de Minera de Datos [9]. el punto de vista empresarial. Comienza con la realizacin de una extrac-
Es una metodologa con propsi- cin de los datos, mientras que CRISP-DM propone una lgica ms abar-
tos generales para cualquier pro- cadora, es decir, entiende el negocio y por qu es necesario y dnde
yecto de MD. Plantea ideas que realizar un proyecto de DM.
deben parametrizarse para cada CRISP-DM es publicada y distribuida libremente, puede ser imple-
entorno de ejecucin, desechando mentada por cualquier interesado en el tema. SEMMA slo muestra sus
algunas cosas y adicionando otras, aspectos generales y los acopla a su producto de minera Enterprise Miner.

Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A. 111


SAS actualmente ha planteado que las actividades de preparacin, creacin de modelos y anlisis se realizan en la
SEMMA no es una metodologa, BD, influyendo directamente en un aumento de la productividad y
sino una organizacin de pasos para efectividad de los resultados.
hacer minera con su producto de DM. La integracin de ODM con la base de datos se logra a travs de las interfaces
Java y PL/SQL. La interfaz Java facilita la creacin de aplicaciones tipo java que
Minera de Datos en Oracle pretendan hacer minera en Oracle. Por otra parte, existen las interfaces PL/SQL
Oracle Corporation en una com- DBMS_DATA_MINING y DBMS_DATA_MINING_TRANSFORM, para el
paa lder en el mundo en materia de acceso a las tcnicas de minera en aplicaciones PL/SQL. Es importante sealar
base de datos y otras aplicaciones. que, aunque ambas interfaces en un principio permiten las mismas funciones,
Su producto insignia es el motor de existen diferencias entre ellas.
Base de Datos (BD) Oracle. En su edi- Las funciones de Minera de Datos estn basadas en dos tipos de a-
cin Enterprise, a partir de la versin prendizajes supervisados y no supervisados. Los supervisados son
9i, incluye tcnicas de minera de usados generalmente para predecir valores y son implementados en
datos concebidas en Oracle Data modelos predictivos. Por otra parte, los no supervisados se emplean en
Mining (ODM). Estas funcionalida- problemas donde no han sido definidos objetivos o variables a deter-
des estn completamente embebidas minar. Estos ltimos pueden arrojar resultados insospechados.
en el propio motor de la base de datos, Entre las etapas propuestas de un proyecto de minera de datos se
por lo que no requieren de procesos encuentra la obtencin del modelo, para ello se utilizan varios algoritmos
de instalacin extra. provenientes, principalmente, de la estadstica e inteligencia artificial.
ODM tiene sus orgenes en el pro- ODM implementa muchos de estos algoritmos conocidos y aporta sus
ducto Darwin desarrollado por variantes. Las funciones de minera que soporta ODM son las siguientes [8]:
Thinkign Machines Corp., que fue Modelos predictivos aprendizaje supervisado: clasificacin,
adquirido por Oracle en 1999 [3]. regresin, importancia de atributo.
ODM es una infraestructura que per- Modelos descriptivos aprendizaje no supervisado: segmentacin,
mite construir aplicaciones robustas modelos de asociacin, extraccin de patrones.
de minera sin tener que recurrir a ODM tambin tiene soporte para aplicaciones de minera de texto, as
softwares de terceros. Los procesos como funciones especficas para el campo de la bioinformtica a travs
de extraccin del conocimiento se de la herramienta BLAST. Tambin, implementa algoritmos diversos,
simplifican, debido a que se eli- algunos tradicionales y otros propietarios, a continuacin en la tabla 1
mina la necesidad de movimientos se exponen los tipos de problemas y los algoritmos que pueden ser usa-
de los datos para su anlisis. Todas dos.

Algoritmos r b o l e s A d a p t a t i v e N a i v e S V M O n e A priori M a t r i z Min K-Means O-Cluster


Problemas D e c i s i n Bayes Bayes Class f a c t o r i z a c i n Desc
Network SVM no negativa L e n g t h
Deteccin
Anormalidades X

Reglas
Asociacin X

Importancia
Atributos X

Clasificacin X X X X

Clustering X X

Extraccin
Patrones X

Regresin X

Tabla 1 Tipos de problemas y algoritmos

112 Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A.


Oracle Data Miner
Oracle Data Miner es una herramienta de minera de datos desarrollada
por Oracle. Es multiplataforma y utiliza las interfaces de ODM. Cuenta
con una interfaz de usuario sencilla e intuitiva. Implementa variadas
funciones de preprocesamiento de los datos de manera visual comple-
tamente, el usuario no necesita conocer lenguaje alguno de consultas
para realizar estas actividades. Es parametrizable y permite exportar los
resultados para ficheros csv, as como la importacin de fuentes de
datos externas a travs de ficheros textos.
Para la visualizacin de los resultados Oracle Data Miner propone
procedimientos estndares para cada tipo de actividad de minera, donde
puede comprobarse grficamente la calidad de los modelos obtenidos, Figura 4 Transformacin por
recodificacin
as como otros indicativos de evaluacin como la matriz de costo.
Una caracterstica de reciente incorporacin en la versin 10.2.2 es la Con las funciones anteriores pue-
exportacin de los paquetes PL/SQL hacia la BD Oracle para ejecutar las den ejecutarse variadas activida-
actividades de minera realizadas con Oracle Data Miner, pero desde des de preparacin de los datos
otras aplicaciones que empleen la BD. A travs de esta importante carac- sin necesidad de ser un conocedor
terstica, se facilita, en gran medida, la implementacin de aplicaciones de la sintaxis sql, ni de las particu-
de minera de datos utilizando la BD Oracle. laridades de Oracle. Adems, exis-
Empleo de Oracle Data Miner ten funcionalidades relacionadas con
Oracle Data Miner soporta gran cantidad de tareas de minera de datos, la explicacin de los datos, donde
desde sus fases iniciales de extraccin, transformacin hasta la evaluacin el especialista puede conocer qu
de los resultados y el despliegue. influencia tiene un determinado
Funcionalidades para la preparacin y transformacin de los datos campo sobre el resultado final,
La exploracin de los datos puede ser realizada a travs de resmenes para mostrado tambin en forma de
registros simples o multirregistros, donde en cada caso se muestra, me- histograma pero horizontalmente.
diante un histograma como muestra la figura 3, la distribucin de los Construccin del modelo
datos; en caso de que el dominio sea muy amplio, se emplean tcnicas como Para esta etapa del desarrollo de un
la discretizacin. proyecto de minera de datos, la herra-
mienta posee diversas caracters-
ticas. La secuencia de pasos vara en
dependencia del tipo de actividad
desarrollada y el algoritmo empleado,
aunque existen puntos comunes pa-
ra todos los proyectos que puedan
desarrollarse. A continuacin se ex-
plican las acciones a ejecutar en un
problema tpico de clasificacin.
El primer paso es seleccionar el
tipo de tarea que se desea ejecutar
asociacin, clasificacin, regre-
sin, deteccin de anomalas, seg-
mentacin, importancia de atributos,
etc., en este caso clasificacin y
el tipo de algoritmo a emplear.
Despus se selecciona la fuente de
datos, especificando los campos a
Figura 3 Histograma para el campo aos de residencia tener en cuenta y un identificador
Para la transformacin de los datos y su exploracin, existen varias para cada registro; adicionalmente
funciones, entre ellas: agregacin, campos computados, discretizacin, se permite incluir otras fuentes de
filtrado de campos, valores perdidos, normalizacin, tratamientos de datos, lo cual no debe ser necesario
puntos fuera de rango, recodificacin permite sustituir valores por si se ejecut una preparacin ade-
otros segn criterios de entrada, seleccin aleatoria, seleccin cuada. El paso siguiente consiste
aleatoria por capas, divisin, divisin por capas (Figura 4). en sealar cul es la variable obje-

Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A. 113


tivo del proyecto actual y su valor preferido el algoritmo tratar de
maximizar la ocurrencia del valor dado (Figura 5).

Figura 5 Formulario de seleccin de variable objetivo y campos a incluir en el


modelo

Una vez realizado los pasos anteriores, la actividad est lista para ser
procesada y obtener el modelo correspondiente. La herramienta ejecuta
una serie de tareas predefinidas que pueden ser personalizadas si se
desea. Entre ellas se encuentran: una segunda seleccin de los datos,
por defecto no est activada porque se supone que se hayan ejecutado
acciones anteriores con esos objetivos. Discretizacin del dominio, est
activada por defecto aunque puede ser desactivada si se realiz esta ac-
cin en la fase de preparacin, en caso contrario, no es recomendable
debido a que puede que la corrida del modelo se torne muy lenta.
Particionamiento de los datos, se especifica qu seccin ser destinada
a la construccin del modelo y cul a la prueba del mismo, una razn
recomendada es (6040) respectivamente. Parmetros de la construccin
del modelo entre los que se encuentran: metas de precisin precisin
mxima promedio, precisin mxima global y parmetros propios para
cada algoritmo.
Una vez corrido el modelo, los resultados de cada etapa o pasos vistos
anteriormente pueden ser consultados en la pantalla de resultado de la
actividad que aparece en la figura 6.

Figura 6 Pantalla de resultados de la corrida del modelo

114 Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A.


La tarea de evaluacin de los resultados o mtricas de resultados Test Conclusiones
Metrics posee los datos ms interesantes, porque Oracle Data Miner
Actualmente, la Minera de Datos es
brinda varios artefactos de visualizacin de los resultados donde, de una
un campo an en desarrollo, nuevas
forma muy interesante, el especialista conoce la efectividad del modelo
tecnologas se abren camino cada da,
hallado.
Oracle constituye con sus productos
La grfica de confianza de la prediccin (Figura 7b), indica la calidad
de minera una solucin ventajosa si
del modelo. La zona verde significa mejores modelos, pero se considera
los datos yacen en este tipo de base
un buen resultado si la aguja est en la zona derecha del reloj.
de datos. ODM es muy factible de em-
La pgina de precisin (Figura 7a) muestra varias interpretaciones de la
plear con resultados rpidos y confiables
exactitud del modelo. Partiendo de que en los datos empleados se conoce
que permiten escalar en profesiona-
el valor real de la variable objetivo, se construyen grficas donde puede
lidad y eficacia.
verificarse en qu cuanta el modelo predijo los resultados reales. Otro
aspecto significativo es la matriz de confusin, a travs de ella se Referencias bibliogrficas
conoce el costo de hacer una mala prediccin y as tomar decisiones. [1] Eldestein, Hebert A. Introduction to Data
Mining and Knowledge Discovery. Third Edition.
USA: Two Cross Corporation, 2005.
[2] E-Intelligence, S. Finding the Solution
to Data Mining. A Map of the Features and
Components of SAS Enterprise Miner TM
Software Version 4.1, 2000. Disponible en:
http://www.sas.com (Consulta: 20/11/
2006).
Figura 7 Matriz de confusin y grfica de confianza [3] Thinking Machines Purchased by Oracle,
Disponible en: http://query.nytimes.com/gst/
La pgina de ROC muestra una grfica muy til para determinar posibles (Consulta: 21/06/2006).
[4] Fayad, U.M., Piatetsky-Shapiro, G. &
cambios en el modelo, responde preguntas como: qu pasa si se cambia
Smyth, P. From Data Mining to Knowledge
x parmetro? La grfica muestra la relacin entre los resultados po- Discovery in Databases. AAAI 97, no. (1996):
sitivos verdaderos y los falsos positivos en los segmentos de datos, por 18. Disponible en http://www.kdnuggets.com/
defectos los datos son ordenados por probabilidad y divididos en 10 gpspubs/aimag-kdd-overview-1996-Fayyad.pdf.
(Consulta: 08/05/2006).
partes. El usuario puede desplazar la lnea roja hasta lograr la relacin [5] Hand, David; Mannila, Heikki; y Smyth,
deseada de positivos y negativos, segn sea el inters (Figura 8a). Padhraic. Principles of Data Mining. E.U.: MIT
La pgina de acumulacin de probabilidades (Figura 8b), muestra otra Press, 2001, 546 pgs.
interpretacin de los resultados por probabilidades, las observaciones [6] Jacobson, Ivar; Booch, Grady; y Rumbaugh,
James. El proceso unificado de desarrollo de
realizadas aqu son del tipo qu cantidad de veces el modelo es mejor software. USA: Addison Wesley, 2006.
que una solucin aleatoria del problema visto? [7] Mndez, A. R. Empleo de tcnicas de Minera
de Datos con soporte Oracle en apoyo a la toma de
decisiones relacionado con fraude en las reclamaciones
telefnicas. La Habana: CUJAE, 2007, 56 pgs.
[8] Oracle_Corporation. Oracle Data Mining
Concepts, 10g Release 1 (10.1), Corporation
Oracle, 2003. Part No. B10698-01: 118.
Disponible en: http://www.oracle.com/technology/
documentation/datamining.html. (Consulta: 15/
11/2006).
[9] Chapman, Pete (NCR), J. C. S., Kerber,
Randy (NCR), Khabaza, Thomas (SPSS),
Reinartz, Thomas (DaimlerchrChrysler),
Shearer, Colin (SPSS) and Wirth, Rdiger
(DaimlerchrChrysler). CRISP-DM 1.0 Step-by-Step
Data Mining Guide, 2000. Disponible en: http://
www.crisp-dm.org. (Consulta: 13/10/2006).
Figura 8 Grficas de ROC y de acumulacin de probabilidades [10] Witten Ian H.; Frank, Eibe. Data Mining:
Practical Machine Learning Tools and Techniques.
Oracle Data Miner implementa utilitarios de exportacin de los modelos a Second Edition. San Francisco C.A.: Elseiver Inc.,
paquetes PL/SQL en una base de datos Oracle, de esta forma el especialista 2005, 558 pp.
informtico puede emplearlos en aplicaciones ms personalizadas. Tambin [11] XP. What is Extreme Programming?
permite publicar los resultados en un servidor Oracle Discover y al formato (2006). Disponible en: http://
www.extremeprogramming.org/what.html.
PMML. (Consulta: 25/06/2007).

Tono Revista Tcnica de la Empresa de Telecomunicaciones de Cuba S.A. 115


Copyright of Tono: Revista Tcnica de la Empresa de Telecomunicaciones de Cuba, S.A. is the property of
Empresa de Telecomunicaciones de Cuba S.A. and its content may not be copied or emailed to multiple sites or
posted to a listserv without the copyright holder's express written permission. However, users may print,
download, or email articles for individual use.

También podría gustarte