Está en la página 1de 10

Herramientas de Minera de Datos

Alejandro Sosa Loera


Existen algunas herramientas de minera de datos comerciales o de cdigo abierto que
utilizan distintas tcnicas de minera de datos, estas herramientas las podemos clasificar de
acuerdo a las tareas de minera a la que estn enfocadas o algoritmos que usan, en tres
grupos: libreras, suites y herramientas especficas.
Libreras.
Comprenden un conjunto de mtodos que implementan las funcionalidades y utilidades
bsicas propias de la minera de datos: acceso a datos, inferencia de modelos, exportacin y
comprobacin de resultados. Las libreras constituyen una interfaz para el desarrollador, por
lo que para su manejo se requiere de conocimientos de programacin. La siguiente tabla
muestra algunas de estas libreras:
Herramienta Descripcin Plataforma Formatos Entrada y Modelos
de Salida
Modelos de Aprendizaje /
Tareas Soportadas
Xelopes Librera con licencia GNU,
implementada por Prudsys AG
Implementado en Java, C++ y C#, se
garantiza su portabilidad a cualquier
sistema operativo. Existe interfaz para
Corba.
Se asegura cualquier formato de
entrada sea fichero o base de datos,
incluye formato ARFF, CSV, logs, y
Excel. Salida: Formato PMML.
rboles de Decisin lineales y no
lineales, Mquinas de vectores
soporte, Redes neuronales, Mtodos
de agrupamiento, mtodos de reglas
de asociacin.
Orange Software basado en componentes de
minera de datos. Incluye rangos de
preprocesamiento, modelado y
tcnicas de exploracin de datos.
Implementado en C++, se pueden
desarrollar mdulos en Python. Existen
distribuciones para Windows, Linux y
Macintosh.
Formato entrada/salida usa ficheros
separados por tabulacin, incluye otros
como C4.5
Mtodo Bayesiano Nave. rboles de
decisin, rboles de regresin, Vecinos
ms prximos y Reglas de asociacin.
Tanagra Software libre de propsitos
acadmicos y de investigacin.
Soporta varios mtodos de minera de
datos, la desventaja de Tanagra es
que incluye tcnicas de visualizacin
limitadas.
Implementado en Borland Delphi 6
bajo Windows.
Formato del fichero de entrada ARFF o
XLS. Formatos de salida HTML.
Reglas de Asociacin, rboles de
clasificacin, vecino ms prximo,
Bayesiano nave. Redes neuronales.
MLC++ Conjunto de libreras y utilidades para
testear y comparar la eficiencia de
diversos algoritmos sobre un mismo
problema. Distribuido por Silicon
Graphics bajo dominio de
investigacin.
Acceso a datos con formato plano
siguiendo el estilo de los archivos del
repositorio UCI.
ID3, rboles de decisin perezosos,
rboles de decisin con opciones,
mtodos bayesianos y el perceptron.
Suites.
Integra en un mismo entorno capacidades para el preprocesado de datos, ofrecen
diversidad de mtodos incluyendo clasificacin, clustering, y preparacin de los datos, dan
facilidad para el diseo de experimentos y soporte grafico para la visualizacin de resultados.
A diferencia de las libreras su manejabilidad no se encuentra condicionada a que se posean
conocimientos de programacin, ya que existe una interfaz por lo regular grafica que facilita
la interaccin con la herramienta. La siguiente tabla muestra algunas suites:
Herramienta Descripcin Plataforma Formatos Entrada y Modelos
de Salida
Modelos de Aprendizaje /
Tareas Soportadas
WEKA Herramienta visual GNU, desarrollada por la
universidad de waikato.
Implementada en Java, se
garantiza su portabilidad a
Windows, Linux y otros
Sistemas Operativos. Es
posible actualizar o modificar
su cdigo
Entrada: ARFF, CSV, C4.5 y Binario.
Salida: Fichero o a una Base de Datos,
tambin de manera grfica.
rboles de Decisin, Tablas de
Decisin, Vecinos ms prximos,
Mquinas de vectores soporte, Reglas
de asociacin, Mtodos de
agrupamiento, Modelos combinados.
SPSS
Clementine
Es uno de los sistemas de minera de datos
mas popular, herramienta visual
comercializada por SPSS, posee arquitectura
cliente / servidor.
Sistema multiplataforma,
disponible para sistemas
Windows, Sun Solaris, HP-UX
AIX y OS/400.
Acceso a Datos: ODBC, tablas Excel,
archivos planos ASCII y archivos
SPSS.
Salida: Visualizacin grafica dde
resultados (histogramas, diagramas de
dispersin, etc.), informes HTML y
texto, exportacin de los modelos a
distintos lenguajes (C, SPSS, HTML,
SQl)
rboles de Decisin (C5.0 y C&RT),
redes neuronales (redes de Kohoen,
perceptron multicapa y RBF),
agrupamiento(K medias), reglas de
asociacin(GRI, A priori, etc.),
regresin lineal y logstica,
combinacin de modelos (boosting con
C5.0)
Kepler Sistema desarrollado por la GMD (German
General Research Center for Information
Technologie) y comercializado por Dialogis.
Soporta mltiples modelos de anlisis y su
diseo contempla aspectos como la
flexibilidad y extensibilidad
Interfaz grafica implementada
en Java, disponible en
plataformas Sun/Solaris y
Windows.
Acceso a Datos: ODBC, tablas Excel,
archivos planos ASCII y archivos
SPSS.
Salida: Kepler puede exportar datos en
formato ASCII, Facts (Anotacin de
Prolog), meta informacin
rboles de Decisin, redes neuronales,
regresin no lineal, vecinos mas
prximos, algoritmos multirelacionales,
utilidades estadsticas.
ODMS: Oracle
Data Mining
Suite (Darwing)
Desarrollado por Thinking Machines como
Darwing y adquirido y comercializado por
Oracle. Diseado bajo arquitectura
cliente/servidor, tiene gran versatilidad para
el acceso a grandes volmenes de datos.
El cliente est disponible para
entornos Windows, mientras
que el servidor puede
ejecutarse sobre sistemas
Windows, Sun Solaris y HP-
UX 11.0
Acceso a datos: almacenes de datos,
BD relacionales (oracle, SQL server,
informix, sybase), archivos planos,
conjunto datos SAS.
Salida: Visualizacin grafica de
modelos inferidos, estadsticos
Redes neuronales para clasificacin y
regresin, regresin lineal, rboles de
decisin (CART), vecinos mas
prximos, aprendizaje bayesiano,
tcnicas de agrupamiento (kmedia y O-
agrupamiento)
DBMiner Sistema interactivo desarrollado inicialmente
bajo licencia publica, la versin empresarial
es comercializada por DBMiner Technology
Inc. Sistema para extraer conocimiento de
grandes bases de datos relacionales,
almacenes de datos y web.
Disponible para plataformas
Windows
Acceso a datos: almacenes de datos,
BD relacionales.
Salida: Visualizacin grafica de
modelos inferidos, estadsticos
Caracterizacin, clasificacin,
agrupamiento, asociacin,
discriminador, predictor
RapidMiner
(Yale)
Es un software de tipo Open-Source con
licencia GNU GPL, basado en JAVA. Se
presenta bajo 3 versiones de descarga:
Versin Open-Source : permite su libre uso
en todas las formas de la licencia GNU GPL
Versin Libre: posee una interfaz grfica
mejorada, pero no bajo licencia GNU GPL
Versin Comercial
Trabaja bajo plataformas
Windows y Linux
Acceso a datos: almacenes de datos,
BD relacionales.
Salida: exportacin de resultados a
PDF / Excel / HTML / RTF
maquinas de vectores soporte, rboles
de decisin, agrupamiento y algoritmos
genticos.
DB2 Intelligent
Miner
Herramienta comercial cliente/servidor
desarrollada por IBM. Trabaja con grandes
volmenes de datos. Posee un lenguaje de
programacin.
El cliente est disponible para
entornos Windows y AIX,
mientras que el servidor
puede ejecutarse sobre
sistemas Windows, Solaris,
AIX, OS(390, 400) y z/OS
Acceso a datos: DB2, archivos planos,
BD relacionales.
Salida: Visualizacin grafica de
modelos inferidos, estadsticos
Agrupamiento, asociaciones, patrones,
clasificacin, prediccin, anlisis de
series temporales
SAS Enterprise
Miner
Herramienta desarrollada por SAS Institute,
posee una arquitectura distribuida, con una
potente interfaz grafica. Diseo inspirado en
la metodologa SEMMA (Sample, Explore,
Modify, Model and Assess)
Tanto el cliente como el
servidor de SAS Enterprise
Miner trabajan bajo
plataformas Windows, Linux,
Solaris, HP-UX, Digital Unix,
etc.
Acceso a datos: formato de archivo
propio de SAS, almacenes de datos,
BD relacionales (Oracle, DB2, Sybase,
etc.).
Salida: visualizador de resultados,
informes en HTML.
rboles de Decisin (CHAID, C&RT,
C4.5), regresin lineal y logstica,
redes neuronales (MLP y RBF),
construccin de modelos mltiples.
Realiza tareas de evaluacin.
Statistica Data
Miner
Sistema visual desarrollado por Statsoft Ltd.
Trabaja con grandes volmenes de datos
Sistema disponible en
plataformas Windows
Acceso a Datos: ODBC, tablas Excel,
archivos planos ASCII, tablas DBase,
lotus, BD Oracle, Microsoft SQL Server
y Sybase.
Salida: Visualizacin grafica dde
resultados (histogramas, diagramas de
dispersin, etc.)
Reglas de asociacin, rboles de
decisin (GTREES, CART),
agrupamientos (K medias y EM), redes
neuronales, utilidades estadsticas
para la regresin de modelos lineales,
no lineales, regresin multiple, etc.
Herramientas Especficas
A diferencia de la generalidad de las suites, este tipo de herramientas se caracterizan
por centrarse en un determinado modelo (redes neuronales, rboles de decisin, modelos
estadsticos, etc.) o en una determinada tarea de minera de datos (clasificacin,
agrupamiento, etc.). No se requieren de tcnicas de programacin para poder ser utilizadas.
Herramienta Descripcin Plataforma Formatos Entrada y Modelos
de Salida
Modelos de Aprendizaje /
Tareas Soportadas
CART Herramienta grafica desarrollada por Salford
System. Tiene utilidades para anlisis
estadstico y minera de datos orientada a
tareas de clasificacin o regresin.
Disponible en plataformas
Windows, Linux, Unix
(Solaris, IBM, AIX, Digital
Unix, SGI Irix y HP-UX)
Acceso a mas de 70 formatos de
archivos diferentes, visualizacin
interactiva del modelo, informacin
estadstica relativa al modelo.
Inferencia de rboles de decisin.
AutoClass Herramienta que rene 3 distribuciones de
este sistema (AutoClass III, AutoClass X y
AutoClass C) desarrolladas bajo el auspicio
de la NASA.
Multiplataforma: Windows,
Unix (Solaris, SunOS), Linux
(Red Hat)
Formato de archivo de entrada propio
organizado en filas y columnas.
Genera informes que describen las
clases encontradas.
Agrupamiento, utilizando mtodos
bayesianos
Neural Planner,
NeuroDiet y Easy
NN-Plus
Desarrolladas por Stephen Wolstenholme.
Herramientas para trabajar en modelos de
aprendizaje
Ejecutables en plataforma
Windows
Importacin de archivos txt, csv, xls,
bmp o archivos binarios.
Salida visual o exportacin del modelo
a archivos de texto o csv.
Redes Neuronales
NeuroShell Conjunto de herramientas graficas
independientes para trabajar con modelos de
aprendizaje basados en redes neuronales
Ejecutables en plataforma
Windows
Importacin de archivos ASCII,
MetaStock, CSI, AIQ
Redes Neuronales (TurboProp2,
GRNN)
SEE5 / C5.0 Herramienta centrada en la construccin de
modelos de clasificacin basados en rboles
de decisin y conjunto de reglas. Opera
sobre grandes volmenes de datos.
Disponible en plataforma
Windows, Solaris, Irix y Linux
Trabaja con un formato predefinido
(*.data), pero traduce fuentes de datos
accesibles va ODBC a *.data. Exporta
los modelos a cdigo en C.
rboles de decisin
Con lo anterior se pueden clasificar las herramientas de minera de datos por
plataforma, datos de entrada y modelo de salida, tipo de algoritmo que utiliza, etc.
Clasificacin por Plataforma:
Windows Linux OS2 SUN Solaris HP-UX AIX Digital Unix OS/400
Xelopes
X X X
Orange
X X X
Tanagra
X
MLC++
WEKA
X X X
SPSS Clementine
X X X X X X X
Kepler
X X
ODMS: Oracle Data Mining Suite
(Darwing)
X X X
DBMiner
X
RapidMiner (Yale)
X X
DB2 Intelligent Miner
X X
SAS Enterprise Miner
X X X X X
Statistica Data Miner X
CART
X X X X X
AutoClass
X X X
Neural Planner, NeuroDiet y Easy
NN-Plus
X
NeuroShell
X
SEE5 / C5.0 X X X
L
i
b
r
e
r
i
a
s
S
u
i
t
e
s
H
e
r
r
a
m
i
e
n
t
a
s
E
s
p
e
c
i
f
i
c
a
s
Plataformas
Herramienta
Clasificacin por Entrada de Datos y Salida del Modelo
Ar. Plano
o Texto Excel
Almac.
Datos C4.5 ODBC SPSS
BD
Relacional ARFF
Formato
Propio
Archivos
Planos HTML BD/SQL
Grafico
Visual
Xelopes
X X X X
Orange
X X X
Tanagra
X X X
MLC++ X
WEKA
X X X X X X
SPSS Clementine
X X X X X X X X
Kepler
X X X X X X X
ODMS: Oracle Data Mining Suite
(Darwing)
X X X X
DBMiner
X X X X
RapidMiner (Yale)
X X X X X
DB2 Intelligent Miner
X X X X
SAS Enterprise Miner
X X X X
Statistica Data Miner X X X X X
CART X X
AutoClass X X
Neural Planner, NeuroDiet y Easy
NN-Plus
X X X X
NeuroShell X X
SEE5 / C5.0 X X X
Entrada de Datos Salida
L
i
b
r
e
r
i
a
s
S
u
i
t
e
s
H
e
r
r
a
m
i
e
n
t
a
s
E
s
p
e
c
i
f
i
c
a
s
Herramienta
Dado el poco conocimiento actual que tengo de las herramientas para minera de datos
descritos anteriormente, no me es posible clasificarlas por los algoritmos que usan, tipos de
visualizacin, etc. Pero como complemento anexo clasificaciones realizadas por John F.
Elder IV & Dean W. Abbott, Elder Research en la conferencia A Comparison of Leading Data
Mining Tools. presentada en el Fourth International Conference on Knowledge Discovery &
Data Mining, en 1998 en la ciudad de Nueva York.
La siguiente clasificacin fue tomada de la pgina: St@tServ - Data Mining Software (http://www.statserv.com/datamsoft.html).
Assoc
Sequ.
Pat.
Seq.
Time
Bayes
Net.
NN-
CL
Tree-
CL Bayes k-NN
Lin-
Disc MBR Assoc
k-
Means
D-
Clust
NN-
Clust
G-
Stats Reg
nl-
Reg Tests PCA Factor
NN-
Pred
RBF
Pred Fuzzy
Time
Series MBR Win32 UNIX Web
Para.
Scal. SQL Objects API Code
Adaptative Methods Group ? X X X X X X X X X X X X X X X X X X X X X
Angoss International Ltd. KnowledgeSEEKER X X X
Angoss International Ltd. KnowledgeStudio X X X X X X X X X X X X X X
Attar XpertRule Profiler
AZMY Thinkware SuperQuery Office X X X
Bissantz Kppers & Co. Delta Miner
Bluecrest Consultancy NeuralParts X X X X
Business Objects BusinessMiner X X
ClopiNet ClopiNet X X X X X X X X X X
Cognos 4Thought X
Cognos Scenario X X X
CSI, Inc. Advisor Toolkit X X X X X X X X X X X X X X X X X X X X X X
Data Distilleries B.V. Data Surveyor
Data Mining Technologies Nuggets
DataMind DataCruncher X
Datasage, Inc. Datasage
Eudaptics Software GmbH Viscovery SOMine X X X X X X X X X
GR-FX Pty Limited GR-FX
Group 1 Model 1 X X
HNC Software Inc. DataBase Mining
Hycones Information Tech. AIRA X X
HYPERparallel //Discovery X X X X X X X X X X X X X
IBM Intelligent Miner X X X X X X X X X X X X X X X X X X X X X X
Information Discovery Data Mining Suite
Intellix A/S KnowMan X X X X X X X X X
ISoft Alice / AC2 X X X X X X X X
Magnify Inc. PATTERN
Megaputer Intelligence PolyAnalyst X X X X X X X X X X X X
MIT GmbH DataEngine X X X X
Morgan Kaufmann Publishers Data-Miner Software Kit
NCR Corporation KDW / MDT
NeoVista Solutions, Inc. NeoVista Decision Series X X X
Neuralware Inc. NeuralWorks Predict X X X
NeuroDimension, Inc. NeuroSolutions X X X X X X X X X X
Neurotec Custominer X X X X
OPIN Systems, Inc. Reveal
Oracle Darwin X X X X X X X X X X X X X X
Partek Inc Partek X X X X X X X X
X
(+MD X X X
Pilot Software Pilot DSS
Quadstone Limited Decisionhouse X X X X X X X X
Red Brick Systems, Inc. Red Brick Data Mine X X X X
Salford Systems CART X X X X X X X X
SAS Institute Inc. SAS Enterprise Miner X X X X X X X X X X X X X X X X
Sentient Machine Research DataDetective X X X X
Silicon Graphics Inc. MineSet X X X X X X X X X X X
SLP-Infoware Statlab
SPSS Inc. Clementine X X X X X X X X X X X X X X X X
SRA International KDD Toolset
Syllogic B.V. Syllogic Data Mining Tool
Torrent Systems, Inc. ORCHESTRATE
Trajecta dbProphet X X X X X X X X X X X X X X
Ultragem Eikoplex
Umetri SIMCA
Unica Technologies, Inc
Unica Pattern Recognition
Workbench X X X X X X X X
WhiteCross Systems HeatSeeker v3.0 X X X X X X
WizSoft WizWhy / WizRule X X X X X
Company Product
Prediction OS Others Link Analysis Classification Clustering Statistics
La nomenclatura utilizada en algunos de los conceptos es la siguiente:
Link Analysis : [ Assoc. = Associations analysis ] [ Sequ. Pat. = Sequential Patterns ] [ Seq. Time = Sequential time patterns ] [
Bayes Net. = Bayes Networks ]
Classification: [ NN-CL = Neural Networks Classification ] [ Bayes = Bayesian Classification ] [ k-NN = k-nearest neighbours
classification ] [ Lin-Disc = linear discriminant analysis ] [ MBR = Memory based Reasoning ] [ Assoc. = Classification by
Associations]
Clustering: [k-Means = k-Means Clustering ] [ D-Clust = demographic clustering = relational analysis ] [ NN-Clus = Neural
Networks Clustering ]
Statistical methods: [ G-Stats = Means, Std dev, Frequencies, ] [ Reg = Linear Regression ] [ nl-Reg = non-linear regression ]
[ Tests = t-tests, F-test, Chi2 tests ] [ PCA = Principal Component Analysis ] [ Factor = Factor Analysis ]
Prediction: [ NN-Pred = Neural Networks Prediction Models ] [ RBF Pred = Radial Based Functions predictions ] [ Fuzzy =
Fuzzy logic predictions ] [ Time Series = Times Series Analysis ] [ MBR = Memory based Reasoning ]
Operating System: [ OS = Operating System ]
Others: [Para. Scal. = Parallel Scalability ] [ SQL = Simple Query Language functions ] [ Objects = C++ objects generated for
applications ] [ API = the algorithms can be used by other programs ] [ Code = the code is available ]
REFERENCIAS
Orallo Hernndez, J.: Quintana Ramrez, Ma. J..:Ramrez Ferri, C.: Introduccin a la Minera de
Datos. Prentice Hall, 2004
Portal, The Guide to Computing Literature. URL: http://portal.acm.org/citation.cfm?id=778212.778299
Fecha de Acceso: Octubre 9, 2008
Kepler, Data Mining Software. URL: http://www.cs.bris.ac.uk/Research/MachineLearning/Kepler/
Fecha de Acceso: Octubre 8, 2008
DBMiner Software Software. URL: http://www.dbminer.com/products/index.html
Fecha de Acceso: Octubre 9, 2008
DataMining Lab, KDD-98 URL:
http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics_bw.pdf
Fecha de Acceso: Octubre 9, 2008
St@tServ - Data Mining Software, URL: http://www.statserv.com/datamsoft.html
Fecha de Acceso: Octubre 9, 2008