Está en la página 1de 8

RCCI Vol. 3, No. 3-4 JULIO-DICIEMBRE, 2009 p.

73-80
Recibido: 11/06/2009

Herramientas de Minería de Datos


Data Mining Tools
Yuniet Rodríguez Suárez1* y Anolandy Díaz Amador1
1 Universidad de las Ciencias Informáticas, Carreterra a San Antonio de los Baños km 2 1/2. Rpato Torrens, Boye-
ros, La Habana, C.P.: 19370. Cuba
*Autor para correspondencia: yuniet@hab.uci.cu
74 Resumen
En la actual sociedad de la información,
Introducción
El almacenamiento de información en formatos
donde cada día se multiplica la cantidad de digitales es cada vez más barato y sencillo. Se
datos almacenados casi de forma exponen- genera gran cantidad de datos. Hay que intentar
cial, la minería de datos es una herramienta sacar partido a estos volúmenes de información
fundamental para analizarlos y explotarlos de para la toma de decisiones. La tecnología in-
forma eficaz para los objetivos de cualquier formática constituye la infraestructura funda-
organización. La minería de datos se define mental de las grandes organizaciones y permite,
también como el análisis y descubrimiento hoy, registrar múltiples detalles de la vida de las
de conocimiento a partir de datos. La mine- empresas. Las bases de datos posibilitan alma-
ría de datos hace uso de todas las técnicas cenar cada transacción, así como otros muchos
que puedan aportar información útil, desde elementos que reflejan la interacción de la or-
un sencillo análisis gráfico, pasando por mé- ganización con otras organizaciones, clientes, o
todos estadísticos más o menos complejos, internamente, entre sus divisiones y empleados,
complementados con métodos y algoritmos etcétera. Es imprescindible convertir los grandes
del campo de la inteligencia artificial y el volúmenes de datos existentes en experiencia,
aprendizaje automático que resuelven pro- conocimiento y sabiduría, formas que atesora la
blemas típicos de agrupamiento automático, humanidad para que sea útil a la toma de de-
clasificación, predicción de valores, detec- cisiones, especialmente en las grandes orga-
ción de patrones, asociación de atributos. nizaciones y proyectos científicos. La búsqueda
En este trabajo se hace un estudio de he- de información relevante siempre es útil a la
rramientas que se utilizan en la minería de administración empresarial: el control de la pro-
datos así como algunas de las aplicaciones y ducción, el análisis de los mercados, el diseño
deficiencias que tiene la misma. en ingeniería y la exploración científica, porque
pueden ofrecer las respuestas más apropiadas a
Palabras clave: Extraer, herramientas, minería las necesidades de información. La minería de da-
de datos. tos, es un conjunto de técnicas agrupadas con el
fin de crear mecanismos adecuados de dirección,
entre ellas puede citarse la estadística, el recono-
Abstract cimiento de patrones, la clasificación y la predic-
In today's information society, where every ción. Para descubrir patrones de relaciones útiles
day is multiplied by the amount of data en un conjunto de datos se empezaron a utilizar
stored almost exponentially, data mining is métodos que fueron denominados de diferente
a fundamental tool to analyze and exploit forma. El término Data Mining, en inglés, no era,
them effectively to the objectives of any al principio, del agrado de muchos estadísticos,
organization. Data mining is also defined as
porque sus investigaciones estaban dirigidas a
the analysis and knowledge discovery from
procesar y reprocesar suficientemente los datos,
data. Data mining uses all the techniques
that can provide useful information, from hasta que confirmasen o refutasen las hipótesis
a simple graphical analysis, statistical planteadas. Esta tecnología ha sido de gran ayu-
methods through more or less complex, da en áreas como la banca, telecomunicaciones,
complemented with methods and algorithms seguros y otros. En la actualidad hay un número
in the field of artificial intelligence and creciente de organizaciones inmersas en proyec-
machine learning to problems typical tos de Minería de Datos o Data Mining. La tec-
automatic clustering, classification, value nología se puede aplicar a cualquier organización
prediction, pattern detection, association of que disponga de una gran cantidad de datos y
attributes. In this paper a study of tools used que se plantee explotarlos para obtener reglas de
in data mining and some of the applications negocio o mejorar el servicio que presta.
and has the same shortcomings.

Keywords: Extract, tools, Data Mining.


Desarrollo
La idea de Minería de Datos no es nueva. Ya desde
los años sesenta los estadísticos manejaban tér-
minos como data fishing, data mining o data ar-
chaeology con la idea de encontrar correlaciones
sin una hipótesis previa en bases de datos con
ruido. A principios de los años ochenta, Rakesh
Agrawal, Gio Wiederhold, Robert Blum y Gregory
Piatetsky-Shapiro, entre otros, empezaron a con-
En el ámbito del descubrimiento de conocimiento
en bases de datos o Knowledge Discovery in Da- 75
solidar los términos de data mining y KDD. A fi- tabases (KDD) tiene otro significado, el KDD se

Herramientas de Minería de Datos


nales de los años ochenta sólo existían un par de empezó a utilizar en 1989 (Piatetsky-Shapiro y
empresas dedicadas a esta tecnología; en 2002 Frawley, 1991) popularizándose por los expertos
existen más de 100 empresas en el mundo que en inteligencia artificial (IA) y aprendizaje de or-
ofrecen alrededor de 300 soluciones. Las listas de denadores (Machine Learning), por lo que la min-
discusión sobre este tema las forman investiga- ería de datos se define como:
dores de más de ochenta países. Esta tecnología
ha sido un buen punto de encuentro entre perso- ti.JOFSÓBEF%BUPTDPOTJTUFFOPCUFOFSNPEFMPT
nas pertenecientes al ámbito académico y al de comprensibles o patrones de una base de datos”
los negocios. Es una tecnología compuesta por (Siebes, 2000).
etapas que integra varias áreas y que no se debe ti.JOFSÓBEF%BUPTCÞTRVFEBEFQBUSPOFTEFJO-
confundir con un gran software. terés mediante árboles o reglas de clasificación,
técnicas de regresión, clusterizado, modelizado
secuencial, dependencias, ect” (Wang, 1999).
Definiciones de Minería de Datos
La definición de Minería de Datos puede variar
entre los diferentes investigadores ya sean esta- Los investigadores la definen diferente yo
dísticos, analistas de datos u otros. A continua- coincido con todos, resumiendo la minería de
ción se muestran algunas definiciones: datos es el análisis de archivos y bitácoras de
transacciones, trabaja a nivel del conocimiento
t i-B NJOFSÓB EF EBUPT QVFEF EFåOJSTF DPNP con el fin de descubrir patrones, relaciones,
el proceso de extraer conocimiento útil y com- reglas, asociaciones o incluso excepciones útiles
prensible, previamente desconocido, a partir de para la toma de decisiones.
grandes volúmenes de datos” (González, 2006).
ti-BNJOFSÓBEFEBUPTFTMBFYQMPSBDJØOZBOÈMJTJT 
mediante métodos automáticos o semiautomáti-
Algunas dificultades en la aplicación
cos, de grandes cantidades de datos para descubrir de Minería de Datos
reglas o patrones significativos” (Berry y Linoff, Problemas a los que se enfrenta cualquier pro-
1997). yecto de Minería de Datos
t i-B NJOFSÓB EF EBUPT FT FM DPOKVOUP EF UÏD-
nicas y herramientas aplicadas al proceso trivial El número de posibles relaciones es demasiado
de extraer y presentar el conocimiento implícito, grande, y resulta prácticamente imposible validar
previamente desconocido, potencialmente útil y cada una de ellas. Para resolver este problema
humanamente comprensible, a partir de grandes se utilizan estrategias de búsqueda, extraídas del
conjuntos de datos, con el objeto de predecir de área de aprendizaje automático (Berry y Linoff,
forma autorizada tendencias y comportamientos 1997). Las herramientas funcionan mejor fiján-
y/o descubrir de forma automatizada modelos doles objetivos de búsqueda concretos. Si bien
previamente desconocidos” (Piatetsky-Shapiro y la minería de datos es la impresión de que se
Frawley, 1991). puede simplemente aplicar como herramienta a
t i-B NJOFSÓB EF EBUPT FT MB FYUSBDDJØO EF JO los datos, se debe tener un objetivo, o al menos
formación implícita, previamente desconocida una idea general de lo que busca. El coste de
y potencialmente útil de una base de datos” esta prospección de datos debe ser coherente con
(Witten y Frank, 2000). el beneficio esperado. Si bien las herramientas
t i-B NJOFSÓB EF EBUPT DPNCJOB UÏDOJDBT EF MB han bajado su precio, el coste en tiempo, per-
estadística, inteligencia artificial, bases de da- sonal y consultoría se ha incrementado, llegando
tos, visualización y otras áreas, para descubrir, de en algunos casos a hacer no viable el proyecto.
forma automática o semiautomática, modelos de Suele funcionar mejor en problemas ligados a em-
series de datos” (Siebes, 2000) presas de éxito que en otros casos, debido a la
ti-BNJOFSÓBEFEBUPTFTFMBOÈMJTJTEF gran dependencia que estas herramientas tienen
habitualmente grandes, series de datos para en- respecto a todos los estamentos de la empresa,
contrar relaciones inesperadas y resumir la infor- desde mantenimiento a compras. Es necesario
mación de nuevas maneras que sean entendibles y trabajar en estrecha colaboración con expertos
útiles por el propietario de los datos” en el negocio para definir modelos. A veces la
(Thuraisingham, 1999). información esta corrompida, tiene ruido o sim-
plemente le faltan partes. Para esto se aplican
76 técnicas estadísticas que ayudan a estimar la
confiabilidad de las relaciones halladas.
Existen varias técnicas de recopilación de da-
tos que muchas de estas son utilizadas por
las herramientas que usan minería de datos:
Aplicaciones de la Minería de Datos Almacenamiento de datos (Data Warehous-
Las técnicas de minería de datos se están utili- ing): El almacenamiento de datos se define
zando desde hace varios años para la obtención como un proceso de organización de grandes
de patrones en los datos y para la extracción de cantidades de datos de diversos tipos guardados
información valiosa en el campo de la Ingeniería en la organización con el objetivo de facilitar la
del Software. Entre estas aplicaciones podemos re-cuperación de la misma con fines analíticos.
citar: El al-macenamiento de datos tiene un gran im-
t-BVUJMJ[BDJØOEFÈSCPMFTEFEFDJTJØOFOMBDPOT portancia en el proceso de minería de datos pues
trucción de modelos de clasificación de diferentes en cierta medida, permite la recuperación o al
características del desarrollo de software. menos la referencia a determinados conjuntos de
t"TQFDUPTDMJNBUPMØHJDPTQSFEJDDJØOEFUPSNFO datos de importancia para un proceso de toma
tas, etc. de decisión dado. En la actualidad existe gran
t.FEJDJOBFODPOUSBSMBQSPCBCJMJEBEEFVOBSFT variedad de sistemas comerciales para el alma-
puesta satisfactoria a un tratamiento médico. cenamiento de datos entre los que se destacan
t .FSDBEPUÏDOJDB JEFOUJåDBS DMJFOUFT TVTDFQUJCMFT Oracle, Sybase, MS SQL Server, entre otros.
de responder a ofertas de productos y servicios por Análisis exploratorio de datos (Exploratory
correo, fidelidad de clientes, afinidad de productos. Data Analysis (EDA)): Las técnicas de análi-
t*OWFSTJØOFODBTBTEFCPMTBZCBODBBOÈMJTJTEF sis exploratorio de datos juegan un papel muy
clientes, aprobación de préstamos, determinación im-portante en la minería de datos. Las mismas
de montos de crédito, etc. tienen como objetivo determinar las relaciones
t %FUFDDJØO EF GSBVEFT Z DPNQPSUBNJFOUPT JOV entre las variables cuando no hay o no está to-
suales: telefónicos, seguros, en tarjetas de cré- talmente definida la naturaleza de estas relacio-
dito, de evasión fiscal, electricidad, etc. nes. Las técnicas exploratorias tienen un fuerte
t"OÈMJTJTEFDBOBTUBTEFNFSDBEPQBSBNFKPSBSMB componente computacional abarcando desde los
organización de tiendas, segmentación de mer- métodos estadísticos simples a los más avanza-
cado (clustering). dos como las técnicas de exploración de multi-
t%FUFSNJOBDJØOEFOJWFMFTEFBVEJFODJBEFQSP variables diseñadas para identificar patrones en
gramas televisivos. conjunto de datos multivariables.
t*OEVTUSJBZNBOVGBDUVSBEJBHOØTUJDPEFGBMMBT
Entre las técnicas estadísticas sencillas se in-
Algoritmos y técnicas de Minería de cluyen el estudio de distribuciones de las vari-
ables, estudio de correlaciones entre matrices,
Datos tablas de contingencias, entre otros. Por su parte,
La minería de datos es un proceso de extracción
entre las técnicas más complejas se incluyen el
de información y búsqueda de patrones de com-
Análisis de Factores, el Análisis de Grupos, el Es-
portamiento que a simple vista se ocultan en-
calado Multidimensional, etcétera.
tre grandes cantidades de información, existen
varios algoritmos y técnicas que ayudan en ob- Redes neuronales (Neural Networks): Las redes
tener la información. neuronales son técnicas analíticas que permiten
Algoritmos: modelar el proceso de aprendizaje de una forma
similar al funcionamiento del cerebro humano,
1. Supervisados o predictivos: predicen el valor
básicamente, la capacidad de aprender a partir
de un atributo de un conjunto de datos, cono-
de nuevas experiencias. Estas técnicas tuvieron
cidos otros atributos. A partir de datos cuya
un desarrollo impresionante en la última década,
etiqueta se conoce, se induce una relación entre
con aplicaciones tanto a la medida como genera-
dicha etiqueta y otra serie de atributos. Esas rela-
les (comúnmente llamados Shell) y tienen como
ciones sirven para realizar la predicción de datos
objetivo fundamental sustituir la función de un
cuya etiqueta es desconocida.
experto humano.
2. No supervisados o del descubrimiento del co-
nocimiento: con estos algoritmos se descubren
patrones y tendencias en los datos actuales. El des- Una de las principales características de las re-
cubrimiento de esa información sirve para llevar a des neuronales, es que son capaces de trabajar
cabo acciones y obtener un beneficio de ellas. con datos incompletos e incluso paradójicos, que
dependiendo del problema puede resultar una
ventaja o un inconveniente. Además esta técnica
tes. Ejemplo: definida unas variables de entrada
se produce una determinada salida que clasifica 77
posee dos formas de aprendizaje: supervisado y al cliente en un grupo o en otro. Por ejemplo, si

Herramientas de Minería de Datos


no supervisado. la edad está entre 20 y 40, está casado y tiene
cuenta de ahorro, entonces contrata hipoteca en
t"OÈMJTJT1SFMJNJOBSEFEBUPTVTBOEP2VFSZUPPMT un 78% de posibilidades.
es el primer paso de un proyecto de Minería de t 1SFEJDDJØO $POTJTUF FO JOUFOUBS DPOPDFS SF-
Datos, se aplica una consulta SQL al conjunto de sultados futuros a partir de modelizar los da-tos
datos, para rescatar algunos aspectos visibles an- actuales. Ejemplo: Creamos un modelo de vari-
tes de aplicar las técnicas. ables para saber si el cliente compra o no com-
t5ÏDOJDBTEF7JTVBMJ[BDJØOTPOBQUBTQBSBVCJDBS pra. Aplicamos el modelo a un futuro cliente, y ya
patrones en un conjunto de datos, puede usarse podemos predecir si comprará o no.
al comienzo de un proceso de Minería de Datos
para determinar la calidad de los datos. Herramientas de Minería de Datos
t3FHMBTEF"TPDJBDJØOFTUBCMFDFOBTPDJBDJPOFT Las herramientas de minería de datos empleadas
en base a los perfiles de los clientes sobre los en el proceso de extracción de conocimiento se
cuales se realiza la Minería de Datos. pueden clasificar en dos grandes grupos:
t "MHPSJUNPT (FOÏUJDPT TPO UÏDOJDBT EF PQ
t 5ÏDOJDBTEFWFSJåDBDJØO FOMBTRVFFMTJTUFNB
timización que usan procesos tales como combi-
se limita a comprobar hipótesis suministrada por
naciones genéticas y mutaciones, proporcionan
el usuario).
programas y optimizaciones que pueden ser
t.ÏUPEPEFEFTDVCSJNJFOUP FOMPTRVFTFIBOEF
usadas en la construcción y entrenamiento de
encontrar patrones potencialmente interesantes
otras estructuras como es el caso de las redes
de forma automática, incluyendo en este grupo
neuronales. Además los algoritmos genéticos son
todas las técnicas de predicción.
inspirados en el principio de la supervivencia de
los más aptos. Exsten algunas herramientas diseñadas para ex-
t 3FEFT #BZFTJBOBT CVTDBO EFUFSNJOBS SFMBDJP- traer conocimientos desde bases de datos que
nes causales que expliquen un fenómeno según contienen grandes cantidades de información.
los datos contenidos en una base de datos. Se Las más populares de estas herramientas son
han usado principalmente para realizar predic- SPSS Clementine, Oracle Data Miner y Weka.
ciones.
t «SCPM EF %FDJTJØO TPO FTUSVDUVSBT RVF SFQSF Clmentine de SPSS: Clementine se centra en la
sentan conjuntos de decisiones, y estas decisio- integración de data mining con otros procesos y
nes generan reglas para la clasificación de un sistemas de negocio que ayuden a entregar inteli-
conjunto de datos. Los árboles de decisión son gencia predictiva en un tiempo eficiente durante
fáciles de usar, admiten atributos discretos y las operaciones de negocio diarias. La funcionali-
continuos, tratan bien los atributos no significa- dad abierta de data mining en bases de datos que
tivos y los valores faltantes. Su principal ventaja posee Clementine permite que muchos de los pro-
es la facilidad de interpretación. cesos de data mining se realicen en entornos que
t$MVTUFSJOH "HSVQBNJFOUP
"HSVQBOEBUPTEFO- mejoran tanto el rendimiento como el despliegue
tro de un número de clases preestablecidas o no, de los resultados de data mining. La última ver-
partiendo de criterios de distancia o similitud, sión de Clementine extiende la funcionalidad de
de manera que las clases sean similares entre sí data mining al incluir un conjunto de reglas de
y distintas con las otras clases. Su utilización ha scoring y modelos de árboles de decisión y carga
proporcionado significativos resultados en lo que de resultados de data mining en la base de datos.
respecta a los clasificadores o reconocedores de Sistema integrado de minería de datos que per-
patrones, como en el modelado de sistemas. Este mite encontrar patrones en la información para
método debido a su naturaleza flexible se puede facilitar la toma de decisiones a los usuarios. Uti-
combinar fácilmente con otro tipo de técnica lizando Clementine se podrá:
de minería de datos, dando como resultado un
sistema híbrido. t "DDFEFS  QSFQBSBS F JOUFHSBS GÈDJMNFOUF EBUPT
t 4FHNFOUBDJØO $POTJTUF FO MB EJWJTJØO EF MB numéricos, de texto, datos provenientes de pá-
totalidad de los datos, según determinados cri- ginas Web y de encuestas.
terios. Ejemplo: Dividir los clientes en función de t $POTUSVJS Z WBMJEBS NPEFMPT SÈQJEBNFOUF  VUJ
su antigüedad. lizando las técnicas estadísticas y de aprendizaje
t $MBTJåDBDJØO $POTJTUF FO EFåOJS VOB TFSJF EF automático disponibles más avanzadas.
clases, donde poder agrupar los diferentes clien- t *NQMBOUBS FåDJFOUFNFOUF MPT NPEFMPT QSFEJD
78 tivos, en tiempo real o según una programación
establecida.
proporciona gran cantidad de herramientas para
la realización de tareas propias de minería de da-
tQBSBMBTQFSTPOBTRVFUPNBOEFDJTJPOFTZIBDFO tos, la visualizacion y permite la programación
recomendaciones, y para los sistemas que los uti- en JAVA de algoritmos más sofisticados para
lizan. analisis de datos y modelado predicativo, unidos
t 0CUFOFS SÈQJEBNFOUF VO NFKPS 3FUPSOP EF a una interfaz grafica de ususario para acceder
la Inversión y mejores tiempos de respuesta facilmente a sus funcionalidades. En ella se imple-
aprovechando las características de rendimiento mentan las técnicas de clasificación, asociación,
y escalabilidad. agrupamiento, y predicción existentes en la actuali-
t5SBOTNJUJSEFGPSNBTFHVSBMPTEBUPTDPOåEFO- dad. Su sistema operativo es multiplataforma. Los
ciales a las aplicaciones de data mining en los puntos fuertes de Weka son:
casos donde la seguridad es crítica.
t&TUÈEJTQPOJCMFMJCSFNFOUFCBKPMBMJDFODJBQÞ
Esta herramienta permite seleccionar campos o blica general de GNU.
filtrar los datos, permite mostrar propiedades t&TNVZQPSUBCMFQPSRVFFTUÈDPNQMFUBNFOUFJN-
de los datos, encontrar relaciones, ambiente plementado en Java y puede correr en casi cual-
integrado de minería de datos para usuarios fi- quier plataforma.
nales y desarrolladores. Algoritmos múltiples de t$POUJFOFVOBFYUFOTBDPMFDDJØOEFUÏDOJDBTQBSB
minería de datos y herramientas de visualización. reprocesamiento de datos y modelado.
Su compañía es SPSS/Integral Solutions Limited t&TGÈDJMEFVUJMJ[BSQPSVOQSJODJQJBOUFHSBDJBTB
(ISL). Funciona sobre todas las plataformas hard- su interfaz grafica de usuario.
ware y sistemas operativos, incluyendo Unix, VMS
y Windows NT. Las organizaciones utilizan el con- Weka soporta varias tareas estándar de minería de
ocimiento extraído con Clementine para: datos, especialmente, reprocesamiento de datos,
clustering, clasificación, regresión, visualización,
tSFUFOFSBMPTDMJFOUFTSFOUBCMFT y selección. Todas las técnicas de Weka se fun-
tJEFOUJåDBSPQPSUVOJEBEFTEFWFOUBDSV[BEB damentan en la asunción de que los datos están
tEFUFDUBSGSBVEFT disponibles en un fichero plano (flan file) o una
t SFEVDJS SJFTHPT Z NFKPSBS MB QSFTUBDJØO EF TFS relación, en la que cada registro de datos está
vicios a la administración, descrito por un número fijo de atributos (normal-
tBMDBO[BSVONBZPSOJWFMEFDPOPDJNJFOUPEFTVT mente numéricos o nominales, aunque también
clientes online, y por lo tanto, mejorar el diseño se soportan otros tipos). Weka también propor-
de sus sitios web. ciona acceso a bases de datos vía SQL gracias
a la conexión JDBC (Java Database Connecti-
YALE: Es una herramienta creada en la universi- vity) y puede procesar el resultado devuelto por
dad de Dortmund bastante flexible para el des- una consulta hecha a la base de datos. No puede
cubrimiento del conocimiento y la minería de realizar minería de datos multi-relacional, pero
datos. Puesto que YALE está escrito enteramente existen aplicaciones que pueden convertir una
en Java, funciona en las plataformas o sistemas colección de tablas relacionadas de una base de
operativos más conocidos. Es un software de có- datos en una única tabla que ya puede ser pro-
digo abierto GNU y con licencia GPL. Reciente- cesada con Weka.
mente fue lanzada la última versión, la cual in-
cluye características como las de implicar nuevos RAMSES: (Sistema de Gestión de Selección y
formatos de entrada de datos con operadores para Evaluación de Análisis de Riesgo - Risk Analysis
Microsoft Excel y SPSS. Desde la perspectiva de Management Selection & Evaluation System): es
la visualización YALE ofrece representaciones de un programa de gestión de riesgos integrado en
datos en dispersión en 2D y 3D; representaciones el sistema de proceso de datos de Bureau Veritas.
de datos en formato SOM (Self Organizing Map); El programa recopila todos los datos correspon-
coordenadas paralelas y grandes posibilidades dientes a las operaciones de comercio interna-
de transformar las vi-sualizaciones de los datos. cional y está interconectado con la aplicación
de minería de datos Angoss® Knowledge Studio.
WEKA: Es de libre distribución (licencia GPL) y Este software es aceptado como uno de los líderes
destacada por la cantidad de algoritmos que pre- del mercado en minería de datos y cumple las
senta así como por la eficiencia de los mismos, recomendaciones de la Convención de Kyoto de la
por los generadores de reglas, esta desarrollada OMA (Organización Mundial de Aduanas) de 1999
por miembros de la Universidad de Waikato, ella y del Marco de Normas de la OMC (Organización
Mundial del Comercio). Es utilizado por orga-
nismos gubernamentales en el mundo entero.
y fácil de entender. En la fundación de PolyAna-
lyst tiene un lenguaje de programación interno 79
RAMSES ofrece a las autoridades gubernamen- universal capaz de expresar reglas y algoritmos

Herramientas de Minería de Datos


tales una forma de identificar los embarques de arbitrarios.
mayor riesgo, facilitando por otro lado la circu- Su compañía es Megaputer líder en negocios y
lación y el despacho de las mercancías de menor software inteligentes para web. Ofrece las mejo-
riesgo. Interconectado con las bases de datos de res herramientas para data mining, text mining y
Bureau Veritas, RAMSES proporciona una gestión web mining. Plataformas:
automatizada y digna de confianza de los riesgos
inherentes al comercio internacional. t.JDSPTPGU8JOEPXT91/5
Beneficios: t1BSB6/*9Z-JOVY
t"EFNÈTSFRVJFSFMBJOTUBMBDJØOEF.JDSPTPGU&YDFM
t "OBMJ[BS UPEPT MPT EBUPT EFM QSPHSBNB EF JOT
pección de importaciones. Otras herramientas de libre distribución
t &WBMVBS MPT OJWFMFT EF SJFTHP EF MBT EJGFSFOUFT R: herramienta excelente para el análisis de datos
expediciones de mercancías. basada en el conocido programa estadístico S-
t'BWPSFDFSMPTDPOUSPMFTNFKPSPSJFOUBEPT Plus y con un manejo de las mátrices y variables
t*OEJDBSMBTNFEJEBTBUPNBSQBSBBHJMJ[BSFMEFT equivalentes a MATLAB. Es muy útil para el análi-
pacho aduanero. sis estadístico, transformación y manipulación de
t4FQVFEFBQMJDBSBEJGFSFOUFTUJQPTEFCBTFTEF los datos. Destacar la excelente asesoría tècnica
datos. llevada a cabo principalmente por algunos de los
t0QUJNJ[BSMBBTJHOBDJØOEFSFDVSTPTIVNBOPT principales profesores e investigadores en es-
tadística del mundo.
SAS Enterprise Miner: Su compañía es SAS, es XELOPES: Otra librería de libre distribución con
una solución de minería de datos que permite cantidad de funciones para minería de datos. Per-
incorporar patrones inteligentes a los procesos mite la implementación en JAVA o C++.
de marketing, tanto operativos como estratégi- SNNS: Aplicación para el desarrollo, entrenamien-
cos. El software de SAS, es un sistema de entrega to y testeo de múltitud de tipos diferentes de
de información que provee acceso transparente redes neuronales. Muy útil para desarrollar cla-
a cualquier fuente de datos, incluyendo archivos sificadores sofisticados y modelos basados en re-
planos, archivos jerárquicos, y los más impor- des neuronales.
tantes manejadores de bases de datos relaciona- XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras
les. También incluye su propia base de datos de herramientas con licencia GPL que tienen dife-
información para almacenar y manejar los datos, rentes funciones de visualización muy útiles para
es decir, un "data warehouse". También soporta encontrar patrones ocultos en los datos.
los principales protocolos de comunicación, cu- En la Figura se puede apreciar una encuesta he-
bre los cinco modelos de pro-cesamiento cliente/ cha en el conocido portal sobre Minería de Datos
servidor de acuerdo a Gartner Group y cumple con y gestión del conocimiento, donde se da una idea
las 12 reglas de OLAP. El sistema soporta un am- de las aplicaciones que más utilizan los profesio-
plio rango de aplicaciones, destacándose el análi- nales y las múltiples aplicaciones que existen
sis estadístico, análisis gráfico de datos, análisis en el mercado. Aquí se destacan programas de
de datos guiado, mejoramiento de la calidad, di- familias de aplicaciones estadísticas ejemplo:
seño experimental, administración de proyectos, SAS(SAS, SAS EnterpriseMiner) o SPSS(SPPS Cle-
programación lineal y no lineal, ge-neración de mentine, SPSS AnswerTree), estas contrastan con
reportes y gráficas, manipulación y despliegue de otras desarrolladas integramente en el campo de
imágenes, sistemas de información geográfica, la Minería de Datos ejemplo: CART/MARS, IBM-
visualización multidimensional de datos, aplica- I-Miner, Angoss, Megaputer PolyAnalyst, KXEN
ciones de multimedia, así como los sistemas de estas abarcan principalmente mètodos estadísti-
información ejecutiva. cos y de visualización combinados con algorit-
mos mas propios de Minería de Datos. El grado de
PolyAnalyst de Megaputer. (Bigus, 1996): Es un eficiencia de cada herramineta depende de múl-
sistema de minería de datos premiados de la mul- tiples factores: tipos de algoritmos, funciones de
tiestrategia para descubrir la forma exacta de rel- tratamiento de la información, eficiencia de los
aciones funcionales ocultadas en datos. Además algoritmos, generadores de informes, formas de
de des-cubrir reglas y algoritmos, PolyAnalyst les pasar la información. Estas herramientas aportan
presenta explícitamente en el una forma simple múltiples ventajas para los campos de investi-
80 Figura 1. Herramientas de Minería de Datos usadas habitualmente (KDnuggets, 2002).

gación y docencia en el aprendizaje y desarrollo Referencias


de la Minería de Datos, nos han demostrado que Berry, M.J. y G. Linoff, Data Mining Techniques For
tienen grandes ventajas. Marketing, Sales and Customer Support. 1997.
Bigus, JP. Data Mining with Neural Networks"
1996. Disponible en: http://www.
¿Por qué usar Minería de Datos? megaputer.com
Ahorra grandes cantidades de dinero a una em- Delve Projects. Data for Evaluating Learning in
presa y abre nuevas oportunidades de negocios. Valid Experiments. Disponible en: http://
Contribuye a la toma de decisiones tácticas y es- www.cs.utoronto.ca/~delve/index.html
tratégicas. Hand, D., H. Mannila, and P. Smyth, Principles of
Proporciona poder de decisión a los usuarios del Data Mining. London: The MIT Press., 2001.
negocio, y es capaz de medir las acciones y resul- Gonzalez, P.P., Desarrollo de tecnicas de mineria de
tados de una mejor forma. datos en procesos industriales: Modelizacion
Genera modelos descriptivos: permite a empre- en lineas de produccion de acero. Julio de
sas, explorar y comprender los datos e identificar 2006: Universidad de la Rioja.
patrones, relaciones y dependencias que impac- KDnuggets. Data mining tools you regularly
tan en los resultados finales. use. junio 2002 . Disponible en: http://
Genera modelos predictivos: permite que relacio- www.kdnuggets.com/polls/2002/data_
nes no descubiertas a través del proceso de la mining_tools.htm
Minería de Datos sean expresadas como reglas de Machine Learning Group at University of Waikato
negocio. Data Mining Software in Java. Disponible
en:http://www.cs.waikato.ac.nz/ml/
Conclusiones weka/
La Minería de Datos se presenta como una tec- Piatetsky-Shapiro, G. y W. J Frawley. Knowledge
nología de apoyo para explorar, analizar, com- Discovery in Databases". AAAI/MIT Press,
prender y aplicar el conocimiento obtenido 1991.
usando grandes volúmenes de datos y descubrir Siebes, A., Data Mining and Statistics. 2000.
patrones que ayuden a la identificación de estruc- Thuraisingham, B. Data Mining. Technologies, Techniques,
turas en los datos. Tools and Trends CRC Press LLC, 1999.
Los productos a comercializar son costosos y re- Wang, X.Z., Data Mining and Knowledge Discovery
quieren de mucha experiencia para su utilización. For Process Monitoring and Control. 1999,
Es muy fácil hallar patrones equívocos o no in- London: Ed. Springer.
teresantes. Witten, I.H. y E. Frank, Data Mining. Practical
La aplicación de estas herramientas ayuda en el Machine Lerning Tools and Techniques
proceso de toma de decisión de las organizacio- with Java Implementations. 2000: San
nes. Francisco, California.

También podría gustarte