Está en la página 1de 7

UNIVERSIDAD ESTATAL A DISTANCIA VICERRECTORA ACADMICA ESCUELA CIENCIAS EXACTAS Y NATURALES Email: 3084@uned.ac.

cr

TAREA N1
Java Data Mining (JDM)

Curso BASES DE DATOS II

Cdigo: 3084

Elaborado por Rene Espinoza Rivas Identificacin 6 0252 0800

SEGUNDO CUATRIMESTRE 2012

Enunciado: Realice una investigacin sobre Java Data Mining (JDM) JDM es un estndar Java para el desarrollo de aplicaciones Data Mining que se basa en la especificacin JSR 247. Incluya casos de aplicacin, precios de la herramienta, arquitectura, entre otros factores.

Desarrollo Antes de iniciar la investigacin acerca la herramienta Java Data Mining (JDM), es importante, antes que nada, tener claro el concepto de minera de datos. Ciertamente existen muchas y variadas definiciones al respecto, todas convergen en un concepto global. Podemos definir la minera de datos como aquel proceso de extraer conocimiento til y comprensible, probablemente, antes desconocido, de grandes almacenes de datos en distintos formatos. A simple vista, este concepto parece ser muy simple, pero encierra una serie de procedimientos y mtodos necesarios para que la minera de datos sea efectiva, o ms bien, produzca los resultados esperados, que son principalmente una herramienta de apoyo en el proceso de toma de decisiones ms segura que generen beneficios a la organizacin. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Rene las ventajas de varias reas como la estadstica, la Inteligencia Artificial, la computacin grfica, las bases de datos y el procesamiento masivo, principalmente usando como materia prima las bases de datos. Un concepto muy relacionado y que va de la mano con la minera de datos es el Descubrimiento de conocimiento (KDD por sus siglas en ingls) y que muchas veces tiende a confundirse. El KDD se podra decir que es la interfaz por medio de la cual el encargado de la toma de decisiones interpreta los datos obtenidos de la minera. Para que la minera de datos sea efectiva deben estar presentes tres elementos indispensables: Recoleccin masiva de datos (Data Wherehouse),

potentes computadoras con capacidad de multiprocesamiento y algoritmos de minera de datos (C4.5, algoritmo de k-medias, el algoritmo a priori, etc.). Pero, porqu utilizar DM? Si nuestra empresa cuenta con menos de 100 mil clientes o contactos, es probable que no le sea factible invertir en una compleja y onerosa aplicacin DM ya que con el uso de un SMDB como MS-Access, por ejemplo, e incluso MS-Excel le sea suficiente para administrar su informacin. Ahora bien, si la situacin de la empresa lo amerita y se han realizado los respectivos estudios de factibilidad tcnica, operativa, financiera y funcional, cuyos resultados reflejan la verdadera necesidad de inversin, el uso de Data mining se justificara porque: Contribuye a la toma de decisiones tcticas y estratgicas, que proporcionan un sentido automatizado para identificar informacin clave desde grandes volmenes de datos, permite a los usuarios dar prioridad a decisiones y acciones, brinda poderes de decisin a aquellos usuarios del negocio que mejor entienden el problema as como su entorno y son capaces de medir las acciones y los resultados de la mejor forma, genera modelos descriptivos, o sea que en un contexto de objetivos definidos, permite explorar automticamente, comprender los datos, visualizar e identificar patrones relaciones y dependencias que impactan en los resultados finales, genera modelos predictivos, ya que permite que relaciones no descubiertas e identificadas a travs del proceso de DM sean expresadas como reglas de negocio. Estas salidas pueden expresarse en formatos tradicionales como presentaciones e informes, para guiar la planificacin y toma de decisiones de la organizacin.

Qu es el Java Data Mining? Java Data Mining (JDMP) es una librera de cdigo abierto de Java para el anlisis de datos y aprendizaje automtico. El objetivo de la especificacin es proveer de una interfaz en Java que facilite el acceso al mundo de las aplicaciones de Data Mining, ya que las APIS existentes son privadas. El uso de JDM permitir que las aplicaciones de Data Mining en Java sean comprensibles por todos los desarrolladores en este lenguaje. Este facilita el acceso a fuentes de datos y algoritmos de aprendizaje automtico (por ejemplo, clustering, regresin, clasificacin, modelos grficos, optimizacin) y proporciona mdulos de visualizacin. Se incluye una biblioteca de matriz para almacenar y procesar cualquier tipo de datos, con la capacidad de manejar matrices muy grandes, incluso cuando no se ajustan en la memoria. Las interfaces de importacin y exportacin se proporcionan para JDBC bases de datos, TXT, CSV, Excel, Matlab, Ltex, MTX, HTML, archivos WAV, BMP y otros formatos de archivo. JDMP ofrece una serie de algoritmos y herramientas, sino tambin las interfaces para el aprendizaje de otra mquina y paquetes de minera de datos (Weka, LIBSVM, Mallet, Lucene, Octave). Cules son sus componentes? La herramienta consta de tres componentes lgicos: 1. Application Program Interface, API Es el componente visible por el programador. Bsicamente se trata de la definicin de los mtodos y objetos que un programador de una aplicacin de Data Mining deber conocer. 2. Data Mining Engine (DME) Es el componente que provee los servicios solicitados por los clientes de la API. En la arquitectura cliente - servidor, se conocer como el Data Mining Server, una instancia del sistema de informacin general. 3. Mining Object Repository (MOR)

Es el componente que permite hacer persistentes los objetos al DME, el meta - modelo. Tpicamente archivos o bases de datos relacionales. Aplicaciones con JDM Algunas aplicaciones en que se utiliza el Data Mining son por ejemplo: Weka: Magnfica suite de minera de datos de libre distribucin. Weka es un software programado en Java que est orientado a la extraccin de conocimientos desde bases de datos con grandes cantidades de informacin. Existen otras herramientas similares como Oracle Data Miner o Clementine, pero el hecho de que Weka sea desarrollado bajo licencia GPL lo ha hecho una alternativa muy interesante. Weka es una coleccin de mquinas virtuales para implementar algoritmos para tareas de minera de datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o pueden utilizarse desde un programa de Java. Weka contiene herramientas para el procesamiento de datos, clasificacin,

asociacin, visualizacin, entre otras. Tambin est bien preparado para desarrollar esquemas. Weka es un software abierto emitido por GNU1. MLC++2: Conjunto de libreras y utilidades de minera de datos. Es una biblioteca de clases de C++. Proporciona algoritmos que pueden ser usados por usuarios finales, analistas, profesionales e investigadores. El objetivo principal es proporcionarles una variedad ancha de herramientas que pueden ayudarlos a llevar procesos de minera de datos, acelerar el desarrollo de nuevos algoritmos mineros, proporcionar herramientas de comparacin y de despliegue de informacin. Xelopes: Librera con licencia pblica GNU para el desarrollo de aplicaciones de minera de datos. Es una librera de plataforma independiente para utilizacin de Data Mining. Proporciona algoritmos de minera de datos muy eficaces que usted puede
1 2

GNU es un sistema operativo similar a Unix que es software libre y respeta su libertad. Machine Learning Library in C++

integrar transparentemente en sus aplicaciones. Apoya la automatizacin de seleccin de parmetros de los mtodos para que stos puedan desplegarse totalmente de forma automtica.

Costos de la herramienta. Realizada la investigacin y consultadas algunas casas comercializadoras de software en el pas, ha sido bastante difcil adquirir informacin acerca del costo de la herramienta ya que prcticamente no es comercializada. Empresas como SoftLand (http://www.softland.cr/), TecNova Soluciones

(http://www.tecnovasoluciones.com), y CODISA (http://www.codisa.com/), que muy amablemente me han colaborado con el desarrollo de esta investigacin, me indican que la herramienta como tal est realmente poco comercializada en el pas. Existen empresas dedicadas a la elaboracin de proyectos relacionados con la minera de datos, no obstante no manejan datos del costo de la herramienta.

Agradecimientos La elaboracin de esta investigacin no hubiera sido posible sin la colaboracin de los especialistas en la materia de minera de datos de las empresas consultadas, a los cuales quiero externarles mi agradecimiento por su valiosa ayuda. El Sr. MSc. Manfred Mejas Acevedo de la empresa CODISA, el MSc. Anibal Gmez al facilitarme su documento de investigacin Minera de Datos: Algoritmos y Tecnologas Convencionales para Herramientas Comerciales y el Sr. Gerson Solano de la empresa Tecnova Soluciones han me han brindado una ayuda encomiable. Mis ms sinceros agradecimientos.

Bibliografa consultada:

Gmez, Anibal. (2006) Minera de Datos: Algoritmos y Tecnologas Convencionales para Herramientas Comerciales. Documento. Hernndez Orallo, J; Ramrez Quintana M. J.; Ferri Ramrez, C. (2005). Introduccin a la Minera de Datos. Editorial Pearson Prentice Hall.

Bibliografa digital consultada: http://www.sinnexus.com/business_intelligence/datamining.aspx http://es.wikipedia.org/wiki/Java_Data_Mining http://es.wikipedia.org/wiki/Java_Community_Process www.sccarbone.com/articles/htmlvsjava.pdf http://www.uoc.edu/molina1102/esp/art/molina1102/molina1102.html http://es.scribd.com/doc/31791961/Data-Mining-Ejemplos http://www.gutierrezandres.com/archives/1659

También podría gustarte