Está en la página 1de 21

Trabajo Practico N 12

Minera de Datos

CATEDRA: Actualidad Informtica Ingeniera del Software III

Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo

CARRERAS:

Analista en Sistemas de Computacin Licenciatura en Sistemas de Informacin

Facultad de Ciencias Exactas Qumicas y Naturales UNaM

Alumnos: Ganz Nancy Gauler Emanuel Gonzlez Veronica Markiewiech Irina

Contenido
Introduccin ................................................................................................................................. 3 Origen ........................................................................................................................................... 4 Fundamentos................................................................................................................................ 4 Tipos de Modelos ......................................................................................................................... 5 Marco de Utilizacin..................................................................................................................... 5 Software ms utilizados ............................................................................................................... 7 Caractersticas............................................................................................................................ 8 RAPID Miner........................................................................................................................... 8 Tanagra .................................................................................................................................. 9 Ejercicio Prctico.......................................................................................................................... 10 RapidMiner .............................................................................................................................. 10 Tanagra .................................................................................................................................... 14 Comparacin de resultados entre RapidMiner y Tanagra ......................................................... 19 Conclusin ................................................................................................................................... 20 Bibliografa .................................................................................................................................. 21

Introduccin
Se define a la Minera de datos como el proceso mediante el cual se extrae

conocimiento comprensible y til que previamente era desconocido desde bases de datos, en diversos formatos, en forma automtica. Es decir que la Minera de datos plantea dos desafos, por un lado trabajar con grandes bases de datos y por el otro aplicar tcnicas que conviertan en forma automtica estos datos en conocimiento.

Origen
La idea de Minera de Datos no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro entre otros, empezaron a consolidar los trminos de Minera de Datos y KDD. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. La evolucin de sus herramientas en el transcurso del tiempo puede dividirse en cuatro etapas principales:

Coleccin de Datos (1960). Acceso de Datos (1980). Almacn de Datos y Apoyo a las Decisiones (principios de la dcada de 1990). Minera de Datos Inteligente.(-nales de la dcada de 1990).

Fundamentos
Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.

Tipos de Modelos
Los modelos pueden ser de dos tipos, predictivos o descriptivos. Predictivos: Este tipo de modelo tiene como objetivo la estimacin de valores desconocidos de variables de inters. Clasificacin, el objetivo es predecir a que clase pertenece una nueva instancia de una base de datos, considerando que los atributos pueden asumir valores discretos. Regresin, en este caso el valor a predecir es numrico.

Descriptivos: Exploran las propiedades de los datos examinados con el objetivo de generar etiquetas o agrupaciones. Clustering, se trata de analizar datos para generar etiquetas. Correlacin, se utiliza para determinar el grado de similitud de los valores de dos variables numricas. Reglas de asociacin, tiene como objetivo encontrar relaciones no explicitas entre atributos, se utiliza tpicamente en el anlisis del contenido de un carrito de compra. Reglas de asociacin secuencial, se utiliza para determinar los patrones secuenciales en los datos basados en el tiempo.

Marco de Utilizacin

Deteccin de fraudes: Se puede considerar una tcnica de clasificacin. Se usa en corporaciones para prevenir procesos peligrosos. El algoritmo se encarga de analizar transacciones y categorizar las que sean ilegtimas mediante la identificacin de caractersticas comunes. Anlisis de riesgos de crdito: Aplicacin similar a la anterior pero con la existencia de tcnicas tradicionales para realizarlo. Por ejemplo mejorando el mtodo de asignacin de puntos con minera de datos. Clasificacin de cuerpos celestes: Esta aplicacin se puede incluir en el reconocimiento de patrones de imgenes. Minera de texto: debido a la gran cantidad de pginas en red, es necesario tecnologas como la minera de datos para clasificar y detectar patrones particulares en la informacin.

Negocios: En lugar de enviar determinadas promociones u ofertas a todos los clientes, mediante tcnica de minera de datos se puede obtener una lista de clientes que tengan una mayor probabilidad de interesarse por una determinada oferta o promocin. Hbitos de compra en supermercados: Este es el ejemplo tpico de minera de datos. Se basa en colocar los productos de una determinada forma para que se incremente el nmero de ventas. Patrones de fuga: Se usa sobre todo en empresas de banca y telecomunicaciones. A travs de caractersticas de personas que anteriormente se dieron de baja en la empresa para pasarse a la competencia, se hace un estudio de que personas son las ms propensas a esto, para poderles hacer ofertas personalizadas con la finalidad de lograr su permanencia. Recursos humanos: Gracias a la minera de datos se pueden obtener las caractersticas de sus empleados de mayor xito y estos patrones aplicarlos a los futuros empleados de la empresa. Comportamiento en Internet: Obteniendo la informacin de un usuario (de forma ms o menos legtima) se crea un perfil de usuario para ofrecerle una determinada informacin u otra a la hora de visitar pginas webs. Terrorismo: Gracias a la minera de datos el ejrcito de los EE.UU ha identificado al lder de los atentados del 11-S y a otros tres integrantes. Juegos: Gracias al estudio de jugadas de fin de partida en juegos como el ajedrez, se han conseguido patrones de juegos para obtener resultados positivos en estos juegos. En este campo hay numerosas investigaciones abiertas. Gentica: El objetivo principal del estudio de la Gentica es sabes cmo los cambios en el ADN fomentan la aparicin de determinadas enfermedades, como el cncer. Muy importante para la prevencin de estas enfermedades. La minera de datos se puede utilizar para esta tarea. Ingeniera Elctrica: En este campo, las tcnicas de minera de datos se han usado de manera cuantitativa para monitorizar las condiciones de instalacin de alta tensin.

Software ms utilizados
Software Comercial Intelligent Miner Clementine Enterprise Miner Microstrategy Darwin CART Data Surveyor GainSmarts Knowledge Seeker Polyanalyst SGI MineSet Wizsoft/Wizwhy Pattern Recognition Workbench (PRW)

Open Source: WEKA Rapid Miner Tanagra Pentaho

Caractersticas

RAPID Miner

RapidMiner, antes llamado YALE, es un ambiente de experimentos en aprendizaje automtico y minera de datos que se utiliza para tareas de minera de datos tanto en investigacin como en el mundo real. Permite a los experimentos componerse de un gran nmero de operadores anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz grfica de usuario de RapidMiner. ofrece ms de 500 operadores para todos los principales procedimientos de mquina de aprendizaje, y tambin combina esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka. Est disponible como una herramienta stand-alone para el anlisis de datos y como motor para minera de datos que puede integrarse en tus propios productos. Caractersticas: Escrito en Java. El proceso de descubrimiento de conocimiento es modelado como rboles de operacin. El lenguaje de encriptacin permite automticamente una gran cantidad de experimentos Posee una interfaz grfica, lnea comando, y API de Java para usar RapidMiner desde tus propios programas Una gran cantidad de extensiones (plugins). Las aplicaciones incluyen: Text Mining, Multimedia Mining, etc. Los procesos de KD se modelan como rboles simples del operador que es intuitivo y de gran alcance Los rboles o las sub-estructuras del operador se pueden ahorrar como bloques huecos para la reutilizacin posterior El concepto de varias capas de la opinin de los datos asegura de manipulacin de datos eficiente y transparente Es un software de tipo Open-Source con licencia GNU GPL, basado en JAVA. Trabaja bajo las plataformas Windows y Linux.

Tanagra

Es un software libre de MINERA DE DATOS para fines acadmicos y de investigacin. Se propone un conjunto de mtodos de minera de datos a partir del anlisis exploratorio de datos, aprendizaje estadstico, el aprendizaje de la mquina y el rea de bases de datos. Implementa diferentes algoritmos de aprendizaje supervisado, especialmente una construccin interactiva y visual de los rboles de decisin, as como tambin otros paradigmas, como la agrupacin, anlisis factorial, paramtricas y no paramtricas estadsticas, reglas de asociacin, la seleccin de caractersticas y los algoritmos de construccin. El objetivo principal de Tanagra es dar a los investigadores y estudiantes una herramienta fcil de usar para la minera de datos, y permitiendo analizar tanto los datos reales o sintticas. Adems propone a los investigadores una arquitectura que les permite aadir fcilmente sus propios mtodos de minera de datos.

Caractersticas: Proyecto de cdigo abierto. Fcil de utilizar. Acta ms como una plataforma experimental. Puede ser considerado como una herramienta pedaggica para aprender las tcnicas de programacin. TANAGRA no incluye un amplio conjunto de fuentes de datos, acceso directo a bases de datos, Data Warehouse, limpieza de datos, la utilizacin interactiva. Propone varios mtodos de minera de datos a partir de anlisis exploratorio de datos, aprendizaje estadstico, aprendizaje automtico y base de datos. Provee varios paradigmas de aprendizaje supervisado, agrupamiento, anlisis factorial, reglas de asociacin, etc. Integracin con Excel a travs de pluggins que hoy da con las ltimas versiones (2010) se mantienen disponibles, el inconveniente se genera al tratar grandes volmenes de datos donde la plataforma de tanagra no es capaz de procesar dichas cantidades de datos.

Ejercicio Prctico
RapidMiner
En este ejemplo, se trabaja con el conjunto de datos Hongos-convertidas, que es una base de datos que descargamos de internet y luego se aplica a este el algoritmo denominado K-Means. Para ello debemos: 1. Dirigirnos al operador Import Read Excel y arrastrarlo a la zona de trabajo.

2. Luego debemos dirigirnos a la carpeta que aparece en la zona superior derecha para elegir la base de datos con la cual vamos a trabajar, y presionamos Open.

3. Nos dirigimos al operador Modeling Clustering and Segmentation k-Means, y lo arrastramos al rea de trabajo.

4. Ahora debemos conectar la salida del operador Retrieve a la entrada exa de este operador y la salida clu (cluster model) de este ultimo al conector res del panel.

5. Ejecutar el proceso y observar el resultado.

Tanagra
1. Debemos crear un nuevo archivo, y al crearlo nos pide que indiquemos la direccin donde se encuentra el set de datos.

2. Luego seleccionamos los parmetros sobre los cuales queremos trabajar o analizar.

3. Aplicamos el algoritmo de K-Means

4. Y se ejecuta para poder observar los resultados.

Comparacin de resultados entre RapidMiner y Tanagra


En cuanto a Rapid Miner como podemos apreciar en el ejemplo realizado, se divide la muestra en dos clster donde en el clster 0 se agruparon 2946 tuplas y en clster 1 se agruparon 2470 tuplas, de un total de 5416. Se puede ver que este software nos brinda la posibilidad de varias vistas, entre ellas la de un rbol de carpetas en que nos separa los datos segn los clster armados, as como tambin nos muestra un grafico de los clster. Otra posibilidad es la tabla de centroides en el cual se muestra una media de cada atributo de los distintos clster, por ejemplo en cuanto a la forma del sombrero del hongo para el clster 0 el centroide es de 3.367, para el clster 1 es de 3.630 y as sucesivamente. Y podemos apreciar una vista de trazo de los centroides para una mejor apreciacin. Podemos comenzar a variar la cantidad de clster para apreciar mayor informacin y podemos aplicar distintos mtodos de clustrizacin. En cuanto a Tanagra en el ejercicio realizado se divide el set de datos en 3 clster, con distancias de normalizacin variantes. El clster numero 1 tiene un tamao de 2342. El clster numero 2 tiene un tamao de 1963. El clster numero 3 tiene un tamao de 1111. Tambin proporciona una tabla con los centroides de los distintos clster, por ejemplo: en cuanto a la forma del sombrero del hongo el clster 1 tiene un centroide de 3.19, el clster 2 tiene un centroide de 3.93 y el clster 3 tiene un centroide de 3.29. Como se aprecia en cuanto a los centroides de los clsters en ambos Softwares proporcionan resultados muy parecidos. RapidMiner proporciona muchas vistas para analizar los datos, Tanagra es ms limitado, aunque permite la aplicacin de determinados algoritmos que RapidMiner no lo aborda.

Conclusin
La capacidad para almacenar datos ha crecido en los ltimos aos, en contrapartida, la capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, la Minera de Datos se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales de la misma. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Como predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. En resumen, la Minera de Datos se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a que el producto final involucra toma de decisiones.

Bibliografa
Presentacin de Minera de Datos suministrada por la ctedra

[i] http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Miner%C3%ADa_de_Datos [i] http://www.dataprix.com/171-evoluci-n-historia-miner-datos [i] http://www.observatoriopoliticasocial.org/index.php?option=com_content&view=article&id=984&Itemid=242 [i] http://ia-eduactiva.wikispaces.com/HERRAMIENTAS+DE+APRENDIZAJE+MINERIA+DE+DATOS [i] http://mineriadedatos.wikispaces.com/TANAGRA [i] http://mscerts.programming4.us/es/711058.aspx [i] http://aquelopana.bligoo.com/content/view/245837/Rapid-Miner.html#.T-tpfhfQzgI [i] http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf

También podría gustarte