P. 1
Mineria de Datos Con Excel

Mineria de Datos Con Excel

|Views: 1.687|Likes:

More info:

Published by: Verenice Bautista Alamilla on Nov 16, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/25/2013

pdf

text

original

Jose Ignacio González Gómez. Departamento de Economía Financiera y Contabilidad Universidad de La Laguna www.ecofin.ull.

es/users/jggomez.

Tema: Generalidades de la Minería de Datos (Borrador)
Revisado: 2009

Indice
1  ASPECTOS GENERALES DE LA MINERÍA DE DATOS.  2  FASES DE UN PROYECTO DE MINERÍA DE DATOS.  2.1  2.2  2.3  2.4  2.5  INTRODUCCIÓN  FASE FILTRADO DE DATOS.  FASE SELECCIÓN DE VARIABLES.  FASE ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO  FASE INTERPRETACIÓN Y EVALUACIÓN 

3  CASOS DE ESTUDIO  4  MINERÍA DE DATOS CON EXCEL.  4.1  4.2  4.3 
4.3.1  4.3.2  4.3.3  4.3.4  4.3.5  4.3.6  4.3.7  4.3.8 

CARACTERÍSTICAS GENERALES DEL ADD DATA MINING PARA EXCEL.  NOTAS SOBRE LA INSTALACIÓN.  ANÁLISIS DE LOS PRINCIPALES ALGORITMOS Y USOS. 
Introducción.  Algoritmo Naive Bayes  Decisión Trees (Árboles de decisión)  Clustering  Time Series (Series temporales)  Sequence clustering  Association rules (Reglas de asociación)  Neural Network (Redes neuronales) 

5  CONCLUSIONES  6  BIBLIOGRAFÍA 

2 Fase Fi El fo formato de los datos contenidos en la fu s uente de da atos (base de datos.). o se re educen el nú úmero de va alores posib (median redonde clusterin bles nte eo. n s a eliminan va alores incor rrectos. la m minería de d datos es fun ndamental en la investi e igación cien ntífica y téc cnica. El pr roceso de m minería de da pasa po las siguie atos or entes fases: • • • • Filtrado de datos Selección de Variab bles ón ocimiento Extracció de Cono Interpret tación y Eva aluación 2 iltrado de Datos. ind dependientem mente de la técnica esp a pecífica de extracción de conocim miento usada. y l mayoría de las vece no es po la es osible ni siq quiera utiliz ningún a zar algoritmo de minería so e obre los dat "en bruto tos o"... 2. Medi iante el pr reprocesado se filtran los datos (de forma que se e o. Data Ware ehouse.1 Introdu 1 ucción Los p pasos a seg para la realización de un proy guir n yecto de mi inería de da son sie atos empre los m mismos.. 2 Fases de un proy e yecto de Minería de Dato e a os. como herramien de análisis y descu o nta ubrimiento de conocim miento a pa artir de datos de obser rvación o de resultados de experim s mentos. finanza etc.. Asim mismo. ng. según las necesidade y el algo s es oritmo a usa se ar).2 1 A Aspecto Genera os ales de la Minería de Dat tos. herramienta de ayuda a la a plani ificación y a la decisión en market n ting. no v válidos.. Las t técnicas de minería de datos se em mplean para mejorar el rendimient de proces de to sos nego ocio o indu ustriales en los que s manejan grandes v n se n volúmenes de inform mación estru ucturada y almacenada en bases de datos.. as. Por ejemp a s plo.. se usa con éxit en an to aplic caciones de control de procesos productivo como h e os.) n nunca es el idóneo. des sconocidos. © Jose Ignacio González Gómez z . obtie enen muestr de los m ras mismos (en busca de una mayor velocidad de respuest del n u ta proce eso). 2.

los scan variabl independientes med les diante tests de sensibil lidad. se obtiene un mo odelo de co onocimiento que o. ica ente 2. En el caso de haber obten nido varios modelos m mediante el uso de distintas técnicas. n u varia técnicas a la vez p as para genera distintos modelos. en la mayoría de los cas se tiene una sos e canti idad ingente de datos.3 Fase Se 3 elección d Variable de es.4 Fase Al Medi iante una té écnica de m minería de d datos. Los m métodos par la selecci de carac ra ión cterísticas son básicam mente dos: • Aquellos basados en la elección de los mej s n n ejores atribu del prob utos blema.3 2. comp probando qu las ue conclusiones qu arroja son válidas y suficientem ue n mente satisfa actorias. sin apenas sacr rificar la ca alidad del m modelo de conocimient obtenido del proceso de minería to o a. • Y aquell que bus algoritm de distan o heurísticos. mos ncia 4 lgoritmos de Extrac cción de Conocimie C ento 2. aunque gen ar neralmente cada técni obliga a un preprocesado difere de los datos. repre esenta patro ones de com mportamien observad en los v nto dos valores de las variable del es probl lema o rela aciones de asociación entre dich variable También pueden usarse n has es.5 Fase In 5 nterpretaci ión y Eval luación Una vez obtenid el mode se debe proceder a su valida do elo. se deb compara los ben ar © Jose Ignacio González Gómez z . Aún después de haber sid preproce e do esados. e ación. La selecció de caract e ón terísticas red duce el tam maño de los datos eligie endo las va ariables más influyente en el pro s es oblema.

3 Casos de estudio En la Web de la empresa DAEDALUS (http://www. Desarrollo de un modelo para predecir las ventas de un producto en un determinado mes. y generan © Jose Ignacio González Gómez . los usuarios puedan acceder a tecnologías mucho más avanzadas como lo es la minería de datos soportada por Microsoft SQL Server en sus versiones 2005 y 2008 Los Complementos de minería de datos de Microsoft SQL Server 2005 para 2007 Microsoft Office system derivan los patrones y tendencias existentes en datos complejos. algunos otros no cuentas aún con este tipo de soluciones de inteligencia de negocios y basan sus decisiones en la experiencia. Para todos estos usuarios Excel es una herramienta conocida y fácil de manejar para sus necesidades. Los analistas de información en general. se presentan un conjunto de casos entre los que destacan: Optimización de la producción de cartón en la Industria Papelera Optimización del Proceso de Producción de Cemento Mejorar el rendimiento de la fabricación de cartón optimizando el control de la velocidad de la línea. Aplicación de minería de datos para predicción de ventas Aplicación de minería de datos para análisis del estado del tráfico en carretera Aplicación de minería de datos para predicción de demandas de tiempo de trabajo Aplicación de minería de datos para segmentación de clientes de entidades financieras 4 Minería de Datos con Excel. Desarrollo de un sistema para clasificación del estado del tráfico Desarrollo de un sistema de predicción del tiempo de trabajo demandado por actividades de reparto postal Segmentación de los clientes de un banco mediante un modelo basado en agrupamiento (clustering) borroso.es/AreasMD-E. Si ninguno de los modelos alcanza los resultados esperados.1 Características generales del Add Data Mining para Excel. en algunos casos cuentan con herramientas de inteligencia de negocios que les permiten conocer en forma gráfica el estado de sus inversiones. 4. visualizan dichos patrones en gráficos y visores interactivos.4 modelos en busca de aquel que se ajuste mejor al problema. debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Desarrollo de un sistema de ayuda a la decisión para la optimización del proceso de producción en una fábrica de cemento. el efecto causado por una promoción específica en un momento del tiempo y hasta el detalle del desempeño de su organización por áreas de la misma. todos suelen usar Excel para analizar cifras. pero en términos generales.php ) . el comportamiento de ventas a través del tiempo. basándose en datos sobre las ventas en meses previos.daedalus. realizar cálculos e incluso para generar informes. algunos tomadores de decisiones e incluso algunos gerentes suelen basar sus decisiones de negocio en la información histórica de su organización. por esta razón Microsoft ha creado add-Ins o complementos que permiten que desde ese mismo Excel.

5 resúm menes comp pletos. Puede P usar estos comp plementos p para utilizar las analític predictiv de SQL Server 200 en cas vas L 05 Micr rosoft Office Excel 200 y Micros Office Visio 2007. na s 2 El m modelo extra patrones de datos y utiliza la información para pred ae n decir los fac ctores que afectan val lores contin nuos. ía servidor de SQL Server Analysis Services (Analysis Se s ervices es uno de los s u servicios de Microsoft SQL e Server) por eso el primer re equisito par habilitar a Excel con Minería de datos es contar ra n c un con u servidor de Analysis Services.Getting St tarted. para presentacio ones y anal líticas empr resariales. Ilustración 1 I El m mismo nos p permite sele eccionar la i instancia de servidor q utilizar el que remos en nu uestro startu up. es posible an s nalizar los factores qu se ue cionan con l valores numéricos tales como tipos de da de mon los o ato neda o de fe echas. Exce presenta u complem el un mento tanto para la ve ersión 2003 así como p para la 2007 que 7 nos facilita el d desarrollo d la minerí de de ía datos bajo este estánda de hoja de s ar a cálcu ulo. d Este conjunto de compleme e entos se pod descarga de: drá ar • http://www w. 4.2 Notas s 2 sobre la in nstalación n. vere emos n e . S lanzamo la Si os aplic cacion Gettting Started del menú All d ú Prog grams .Mi icrosoft SQ Server 2005 QL 2 DM Add-ins . Excel prese enta un com mplemento tanto para la versión 2 l 2003 así com para la 2007 mo que nos facilita el desarro a ollo de la minería de datos bajo este están o ndar de hoj de oja cálcu ulo. © Jose Ignacio González Gómez z . Esta herramient permite c ta crear un mo odelo de est timación ba asado en dat existent de tos tes una t tabla del Ex xcel. o de un consulta de Analysis Services 2005. en c color. es posible analizar fact la por a tores tales c como la can ntidad de pe ersonas solt teras o casa adas que tien coche. exo. po ejemplo. que nos aparece un wizard. e 07 soft V Este paquete i incluye los dos com s mplementos siguientes para Offi fice Excel 2007 (Herr ramientas d análisis de tabla y Cliente de minería de datos) y u complem de e un mento para Office Visi 2007 (Pla io antillas de m minería de datos).microsoft. Seña y destac que Microsoft Off alar car fice Excel 2007 no es la herramie 2 enta de soft ftware que h hace miner de datos la minerí de datos se realiza desde un s ría s. relac Si la columna so obre la que queremos a aplicar la pr redicción. de un r rango de Ex xcel. Una vez instalad los Addi para min do ins nería de datos para Office 2007. es neces d sario conf figurar los mismos. Por e ejemplo.aspx x?familyid=89 96A493A-2502 2-4795-94AE EE00632BA A6DE7&displ laylang=es Así.co om/download ds/details. el sexo de e nen estas person y la can nas ntidad de co oches por se etc. está relacio or onada con l cantidad de coches p cliente.

Una vez finaliza la conf ada figuración de nuestro acceso a u base de datos de Data una e ing. se nos pres senta un f formulario para definir el servidor de base de da o bien para e atos la creación de una ba de dato o utilizar una n ase os r existente. 4.6 Una vez finalizado este pa o aso. Ilus stración 2 4. podrem comenzar a trabajar y utilizar las herramientas de Da Mining desde mos r ata d Mini el pro opio Micros Excel 2 soft 2007. E selec ccionamos el Tab Data Mini y hace ing emos click en el boto Estimate. debere emos configurar y crear un nueva ins r na stancia de bases b de datos de Data Min d ning que se la DB do erá onde almacenar remos nuest proyecc tras ciones y nue estro trabajo desde nuest d tro cliente Office 2007. Así por ejempl dentro de la de Ribb bon Excel. Ilustración 3 lo. emos sobr la re colu umna "cars" que deter " rmina la ca antidad de c coches que posee p una p persona o u cliente. En tal caso definimos los permis de acces y o s sos sos completad la configu da uración..1 Introducción In n. un Ilustra ación 4 © Jose Ignacio González Gómez z .3 Análisis de los p 3 s principales algoritmos y usos s s. e 2 Después de la pan ntalla de b bienvenida del wizard. A co ontinuación debemos definir d la columna sobre la que remos estim los dat y mar tos quer las c columnas qu servirán como ue "inpu Data" p ut para realiz el zar análi de estimación.3. on . En este isis n caso trabajare o.

una vez finalizado el proceso de generación de datos. Finalmente. Red de depencias Como vemos es muy sencillo de aplicar. Ilustración 6 • Árbol de decisión Ilustración 7 • Red de dependencias © Jose Ignacio González Gómez .7 Una vez definidos los parámetros de entrada. Para esto creamos una nueva tabla (Table2 Structure_1) basada en modelo de decisión. podremos ver los mismos en 2 modos gráficos: • • Ilustración 5 Arbol de decisión. pasamos a continuación a introducirnos en los principales algoritmos que presentan este añadido y para qué sirven. podremos comenzar a generar y analizar los datos.

una técnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en función de todos los atributos (un "todos contra todos"). este algoritmo busca correlaciones entre atributos. etc. Podemos detectar elementos anómalos en función de si encajan o no con las reglas surgidas del árbol (por ejemplo.. menos de 20 años y estas en paro.8 Ilustración 8 4. yo lo usaría para: • • Exploración inicial de los datos Tareas de clasificación. Básicamente.. entornos en tiempo real en los que queramos detectar entradas anómalas. de hecho. tienes unos ingresos superiores a 'X'. El resultado de esta orgía de correlaciones suele ser un modelo en el que tenemos más o menos claro qué vamos a poder predecir en esos datos. Se me ocurre. por ejemplo. probablemente mientas") Predecir el valor de un atributo con precisión © Jose Ignacio González Gómez . Otra ventaja de este algoritmo es que se entrena muy rápido. en las que el rendimiento sea crítico. 4.. Cuando no tenemos muy claro qué atributo se puede predecir en función de otros.2 Algoritmo Naive Bayes Empezamos por este porque es el algoritmo que primero se suele utilizar para explorar datos.3. y eres comprador de revistas de coches..3. Vamos. "si tienes coche. pero su desventaja es que no es muy preciso.. la probabilidad de que tengas coche es del 90%"... son probablemente el mejor algoritmo que podemos utilizar para clasificar.3 Decisión Trees (Árboles de decisión) Los árboles de decisión son clarísimamente una herramienta potentísima de clasificación. Nos pueden servir para tareas como: • • • Clasificación en general Validaciones. del estilo "Si eres hombre. construyen un arbol del que se pueden extraer reglas. validaciones. clasificaciones y filtrados de mensajes. Básicamente....

Puede ser adecuado para detectar patrones no lineales. podemos usarlo para saber que en una población hay hombres y mujeres jóvenes solteros.3. 4.3.3. este algoritmo también resuelve problemas de clasificación y regresión.6 Sequence clustering También es bastante específico para detectar secuencias típicas dentro de un conjunto de eventos. pueden ser "outliners" o elementos anómalos).8 Neural Network (Redes neuronales) Al igual que los árboles de decisión. Usos típicos: • • Estudio de secuencias de eventos Detección de algunas anomalías de comportamiento (eventos que llegan fuera de secuencia) 4. seguro que no quieres palitos salados? 4. quien compra cerveza suele comprar también palitos salados). hombres mayores solteros. y a partir del mismo crea los gráficos que representan las dependencias y reglas en ventana interactiva. Por ejemplo. Por ejemplo.. ¿subirá o bajará el IBEX mañana? Predicción de una magnitud analógica.. saber en qué orden hace click la gente en las noticias de una web.. Usos típicos: • • Análisis de la cesta de la compra Ofrecer recomendaciones al comprador: ¿has comprado cerveza. difícilmente descriptibles por medio de reglas.. puede ayudarnos a ordenar los titulares de arriba a abajo y de derecha a izquierda. Validaciones (las entradas que no pertenecen a un cluster. Nos puede servir para: • • Segmentar un mercado.3.4 Clustering Sirve sobre todo para buscar elementos afines dentro de un conjunto. utiliza el algoritmo de árboles de la decisión de Microsoft.5 Time Series (Series temporales) Este algoritmo es específico para predecir el valor de una magnitud en función del tiempo. 4. hombres y mujeres mayores casados. en general. Detecta asociaciones comunes entre elementos (por ejemplo..3.9 El asistente de creación. Por ejemplo: • • Análisis bursátiles.7 Association rules (Reglas de asociación) Este se suele usar casi exclusivamente para análisis de cesta de la compra. pero no mujeres mayores solteras.. Nos pueden servir para tareas como: © Jose Ignacio González Gómez . 4. Se usa como alternativa al algoritmo de arboles de decisión: lo mejor es probar ambos sobre un mismo problema y utilizar el que mayor acierto nos de en sus predicciones.

daedalus. Ahora lo único que necesitamos.10 • • Las mismas tareas que los árboles de decision.Data.com/2008/09/como-habilitar-microsoft-office-excel-2007-parahacer-mineria-de-datos-apoyandose-en-sql-server. a partir de este momento podemos tenerlas incorporadas en Excel 2007 lo que supone que el Business Intelligence se acercan más a los usuarios finales. el problema no es lineal.. cuando no se pueden clasificar fácilmente trazando líneas. pero cuando se trata de predecir una magnitud contínua). S.aspx http://alejandroesteban.ms/blogs/gelexgaray/archive/2007/03/01/aplicaciones-pr-cticas-de-los-algoritmos-de-minera-de-datos.files. es que estos usuarios comiencen a conocer estas nuevas funcionalidades y a explotarlas !!! (El bruno) 6 Bibliografía DAEDALUS . Regresiones (es similar a la clasificación. cuando los grupos en los que se divide la población no son lineales.com/es-es/excel/HA102257543082.microsoft.php http://geeks.aspx http://elbruno.pdf © Jose Ignacio González Gómez . imagina la tarea de clasificar puntos en un espacio.wordpress.aspx http://office. 5 Conclusiones Como podemos ver las capacidades de minería de datos son realmente impresionantes y además. ya que todo el mundo sabe cómo utilizar y representar datos en Excel. Si no sabes a qué me refiero. Decisions and Language.. A (2007): http://www.com/blogs/elbruno/archive/2007/02/26/bi-data-mining-ahora-desde-excel-2007.es/AreasMD-E.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->