Jose Ignacio González Gómez. Departamento de Economía Financiera y Contabilidad Universidad de La Laguna www.ecofin.ull.

es/users/jggomez.

Tema: Generalidades de la Minería de Datos (Borrador)
Revisado: 2009

Indice
1  ASPECTOS GENERALES DE LA MINERÍA DE DATOS.  2  FASES DE UN PROYECTO DE MINERÍA DE DATOS.  2.1  2.2  2.3  2.4  2.5  INTRODUCCIÓN  FASE FILTRADO DE DATOS.  FASE SELECCIÓN DE VARIABLES.  FASE ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO  FASE INTERPRETACIÓN Y EVALUACIÓN 

3  CASOS DE ESTUDIO  4  MINERÍA DE DATOS CON EXCEL.  4.1  4.2  4.3 
4.3.1  4.3.2  4.3.3  4.3.4  4.3.5  4.3.6  4.3.7  4.3.8 

CARACTERÍSTICAS GENERALES DEL ADD DATA MINING PARA EXCEL.  NOTAS SOBRE LA INSTALACIÓN.  ANÁLISIS DE LOS PRINCIPALES ALGORITMOS Y USOS. 
Introducción.  Algoritmo Naive Bayes  Decisión Trees (Árboles de decisión)  Clustering  Time Series (Series temporales)  Sequence clustering  Association rules (Reglas de asociación)  Neural Network (Redes neuronales) 

5  CONCLUSIONES  6  BIBLIOGRAFÍA 

no v válidos. herramienta de ayuda a la a plani ificación y a la decisión en market n ting. El pr roceso de m minería de da pasa po las siguie atos or entes fases: • • • • Filtrado de datos Selección de Variab bles ón ocimiento Extracció de Cono Interpret tación y Eva aluación 2 iltrado de Datos. n s a eliminan va alores incor rrectos..2 Fase Fi El fo formato de los datos contenidos en la fu s uente de da atos (base de datos. © Jose Ignacio González Gómez z .. la m minería de d datos es fun ndamental en la investi e igación cien ntífica y téc cnica. Asim mismo. Data Ware ehouse. Las t técnicas de minería de datos se em mplean para mejorar el rendimient de proces de to sos nego ocio o indu ustriales en los que s manejan grandes v n se n volúmenes de inform mación estru ucturada y almacenada en bases de datos.. según las necesidade y el algo s es oritmo a usa se ar). as.2 1 A Aspecto Genera os ales de la Minería de Dat tos. Medi iante el pr reprocesado se filtran los datos (de forma que se e o.. 2 Fases de un proy e yecto de Minería de Dato e a os. como herramien de análisis y descu o nta ubrimiento de conocim miento a pa artir de datos de obser rvación o de resultados de experim s mentos. finanza etc. Por ejemp a s plo.. ng.1 Introdu 1 ucción Los p pasos a seg para la realización de un proy guir n yecto de mi inería de da son sie atos empre los m mismos. 2. y l mayoría de las vece no es po la es osible ni siq quiera utiliz ningún a zar algoritmo de minería so e obre los dat "en bruto tos o". obtie enen muestr de los m ras mismos (en busca de una mayor velocidad de respuest del n u ta proce eso).).. des sconocidos.) n nunca es el idóneo.. ind dependientem mente de la técnica esp a pecífica de extracción de conocim miento usada. o se re educen el nú úmero de va alores posib (median redonde clusterin bles nte eo. se usa con éxit en an to aplic caciones de control de procesos productivo como h e os. 2.

repre esenta patro ones de com mportamien observad en los v nto dos valores de las variable del es probl lema o rela aciones de asociación entre dich variable También pueden usarse n has es. n u varia técnicas a la vez p as para genera distintos modelos. Los m métodos par la selecci de carac ra ión cterísticas son básicam mente dos: • Aquellos basados en la elección de los mej s n n ejores atribu del prob utos blema. mos ncia 4 lgoritmos de Extrac cción de Conocimie C ento 2. los scan variabl independientes med les diante tests de sensibil lidad.3 2. • Y aquell que bus algoritm de distan o heurísticos. se obtiene un mo odelo de co onocimiento que o. En el caso de haber obten nido varios modelos m mediante el uso de distintas técnicas. aunque gen ar neralmente cada técni obliga a un preprocesado difere de los datos. en la mayoría de los cas se tiene una sos e canti idad ingente de datos.4 Fase Al Medi iante una té écnica de m minería de d datos. se deb compara los ben ar © Jose Ignacio González Gómez z . e ación. Aún después de haber sid preproce e do esados. La selecció de caract e ón terísticas red duce el tam maño de los datos eligie endo las va ariables más influyente en el pro s es oblema. comp probando qu las ue conclusiones qu arroja son válidas y suficientem ue n mente satisfa actorias.5 Fase In 5 nterpretaci ión y Eval luación Una vez obtenid el mode se debe proceder a su valida do elo. sin apenas sacr rificar la ca alidad del m modelo de conocimient obtenido del proceso de minería to o a. ica ente 2.3 Fase Se 3 elección d Variable de es.

por esta razón Microsoft ha creado add-Ins o complementos que permiten que desde ese mismo Excel. en algunos casos cuentan con herramientas de inteligencia de negocios que les permiten conocer en forma gráfica el estado de sus inversiones. el efecto causado por una promoción específica en un momento del tiempo y hasta el detalle del desempeño de su organización por áreas de la misma.es/AreasMD-E.daedalus. todos suelen usar Excel para analizar cifras. los usuarios puedan acceder a tecnologías mucho más avanzadas como lo es la minería de datos soportada por Microsoft SQL Server en sus versiones 2005 y 2008 Los Complementos de minería de datos de Microsoft SQL Server 2005 para 2007 Microsoft Office system derivan los patrones y tendencias existentes en datos complejos. pero en términos generales. Los analistas de información en general. visualizan dichos patrones en gráficos y visores interactivos.php ) . algunos tomadores de decisiones e incluso algunos gerentes suelen basar sus decisiones de negocio en la información histórica de su organización. Desarrollo de un sistema de ayuda a la decisión para la optimización del proceso de producción en una fábrica de cemento. debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si ninguno de los modelos alcanza los resultados esperados. el comportamiento de ventas a través del tiempo. Aplicación de minería de datos para predicción de ventas Aplicación de minería de datos para análisis del estado del tráfico en carretera Aplicación de minería de datos para predicción de demandas de tiempo de trabajo Aplicación de minería de datos para segmentación de clientes de entidades financieras 4 Minería de Datos con Excel. algunos otros no cuentas aún con este tipo de soluciones de inteligencia de negocios y basan sus decisiones en la experiencia.1 Características generales del Add Data Mining para Excel. Desarrollo de un modelo para predecir las ventas de un producto en un determinado mes. se presentan un conjunto de casos entre los que destacan: Optimización de la producción de cartón en la Industria Papelera Optimización del Proceso de Producción de Cemento Mejorar el rendimiento de la fabricación de cartón optimizando el control de la velocidad de la línea. 3 Casos de estudio En la Web de la empresa DAEDALUS (http://www. Desarrollo de un sistema para clasificación del estado del tráfico Desarrollo de un sistema de predicción del tiempo de trabajo demandado por actividades de reparto postal Segmentación de los clientes de un banco mediante un modelo basado en agrupamiento (clustering) borroso. Para todos estos usuarios Excel es una herramienta conocida y fácil de manejar para sus necesidades. 4. y generan © Jose Ignacio González Gómez . basándose en datos sobre las ventas en meses previos.4 modelos en busca de aquel que se ajuste mejor al problema. realizar cálculos e incluso para generar informes.

Una vez instalad los Addi para min do ins nería de datos para Office 2007.aspx x?familyid=89 96A493A-2502 2-4795-94AE EE00632BA A6DE7&displ laylang=es Así. en c color. Exce presenta u complem el un mento tanto para la ve ersión 2003 así como p para la 2007 que 7 nos facilita el d desarrollo d la minerí de de ía datos bajo este estánda de hoja de s ar a cálcu ulo. relac Si la columna so obre la que queremos a aplicar la pr redicción.microsoft. Puede P usar estos comp plementos p para utilizar las analític predictiv de SQL Server 200 en cas vas L 05 Micr rosoft Office Excel 200 y Micros Office Visio 2007. e 07 soft V Este paquete i incluye los dos com s mplementos siguientes para Offi fice Excel 2007 (Herr ramientas d análisis de tabla y Cliente de minería de datos) y u complem de e un mento para Office Visi 2007 (Pla io antillas de m minería de datos). que nos aparece un wizard.Getting St tarted. Excel prese enta un com mplemento tanto para la versión 2 l 2003 así com para la 2007 mo que nos facilita el desarro a ollo de la minería de datos bajo este están o ndar de hoj de oja cálcu ulo. está relacio or onada con l cantidad de coches p cliente. Esta herramient permite c ta crear un mo odelo de est timación ba asado en dat existent de tos tes una t tabla del Ex xcel. Seña y destac que Microsoft Off alar car fice Excel 2007 no es la herramie 2 enta de soft ftware que h hace miner de datos la minerí de datos se realiza desde un s ría s. para presentacio ones y anal líticas empr resariales. el sexo de e nen estas person y la can nas ntidad de co oches por se etc. es neces d sario conf figurar los mismos.5 resúm menes comp pletos. d Este conjunto de compleme e entos se pod descarga de: drá ar • http://www w. es posible an s nalizar los factores qu se ue cionan con l valores numéricos tales como tipos de da de mon los o ato neda o de fe echas. exo. o de un consulta de Analysis Services 2005. ía servidor de SQL Server Analysis Services (Analysis Se s ervices es uno de los s u servicios de Microsoft SQL e Server) por eso el primer re equisito par habilitar a Excel con Minería de datos es contar ra n c un con u servidor de Analysis Services. Ilustración 1 I El m mismo nos p permite sele eccionar la i instancia de servidor q utilizar el que remos en nu uestro startu up.2 Notas s 2 sobre la in nstalación n. po ejemplo.Mi icrosoft SQ Server 2005 QL 2 DM Add-ins . S lanzamo la Si os aplic cacion Gettting Started del menú All d ú Prog grams . 4. es posible analizar fact la por a tores tales c como la can ntidad de pe ersonas solt teras o casa adas que tien coche. © Jose Ignacio González Gómez z . na s 2 El m modelo extra patrones de datos y utiliza la información para pred ae n decir los fac ctores que afectan val lores contin nuos. Por e ejemplo. de un r rango de Ex xcel.co om/download ds/details. vere emos n e .

6 Una vez finalizado este pa o aso. A co ontinuación debemos definir d la columna sobre la que remos estim los dat y mar tos quer las c columnas qu servirán como ue "inpu Data" p ut para realiz el zar análi de estimación. se nos pres senta un f formulario para definir el servidor de base de da o bien para e atos la creación de una ba de dato o utilizar una n ase os r existente. Ilus stración 2 4.1 Introducción In n. emos sobr la re colu umna "cars" que deter " rmina la ca antidad de c coches que posee p una p persona o u cliente. on .3. E selec ccionamos el Tab Data Mini y hace ing emos click en el boto Estimate. debere emos configurar y crear un nueva ins r na stancia de bases b de datos de Data Min d ning que se la DB do erá onde almacenar remos nuest proyecc tras ciones y nue estro trabajo desde nuest d tro cliente Office 2007. Ilustración 3 lo.. En este isis n caso trabajare o. podrem comenzar a trabajar y utilizar las herramientas de Da Mining desde mos r ata d Mini el pro opio Micros Excel 2 soft 2007. Así por ejempl dentro de la de Ribb bon Excel. En tal caso definimos los permis de acces y o s sos sos completad la configu da uración. e 2 Después de la pan ntalla de b bienvenida del wizard. un Ilustra ación 4 © Jose Ignacio González Gómez z . 4. Una vez finaliza la conf ada figuración de nuestro acceso a u base de datos de Data una e ing.3 Análisis de los p 3 s principales algoritmos y usos s s.

podremos ver los mismos en 2 modos gráficos: • • Ilustración 5 Arbol de decisión.7 Una vez definidos los parámetros de entrada. una vez finalizado el proceso de generación de datos. Para esto creamos una nueva tabla (Table2 Structure_1) basada en modelo de decisión. Red de depencias Como vemos es muy sencillo de aplicar. Ilustración 6 • Árbol de decisión Ilustración 7 • Red de dependencias © Jose Ignacio González Gómez . podremos comenzar a generar y analizar los datos. Finalmente. pasamos a continuación a introducirnos en los principales algoritmos que presentan este añadido y para qué sirven.

3.. Nos pueden servir para tareas como: • • • Clasificación en general Validaciones. Cuando no tenemos muy claro qué atributo se puede predecir en función de otros. Vamos.... Básicamente. construyen un arbol del que se pueden extraer reglas. este algoritmo busca correlaciones entre atributos.3 Decisión Trees (Árboles de decisión) Los árboles de decisión son clarísimamente una herramienta potentísima de clasificación.3. del estilo "Si eres hombre. 4... en las que el rendimiento sea crítico. yo lo usaría para: • • Exploración inicial de los datos Tareas de clasificación. etc. tienes unos ingresos superiores a 'X'. Podemos detectar elementos anómalos en función de si encajan o no con las reglas surgidas del árbol (por ejemplo.2 Algoritmo Naive Bayes Empezamos por este porque es el algoritmo que primero se suele utilizar para explorar datos. la probabilidad de que tengas coche es del 90%". entornos en tiempo real en los que queramos detectar entradas anómalas. El resultado de esta orgía de correlaciones suele ser un modelo en el que tenemos más o menos claro qué vamos a poder predecir en esos datos. y eres comprador de revistas de coches. Se me ocurre. son probablemente el mejor algoritmo que podemos utilizar para clasificar. validaciones. Otra ventaja de este algoritmo es que se entrena muy rápido. una técnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en función de todos los atributos (un "todos contra todos"). clasificaciones y filtrados de mensajes... "si tienes coche. por ejemplo... Básicamente.8 Ilustración 8 4. menos de 20 años y estas en paro. pero su desventaja es que no es muy preciso. de hecho. probablemente mientas") Predecir el valor de un atributo con precisión © Jose Ignacio González Gómez .

7 Association rules (Reglas de asociación) Este se suele usar casi exclusivamente para análisis de cesta de la compra. Por ejemplo. 4. Se usa como alternativa al algoritmo de arboles de decisión: lo mejor es probar ambos sobre un mismo problema y utilizar el que mayor acierto nos de en sus predicciones. Usos típicos: • • Análisis de la cesta de la compra Ofrecer recomendaciones al comprador: ¿has comprado cerveza. puede ayudarnos a ordenar los titulares de arriba a abajo y de derecha a izquierda. Puede ser adecuado para detectar patrones no lineales. hombres mayores solteros.3. Por ejemplo.8 Neural Network (Redes neuronales) Al igual que los árboles de decisión. y a partir del mismo crea los gráficos que representan las dependencias y reglas en ventana interactiva.6 Sequence clustering También es bastante específico para detectar secuencias típicas dentro de un conjunto de eventos. saber en qué orden hace click la gente en las noticias de una web. Usos típicos: • • Estudio de secuencias de eventos Detección de algunas anomalías de comportamiento (eventos que llegan fuera de secuencia) 4.3. podemos usarlo para saber que en una población hay hombres y mujeres jóvenes solteros. ¿subirá o bajará el IBEX mañana? Predicción de una magnitud analógica. seguro que no quieres palitos salados? 4... Nos pueden servir para tareas como: © Jose Ignacio González Gómez .3. quien compra cerveza suele comprar también palitos salados). Nos puede servir para: • • Segmentar un mercado.. 4.. Validaciones (las entradas que no pertenecen a un cluster. 4.9 El asistente de creación.4 Clustering Sirve sobre todo para buscar elementos afines dentro de un conjunto.3.. pero no mujeres mayores solteras. Por ejemplo: • • Análisis bursátiles.. Detecta asociaciones comunes entre elementos (por ejemplo. hombres y mujeres mayores casados.5 Time Series (Series temporales) Este algoritmo es específico para predecir el valor de una magnitud en función del tiempo. utiliza el algoritmo de árboles de la decisión de Microsoft. este algoritmo también resuelve problemas de clasificación y regresión.3. pueden ser "outliners" o elementos anómalos). difícilmente descriptibles por medio de reglas. en general.

pdf © Jose Ignacio González Gómez .ms/blogs/gelexgaray/archive/2007/03/01/aplicaciones-pr-cticas-de-los-algoritmos-de-minera-de-datos. 5 Conclusiones Como podemos ver las capacidades de minería de datos son realmente impresionantes y además. Ahora lo único que necesitamos.files. imagina la tarea de clasificar puntos en un espacio. a partir de este momento podemos tenerlas incorporadas en Excel 2007 lo que supone que el Business Intelligence se acercan más a los usuarios finales.es/AreasMD-E.php http://geeks.aspx http://alejandroesteban.daedalus.com/blogs/elbruno/archive/2007/02/26/bi-data-mining-ahora-desde-excel-2007. es que estos usuarios comiencen a conocer estas nuevas funcionalidades y a explotarlas !!! (El bruno) 6 Bibliografía DAEDALUS . cuando los grupos en los que se divide la población no son lineales.aspx http://office. Si no sabes a qué me refiero.aspx http://elbruno.10 • • Las mismas tareas que los árboles de decision. A (2007): http://www..com/es-es/excel/HA102257543082.com/2008/09/como-habilitar-microsoft-office-excel-2007-parahacer-mineria-de-datos-apoyandose-en-sql-server.Data. S.wordpress.. el problema no es lineal. cuando no se pueden clasificar fácilmente trazando líneas. Regresiones (es similar a la clasificación.microsoft. ya que todo el mundo sabe cómo utilizar y representar datos en Excel. pero cuando se trata de predecir una magnitud contínua). Decisions and Language.

Sign up to vote on this title
UsefulNot useful