Está en la página 1de 18

Minera de Datos

Documento Bsico DAEDALUS

Data Mining DAEDALUS White Paper

C-27-IN-6012-010 - Noviembre de 2002 DAEDALUS Data, Decisions and Language, S.A. http://www.daedalus.es

Copyright DAEDALUS Data, Decisions and Language, S.A. Todos los derechos reservados. Enven sus consultas, sugerencias o comentarios a: DAEDALUS Data, Decisions and Language, S.A. Centro de Empresas La Arboleda Ctra. N-III, Km. 7,300 E-28031 Madrid Tel.: +34 91 332 43 01 Fax: +34 91 331 97 40 Correo-e: info@daedalus.es http://www.daedalus.es

Copyright

DAEDALUS Data, Decisions and Language, S.A. Todos los derechos reservados.

DAEDALUS Data, Decisions and Language, S.A.

NDICE

1 2

RESUMEN...................................................................................................2 CLAVES OCULTAS EN SUS DATOS ..............................................................3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 LOS DATOS, ORIGEN DE LA INFORMACIN........................................................... 3 ESTRUCTURACIN DE LOS DATOS .................................................................... 3 DATA WAREHOUSING ................................................................................. 4 INFORMACIN OCULTA EN LOS DATOS ............................................................... 5 QU ES Y QU NO ES LA MINERA DE DATOS ........................................................ 6 DEFINICIN, CARACTERIZACIN Y ESTRUCTURA DEL PROBLEMA................................... 7 ESTAMOS DISPUESTOS A USAR LOS RESULTADOS?................................................ 8

PARA QU SIRVE LA MINERA DE DATOS ..................................................9 3.1 MINERA DE DATOS FRENTE A OLAP Y DSS........................................................ 9 3.2 QU SE PUEDE ESPERAR? ......................................................................... 11 3.2.1 Marketing.................................................................................... 11 3.2.2 Prediccin ................................................................................... 12 3.2.3 Reduccin de riesgos .................................................................... 12 3.2.4 Deteccin de fraudes .................................................................... 12 3.2.5 Control de calidad......................................................................... 12 3.2.6 Procesos industriales..................................................................... 13

CONCLUSIONES .......................................................................................15

DAEDALUS Data, Decisions and Language, S.A.

MINERA DE DATOS
Documento bsico
1 RESUMEN
Con la denominada sociedad de la informacin se est produciendo un fenmeno curioso. Da a da se multiplica la cantidad de datos almacenados. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosin de datos no supone un aumento de nuestro conocimiento, puesto que resulta imposible procesarlos con los mtodos clsicos. La mayora de las multinacionales generan ms informacin en una semana que la que cualquier persona podra leer en toda su vida, e incluso las pequeas empresas generan un volumen de datos que no son capaces de manejar. De modo que actualmente nos enfrentamos a la paradoja de que, cuantos ms datos estn disponibles, menos informacin tenemos. Para superar este problema, en los ltimos aos han surgido una serie de tcnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un anlisis en profundidad de los mismos de forma automtica. La idea clave es que los datos contienen ms informacin oculta de la que se ve a simple vista. Este documento ofrece una perspectiva general del proceso completo de extraccin del conocimiento oculto en los datos, denominado KDD (Knowlegde Discovery in Databases) y, ms en concreto, de las tcnicas utilizadas en la fase de descubrimiento de informacin propiamente dicha, denominada minera de datos. En la seccin 2 se definen una serie de conceptos bsicos que ayudarn a situar la minera de datos dentro de diferentes entornos de trabajo. Adems se definen conceptos asociados a la minera de datos como Data Warehouse y OLAP. Si el lector ya tiene una cierta idea de lo que se puede conseguir con la minera de datos, y lo que desea es saber qu tipo de aplicaciones o problemas pueden ser abordados con esta tecnologa, puede ir directamente a las seccin 3. En ella se establecen los objetivos que podemos alcanzar con las diferentes tcnicas existentes. Este documento puede complementarse con otros documentos bsicos accesibles en www.daedalus.es: Minera de datos Tecnologa, en el que se profundiza en las tcnicas propias de la minera de datos. Desarrollo de proyectos de minera de datos, donde se describe la metodologa CRISP-DM, un estndar industrial con ms de 160 empresas y organizaciones en su grupo de inters. Web Mining Minera de uso de la Web. Si su trabajo se desarrolla en el mundo de Internet, seguro que le interesar cmo aplicar la minera de datos a este mbito.

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

2 CLAVES OCULTAS EN SUS DATOS


2.1 Los datos, origen de la informacin
Hoy en da, y est claro que se trata de una tendencia vlida para los prximos aos, el almacenamiento de la informacin es algo sencillo y barato. Nuestros sistemas informticos cada vez tienen una capacidad mayor, y lo que ahora es normal encontrar de serie en un ordenador personal, quedar anticuado dentro de unos meses. Este incremento de los sistemas de almacenamiento tiene un efecto que es realmente interesante: es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos (en el sentido ms amplio del trmino) crecen hasta lmites insospechados. Cuando decidimos iniciar ese proceso de almacenamiento de datos, lo solemos hacer con la intencin de analizarlos posteriormente. Sin embargo, cuando llega el momento, el anlisis que se realiza suele ser bastante superficial y guiado por los resultados que esperamos encontrar al analizarlos. Lo normal es utilizar algn paquete estadstico (una hoja de clculo en el caso ms simple) para localizar correlaciones entre variables, establecer medias y varianzas e intentar modelar de esta forma nuestra informacin. Sin embargo, en esa montaa de datos existe informacin que no puede ser encontrada con los procedimientos habituales de trabajo. La minera de datos nos ayuda a dar un paso ms en ese anlisis sacando a la luz relaciones ocultas entre los datos: informacin desconocida que pueda ayudarnos a gestionar mejor nuestro negocio o proceso.

2.2 Estructuracin de los datos


Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuracin y coherencia entre los mismos. Si el responsable de almacenamiento de la informacin ha sido siempre la misma persona, es posible que una parte de este problema est resuelto. Sin embargo, en general no se da esa situacin, sino que, ms bien al contrario, son muchas las personas que en distintos departamentos y a lo largo del tiempo han ido creando ficheros con diferentes tipos de datos. Surge aqu la necesidad de conjugar los distintos ficheros y bases de datos de manera que podamos utilizarlos para extraer conclusiones. Aunque ms adelante trataremos el problema del preprocesamiento de los datos, en este punto podemos echar un vistazo a los problemas que podemos encontrarnos: Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informticos es la representacin de la fecha, donde el ao se puede guardar con 2 o con 4 dgitos. Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un cdigo de cliente propio o por su NIF. Diferentes niveles de precisin al representar un dato: los nmeros reales no siempre se almacenan de la misma forma, y es posible que esto nos genere algn problema. ...

Como podemos ver, la cuestin no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informticos y soportes diferentes.

C-27-IN-6012-010

Documento bsico de minera de datos

DAEDALUS Data, Decisions and Language, S.A.

Es cierto que cada una de estas fuentes de datos puede ser manejada por separado. Seguro que hay quien opina que los datos estn en diferentes ficheros porque representan informaciones y procesos distintos, y que no tiene sentido estructurar la informacin ms all de lo que ya est. Y es posible que si as lo hacemos encontremos informacin til. Pero no es menos cierto que nos estamos hurtando a nosotros mismos la posibilidad de descubrir un conocimiento que va ms all de cada una de las parcelas de nuestro negocio: un conocimiento que representa la interaccin entre diferentes procesos, que es, precisamente, donde se encuentra la informacin ms valiosa.

2.3 Data Warehousing


El mecanismo ms habitual para estructurar la informacin de un negocio es haciendo uso de un Data Warehouse1. Las definiciones ms habituales de este trmino son: Almacn de datos. Plataforma que concentra la informacin de inters de toda la empresa. Sistema que permite el almacenamiento en un nico entorno de la informacin histrica e integrada proveniente de los distintos sistemas de la empresa y que refleja los indicadores clave asociados a los negocios de la misma. Sistema de informacin orientado a la toma de decisiones empresariales que, almacenando de manera integrada la informacin relevante del negocio, permite la realizacin de consultas complejas con tiempos de respuesta cortos. Sistema orientado a dar informacin en trminos de negocio en vez de datos en trminos de explotacin.

Como se puede apreciar, las palabras ms empleadas son: informacin de inters, negocio, integracin,... De su conjunto podemos expresar que el Data Warehouse es un almacn estructurado de la informacin clave de nuestro negocio, que integra datos provenientes de todos los departamentos, sistemas, etc. y que nos permite analizar el funcionamiento de nuestra compaa y tomar decisiones sobre su gestin. No se trata de una simple agregacin de las diferentes bases de datos. Es importante destacar que hay algunas diferencias de concepto respecto a stas y a su forma de uso. Una base de datos operativa almacena la informacin de un sector del negocio, se actualiza a medida que llegan datos que deban ser almacenados y se opera mediante los cuatro mecanismos clsicos Aadir-Eliminar-Modificar-Imprimir: Clsicamente se orienta hacia la elaboracin de informes peridicos. Suele manejar pequeos volmenes de datos. Entorno dimensionado para muchas transacciones (gran cantidad actualizaciones).

de

En cuanto al Data Warehouse, su actualizacin se realiza a intervalos regulares (tpicamente una al da) dentro de un proceso controlado, y tras realizar un preprocesado de los datos que se van a almacenar. Su orientacin es hacia la consulta del estado del negocio. Se ofrece informacin bajo demanda (anlisis libre mediante el herramientas de generacin de informes que atacan el Data Warehouse). Refleja el modelo de negocio, frente al modelo de proceso. uso de

1 El trmino Data Warehouse es de difcil traduccin como una sola palabra. No existe un trmino nico aceptado comnmente, por lo que hemos preferido mantenerlo en su idioma original.

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

Almacena grandes volmenes de datos (informacin histrica e integracin de datos de mltiples aplicaciones). Dimensionado para consultas largas y elaboradas. Actualizaciones controladas y no eliminacin de datos (el Data Warehouse contiene toda la historia de la compaa).

Sistemas Operacionales

Informes predefinidos

Anlisis OLAP

Limpieza de Datos

Base de Datos del Data Warehouse

Minera de datos

Extraccin

Carga

Aplicaciones de usuario final

La estructura de esta gran base de datos es multidimensional, con diferentes puntos de vista que reflejan los distintos aspectos del negocio. As los responsables de producto pueden analizar su evolucin a lo largo del tiempo en diferentes sectores y localizacin geogrfica. Sobre los mismos datos, los responsables de grandes cuentas pueden obtener informacin sobre los tipos de productos que se han vendido, por regiones, a lo largo del tiempo. Un director regional podr estudiar cmo evoluciona su mercado particular, etc. El ejemplo clsico para representar un Data Warehouse es el de un cubo de datos, del que se pueden extraer diferentes rodajas o puntos de vista, se puede analizar una parte concreta, o estudiar el conjunto global. Ms adelante, cuando describamos las herramientas OLAP, volveremos sobre esta idea. Cuando mantenemos una estructura de Data Warehouse, pero adaptada slo a un sector de la empresa, o para un fin concreto, se utiliza un Data Mart. Los Data Marts pueden extraerse del Data Warehouse de la empresa, aunque tambin es posible que el Data Warehouse se construya a partir de los Data Marts que se hayan ido diseando e implantando en los diferentes departamentos. Este segundo enfoque es el que se utiliza cuando se comienza por aplicar estas tcnicas en algunas de las reas del negocio y no en su globalidad.

2.4 Informacin oculta en los datos


A estas alturas ya va pareciendo claro que si almacenamos la informacin ms relevante de nuestro negocio en un sistema que acumula y acumula datos sin parar, un anlisis razonable nos puede permitir descubrir tendencias, localizar grupos de datos con comportamiento homogneo, establecer relaciones, etc. Esa informacin est oculta en los datos y ser necesario utilizar todas las tcnicas a nuestro alcance para obtenerla. El objetivo que nos planteamos es localizar relaciones entre atributos de nuestro Data Warehouse. Estas relaciones podran ser del tipo: Para una gran superficie: Ms del 60% de las personas que adquieren queso fresco compran tambin algn tipo de mermelada.

C-27-IN-6012-010

Documento bsico de minera de datos

DAEDALUS Data, Decisions and Language, S.A.

Para un departamento de fidelizacin de una compaa area: muchos usuarios que hacen vuelos de menos de 3 das a Berln alquilan un coche en el aeropuerto. Para un operador de telefona: durante el mes siguiente al lanzamiento de una campaa de descuento en llamadas internacionales por parte de una compaa de la competencia, nuestros pequeos clientes redujeron su consumo en este sector, mientras que los grandes clientes lo mantuvieron.

Esta informacin puede ser extrada haciendo uso de diversas tcnicas y ninguna de ellas debe ser despreciada, sino agregada al resto para obtener mejores resultados. Sin embargo, en este documento bsico nos centraremos en la minera de datos y en las ventajas que puede aportar frente a otras tcnicas.

2.5 Qu es y qu no es la minera de datos


La minera de datos puede definirse como la extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til, a partir de los datos2. Para conseguirlo hace uso de diferentes tecnologas que resuelven problemas tpicos de agrupamiento automtico, clasificacin, asociacin de atributos y deteccin de patrones secuenciales. La minera de datos es, en principio, una fase dentro de un proceso global denominado descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente haya adquirido el significado de todo el proceso3 en lugar de la fase de extraccin de conocimiento. Es habitual que los expertos en estadstica confundan la minera de datos con un anlisis estadstico de stos (afirmaciones de este tipo pueden encontrarse en documentacin de empresas dedicadas al procesamiento estadstico que venden sus productos como herramientas de minera de datos). La diferencia fundamental entre ambas tcnicas es muy clara: para conseguir una afirmacin como la que ha sido utilizada en el ejemplo anterior (Ms del 60% de las personas que adquieren queso fresco compran tambin algn tipo de mermelada) utilizando un paquete estadstico, es necesario conocer a priori que existe una relacin entre el queso fresco y la mermelada, y lo que realizamos con nuestro entorno estadstico es una cuantificacin de dicha relacin.

Aplicaciones analticas Potencia de anlisis

Minera de datos

OLAP

Informes

Complejidad del proceso

En el caso de la minera de datos el proceso es muy distinto: la consulta que se realiza a la base de datos (al Data Warehouse) busca relaciones entre parejas de productos que son adquiridos por una misma persona en una misma compra. De esa informacin, el sistema deduce, junto a otras muchas, la afirmacin anterior. Como podemos ver, en este proceso se realiza un acto de descubrimiento de conocimiento real, puesto que no es necesario ni siquiera sospechar la existencia de una relacin entre estos dos productos para encontrarla.

2 W. Frawley, G. Piatesky-Shapiro, C. Matheus, Knowledge Discovery in Databases: An Overview, AI Magazine, Otoo 1992 (pg. 213-228).

En la mayora de la bibliografa se hace referencia a minera de datos tomando el sentido de descubrimiento de conocimiento en bases de datos.

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

2.6 Definicin, caracterizacin y estructura del problema


La evolucin de la tecnologa ha facilitado y automatizado en gran medida las tareas de anlisis de informacin. Cada paso en esta evolucin se apoya en los anteriores y cada uno de ellos ha supuesto un avance significativo para el usuario, que ha visto cmo cada progreso le abra nuevas posibilidades de anlisis y aumentaba el nivel de abstraccin de las consultas. Para decidir cul es la tcnica ms adecuada para una determinada situacin, es necesario distinguir el tipo de informacin que se desea extraer de los datos. Segn su nivel de abstraccin, el conocimiento contenido en los datos puede clasificarse en distintas categoras y requerir una tcnica ms o menos avanzada para su recuperacin: Conocimiento evidente Informacin fcilmente recuperable con una simple consulta (SQL). Un ejemplo de este tipo de conocimiento es una pregunta como Cules fueron las ventas en Espaa el pasado marzo? o Cul es la edad media de mis clientes?. Conocimiento multi-dimensional El siguiente nivel de abstraccin consiste en considerar los datos con una cierta estructura. Por ejemplo, en vez de considerar cada transaccin individualmente, las ventas de una compaa pueden organizarse en funcin del tiempo y de la zona geogrfica, y analizarse con diferentes niveles de detalle (pas, regin, localidad...). Tcnicamente, se trata de reinterpretar una tabla con n atributos independientes como un espacio n-dimensional, lo que permite detectar algunas regularidades difciles de observar con la representacin monodimensional clsica. Este tipo de informacin es la que analizan las herramientas OLAP, que resuelven de forma automtica cuestiones como Cules fueron las ventas en Espaa el pasado marzo? Aumentar el nivel de detalle: mostrar las de Madrid. Conocimiento oculto Informacin no evidente, desconocida a priori y potencialmente til, que puede recuperarse mediante tcnicas de minera de datos, como reconocimiento de regularidades. Esta informacin es de gran valor, puesto que no se conoca y se trata de un descubrimiento real de nuevo conocimiento, del que antes no se tena idea, y que abre una nueva visin del problema. Un ejemplo de este tipo sera Qu tipos de clientes tenemos? Cul es el perfil tpico de cada clase de usuario?. Como se ve, las tcnicas disponibles para extraer la informacin contenida en los datos son muy variadas y cada una de ellas es complementaria del resto, no exclusivas entre s. Cada tcnica resuelve problemas de determinadas caractersticas y, para extraer todo el conocimiento oculto, en general ser necesario utilizar una combinacin de varias. La mayor parte de la informacin de inters contenida en una base de datos, aproximadamente el 80%, corresponde a conocimiento superficial, fcilmente recuperable mediante consultas sencillas con SQL. El 20% restante corresponde a conocimiento oculto que requiere tcnicas ms avanzadas de anlisis para su recuperacin. Estas cifras pueden dar la falsa impresin de que la cantidad de informacin recuperable mediante tcnicas de minera de datos es despreciable. Sin

C-27-IN-6012-010

Documento bsico de minera de datos

DAEDALUS Data, Decisions and Language, S.A.

embargo, se trata precisamente de informacin que puede resultar de vital importancia para la empresa y que no se puede desdear. Bsicamente, y como ya hemos comentado, la clave que diferencia la minera de datos respecto de las tcnicas clsicas es que el anlisis que realiza es exploratorio, no corroborativo. Se trata de descubrir conocimiento nuevo, no de confirmar o desmentir hiptesis. Con cualquiera de las otras tcnicas es necesario tener una idea concreta de lo que se est buscando y, por tanto, la informacin que se obtiene con ellas est condicionada a la idea preconcebida con que se aborde el problema. Con la minera de datos es el sistema y no el usuario el que encuentra las hiptesis, adems de comprobar su validez. La minera de datos, esencialmente, permite obtener a partir de los datos un modelo del problema que se analiza, bien sean las ventas de un artculo para mejorar la campaa de marketing, las caractersticas tcnicas de un producto en control de calidad o un proceso industrial cuyo control se desea optimizar, por citar algunos ejemplos. El modelo obtenido permitir simular el comportamiento del sistema real y obtener conclusiones aplicables en el da a da.

2.7 Estamos dispuestos a usar los resultados?


La minera de datos descubre relaciones en los datos, pero eso es slo el principio. Son las personas, no las tcnicas de minera de datos, las que toman decisiones. El factor ms importante en minera de datos es el conocimiento y la experiencia de dichas personas. Armadas con informacin mejor, pueden aplicar su creatividad y su propio criterio para tomar decisiones ms acertadas y obtener mejores resultados. Por muy buenos que sean los resultados obtenidos en un proyecto de minera de datos, son totalmente intiles si no se aplican en la prctica. As, es intil que consigamos un clasificador que diferencie perfectamente diversos tipos de clientes si no se tiene en cuenta dicha informacin en una campaa de marketing. O descubrir la influencia de una determinada variable en el rendimiento de un proceso si despus no se controla consecuentemente su valor. Las conclusiones de la minera de datos no son valiosas por s mismas, sino en la medida en que se apliquen para obtener resultados. Es importante recordar que los responsables de dicha puesta en prctica no sern generalmente expertos en minera de datos. Un factor clave en el xito de estos proyectos es presentar los resultados de una forma clara e inteligible, haciendo hincapi en la informacin realmente til, teniendo siempre en cuenta sus destinatarios. Es asimismo fundamental justificar adecuadamente dichas conclusiones, puesto que otro problema muy generalizado es la desconfianza que frecuentemente suscitan los sistemas automticos. A menudo, es necesario un cambio de mentalidad para convencer a las personas involucradas del inters, utilidad y fiabilidad de la informacin obtenida gracias a la minera de datos. Estas dificultades pueden ser superadas en gran medida si los responsables de la aplicacin del proyecto han participado activamente en su desarrollo. Ser mucho ms sencillo convencer a una persona de la validez de las conclusiones obtenidas si ella misma ha aportado su conocimiento del proceso en estudio, o de su utilidad si fue el promotor del anlisis. La colaboracin de todos los usuarios implicados es fundamental para el xito de un proyecto de minera de datos.

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

3 PARA QU SIRVE LA MINERA DE DATOS


3.1 Minera de datos frente a OLAP y DSS
Los sistemas de ayuda a la decisin (DSS) son herramientas sobre las que se apoyan los responsables de una empresa, directivos y gestores, en la toma de decisiones. Para ello, utilizan: un Data Warehouse, en el que se almacena la informacin de inters para la empresa, y herramientas de anlisis multidimensional (OLAP).

OLAP (On-Line Analytical Processing) se define como anlisis rpido de informacin multidimensional compartida4. El trmino OLAP aparece en contraposicin al concepto tradicional OLTP (On-Line Transactional Processing), que designa el procesamiento operacional de los datos, orientado a conseguir la mxima eficacia y rapidez en las transacciones (actualizaciones) individuales de los datos, y no a su anlisis de forma agregada. Las herramientas OLAP permiten navegar a travs de los datos almacenados en el Data Warehouse y analizarlos dinmicamente desde una perspectiva multidimensional, es decir, considerando unas variables en relacin con otras y no de forma independiente entre s y permitiendo enfocar el anlisis desde distintos puntos de vista. Esta visin multidimensional de los datos puede visualizarse como un cubo de Rubik, que puede girarse para examinarlo desde distintos puntos de vista, y del que se pueden seleccionar distintas rodajas o cubos dependiendo de los aspectos de inters para el anlisis. Los DSS permiten al responsable de la toma de decisiones consultar y utilizar de manera rpida y econmica las enormes cantidades de datos operacionales y de mercado que se generan en una empresa. Gracias al anlisis OLAP, pueden verificarse hiptesis y resolverse consultas complejas. Adems, en el curso del anlisis, la interpretacin de los datos puede dar lugar a nuevas ideas y enfoques del problema, sugiriendo nuevas posibilidades de anlisis. Sin embargo, el anlisis OLAP depende de un usuario que plantee una consulta o hiptesis. Es el usuario el que lo dirige y, por tanto, el anlisis queda limitado por las ideas preconcebidas que aqul pueda tener. La minera de datos constituye un paso ms en el anlisis de los datos de la empresa para apoyar la toma de decisiones. No se trata de una tcnica que sustituya los DSS ni el anlisis OLAP, sino que los complementa, permitiendo realizar un anlisis ms avanzado de los datos y extraer ms informacin de ellos. Como ya se ha comentado anteriormente, utilizando minera de datos es el propio sistema el que descubre nuevas hiptesis y relaciones. De este modo, el conocimiento obtenido con estas tcnicas no queda limitado por la visin que el usuario tiene del problema. Las diferencias entre minera de datos y OLAP radican esencialmente en que el enfoque desde el que se aborda el anlisis con cada una de ellas es completamente distinto. Fundamentalmente:

Richard Creeth, Nigel Pendse.

C-27-IN-6012-010

Documento bsico de minera de datos

DAEDALUS Data, Decisions and Language, S.A.

El anlisis que realizan las herramientas OLAP es dirigido por el usuario, deductivo, parte de una hiptesis o de una pregunta del usuario y se analizan los datos para resolver esa consulta concreta. Por el contrario, la minera de datos permite razonar de forma inductiva a partir de los datos para llegar a una hiptesis general que modele el problema. Adems, las aplicaciones OLAP trabajan generalmente con datos agregados, para obtener una visin global del negocio. Por el contrario, la minera de datos trabaja con datos individuales, concretos, descubriendo las regularidades y patrones que presentan entre s y generalizando a partir de ellos.

OLAP Razonamiento Trabaja con datos deductivo agregados

MD inductivo concretos/individuales

Un ejemplo clarificar la diferencia entre ambas tcnicas: Una pregunta tpica de un sistema OLAP/DSS sera: El ao pasado, se compraron ms furgonetas en Catalua o en Madrid?. La respuesta del sistema sera del tipo En Catalua se compraron 12.000 furgonetas, mientras que, durante el mismo intervalo, en Madrid se compraron 10.000. Obviamente es una informacin interesante y til, pero restringida por las hiptesis realizadas a priori. En cambio, un problema tpico para resolver utilizando minera de datos sera, por ejemplo: Hallar un modelo que determine las caractersticas ms relevantes de las personas que compran furgonetas. A partir de los datos del pasado, el sistema de minera de datos proporcionara una respuesta del tipo: Depende de la poca del ao y la situacin geogrfica. En invierno, los habitantes de Madrid que pertenecen a un cierto grupo de edad y nivel de ingresos probablemente comprarn ms furgonetas que gente de las mismas caractersticas en Catalua. Como puede verse, se trata de problemas distintos, de modo que segn los objetivos perseguidos deber utilizarse una tcnica u otra. Adems, puesto que sus conclusiones son complementarias, en general ser conveniente combinar ambas para obtener los mejores resultados.

Informacin

Anlisis Avanzado

OLAP & Informes

Simulacin/optimizacin Prediccin Segmentacin/clasificacin Construccin de modelos Descubrimiento de patrones Verificacin de hiptesis Anlisis condicional simple (Qu pasa si...?) Drill-down (profundizar) Clculos contextuales Porcentajes Recuentos & Totales Consultas

10

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

3.2 Qu se puede esperar?


El objetivo final de cualquier proyecto de minera de datos puede resumirse en uno de estos dos: ahorrar dinero mejorando la eficacia de sus actividades, o bien, ganar dinero descubriendo nuevas fuentes de beneficios. Cmo se llega a estos objetivos? A partir de un conjunto de datos y un conjunto de tcnicas se puede llegar a unas determinadas conclusiones. Pero, cmo se traducen los resultados de un proyecto de minera de datos en beneficios tangibles para la empresa? Bsicamente, esos resultados suponen una mejora de la informacin disponible y ser al aplicar dicha informacin cuando se obtengan los beneficios. Los campos en los que pueden utilizarse estas tcnicas son extremadamente variados: prcticamente en cualquier situacin en la que se disponga de un conjunto de datos. A continuacin se comentan algunas de las reas ms comunes en las que se ha aplicado frecuentemente la minera de datos, pero se trata simplemente de algunos ejemplos. En casi cualquier caso que usted pueda imaginar es probable que la minera de datos pueda aportar importantes beneficios. Parece una exageracin? Tal vez no tanto. A modo de curiosidad: 28 de los 29 equipos que participan en la liga de baloncesto profesional americana (NBA) utilizan tcnicas de minera de datos para detectar patrones de comportamiento y relaciones entre variables del juego (por ejemplo, detectar que el jugador X realiza el 90% de sus tiros de campo cuando el jugador Y juega de base), de forma que estas tcnicas ofrecen nuevas perspectivas para modificar las tcticas de juego a fin de mejorar el rendimiento del equipo. Un anlisis tradicional podra indicar que un jugador consigue el 70% de sus puntos en tiros de media distancia desde el lateral derecho. En general, disponer de un modelo que permita simular el comportamiento y/o predecir la evolucin de un sistema, un proceso, las ventas de un producto, etc. de forma suficientemente precisa supone una clara ventaja competitiva, permitiendo adelantarse y aprovechar oportunidades, as como prevenir problemas. Algunas de las aplicaciones ms comunes son:

3.2.1 Marketing
Este es uno de los campos donde los xitos de la minera de datos son ms conocidos. Cuanto ms precisa sea la informacin que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al mximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quin comprar qu, cundo y dnde. Targeting: Podemos aumentar espectacularmente el porcentaje de respuesta a una campaa de marketing si se dirige a los objetivos adecuados. La minera de datos permite detectar entre los potenciales clientes los que presentan una mayor probabilidad de responder a la campaa y dirigirla a ellos especficamente, con lo cual se consigue reducir drsticamente los costes. Fidelizacin de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho ms costoso que mantener uno que ya lo es. De ah la rentabilidad de las campaas de fidelizacin de clientes, que detectan aqullos que parece ms probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha prdida.

C-27-IN-6012-010

Documento bsico de minera de datos

11

DAEDALUS Data, Decisions and Language, S.A.

La minera de datos tambin permite detectar nuevas oportunidades de mercado, comparando hbitos de consumo de diferentes clientes, por ejemplo, o determinando la ubicacin ms conveniente para un determinado negocio.

3.2.2 Prediccin
Conocer a priori cmo evolucionar una variable en el futuro constituye una informacin muy valiosa y supone una indudable ventaja competitiva. Se trata de una herramienta de evidente inters tanto desde el punto de vista comercial, como en gestin o control de procesos. A partir de los datos histricos almacenados y utilizando tcnicas de minera de datos pueden elaborarse modelos que permitan estimar con precisin la evolucin de una variable en el futuro. Disponer de esta informacin con tiempo suficiente permite adecuar la respuesta de forma ptima. Esto puede resultar til en los campos ms diversos: Deteccin de oportunidades. Prevencin de problemas. Gestin ptima del personal. Optimizacin de stocks.

3.2.3 Reduccin de riesgos


La minera de datos permite construir sistemas de evaluacin automtica de riesgos, basados en la experiencia previa. Estos sistemas resultan de gran utilidad cuando la cantidad de casos a evaluar es excesiva para su procesamiento manual. El empleo de tcnicas de minera de datos ha aumentado la eficacia y fiabilidad de dichos sistemas, logrando un comportamiento ms similar al de los expertos humanos.

3.2.4 Deteccin de fraudes


Aplicando tcnicas de minera de datos, pueden obtenerse modelos que permitan descubrir posibles fraudes, basndose en la deteccin de comportamientos anmalos, en comparacin con los datos registrados anteriormente. Podemos encontrar aplicaciones concretas en operadores de telefona o empresas de gestin de tarjetas de crdito. Estas compaas analizan el uso que los clientes hacen de sus servicios y pueden localizar, de manera muy rpida, un uso fraudulento de los mismos.

3.2.5 Control de calidad


Existen numerosos ejemplos en los que se han aplicado tcnicas de minera de datos para desarrollar sistemas automticos de control de calidad. Estos sistemas suponen un considerable ahorro en el proceso productivo, puesto que facilitan: Deteccin ms precisa de productos defectuosos A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluacin subjetiva por parte del personal encargado del mismo. El principal problema de este mtodo es que el criterio de calidad no es estable sino que depende de la persona que realiza el anlisis. La minera de datos permite desarrollar sistemas automticos de control de calidad que discriminan los productos defectuosos con un alto grado de precisin y fiabilidad, segn un criterio objetivo. Esto no slo evita el problema mencionado anteriormente. Adems, al aumentar la exactitud de la evaluacin se ahorran los costes derivados de las

12

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

clasificaciones errneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaucin. Localizacin precoz de defectos El control de calidad no slo debe realizarse al final del proceso. Cuanto antes se detecte un fallo, menor ser su impacto. Adems de las ventajas de los sistemas automticos ya comentadas, en este caso existe un problema aadido. A menudo no resulta fcil medir la variable que determina la calidad del producto en tiempo real o en la cadena de produccin. En estos casos, es imprescindible utilizar tcnicas de minera de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso. Identificacin de causas de fallos La minera de datos no slo resulta til para discriminar los productos defectuosos. Tambin ayuda a determinar los fallos ms frecuentes as como identificar las causas de los mismos. Esto permite adoptar medidas para evitarlos en el futuro. Anlisis no destructivo A menudo, para obtener la informacin que se necesita, hay que realizar un anlisis destructivo. Un ejemplo tpico es la evaluacin de la resistencia de un material, medida que se establece forzndolo hasta que se rompe. Utilizando minera de datos es posible estimar con bastante exactitud el valor de este tipo de parmetros en funcin de otras caractersticas que s pueden medirse sin destruir el producto. Esto permite controlar la calidad de todos los productos fabricados y no slo de una pequea muestra, ya que no se destruyen con el examen.

3.2.6 Procesos industriales


Otra aplicacin bsica de la minera de datos en el entorno industrial, adems del control de calidad, es el control de procesos. Estas tcnicas permiten explotar la informacin disponible sobre un sistema o proceso y utilizar los modelos desarrollados (bien de un sistema o proceso global, o bien de una parte concreta del mismo) para: Automatizar y optimizar el control del proceso En muchos sistemas se conoce el proceso suficientemente como para disear e implantar controladores a partir de anlisis matemtico del proceso. En otras ocasiones, esto no es posible, bien por que el proceso es enormemente complejo, bien porque no disponemos de todas las variables. En estas circunstancias, tcnicas de minera de datos pueden ayudarnos a establecer relaciones entre las variables, y as disear los controladores adecuados. Optimizar su rendimiento Los propios sistemas de aprendizaje pueden ser utilizados para adaptar los mecanismos de control de forma permanente, en funcin de los datos del proceso que vayamos recibiendo. De esta forma es posible optimizar el rendimiento del proceso, adaptando los controladores, en cada momento, a la situacin de la planta.

C-27-IN-6012-010

Documento bsico de minera de datos

13

DAEDALUS Data, Decisions and Language, S.A.

Implementar programas de mantenimiento predictivo Uno de los problemas de todo equipo de mantenimiento de un proceso es establecer el calendario de reparaciones. Las reparaciones, limpiezas y ajustes programados suponen en muchos casos parar el proceso productivo, con las consiguientes prdidas, no slo de lo que se deja de producir sino de los costes de parada y arranque de la cadena. Un anlisis profundo de los datos de que se disponga puede permitir hacer una planificacin ptima de estas paradas, de manera que se minimice su impacto.

14

Documento bsico de minera de datos

C-27-IN-6012-010

DAEDALUS Data, Decisions and Language, S.A.

4 CONCLUSIONES
La minera de datos es una herramienta que permite convertir los datos recogidos durante el funcionamiento normal de nuestro negocio en informacin valiosa. No es una tecnologa que suplante a otras, sino que es complementaria y, en muchos casos, se aprovecha de lo que otros mecanismos, como la estadstica, puedan aportarle. Tcnicas como el agrupamiento y la clasificacin automtica de clientes facilitan el diseo y puesta en marcha de planes de marketing mucho ms eficaces. Si nuestro trabajo se centra en el entorno industrial, la minera de datos puede aportar informacin valiosa sobre la calidad de nuestros productos, el mantenimiento preventivo o la propia optimizacin de nuestros procesos. Si nos movemos en las nuevas tecnologas, el anlisis del acceso a nuestros servidores de internet, puesto en relacin con las ventas realizadas o los servicios ofrecidos, ser ms potente utilizando web mining que haciendo un simple anlisis de trfico. En resumen, la minera de datos nos permite tomar una posicin en nuestro mercado que nos diferencie de nuestros competidores. DAEDALUS-Data, Decisions and Language, S.A. pone al servicio de sus clientes la experiencia de sus profesionales en el aprendizaje automtico, la minera de datos y los servicios telemticos durante ms de 10 aos. Una experiencia que nos permite afrontar los nuevos retos tecnolgicos con la mayor seguridad.

DAEDALUS Data, Decisions and Language, S.A.

DAEDALUS, S.A.
Centro de Empresas "La Arboleda" Ctra. N-III, km. 7,300 E-28031 Madrid (Espaa) tel: +34 913.324.301 fax: +34 913.319.740 info@daedalus.es http://www.daedalus.es

Cuando la informacin es un laberinto

16

Documento bsico de minera de datos

C-27-IN-6012-010

También podría gustarte