TOSHIBA MINERA DE DATOS E INTELIGENCIA DE NEGOCIOS
Que Es Y Que No Es La Minera De Datos La DM es el proceso de extraer informacin valida, til, desconocida, y comprensible a partir de los datos y usarlos para tomar decisiones de negocios. Las caractersticas ms importantes que presenta la DM son [1]: Proceso: DM no es una herramienta que simplemente se compra y ejecuta en un ambiente de Businness Intelligent- BI [3] y que automticamente genera reglas para su negocio. Por el contrario tiene una serie de pasos que lo componen (ver seccin 4). Vlido: La informacin encontrada debe ser correcta y estadsticamente significante para soportar decisiones bien encontradas. Vlido significa correctitud y completitud. Si a un gerente le interesa saber cuales son los clientes objetivo, para esto es necesario que los datos y el proceso sean vlidos. til: El proceso de minera de datos debe liberar resultados que sean correctos y significantes, pero esta informacin debe ser til para su negocio. Y que le permita actuar antes que sus competidores lo hagan. Desconocida: Debe generar nueva informacin. Si el proceso arroja solo informacin trivial esta no ser de gran utilidad. Esta propiedad distingue entre verificacin y descubrimiento. Comprensible: Los resultados de l proceso de DM deben ser explicables en trminos del negocio, deben generarse por ejemplo modelos que clasifican a los clientes, y la forma como se clasificaron y que factores influenciaron esta clasificacin
MINERIA DE DATOS EN CRM La minera de datos, trata de herramientas que se utilizan para identificar patrones en los datos y ofrecer informacin nueva y valiosa que puede aumentar la comprensin de la empresa en s misma y en sus clientes. La minera de datos se utiliza comnmente para ayudar a los analistas de datos en la bsqueda de informacin que an no conocen y de la que a menudo no poseen ninguna hiptesis. Ha ayudado a las empresas descubrir un conjunto diverso de nuevos conocimientos, ya que a partir de la siguiente compra de un cliente puede almacenar diseos ptimos buscando la opcin ms favorable para ambos.
Hay muchos diferentes tipos de algoritmos de minera de datos, algunos esotricos y no fcilmente aplicables a los problemas de negocios (Ej: splines multivariados de regresin de adaptacin). Aunque los algoritmos especficos se puede variar (Los arboles de decisin y las redes neuronales son fundamentalmente diferente) ambos pueden ser utilizados para predecir el comportamiento, los siguientes tres tipos de minera de datos son particularmente pertenecientes a CRM:
1. Prediccin.
El uso de datos histricos para determinar comportamientos futuros.
Los Modelos de prediccin generan una salida de informacin que rellena un "modelo" o una estructura para representar los resultados. Por ejemplo, un modelo predictivo puede indicar el siguiente producto a un cliente el cual ser el ms probable que compre, sobre la base de las compras histricas de ese cliente y la de otros clientes que han comprado los mismos productos. Mi ejemplo tpico es Amazon: que la parte inferior indica: Clientes que han comprado este producto tambin han comprado (E inmediatamente genera una lista de 20 opciones de productos o complementos adicionales).
2. Secuencia.
El anlisis secuencial identifica las combinaciones de actividades que ocurren en un orden determinado.
Las empresas utilizan el anlisis secuencial para determinar si los clientes estn haciendo las cosas en un orden determinado. Puede ayudar a las empresas a extraer el comportamiento de los eventos capturados en diversos sistemas operativos en torno a una empresa para determinar los patrones. Por ejemplo, un banco o compaa telefnica puede obtener ms informacin sobre un determinado cliente o segmento de clientes mediante el examen de los patrones en la desaceleracin de las compras o cancelaciones de servicios.
3. Asociacin. El Anlisis de Asociacin detecta grupos de elementos o eventos similares. Se puede utilizar para detectar objetos o eventos que ocurren al mismo tiempo.
El algoritmo de asociacin se suele aplicar al anlisis del mercado-canasta para ayudar a las empresas comprender productos que se compran juntos (mantequilla de man con mermelada, por ejemplo). Al entender las afinidades de los clientes y el producto, una empresa puede tomar decisiones importantes acerca de los productos para hacer publicidad o descuento y que los clientes deben ser objeto de determinados productos.
Perspectiva De Negocios Recientemente estos sistemas se han empezado a utilizar para las aplicaciones comerciales, debido en parte a la explosin del Data Warehouse y de las tcnicas de Minera de Datos, dnde el rendimiento de los algoritmos de consulta es crtico. Para escalar las tcnicas de Minera de Datos se necesita hardware y software apropiado, por lo que los fabricantes de bases de datos estn empleando computadores con procesamiento paralelo para llevar a cabo las actividades de minera. Apoyo a la toma de decisiones Los sistemas de apoyo a la toma de decisiones son las herramientas que usan los directivos para tomar decisiones eficaces, basndose en la teora de la decisin. Por su parte, se puede considerar a las herramientas de Minera de Datos como tipos especiales de herramientas de apoyo a la toma de decisiones. En general, las herramientas de apoyo a la toma de decisiones podran utilizarse tambin como herramientas para eliminar los resultados innecesarios e irrelevantes obtenidos de la Minera de Datos. Igualmente pueden ser consideradas de este tipo, herramientas tales como las hojas de clculo, sistemas expertos, sistemas de hipertexto, sistemas de gestin de informacin de Web y cualquier otro sistema que ayude a analistas y gestores a manejar eficazmente grandes cantidades de datos e informacin. Recientemente ha aparecido un rea nueva llamada gestin del conocimiento, la cual trata de manejar eficazmente los datos, la informacin y el conocimiento de una organizacin. Aprendizaje automtico El aprendizaje automtico, en muchos casos, consiste fundamentalmente en el aprendizaje de reglas a partir de los datos y por eso muchas de las tcnicas de aprendizaje automtico son utilizadas en la actualidad en las actividades de minera. Esta tcnica consiste en aprender de las experiencias del pasado con respecto a alguna medida de rendimiento. As pues, se han desarrollado distintas tcnicas para el aprendizaje automtico, incluyendo el aprendizaje conceptual donde se aprende los conceptos desde diferentes ejemplos de entrenamiento, haciendo uso de las redes neuronales, los algoritmos genticos, los rboles de decisin y la programacin de la lgica inductiva. Hay todava mucha investigacin que realizar en esta rea, sobre todo en la integracin del aprendizaje automtico con las diferentes tcnicas de gestin de datos. Tal investigacin mejorar significativamente el rea de Data Mining.
CRISP-DM, Una metodologa para proyectos de Minera de Datos Para implementar una tecnologa en un negocio, se requiere de unametodologa. La mayora de las consultoras especializadas en algunatecnologa cuentan, con por lo menos, una metodologa, segn los tipos de proyectos que aborden. Estos mtodos son definidos a partir de sus experiencias y tomando lo mejor de los procedimientos ms exitosos o populares. Contar con una metodologa, se ha convertido tan importante y necesario como la carta de presentacin de las empresas. Para los diferentes tipos de tecnologas, hay varias metodologas, algunas estn publicadas en Internet. Para el caso de proyectos de implementacin de minera de datos, hay una en particular; CRISP-DM, en sus primeros aos de divulgacin tena apoyos de empresas privadas y organismos pblicos, pero poco a poco ha ido perdiendo uno que otro Project Partner. Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del mtodo, porque ha sido adoptado por otros organismos y empresas.
El estndar incluye un modelo y una gua, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirn revisar parcial o totalmente las fases anteriores. Comprensin del negocio (Objetivos y requerimientos desde una perspectiva no tcnica) Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de xito) Evaluacin de la situacin (Inventario de recursos, requerimientos, supuestos, terminologas propias del negocio,) Establecimiento de los objetivos de la minera de datos (objetivos y criterios de xito) Generacin del plan del proyecto (plan, herramientas, equipo y tcnicas) Comprensin de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio) Recopilacin inicial de datos Descripcin de los datos Exploracin de los datos Verificacin de calidad de datos Preparacin de los datos (Obtener la vista minable o dataset) Seleccin de los datos Limpieza de datos Construccin de datos Integracin de datos Formateo de datos Modelado (Aplicar las tcnicas de minera de datos a los dataset) Seleccin de la tcnica de modelado Diseo de la evaluacin Construccin del modelo Evaluacin del modelo Evaluacin (De los modelos de la fase anteriores para determinar si son tiles a las necesidades del negocio) Evaluacin de resultados Revisar el proceso Establecimiento de los siguientes pasos o acciones Despliegue (Explotar utilidad de los modelos, integrndolos en las tareas de toma de decisiones de la organizacin) Planificacin de despliegue Planificacin de la monitorizacin y del mantenimiento Generacin de informe final Revisin del proyecto Esta metodologa para proyectos de minera de datos no es la ms actual o la mejor, pero es muy til para comprender esta tecnologa o extraer ideas para disear o revisar mtodos de trabajo para proyectos de similares caractersticas. Mineria de daots y sociedad En minera de datos y aprendizaje automtico, las reglas de asociacin se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos. 1 Se han investigado ampliamente diversos mtodos para aprendizaje de reglas de asociacin que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos. Piatetsky-Shapiro 2 describe el anlisis y la presentacin de reglas 'fuertes' descubiertas en bases de datos utilizando diferentes medidas de inters. Basado en el concepto de regla fuerte, Agrawal et al. 3 presentaron un trabajo en el que indicaban las reglas de asociacin que descubran las relaciones entre los datos recopilados a gran escala en los sistemas de terminales de punto de venta de unos supermercados. Por ejemplo, la siguiente regla:
Encontrada en los datos de ventas de un supermercado, indicara que un consumidor que compra cebollas y vegetales a la vez, es probable que compre tambin carne. Esta informacin se puede utilizar como base para tomar decisiones sobre marketing como precios promocionales para ciertos productos o donde ubicar stos dentro del supermercado. Adems del ejemplo anterior aplicado al anlisis de la cesta de la compra, hoy en da, las reglas de asociacin tambin son de aplicacin en otras muchas reas como el Web mining, la deteccin de intrusos o la bioinformtica.