Está en la página 1de 9

16-9-2014

MINERIA DE DATOS | Johan Abello


TOSHIBA MINERA DE DATOS E INTELIGENCIA DE NEGOCIOS

Que Es Y Que No Es La Minera De Datos
La DM es el proceso de extraer informacin valida, til, desconocida, y
comprensible a partir de los
datos y usarlos para tomar decisiones de negocios. Las caractersticas ms
importantes que presenta
la DM son [1]:
Proceso: DM no es una herramienta que simplemente se compra y ejecuta en
un ambiente de
Businness Intelligent- BI [3] y que automticamente genera reglas para su
negocio. Por el
contrario tiene una serie de pasos que lo componen (ver seccin 4).
Vlido: La informacin encontrada debe ser correcta y estadsticamente
significante para
soportar decisiones bien encontradas. Vlido significa correctitud y
completitud. Si a un gerente
le interesa saber cuales son los clientes objetivo, para esto es necesario que
los datos y el
proceso sean vlidos.
til: El proceso de minera de datos debe liberar resultados que sean
correctos y significantes,
pero esta informacin debe ser til para su negocio. Y que le permita actuar
antes que sus
competidores lo hagan.
Desconocida: Debe generar nueva informacin. Si el proceso arroja solo
informacin trivial
esta no ser de gran utilidad. Esta propiedad distingue entre verificacin y
descubrimiento.
Comprensible: Los resultados de l proceso de DM deben ser explicables en
trminos del
negocio, deben generarse por ejemplo modelos que clasifican a los clientes, y la
forma como se
clasificaron y que factores influenciaron esta clasificacin

MINERIA DE DATOS EN CRM
La minera de datos, trata de herramientas que se utilizan para identificar
patrones en los datos y ofrecer informacin nueva y valiosa que puede
aumentar la comprensin de la empresa en s misma y en sus clientes. La
minera de datos se utiliza comnmente para ayudar a los analistas de datos en
la bsqueda de informacin que an no conocen y de la que a menudo no poseen
ninguna hiptesis. Ha ayudado a las empresas descubrir un conjunto diverso de
nuevos conocimientos, ya que a partir de la siguiente compra de un cliente
puede almacenar diseos ptimos buscando la opcin ms favorable para ambos.

Hay muchos diferentes tipos de algoritmos de minera de datos, algunos
esotricos y no fcilmente aplicables a los problemas de negocios (Ej: splines
multivariados de regresin de adaptacin). Aunque los algoritmos especficos
se puede variar (Los arboles de decisin y las redes neuronales son
fundamentalmente diferente) ambos pueden ser utilizados para predecir el
comportamiento, los siguientes tres tipos de minera de datos son
particularmente pertenecientes a CRM:

1. Prediccin.

El uso de datos histricos para determinar comportamientos futuros.

Los Modelos de prediccin generan una salida de informacin que rellena un
"modelo" o una estructura para representar los resultados. Por ejemplo, un
modelo predictivo puede indicar el siguiente producto a un cliente el cual ser
el ms probable que compre, sobre la base de las compras histricas de ese
cliente y la de otros clientes que han comprado los mismos productos. Mi
ejemplo tpico es Amazon: que la parte inferior indica: Clientes que han
comprado este producto tambin han comprado (E inmediatamente genera una
lista de 20 opciones de productos o complementos adicionales).



2. Secuencia.


El anlisis secuencial identifica las combinaciones de actividades que
ocurren en un orden determinado.

Las empresas utilizan el anlisis secuencial para determinar si los clientes
estn haciendo las cosas en un orden determinado. Puede ayudar a las
empresas a extraer el comportamiento de los eventos capturados en diversos
sistemas operativos en torno a una empresa para determinar los patrones. Por
ejemplo, un banco o compaa telefnica puede obtener ms informacin sobre
un determinado cliente o segmento de clientes mediante el examen de los
patrones en la desaceleracin de las compras o cancelaciones de servicios.


3. Asociacin.
El Anlisis de Asociacin detecta grupos de elementos o eventos similares.
Se puede utilizar para detectar objetos o eventos que ocurren al mismo
tiempo.


El algoritmo de asociacin se suele aplicar al anlisis del mercado-canasta para
ayudar a las empresas comprender productos que se compran juntos
(mantequilla de man con mermelada, por ejemplo). Al entender las afinidades
de los clientes y el producto, una empresa puede tomar decisiones importantes
acerca de los productos para hacer publicidad o descuento y que los clientes
deben ser objeto de determinados productos.

Perspectiva De Negocios
Recientemente estos sistemas se han empezado a utilizar para las aplicaciones
comerciales, debido en parte a la explosin del Data Warehouse y de las
tcnicas de Minera de Datos, dnde el rendimiento de los algoritmos de
consulta es crtico. Para escalar las tcnicas de Minera de Datos se necesita
hardware y software apropiado, por lo que los fabricantes de bases de datos
estn empleando computadores con procesamiento paralelo para llevar a cabo
las actividades de minera.
Apoyo a la toma de decisiones
Los sistemas de apoyo a la toma de decisiones son las herramientas que usan
los directivos para tomar decisiones eficaces, basndose en la teora de la
decisin. Por su parte, se puede considerar a las herramientas de Minera de
Datos como tipos especiales de herramientas de apoyo a la toma de decisiones.
En general, las herramientas de apoyo a la toma de decisiones podran
utilizarse tambin como herramientas para eliminar los resultados innecesarios
e irrelevantes obtenidos de la Minera de Datos. Igualmente pueden ser
consideradas de este tipo, herramientas tales como las hojas de clculo,
sistemas expertos, sistemas de hipertexto, sistemas de gestin de informacin
de Web y cualquier otro sistema que ayude a analistas y gestores a manejar
eficazmente grandes cantidades de datos e informacin. Recientemente ha
aparecido un rea nueva llamada gestin del conocimiento, la cual trata de
manejar eficazmente los datos, la informacin y el conocimiento de una
organizacin.
Aprendizaje automtico
El aprendizaje automtico, en muchos casos, consiste fundamentalmente en el
aprendizaje de reglas a partir de los datos y por eso muchas de las tcnicas de
aprendizaje automtico son utilizadas en la actualidad en las actividades de
minera. Esta tcnica consiste en aprender de las experiencias del pasado con
respecto a alguna medida de rendimiento.
As pues, se han desarrollado distintas tcnicas para el aprendizaje
automtico, incluyendo el aprendizaje conceptual donde se aprende los
conceptos desde diferentes ejemplos de entrenamiento, haciendo uso de las
redes neuronales, los algoritmos genticos, los rboles de decisin y la
programacin de la lgica inductiva. Hay todava mucha investigacin que
realizar en esta rea, sobre todo en la integracin del aprendizaje automtico
con las diferentes tcnicas de gestin de datos. Tal investigacin mejorar
significativamente el rea de Data Mining.



CRISP-DM, Una metodologa para proyectos de Minera de Datos
Para implementar una tecnologa en un negocio, se requiere de
unametodologa. La mayora de las consultoras especializadas en
algunatecnologa cuentan, con por lo menos, una metodologa, segn los tipos de
proyectos que aborden. Estos mtodos son definidos a partir de sus
experiencias y tomando lo mejor de los procedimientos ms exitosos o
populares. Contar con una metodologa, se ha convertido tan importante y
necesario como la carta de presentacin de las empresas.
Para los diferentes tipos de tecnologas, hay varias metodologas, algunas estn
publicadas en Internet. Para el caso de proyectos de implementacin de
minera de datos, hay una en particular; CRISP-DM, en sus primeros aos de
divulgacin tena apoyos de empresas privadas y organismos pblicos, pero poco
a poco ha ido perdiendo uno que otro Project Partner. Desconocemos el
motivo de esta aparente perdida de apoyo, pero estamos seguros que no
corresponde a la falta de calidad o efectividad del mtodo, porque ha sido
adoptado por otros organismos y empresas.

El estndar incluye un modelo y una gua, estructurados en seis fases, algunas
de estas fases son bidireccionales, lo que significa que algunas fases
permitirn revisar parcial o totalmente las fases anteriores.
Comprensin del negocio (Objetivos y requerimientos desde una perspectiva
no tcnica)
Establecimiento de los objetivos del negocio (Contexto inicial, objetivos,
criterios de xito)
Evaluacin de la situacin (Inventario de recursos, requerimientos,
supuestos, terminologas propias del negocio,)
Establecimiento de los objetivos de la minera de datos (objetivos y
criterios de xito)
Generacin del plan del proyecto (plan, herramientas, equipo y tcnicas)
Comprensin de los datos (Familiarizarse con los datos teniendo presente los
objetivos del negocio)
Recopilacin inicial de datos
Descripcin de los datos
Exploracin de los datos
Verificacin de calidad de datos
Preparacin de los datos (Obtener la vista minable o dataset)
Seleccin de los datos
Limpieza de datos
Construccin de datos
Integracin de datos
Formateo de datos
Modelado (Aplicar las tcnicas de minera de datos a los dataset)
Seleccin de la tcnica de modelado
Diseo de la evaluacin
Construccin del modelo
Evaluacin del modelo
Evaluacin (De los modelos de la fase anteriores para determinar si son tiles
a las necesidades del negocio)
Evaluacin de resultados
Revisar el proceso
Establecimiento de los siguientes pasos o acciones
Despliegue (Explotar utilidad de los modelos, integrndolos en las tareas de
toma de decisiones de la organizacin)
Planificacin de despliegue
Planificacin de la monitorizacin y del mantenimiento
Generacin de informe final
Revisin del proyecto
Esta metodologa para proyectos de minera de datos no es la ms actual o
la mejor, pero es muy til para comprender esta tecnologa o extraer ideas
para disear o revisar mtodos de trabajo para proyectos de similares
caractersticas.
Mineria de daots y sociedad
En minera de datos y aprendizaje automtico, las reglas de asociacin se
utilizan para descubrir hechos que ocurren en comn dentro de un determinado
conjunto de datos.
1
Se han investigado ampliamente diversos mtodos para
aprendizaje de reglas de asociacin que han resultado ser muy interesantes
para descubrir relaciones entre variables en grandes conjuntos de datos.
Piatetsky-Shapiro
2
describe el anlisis y la presentacin de reglas 'fuertes'
descubiertas en bases de datos utilizando diferentes medidas de inters.
Basado en el concepto de regla fuerte, Agrawal et al.
3
presentaron un trabajo
en el que indicaban las reglas de asociacin que descubran las relaciones entre
los datos recopilados a gran escala en los sistemas de terminales de punto de
venta de unos supermercados. Por ejemplo, la siguiente regla:



Encontrada en los datos de ventas de un supermercado, indicara que un
consumidor que compra cebollas y vegetales a la vez, es probable que compre
tambin carne. Esta informacin se puede utilizar como base para tomar
decisiones sobre marketing como precios promocionales para ciertos productos
o donde ubicar stos dentro del supermercado. Adems del ejemplo anterior
aplicado al anlisis de la cesta de la compra, hoy en da, las reglas de asociacin
tambin son de aplicacin en otras muchas reas como el Web mining,
la deteccin de intrusos o la bioinformtica.

También podría gustarte