Está en la página 1de 39

Inteligencia en Redes de Comunicaciones

Tema 7

Minera de Datos
Julio Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda
{jvillena, rcrespo, rueda}@it.uc3m.es

ndice
Definicin y conceptos Tcnicas y modelos

IRC 2011/2012 1

Descubrimiento de conocimiento

Para decidir cul es la tcnica ms adecuada para una determinada situacin es necesario distinguir el tipo de informacin que se desea extraer de los datos. Segn su nivel de abstraccin, el conocimiento contenido en los datos puede clasificarse en distintas categoras y requerir una tcnica ms o menos avanzada para su recuperacin:

Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es)

IRC 2011/2012 2

Tipos de conocimiento

Conocimiento evidente Conocimiento multi-dimensional

Conocimiento oculto
Conocimiento profundo

Imagen original: P. Adriaans, D. Zantinge. Addison-Wesley: Data Mining, 1996.


IRC 2011/2012 3

Tipos de conocimiento (2)


(segn su nivel de abstraccin)

Conocimiento evidente

Informacin fcilmente recuperable mediante una simple consulta SQL Un ejemplo de este tipo de conocimiento es una pregunta como Cuntos alumnos obtuvieron su ttulo en la UC3M en el ao 2011? o Cul es la nota media de mis alumnos?. Tcnica: consulta SQL

IRC 2011/2012 4

Tipos de conocimiento (3)


(segn su nivel de abstraccin) Conocimiento multi-dimensional

El siguiente nivel de abstraccin consiste en considerar los datos con una cierta estructura. Por ejemplo, en vez de considerar cada transaccin individualmente, las ventas de una compaa pueden organizarse en funcin del tiempo y de la zona geogrfica, y analizarse con diferentes niveles de detalle (pas, regin, localidad...). Tcnicamente, se trata de reinterpretar una tabla con n atributos independientes como un espacio n-dimensional, lo que permite detectar algunas regularidades difciles de observar con la representacin monodimensional clsica. Este tipo de informacin es la que analizan las herramientas OLAP, que resuelven de forma automtica cuestiones como Cules fueron las ventas en Espaa el pasado marzo? Aumentar el nivel de detalle: mostrar las de Madrid. Tcnica: OLAP (anlisis multidimensional)

Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es)

IRC 2011/2012 5

Tipos de conocimiento (3)


(segn su nivel de abstraccin)

Conocimiento oculto

Informacin no evidente, desconocida a priori y potencialmente til Que puede recuperarse mediante tcnicas de minera de datos, como reconocimiento de regularidades o algoritmos de aprendizaje automtico Esta informacin es de gran valor, puesto que no se conoca y se trata de un descubrimiento real de nuevo conocimiento, del que antes no se tena idea y que abre la posibilidad de descubrir una nueva visin del problema. Un ejemplo de este tipo de informacin sera Qu tipos de clientes tenemos? Cul es el perfil tpico de cada clase de usuario?.
Tcnica: minera de datos

Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es)

IRC 2011/2012 6

Tipos de conocimiento (3)


(segn su nivel de abstraccin)

Conocimiento profundo

Informacin que est almacenada en los datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la bsqueda Un ejemplo tpico sera un mensaje cifrado. Es fcil recuperar la informacin codificada si se dispone de la clave, pero imposible o muy difcil si no se tiene.

IRC 2011/2012 7

Aprender
Objetivo: Construir un sistema computacional que sea capaz de encontrar y modelar el conocimiento oculto que a los seres humanos nos resulta difcil ver Cmo? Dotando a ese sistema de algoritmos o tcnicas que imiten la cualidad humana del aprendizaje, esto es, ser capaz de extraer nuevos conocimientos a partir de las experiencias (ejemplos)

IRC 2011/2012 8

KD
Knowledge Discovery is the nontrivial extraction of implicit, previously unknown and potentially useful information from data
W. J. Frawley, G.Piatetsky-Shapiro, C. J. Matheus

IRC 2011/2012 9

KDD
Knowledge Discovery in Databases: nombre tcnico con que se denomina al proceso global de extraccin de conocimiento de bases de datos

IRC 2011/2012 10

Data Mining
La minera de datos comprende una serie de tcnicas, algoritmos y mtodos cuyo fin es la explotacin de grandes volmenes de datos con vistas al descubrimiento de informacin previamente desconocida y que pueda servir de ayuda en el proceso de toma de decisiones, formando parte del conjunto de tecnologas de la Inteligencia de Negocio

IRC 2011/2012 11

Business Intelligence
Realizacin eficiente de todas las actividades relacionadas con la generacin, extraccin, organizacin, anlisis, comparticin y distribucin del conocimiento de una organizacin

IRC 2011/2012 12

Datos, Informacin y Conocimiento

Conocimiento: capacidad de convertir datos e informacin en acciones efectivas


IRC 2011/2012 13

Objetivo

Poner al alcance de cada individuo lo que necesita en el momento preciso para que su actividad sea efectiva

IRC 2011/2012 14

Arquitectura tecnolgica

Reservas Facturas Inventario

DataWarehouse Integracin y carga de datos

Modelo de datos multidimensional

Anlisis OLAP
Informes de negocio Toma de decisiones

Base de datos operacional

Query & Reporting

Pedidos Catlogo Clientes

Base de datos operacional

Fuentes de datos externas

Motor de minera de datos

Segmentacin Asociaciones Prediccin

IRC 2011/2012 15

Verificacin vs. descubrimiento


Verificacin Descubrimiento

1. Elaborar una hiptesis sobre la existencia de una informacin de inters 2. Convertir la hiptesis en una consulta 3. Ejecutar la consulta contra un sistema de informacin 4. Interpretar los resultados 5. Refinar la hiptesis y repetir la ejecucin

1. Identificar un objetivo o problema de negocio 2. Habilitar un acceso a los datos de inters y acondicionarlos 3. Seleccionar una tcnica de explotacin de los datos adecuada para el problema 4. Ejecutar la tcnica contra los datos 5. Interpretar los resultados

Las tcnicas de minera de datos son herramientas que facilitan el descubrimiento de la informacin
IRC 2011/2012 16

Proceso de minera de datos


Conocimiento
Modelo Conocimiento
Interpretacin Evaluacin Extraccin de conocimiento Seleccin de caractersticas

Datos
Seleccin

Preprocesado

Base de datos

IRC 2011/2012 17

Metodologa CRISP-DM CRoss Industry Standard Process for Data Mining

Comprensin mbito aplicacin

Comprensin Datos

Preprocesado Datos Aplicacin

Datos Modelado

Evaluacin

Imagen original: http://www.crisp-dm.org/

IRC 2011/2012 18

Dominios de aplicacin

Aplicaciones en campos muy diversos

Medicina Economa Comercio Marketing Telecomunicaciones Seguridad Etc.

IRC 2011/2012 19

Herramientas

Comerciales

Intelligent Miner / DB2 Data Warehouse Edition (IBM) Clementine (SPSS) Enterprise Miner (SAS) DataEngine Weka

De cdigo libre

IRC 2011/2012 20

IBM Intelligent Miner

Imagen original: ibm.com

IRC 2011/2012 21

SPSS Modeler (antes Clementine)

Imagen original: ibm.com

IRC 2011/2012 22

SAS Enterprise Miner

Imagen original: sas.com IRC 2011/2012 23

MIT DataEngine

Fuente: DataEngine, MIT GmbH IRC 2011/2012 24

MIT DataEngine (2)

Fuente: DataEngine, MIT GmbH IRC 2011/2012 25

Weka

Imagen original: Weka Knowledge Explorer (http://www.cs.waikato.ac.nz/~ml/weka/gui_explorer.html)


http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au

IRC 2011/2012 26

Weka (2)

Imagen original: Weka Knowledge Explorer (http://www.cs.waikato.ac.nz/~ml/weka/gui_explorer.html) IRC 2011/2012 27

Enfoque multidisciplinar

Enfoque integrador multidisciplinar

Mtodos analticos Aprendizaje

Minera de datos

Estadstica

Diferentes tcnicas segn el tipo de informacin a extraer

Bases de datos

Enfoques grficos

IRC 2011/2012 28

Tcnicas de minera de datos


Tcnicas descriptivas

Orientadas a describir un conjunto de datos Orientadas a estimar valores de salida

Tcnicas predictivas

Tcnicas de modelado

Orientadas a la comprensin del sistema: obtener una representacin del sistema que permita imitar su comportamiento Emplea cualquier tcnica que no funcione como caja negra

Agrupamiento rboles de decisin Anlisis de secuencias/asociaciones

IRC 2011/2012 29

Tcnicas de extraccin de conocimiento


Tcnicas descriptivas Segmentacin de datos Agrupacin no supervisada de clientes Categorizacin automtica de sucursales Tcnicas predictivas Anlisis de patrones secuenciales Deteccin de secuencias de compra en el tiempo Anlisis de similitud en series temporales Identificacin de pautas de compra en el tiempo

Clasificacin Asignacin de nuevos clientes a segmentos predefinidos Identificacin de alarmas

Prediccin Anlisis de asociaciones Asignacin de probabilidades de fraude Anlisis de venta cruzada de productos con tarjetas Correlacin de hbitos de consumo en Estimacin de la demanda y el base a su ocurrencia rendimiento por cliente

IRC 2011/2012 30

Segmentacin
Para la agrupacin automtica de registros que comparten rasgos similares (no supervisados), existen diversas tcnicas:

Segmentacin o clustering

El n de segmentos se determina durante la ejecucin del algoritmo Procesa tanto variables cuantitativas como cualitativas Maximiza la similitud entre los miembros de un mismo segmento y las diferencias entre los miembros de segmentos diferentes, en base a mtricas de similitud, no de distancia

Es eficiente para la deteccin de nichos de registros

Segmentacin neuronal (mapas autoorganizativos de Kohonen)


Es necesario predefinir el n de segmentos que se desean obtener y su distribucin bidimensional Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor cuando dominan estas ltimas Es eficiente cuando se desea particionar una poblacin imponiendo cierta relacin entre los segmentos obtenidos

IRC 2011/2012 31

Clasificacin
Como mtodos de clasificacin supervisada (prediccin de variables cualitativas), algunas tcnicas son:

Clasificacin basada en rboles de decisin


Modelo de clasificacin en forma de rbol de decisin Procesando tanto variables cuantitativas como cualitativas Tcnicas de podado, que proporciona rboles de menor tamao Son escalables, pudiendo procesar conjuntos con independencia del nmero de clases, atributos y registros

Clasificacin neuronal

Basada en redes neuronales de propagacin hacia atrs Detecta de forma automtica la topologa ms adecuada para cada problema, aunque permite especificar una concreta Realiza un anlisis de sensibilidad para detectar las variables ms significativas para cada topologa

IRC 2011/2012 32

Prediccin
Para la estimacin de variables cuantitativas, los mtodos ms empleados son: Funciones de base radial

Pueden procesar variables cuantitativas y cualitativas a la vez Detecta el nmero de centroides ptimo, predefiniendo el nmero mximo de stos y el nmero mnimo de registros asignados a cada centro Funciona especialmente bien cuando la estructura de los datos tiende a agruparse en conjuntos, ya que implementa cierto tipo de segmentacin

Prediccin neuronal

Basada en redes neuronales de propagacin hacia atrs Detecta de forma automtica la topologa ms adecuada para cada problema, aunque permite especificar una concreta Permite predecir datos en forma de series temporales Permite implementar regresin logstica

IRC 2011/2012 33

Anlisis de asociaciones
Los anlisis de asociaciones y patrones secuenciales permiten extraer informacin desconocida de los hbitos de compra:

Anlisis de asociaciones

Detecta elementos en una transaccin que implican la presencia de otros elementos en sta misma Expresa las afinidades entre elementos en forma de reglas de asociacin XY, facilitando una serie de mtricas como el soporte y confianza

Patrones secuenciales

Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo del tiempo

Anlisis de similitud en series temporales

Detecta todas las ocurrencias de secuencias similares en una coleccin de series temporales

IRC 2011/2012 34

Equipo de trabajo

Para lograr un resultado ptimo en un proyecto de minera de datos, el equipo de trabajo debe incluir:

expertos en manipulacin de datos expertos en inteligencia artificial y en algoritmos de extraccin de conocimiento conocedores del dominio de aplicacin o con habilidades para comunicarse con los expertos analistas de negocio

Query & reporting

Datawarehouse

Minera de datos

Herramienta de decisin

Bases de datos
Ingeniera de datos Analista de negocio

Usuario de negocio

Administrador de BD

IRC 2011/2012 35

Esfuerzo requerido
Adquisicin de datos 40%
Limpieza y transformacin de datos 10% Preprocesado de datos 30% Minera de datos (modelado) 5%

IRC 2011/2012 36

Submodelos

En la mayora de las ocasiones, un nico modelo no sirve para representar el sistema completo de manera fiable Lo habitual es aplicar la tcnica de divide y vencers y construir submodelos que cubren aspectos parciales del sistema

Estos submodelos en conjunto resultan ms precisos o, al menos, acotan de forma ms precisa el error en los aspectos que cubren Para realizar la divisin en submodelos, se suele aplicar segmentacin (clustering) y luego se construye un modelo de prediccin para cada uno de los grupos encontrados

IRC 2011/2012 37

Segmentacin + Prediccin

El proceso habitual suele ser una primera segmentacin de la poblacin en grupos, y luego aplicar a cada uno de ellos un modelo adaptado, por ejemplo de prediccin. As el modelo de cada grupo ser mejor que si hubiera un nico modelo para toda la poblacin.
Matriz de datos Matrices de Minera

Conjunto Entrenamiento
ID Hogar V. Hogar ID Hogar N Miembros Provincia 12345677 9912341234 CodPostal Zona Buzoneo
ID HOGAR V. Hogar ID Hogar Antigedad 12345677 9912341234 V. Pedido VP012001 V. Tienda VDZ1990 VDJ2000 V. Objetivo VDX012001Abandona Telepizza 1 1 0 0 0

Modelo de segmentacin

Toda la Poblacin

Conjunto Entrenamiento
ID HOGAR V. Hogar ID Hogar Antigedad 12345677 9912341234 V. Pedido VP012001 V. Tienda VDZ1990 VDJ2000

Modelo de segmentacin

V. Objetivo VDX012001Abandona Telepizza 1 1 0 0 0

(m7,r1) good (m3,r2) bad

Para cada grupo

Conjunto Test/Prueba
ID HOGAR V. Hogar ID Hogar Antigedad 12345677 9912341234 V. Pedido VP012001 V. Tienda VDZ1990 VDJ2000 V. Objetivo VDX012001Abandona Telepizza 1 1 0 0 0

average

Modelo prediccin grupo N


IRC 2011/2012 38

También podría gustarte