Está en la página 1de 43

DATAMINING

Ing. CIP Richard Branko Luque del Carpio

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge Discovery
from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tecnicas de Mineria de Datos
Aplicaciones de minera de datos en
sectores industriales.

1. Historia

1960:
La recoleccin de datos, la creacin de bases de datos, procesamiento de archivos
primitiva, jerrquica y DBMS red

1970:
Modelo de datos relacional.
Lenguajes de consulta como SQL (lenguaje de consulta estructurado).
Procesamiento de transacciones en lnea.

1980:
Modelos de datos avanzados (extended-relacional, orientado a objetos, deductivo,
etc) y DBMS orientados a la aplicacin (espacial, cientficos, de ingeniera, etc)
El almacenamiento de datos, minera de datos, OLAP, bases de datos multimedia y
bases de datos web

1990s-2000s:
Sistemas de bases de datos basadas en Web: sistemas de bases de datos basados
en XML, la minera web

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge Discovery
from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tecnicas de Mineria de Datos
Aplicaciones de minera de datos en
sectores industriales.

PROBLEMA
Necesidad de convertir esos datos en conocimiento y
de la informacin

La minera de datos (descubrimiento de


conocimiento en bases de datos):
Extraccin
de
informacin
interesante
(sin
importancia,
previamente
desconocida
y
potencialmente til) o patrones de datos en bases de
datos grandes
Que no es mineria de datos?
El procesamiento de consultas.
Los sistemas expertos o pequeos programas
estadsticos

CONCEPTOS

Anlisis de grandes volmenes de datos para


encontrar relaciones no triviales, y para
resumirlos de manera que sean entendibles y
tiles.
Hand, Mannila y Smyth

Es la extraccin de informacin de un
conjunto de datos en bruto y transformarla en
conocimiento.

Ejemplo 1 Anlisis de crditos bancarios

A partir de estos datos, las tcnicas de DM podran


generar un modelo de los datos, consistente en un
conjunto de reglas, que permitiesen predecir en el
futuro, el posible comportamiento de un cliente que
solicitase un prstamo.

Ejemplo 1 Anlisis de crditos bancarios

Obtener reglas para predecir que personas q


solicitan un crdito no lo devuelven.
IDC

T-CREDITO
(AOS)

SALARIO (soles)

CASA PROPIA

CUENTAS
MOROSAS

DEVUELVE
CREDITO

101

15

60000

si

no

102

30000

si

si

103

9000

si

no

104

15

18000

no

si

105

10

24000

no

no

Datos para un analisis de riesgo en creditos bancarios

SI Cuentas Morosas > 0 ENTONCES Devuelve Credito = no


SI Cuentas Morosas = 0 Y [Salario > 2500) O (T-Credito > 10] ENTONCES Devuelve Credito = si

Ejemplo 2 Anlisis de la cesta de compra

Un supermercado desea obtener informacin sobre los


hbitos de compra de sus clientes, con el objetivo de
mejorar la ubicacin de los productos en el local. La
organizacin dispone de informacin reciente sobre los
productos adquiridos en las compras realizadas por los
clientes.

Ejemplo 2 Anlisis de la cesta de compra

A partir de estos datos, las tcnicas de DM


podran generar un modelo de los datos,
consistente en un conjunto de reglas de
asociacin entre los productos que con
frecuencia son adquiridos conjuntamente.
Este modelo proporcionara una descripcin
"mas significativa" de los datos disponibles.

Ejemplo 2 Anlisis de la cesta de compra

Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran paales tambin se compra


leche

"El 50% de las veces que se compran huevos tambin se compra aceite

"El 33% de las veces que se compran vino y salmn tambin se


compranlechugas"

APLICACIONES

Gestin
empresari
al

Control
de
producci
n

Anlisis
de
mercado

Diseo
Ingeniera

Exploraci
n ciencia

DATA MINING VS DATA QUERY

Consulta de datos (DATA QUERY):


por ejemplo.
Una lista de todos los clientes que utilizan una
tarjeta de crdito para comprar una PC
Una lista de todos los estudiantes que tengan
un promedio de calificaciones de 3.5 o
superior y ha estudiado 4 o menos semestres

DATA MINING VS DATA QUERY

Problemas de minera de datos


(DATAMINING):
por ejemplo.
Cul es la probabilidad de que un cliente
compra una PC con tarjeta de crdito?
Cules son las caractersticas de los
estudiantes de pregrado de la universidad
UTP?

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge
Discovery from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tecnicas de Mineria de Datos
Aplicaciones de minera de datos en
sectores industriales.

CONCEPTOS

El descubrimiento de conocimiento en bases de datos es


un campo de la inteligencia artificial de rpido
crecimiento, que combina tcnicas del aprendizaje de
mquina, reconocimiento de patrones, estadstica, bases
de datos, y visualizacin para automticamente extraer
conocimiento (o informacin), de un nivel bajo de datos
(bases de datos),
Usama Fayyad

El KDD, como proceso, involucra una secuencia de etapas


claramente definidas, cada una fundamental para la
transicin de los datos en conocimiento.

KDD Y DM: definiciones

KDD: descubrimiento de conocimiento en


bases de datos
DM: minera de datos

KDD = proceso completo

Extraccin no trivial de conocimiento implcito,


previamente desconocido y potencialmente til, a partir
de una base de datos

DM = etapa de descubrimiento en el proceso KDD

Es una paso consistente en el uso de algoritmos


concretos que generan una enumeracin de patrones a
partir de los datos pre procesados

PROCESO KDD (Knowledge Discovery from


Databases)

1. Determinar las fuentes de informacin que


pueden ser tiles y dnde conseguirlas.

2. Disear el esquema de un almacn de


datos (DataWarehouse) que consiga unificar
de manera operativa toda la informacin
recogida.

3. Implantacin del almacn de datos que


permita la navegacin y visualizacin previa
de sus datos, para discernir qu aspectos
puede interesar que sean estudiados.

PROCESO KDD (Knowledge Discovery from


Databases)

4. Seleccin, limpieza y transformacin de los


datos que se van a analizar. La seleccin
incluye tanto una criba o fusin horizontal
(filas) como vertical (atributos).

PROCESO KDD (Knowledge Discovery from


Databases)

5. Seleccionar y aplicar el mtodo de minera


de datos apropiado
6. Evaluacin, interpretacin, transformacin
y representacin de los patrones extrados.
7. Difusin y uso del nuevo conocimiento.

Arquitectura Tpica Minera Datos

Fuentes de datos

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge Discovery
from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tecnicas de Mineria de Datos
Aplicaciones de minera de datos en
sectores industriales.

MODELOS DE MINERIA DE DATOS

Minera de datos descriptiva


- Se caracterizar las propiedades generales de los datos
en la base de datos
- Encuentra patrones en los datos y el usuario
determina cules son importantes
Minera de datos predictivo
- realizar inferencias sobre los datos actuales para
hacer predicciones
- sabemos lo que para predecir
Ejemplos
Eg. Segmentacin de clientes - descriptivo por la
agrupacin
Seguido de un modelo de asignacin de riesgos
predictivo.

Tipos de aplicaciones de la minera de datos

Aplicaciones o problemas de minera de datos


pueden clasificarse en las siguientes
categoras

Clasificacin
Estimacin
Pronstico
Asociacin
Agrupacin o segmentacin

Clasificacin

Examinar las caractersticas de un nuevo


objeto y asignarle una clase o categora de
acuerdo a un conjunto de tales objetos
previamente definido

Ejemplos:

Clasificar aplicaciones a crdito como bajo, medio


y alto riesgo
Detectar reclamos fraudulentos de seguros

Estimacin

Relacionado con clasificacin


Mientras clasificacin asigna un valor discreto,
estimacin produce un valor continuo

Ejemplos:

Estimar el precio de una vivienda


Estimar el ingreso total de una familia

Pronostico

Predecir un valor futuro con base a valores


pasados

Ejemplos:

Predecir cunto efectivo requerir un cajero


automtico en un fin de semana

Asociacin

Determinar cosas u objetos que van juntos

Ejemplo:

Determinar que productos se adquieren


conjuntamente en un supermercado

Agrupacin o Segmentacin

Dividir una poblacin en un nmero de grupos


ms homogneos

No depende de clases pre-definidas a


diferencia de clasificacin

Ejemplo:

Dividir la base de clientes de acuerdo con los


hbitos de consumo

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge Discovery
from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tcnicas de Minera de Datos
Aplicaciones de minera de datos en
sectores industriales.

Algoritmos para la minera de datos

Segn el objetivo del anlisis de los datos, los


algoritmos utilizados se clasifican en
supervisados y no supervisados

Algoritmos supervisados (o predictivos):


predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros
conocidos.
Algoritmos no supervisados (o del
descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.

Principales tcnicas de minera de datos

Agrupamiento o Clustering (Clustering)


Anlisis de encadenamiento
rboles de decisin (Decision trees)
Redes neuronales artificiales (Neural
Networks)
Algoritmos genticos

Agrupamiento o Clustering

Clasifica un conjunto de elementos de


muestra en un determinado numero de
grupos

Ejemplos: tipificar clases de clientes

Anlisis de Encadenamiento

Encuentra relaciones entre objetos de acuerdo con


patrones
Relacionado con la teora de grafos

Ejemplos:

Relaciones entre individuos basados en llamadas


telefnicas
Relaciones entre casos criminales de acuerdo con sus
caractersticas

Patrones: elementos que se repiten de una manera predecible.

Arboles de decisin

Dividir objetos en grupos asociando reglas para la


asignacin de los objetos en su correspondiente
grupo
Se construye partiendo el conjunto en uno o mas
subconjutos
Cada subconjunto a su vez es particionado
Se continua hasta encontrar las diferencias
significativas
Ejemplos: determinar el sexo o grupo de edad de
una persona en funcin a una serie de preguntas
contestadas

Redes neuronales

Sonun paradigmade aprendizajey procesamiento


automticoinspirado en la forma en que funciona el
sistema nerviosode los animales. Se trata de un
sistemade interconexin de neuronasen una
redque colabora para producir un estmulo de
salida.

Ejemplo: estimar el valor de una casa tomando en cuenta


el precio pagado por casas similares

Algoritmos genticos

Aplican la mecnica de la gentica y la seleccin


natural para encontrar un conjunto de parmetros
ptimos para una funcin predictiva

Utilizados para entrenar redes neuronales


artificiales

Temas a tratar
Historia

de Minera de datos
Conceptos
Metodologa KDD (Knowledge Discovery
from Databases)
Tipos de aplicaciones de la Minera de
Datos
Tecnicas de Mineria de Datos
Aplicaciones de minera de datos en
sectores industriales.

reas de aplicacin

Ms importante
industrialmente

Toma de Decisiones (banca-finanzas-seguros, mrketing,


polticas sanitarias/demogrficas, ...)
Procesos Industriales (componentes qumicos,
compuestos, mezclas, esmaltes, procesos, etc.)
Investigacin Cientfica (medicina, astronoma,
meteorologa, psicologa, ...). Aqu la eficiencia no es tan
importante.
Soporte al Diseo de Bases de Datos.
Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la normalice).
Mejora de Calidad de Datos.
Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).

reas de Aplicacin Problemas Tipo

Comercio/Marketing:
- Identificar patrones de compra de los clientes.
- Buscar asociaciones entre clientes y caractersticas
demogrficas.
- Predecir respuesta a campaas de mailing.
- Anlisis de cestas de la compra.

Banca:

Seguros y Salud Privada: - Anlisis de procedimientos mdicos solicitados conjuntamente.


- Predecir qu clientes compran nuevas plizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.

Transportes:

- Detectar patrones de uso fraudulento de tarjetas de crdito.


- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar su afiliacin.
- Determinar gasto en tarjeta de crdito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Identificar reglas de mercado de valores a partir de histricos.

- Determinar la planificacin de la distribucin entre tiendas.


- Analizar patrones de carga.

reas de Aplicacin Problemas Tipo

Medicina:

Identificacin de terapias mdicas satisfactorias para diferentes


enfermedades.

Asociacin de sntomas y clasificacin diferencial de patologas.

Estudio de factores (genticos, precedentes, hbitos, alimenticios, etc.) de


riesgo/salud en distintas patologas.

Segmentacin de pacientes para una atencin ms inteligente segn su


grupo.

Predicciones temporales de los centros asistenciales para el mejor uso de


recursos, consultas, salas y habitaciones.

Estudios epidemiolgicos, anlisis de rendimientos de campaas de


informacin, prevencin, sustitucin de frmacos, etc.

GRACIAS POR SU ATENCION

También podría gustarte