Está en la página 1de 41

Minera de Datos

Universidad
Politcnica de Puebla
UPP

JESS ANTONIO GONZLEZ BERNAL

1
Minera de Datos

Evolucin de la Tecnologa BD
1960s y antes
CCreacin
eac de las
as BD een aarchivos
c vos pprimitivos
t vos
1970s hasta principios de los 1980s
BD Jerrquicas y de Red
BD Relacionales
Herramientas de modelado de datos (Entidad-Relacin)
Indexado y tcnicas de organizacin (B-trees, Hashing)
Lenguajes de queries SQL, etc.
Interfaces de usuario y reportes
Procesamiento y optimizacin
p de qqueries
Manejo transacciones (recuperacin, control concurrencia)
2
OLTP (On Line Transaction Processing)
Minera de Datos

Evolucin de la Tecnologa BD

1980s (Mediados al presente)


Sistemas de BD Avanzados
Modelos de datos avanzados: Extended-Relational,
OO,, Object-Relational,
j , Deductivo
Orientados a aplicaciones
Espaciales, temporales, multimedia, activos,
cientificos bases de conocimiento
cientificos,

3
Minera de Datos

Evolucin de la Tecnologa BD
1980s (Finales al presente)
Data warehouse y OLAP (On Line Analytical Processing)
Minera de datos y descubrimiento de conocimiento

1990s
1990 (al
( l presente)
t )
Sistemas basados en XML
Web mining

2000 (a la fecha)
NUEVA GENERACIN DE SISTEMAS DE
INFORMACIN INTEGRADOS
4
Minera de Datos

Qu es la minera de datos?

La tarea no trivial de extraer informacin


implcita, previamente desconocida y
potencialmente
i l il de
til d bases
b d datos
de d (Frawley
(F l et.
al. 1992).

5
Minera de Datos

Qu es la minera de datos?

El proceso de descubrir conocimiento interesante


de grandes cantidades de datos almacenadas en
b
bases d datos,
de d d warehouses
data h u otro repositorio
i i
de informacin (Jiawei Han, Micheline Kamber
2001).
2001)

6
Minera de Datos

Qu es la minera de datos?

Sinnimos:
- Descubrimiento de Conocimiento en Bases de Datos
- Minera
Mi de d conocimiento
i i d bases
de b d datos
de d
- Extraccin de conocimiento
- Anlisis de datos y patrones
- Arqueologa de datos

7
Minera de Datos

Cmo naci la minera de datos?

DATOS DATOS
Automatizacin de Necesidad de nuevas
aplicaciones herramientas para
Uso de lectores de analizar la informacin
cdigos
di de
d barras
b
DATOS DATOS

Las herramientas
L h i t estndares
t d
como la estadstica y los
Almacenaje masivo
queries a bases de datos no
de informacin son suficientes

La minera de datos es parte del proceso de descubrimiento de conocimiento en bases de datos


8
Minera de Datos

Proceso de Descubrimiento de Conocimiento


en Bases de Datos (KDD Process)
RECOLECCIN PREPARACIN
DOMINIO DE INFORMACIN SELECCIN DE DATOS
DATOS
ESPECFICO
CONJUNTO
DE DATOS DATOS
LIMPIOS Y
PREPARADOS
TRANSFORMACIN
DE DATOS

EVALUACIN/
INTERPRETACIN MINERA DE
APLICACIN
DE PATRONES DATOS
DEL CONOCIMIENTO
CONOCIMIENTO

PATRONES
ENCONTRADOS
INFORMACIN
FORMATEADA
9 Y ESTRUCTURADA
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Interfaz Grfica

Evaluacin de Patrones

Base de
Conocimiento
Algoritmo de M.D.

Servidor de B.D. o
Data Warehouse
Limpieza de datos
Integracin de datos Filtrado

(Han and Kamber 2001) Data


Database warehouse
10
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Base de datos
Puede ser: base de datos, datawarehouse, hoja de
clculo u otra clase de repositorio
A estos datos se le aplican tcnicas de limpieza e
integracin

Servidor de bases de datos


Utilizado para obtener la informacin relevante
11
segn el proceso de minera de datos
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Base de conocimiento
Conocimiento del dominio para guiar la bsqueda,
evaluar que tan interesantes son los patrones
Creencias de los datos (del usuario: lo que se
espera de los datos para descubrir
comportamientos
t i t inesperados)
i d )
Umbrales de evaluacin
Conocimiento previo
12
Meta-datos
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Algoritmo
g de minera de datos
Modular para realizar distintos tipos de anlisis
Caracterizacin
Asociacin
Clasificacin
Anlisis
A li i de
d grupos
Evolucin (en espacio o tiempo)
Anlisis de desviaciones
13
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Mdulo de Evaluacin de Patrones
Medidas de que tan interesante es un patrn
Interacta con el algoritmo de M.D. para guiar la
bsqueda hacia patrones interesantes

14
Minera de Datos

Arquitectura de un Sistema Tpico


de Minera de Datos
Interfaz ggrfica
Interaccin con el usuario
Eleccin de la tarea de minera de datos
Proveer informacin para enfocar la bsqueda
Ayudar a evaluar los patrones
Explorar
E l l patrones
los t encontrados
t d y la l base
b d
de
datos original
Visualizar los patrones en distintas formas
15
Minera de Datos

Minera de datos
Utiliza mtodos basados en:
Tecnologa de Bases de Datos
Estadstica
Aprendizaje automtico
Cmputo de alto rendimiento
Reconocimiento de patrones
Redes Neuronales
Visualizacin de Datos
Recuperacin de Informacin
Procesamiento de imgenes y seales
Anlisis de Datos Espaciales

16
Minera de Datos

Perspectiva de Bases de Datos


nfasis en Eficiencia y Escalabilidad para
grandes
d bases
b d datos
de d t
Algoritmo escalable
Tiempo de ejecucin crece linealmente en proporcin
all tamao
ded lal base
b d datos
de d d d
dados l
los recursos
disponibles de memoria principal y espacio en disco

17
Minera de Datos

Repositorios de Datos
Base de Datos Relacional
DBMS
Lenguajes: (i.e., DDL, DML, DQL, etc.)
Tablas, atributos, tuplas
Modelo E-R
ER
Normalizacin
Acceso a datos Queries

Anlisis de datos
Tendencias
Patrones
Desviaciones
18
Minera de Datos

Repositorios de Datos
Data Warehouse
Repositorio de informacin recopilada de varias fuentes bajo un
esquema unificado y usualmente reside en un solo sitio
Construccin
Limpieza de datos
Transformacin de datos
Integracin de datos
Carga
g de los datos
Actualizacin peridica de los datos
Datos organizados sobre temas de alto nivel (cliente, proveedor,
actividad, parte)

19
Minera de Datos

Repositorios de Datos
Data Warehouse (continuacin...)
Datos desde una perspectiva histrica (resmenes de varios aos)
Modelado
M d l d sobreb una estructura multidimensional
l idi i l
Cubos de datos
Anlisis de Datos
OLAP
Utiliza informacin previa sobre el dominio para
presentar los datos a diferentes niveles de abstraccin
(drill-down
(drill down, roll
roll-up
up para ver diferentes niveles de
agrupacin de informacin
Se requiere ms anlisis de datos

20
Minera de Datos

Repositorios de Datos
Base de Datos Transaccional
Cada registro es una transaccin
Nmero
N d transaccin
de i y lista
li ded elementos
l d la
de l transaccin
i
Anlisis de datos
Qu elementos se venden bien juntos?
Market
Market basket data analysis
analysis

21
Minera de Datos

Repositorios de Datos Avanzados


Bases de datos Orientadas a Objetos
Bases de datos Objeto-Relacionales
Bases de datos Espaciales
Bases de datos Temporales y de Series de Tiempo
Bases de datos de Texto
Bases de datos Multimedia
Bases de datos Heterogneas
El World Wide Web

22
Minera de Datos

Para qu usamos la minera de datos?


Predecir
Utilizar algunas variables o campos en una
base de datos para predecir valores
desconocidos o futuros.
Describir
Encontrar
E t patrones
t que describan
d ib l
la
informacin (interpretables por el hombre)

23
Minera de Datos

Tareas de la minera de datos


Clasificacin
Regresin
Agrupamiento
g p o clusteringg ((encontrar clases))
Sumarizacin (describir clases o conceptos)
Modelos de dependencias
Deteccin de cambios y desviaciones
Asociacin
A li i de
Anlisis d Evolucin
E l i (cambios
( bi en ell tiempo)
ti )
24
Minera de Datos

Clasificacin de Sistemas de M.D.


Tipos de bases de datos sobre los que se hace M.D. MD
(Datawarehouse, transaccional, relacional, OO, etc.)
Tipo de conocimiento minado (caracterizacin,
di i i i
discriminacin, asociacin,
i i clasificacin,
l ifi i agrupamiento,
i
etc.)
Tipos
p de tcnicas utilizadas ((aprendizaje
p j automtico,
estadstica, visualizacin, ...)
Adaptaciones para Aplicaciones (DNA, e-mail, etc...)

25
Minera de Datos

Componentes de un Algoritmo de
Minera de Datos

Modelo de representacin
p
Modelo de evaluacin
Mtodo de bsqueda

26
Minera de Datos

Componentes de un Algoritmo de
Minera de Datos
Modelo de Representacin

Lenguaje para describir los patrones


rbol de decisiones
Lgica
g de pprimer ggrado
Grfico

27
Minera de Datos

Componentes de un Algoritmo de
Minera de Datos
Modelo de Evaluacin
Caractersticas del patrn encontrado
til?
Novedoso?
Entendible?
Efectivo
Ef ti para predecir?
d i?
Medidas objetivas?
Soporte
28
Confianza
Minera de Datos

Componentes de un Algoritmo de
Minera de Datos
Mtodo de Bsqueda
Bsqueda de parmetros
Para optimizar
p el modelo de evaluacin
Parmetros de redes neuronales
Parmetro de espacio en beam
search
h
Bsqueda del modelo
Itera sobre la bsqueda de parmetros y
29 elige el mejor resultado
Minera de Datos

Mtodos de Minera de Datos


rboles de decisin y reglas
ID3,
ID3 C4.5
C4 5
Regresin no lineal y mtodos de clasificacin
Redes Neuronales (Backprogagation)
Mtodos
Mt d basados
b d en ejemplos
j l
Mtodo del vecino ms cercano
Modelos grficos de dependencias probabilsticas
Redes Bayesianas
Modelos de aprendizaje relacional (ILP)
FOIL,
FOIL Progol
Asociaciones
30
Agrawal
Minera de Datos

Q ines son los usuarios?


Quines s arios?

Negocios -->> Para construir modelos a partir de grandes


bases de datos
Informacin transaccional
Datawarehouses
D t h
Consumidores --> Para filtrar informacin de grandes bases
de datos
Por ejemplo del Web
Investigadores --> Para analizar grandes bases de datos

31
Minera de Datos

Aplicaciones de Minera de Datos


Astronoma
Clasificacin de estrellas y galaxias
Anlisis de Mercado y Administracin
Perfil de clientes
Qu tipos de clientes compran que productos?
Clasificacin o Agrupamiento (clustering)
Qu productor se compran normalmente juntos?
Reglas de asociacin
Descubrir las relaciones entre caractersticas personales y
el tipo de productos que se compran
32
Descubrir correlaciones entre compras
Minera de Datos

Ms Aplicaciones
p de Minera de Datos
Finanzas
Compaas de inversin hacen transacciones en la bolsa
d valores
de l b d
basndose en resultados
lt d ded Minera
Mi de d Datos
D t
Prediccin de flujo de efectivo
Deteccin de fraude
Utilizan bases de datos histricas para crear modelos de
comportamiento fraudoliento y utilizar Minera de Datos
para identificar nuevos fraudes.
fraudes
Seguros de autos
Seguros mdicos
Lavado
L d de d dinero
di
33
Telefnicos
Tratamiento mdico inapropiado
Minera de Datos

Aun Ms Aplicaciones
p de Minera de Datos
Deportes
Para interpretar las estadsticas
Web
Analizar logs en general
p
Analizar el comportamiento de los usuarios de un sitio
E-mail
Clasificar e-mail y repartirlo al departamento adecuado
Personalizacin
Hacer recomendaciones de acuerdo a caractersticas
conocidas del usuario
Recursos humanos
h
34 Ayudar a seleccionar empleados
Minera de Datos

Todava Ms Aplicaciones de Minera de Datos


Bancos
Analizar clientes para otorgar crdito
Medicina
Aplicaciones que buscan nuevos medicamentos
Anlisis de secuencias de genes
Predecir si un compuesto causa cncer
Anlisis de secuencias de protenas

35
Minera de Datos

Ejemplo
Ser un buen da para jugar tenis?
Vista Temperatura Humedad Viento Jugar?
Soleado Alta Alta Falso No
Soleado Alta Alta Verdadero No
Nublado Alta Alta Falso Si
Lluvioso Media Alta Falso Si
Lluvioso Baja Normal Falso Si
Lluvioso Baja Normal Verdadero No
Nublado Baja Normal Verdadero Si
S l d
Soleado M di
Media Alt
Alta F l
Falso N
No
Soleado Baja Normal Falso Si
Lluvioso Media Normal Falso Si
Soleado Media Normal Verdadero Si
Nublado Media Alta Verdadero Si
Nublado Alta Normal Falso Si
36
Lluvioso Media Alta Verdadero No
Minera de Datos

Ejemplo

4 atributos
Vista: soleado, nublado o lluvioso
Temperatura: alta, media o baja
Humedad:
H d d alta
l o normall
Viento: falso o verdadero
Espacio
p de bsqueda
q
36 posibles combinaciones (3x3x2x2=36)

37
Minera de Datos

Ejemplo

Reglas (Lista de decisiones)


Si Vista=Soleado y Humedad=Alta Entonces Jugar=No
Si Vista=Lluviosa y Viento=Verdadero Entonces
Jugar=no
Si Vista=Nublado Entonces Jugar=Si
Si Humedad=Normal Entonces Jugar=Sig
Si Ninguna de las otras reglas aplica Entonces Jugar=Si

38
Minera de Datos

Aprendizaje Automtico o Minera de Datos?

Dos comunidades
Bases de datos
Aprendizaje automtico
Manejo
M j de d grandes
d cantidades
id d de
d datos
d
Cuntos datos se necesitan para hacer minera de datos?
PAC Learningg
Algoritmos eficientes y escalables

39
Minera de Datos

Retos en Minera de Datos

Metodologa de MD e interaccin con el usuario


MD para diferentes tipos de conocimiento en bases de
datos
MD interactiva
i i de d conocimiento
i i a mltiples
l i l niveles
i l ded
abstraccin
Incorporacin
p de conocimiento pprevio
Lenguajes de consultas de MD y MD ad hoc
Presentacin y visualizacin de los resultados de MD
Manejo de datos ruidosos o incompletos
Evaluacin de patrones
40
Minera de Datos

Retos en Minera de Datos

Desempeo
Eficiencia y escalabilidad de los algoritmos de MD
Algoritmos de MD paralelos, distribuidos e incrementales

Diversidad de los tipos de datos


Manejoj de tipos
p de datos relacionales y complejos
p j
MD de informacin de bases de datos heterogneas y
sistemas de informacin global

41

También podría gustarte