Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sesion13 Data Mining PDF
Sesion13 Data Mining PDF
Universidad
Politécnica de Puebla
UPP
1
Minería de Datos
Evolución de la Tecnología BD
• 1960’s y antes
•CCreación
eac ó de las
as BD een aarchivos
c vos pprimitivos
t vos
•1970’s hasta principios de los 1980’s
• BD Jerárquicas y de Red
• BD Relacionales
• Herramientas de modelado de datos (Entidad-Relación)
• Indexado y técnicas de organización (B-trees, Hashing)
• Lenguajes de queries SQL, etc.
• Interfaces de usuario y reportes
• Procesamiento y optimización
p de qqueries
• Manejo transacciones (recuperación, control concurrencia)
2
• OLTP (On Line Transaction Processing)
Minería de Datos
Evolución de la Tecnología BD
3
Minería de Datos
Evolución de la Tecnología BD
•1980’s (Finales al presente)
• Data warehouse y OLAP (On Line Analytical Processing)
• Minería de datos y descubrimiento de conocimiento
• 1990’s
1990’ (al
( l presente)
t )
• Sistemas basados en XML
• Web mining
• 2000 (a la fecha)
• NUEVA GENERACIÓN DE SISTEMAS DE
INFORMACIÓN INTEGRADOS
4
Minería de Datos
5
Minería de Datos
6
Minería de Datos
Sinónimos:
- Descubrimiento de Conocimiento en Bases de Datos
- Minería
Mi í de d conocimiento
i i d bases
de b d datos
de d
- Extracción de conocimiento
- Análisis de datos y patrones
- Arqueología de datos
7
Minería de Datos
DATOS DATOS
• Automatización de Necesidad de nuevas
aplicaciones herramientas para
• Uso de lectores de analizar la información
códigos
ódi de
d barras
b
DATOS DATOS
Las herramientas
L h i t estándares
tá d
como la estadística y los
Almacenaje masivo
queries a bases de datos no
de información son suficientes
EVALUACIÓN/
INTERPRETACIÓN MINERÍA DE
APLICACIÓN
DE PATRONES DATOS
DEL CONOCIMIENTO
CONOCIMIENTO
PATRONES
ENCONTRADOS
INFORMACIÓN
FORMATEADA
9 Y ESTRUCTURADA
Minería de Datos
Evaluación de Patrones
Base de
Conocimiento
Algoritmo de M.D.
Servidor de B.D. o
Data Warehouse
Limpieza de datos
Integración de datos Filtrado
14
Minería de Datos
• Minería de datos
• Utiliza métodos basados en:
• Tecnología de Bases de Datos
• Estadística
• Aprendizaje automático
• Cómputo de alto rendimiento
• Reconocimiento de patrones
• Redes Neuronales
• Visualización de Datos
• Recuperación de Información
• Procesamiento de imágenes y señales
• Análisis de Datos Espaciales
16
Minería de Datos
17
Minería de Datos
• Repositorios de Datos
• Base de Datos Relacional
• DBMS
• Lenguajes: (i.e., DDL, DML, DQL, etc.)
• Tablas, atributos, tuplas
• Modelo E-R
ER
• Normalización
• Acceso a datos “Queries”
• Análisis de datos
• Tendencias
• Patrones
• Desviaciones
18
Minería de Datos
• Repositorios de Datos
• Data Warehouse
• Repositorio de información recopilada de varias fuentes bajo un
esquema unificado y usualmente reside en un solo sitio
• Construcción
• Limpieza de datos
• Transformación de datos
• Integración de datos
• Carga
g de los datos
• Actualización periódica de los datos
• Datos organizados sobre temas de alto nivel (cliente, proveedor,
actividad, parte)
19
Minería de Datos
• Repositorios de Datos
• Data Warehouse (continuación...)
• Datos desde una perspectiva histórica (resúmenes de varios años)
• Modelado
M d l d sobreb una estructura multidimensional
l idi i l
• Cubos de datos
• Análisis de Datos
• OLAP
• Utiliza información previa sobre el dominio para
presentar los datos a diferentes niveles de abstracción
(drill-down
(drill down, roll
roll-up
up para ver diferentes niveles de
agrupación de información
• Se requiere más análisis de datos
20
Minería de Datos
• Repositorios de Datos
• Base de Datos Transaccional
• Cada registro es una transacción
• Número
Nú d transacción
de ió y lista
li ded elementos
l d la
de l transacción
ió
• Análisis de datos
• Qué elementos se venden bien juntos?
• “Market
Market basket data analysis
analysis”
21
Minería de Datos
22
Minería de Datos
23
Minería de Datos
25
Minería de Datos
Componentes de un Algoritmo de
Minería de Datos
• Modelo de representación
p
• Modelo de evaluación
• Método de búsqueda
26
Minería de Datos
Componentes de un Algoritmo de
Minería de Datos
Modelo de Representación
27
Minería de Datos
Componentes de un Algoritmo de
Minería de Datos
Modelo de Evaluación
• Características del patrón encontrado
• ¿Útil?
• ¿Novedoso?
• ¿Entendible?
• ¿Efectivo
Ef ti para predecir?
d i?
• ¿Medidas objetivas?
• Soporte
28
• Confianza
Minería de Datos
Componentes de un Algoritmo de
Minería de Datos
Método de Búsqueda
• Búsqueda de parámetros
• Para optimizar
p el modelo de evaluación
• Parámetros de redes neuronales
• Parámetro de espacio en “beam
search”
h
• Búsqueda del modelo
• Itera sobre la búsqueda de parámetros y
29 elige el mejor resultado
Minería de Datos
31
Minería de Datos
Más Aplicaciones
p de Minería de Datos
• Finanzas
• Compañías de inversión hacen transacciones en la bolsa
d valores
de l b á d
basándose en resultados
lt d ded Minería
Mi í de d Datos
D t
• Predicción de flujo de efectivo
• Detección de fraude
• Utilizan bases de datos históricas para crear modelos de
comportamiento fraudoliento y utilizar Minería de Datos
para identificar nuevos fraudes.
fraudes
• Seguros de autos
• Seguros médicos
• Lavado
L d de d dinero
di
33
• Telefónicos
• Tratamiento médico inapropiado
Minería de Datos
35
Minería de Datos
Ejemplo
• ¿Será un buen día para jugar tenis?
Vista Temperatura Humedad Viento ¿Jugar?
Soleado Alta Alta Falso No
Soleado Alta Alta Verdadero No
Nublado Alta Alta Falso Si
Lluvioso Media Alta Falso Si
Lluvioso Baja Normal Falso Si
Lluvioso Baja Normal Verdadero No
Nublado Baja Normal Verdadero Si
S l d
Soleado M di
Media Alt
Alta F l
Falso N
No
Soleado Baja Normal Falso Si
Lluvioso Media Normal Falso Si
Soleado Media Normal Verdadero Si
Nublado Media Alta Verdadero Si
Nublado Alta Normal Falso Si
36
Lluvioso Media Alta Verdadero No
Minería de Datos
Ejemplo
• 4 atributos
• Vista: soleado, nublado o lluvioso
• Temperatura: alta, media o baja
• Humedad:
H d d alta
l o normall
• Viento: falso o verdadero
• Espacio
p de búsqueda
q
• 36 posibles combinaciones (3x3x2x2=36)
37
Minería de Datos
Ejemplo
38
Minería de Datos
• Dos comunidades
• Bases de datos
• Aprendizaje automático
• Manejo
M j de d grandes
d cantidades
id d de
d datos
d
• ¿Cuántos datos se necesitan para hacer minería de datos?
• PAC Learningg
• Algoritmos eficientes y escalables
39
Minería de Datos
• Desempeño
• Eficiencia y escalabilidad de los algoritmos de MD
• Algoritmos de MD paralelos, distribuidos e incrementales
41