Está en la página 1de 44

DATA WAREHOUSE & DATA

MINING
http://www.espol.edu.ec
INTEGRANTES

 Bastidas
Santos Washington
Raúl
 López Serrano Silvio
Stephan
 Montiel
Salazar Marcos Xavier
DATA WAREHOUSE
INTRODUCCIÓN
 DW es una tecnología construida para optimizar el
uso y análisis de información utilizado por las
organizaciones para adaptarse a los cambios en
los mercados.
 Su función esencial es ser la base de un sistema de
información gerencial. Debe cumplir el rol de
integrador de información proveniente de fuentes
funcionalmente distintas.
DATA WAREHOUSE
 Se caracteriza por ser integrado, no volátil y variable en el
tiempo, que ayuda a la toma de decisiones en la entidad en la
que se utiliza
DETALLES
 El DW se encuentra normalmente implementado
dentro de una arquitectura de cliente/servidor.
 Por la complejidad de los DW es común utilizar
middleware entre los clientes y los servidores dando
una arquitectura de 3 niveles (three tier).
ARQUITECTURA
 Online Transaction Processing (OLTP)
 Consolidación
 Middleware
 Online Analytical Process (OLAP)
 Data Marts
OLTP
 Consultas rápidas, escuetas y predecibles
 Poco volumen de información e información
disgregada
 Transacciones rápidas
 Gran nivel de concurrencia
 Modo de actualización on-line
 Baja redundancia de datos
Consolidación
 Se encarga de producir el cambio de los sistemas OLTP a las

Bases de Datos OLAP. (comprobar validez, consistencia,


actualización, propagación datos)

Middleware
 Es un término genérico que se utiliza para referirse a todo

tipo de software de conectividad que ofrece servicios u


operaciones que hacen posible el funcionamiento de
aplicaciones distribuidas sobre plataformas heterogéneas
OLAP
 Estructura de datos transparente al usuario
 Solo Consulta, trabajan sobre la información
operacional generada por los sistemas OLTP
 Consultas sobre grandes volúmenes de datos no
predecibles
 Información histórica
 Modo de actualización Batch
 Alta redundancia de datos para facilitar la generación
de consultas y obtener buenos tiempos de respuesta
 Poderoso Back-end analítico para múltiples
aplicaciones de usuarios
TIPOS DE SISTEMAS OLAP
 ROLAP
Motor relacional. Datos detallados,
tablas normalizadas. Los esquemas más
comunes sobre los que se trabaja son estrella ó
copo de nieve

 MOLAP
Base de datos multidimensional. el
resumen de la información es usualmente
calculado por adelantado.

 HOLAP (Hybrid OLAP)


Almacena algunos datos en un motor
relacional y otros en una base de datos
multidimensional
DATA MARTS
DATA MARTS
 Es una versión especial de DW
 El Data Mart es un sistema orientado a la consulta, en
el que se producen procesos batch de carga de datos.
 Es consultado mediante herramientas OLAP que
ofrecen una visión multidimensional de la información.
 Sobre estas bases de datos se pueden construir EIS y
DSS.
 Data Mining: Proceso no trivial de análisis de grandes
cantidades de datos con el objetivo de extraer
información útil.
IMPLEMENTACIONES DE DW
 DW central: un solo nivel con un solo almacén que
soporta los requerimientos de información de toda
la empresa.
 DW distribuido: estructura de un solo nivel que se
particiona para distribuirlo a nivel departamental.
 DW de dos niveles: soporta requerimientos de
información tanto a nivel empresarial como
departamental.
Extract, Transform and Load (ETL)
EXTRACT, TRANSFORM AND LOAD
(ETL)
 Extraer los datos desde los sistemas de origen
(Normalmente en DB relacionales). Debe causar un
impacto mínimo.
 Transformación aplica una serie de reglas de
negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.
 Carga los datos de la fase anterior en el sistema
de destino. Se aplicarán todas las restricciones y
triggers definidos.
ETL – PROCESAMIENTO PARALELO

 De datos: dividir un único archivo secuencial en


pequeños archivos de datos.
 De segmentación (pipeline): Permitir el
funcionamiento simultáneo de varios componentes
en el mismo flujo de datos.
 De componente: funcionamiento simultáneo de
múltiples procesos en diferentes flujos de datos en
el mismo puesto de trabajo.
ESQUEMA EN ESTRELLA
• Modelo de datos que
tiene una tabla de
hechos (o tabla fact)
que contiene los datos
para el análisis,
rodeada de las
dimensiones estas tiene
una clave primaria
simple, mientras que en
la tabla de hechos,

la clave
principal estará
compuesta por las
claves principales de las
demás.
ESQUEMA EN COPO DE NIEVE
 Un esquema en copo de
nieve es una estructura
algo más compleja que el
esquema en estrella. Se
da cuando alguna de las
dimensiones se
implementa con más de
una tabla de datos. La
finalidad es normalizar
las tablas y así reducir el
espacio de
almacenamiento al
eliminar la redundancia
de datos
DATAWAREHOUSE – DATA MINING
DATA WAREHOUSE
EXECUTIVE INFORMATION SYSTEM
(EIS)
 Herramienta orientada a usuarios de nivel
gerencial.
 Permite a usuarios con perfil no técnico construir
nuevos informes y navegar por los datos de la
compañía para descubrir información relevante.
 Provee acceso instantáneo al estado de los
indicadores de negocio que le afectan.
DECISION SUPPORT SYSTEM (DSS)

 Sistema informático utilizado para servir de apoyo,


más que automatizar, el proceso de toma de
decisiones, realizando análisis de las diferentes
variables del negocio.
 Capacidad de análisis multidimensional (OLAP) que
permite profundizar en la información hasta llegar
a un alto nivel de detalle
DATA MINING
INTRODUCCION
Proceso de extraer
conocimiento útil y
comprensible,
previamente
desconocido (Witten
y Frank, 2000)

Que no es?
 Data warehousing
 SQL / Ad Hoc Conocimiento
Queries / “Rico en datos, (patrones interesantes)
Reporting Pobre en información”
 Software Agents
 Online Analytical
Processing (OLAP)
 Data Visualization
POR QUÉ MINERÍA DE DATOS?
 Gran cantidad de
datos para analizar
de forma clásica
 ¿Cómo explorar
millones de registros, (Latitude, Longitude)2
QUERY
decenas o cientos de
RESULT
campos, y encontrar
patrones? (Latitude, Longitude)1
Knowledge Discovery in Databases

Proceso no trivial de identificar


patrones válidos, novedosos,
potencialmente útiles y en
última instancia comprensibles a
partir de los datos”. Fayyad et
al. 1996
Computational Knowledge Discovery
QUÉ TIPOS DE DATOS?
 Data Warehouses Structure - 3D Anatomy
 Base de Datos
Transaccionales
 Sistemas de Base de
Datos Avanzado: Function – 1D Signal
 Objetos Relacionales
 Temporales y
Espaciales Metadata – Annotation
 Serie de Tiempo
 Multimedia, Texto
 WWW
MULTIPLES DISCIPLINAS

20x20 ~ 2^400 ≈ 10^120 patterns


CLASIFICACIÓN DE ALGORITMOS
CLASIFICACIÓN
 Encuentra modelos que
describen y distinguen
clases o conceptos.
 El objetivo es describir
los datos o para hacer
el futuro de
predicción.
 Árbol de decisiones, la
clasificación general,
redes neuronales.
EJEMPLO CLASIFICACIÓN
ria r ia uo
g o go it n
te te
Co
n se
ca ca cla
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat
1 Yes Single 125K No
No Single 75K ?
2 No Married 100K No
Yes Married 50K ?
3 No Single 70K No
No Married 150K ?
4 Yes Married 120K No
Yes Divorced 90K ?
5 No Divorced 95K Yes
No Single 40K ?
6 No Married 60K No
No Married 80K ?
7 Yes Divorced 220K No
10

Test Set
8 No Single 85K Yes
9 No Married 75K No
Clasifica-
10 No Single 90K Yes Training Modelo
10

Set dor
REPRESENTACIÓN:
ÁRBOL DE DECISIONES
oria r ia uo
g go it n
te te
co
n se
ca ca cla Atributos Divididos
Tid Refund Marital Taxable
Status Income Cheat
Refund
1 Yes Single 125K No Yes No
2 No Married 100K No
NO MarSt
3 No Single 70K No
Single, Divorced Married
4 Yes Married 120K No
5 No Divorced 95K Yes TaxInc NO
6 No Married 60K No < 80K > 80K
7 Yes Divorced 220K No
8 No Single 85K Yes
NO YES
9 No Married 75K No
10 No Single 90K Yes
10
CLUSTERING
 Divide la información en
diferentes grupos.
 A diferencia de la
clasificación, no se sabe
donde habrá clúster o con que
atributos de los datos se
harán los clústeres.
 Algoritmo K-means y Mapas
de Presentación de Kohonen
 Clustering schemes
 Basado en Distancia (Distancia
entre vectores)
 Basado en Partición (Enumera y
valora)
 Basado en Modelo(
ALGORITMO K-MEANS

Initial seeds
ALGORITMO K-MEANS

Nuevos Centros
ALGORITMO K-MEANS

Centros Finales
MODELO LÓGICO
Mining Model Training Data Mining Model To Predict
DB data
algorithm DB data
Client data
Client data
Application data
Application data
“Just one row”

Data Mining Data Mining


Engine Engine

Mining Model Predicted Data


MODELO FÍSICO

Interfaz Gráfica
App Data

OLE DB/ ADOMD/ XMLA

Resultado de la
Evaulacion

Analysis Services Mining Model


Server
Data Mining Algorithm Data
Source
MINERIA DE DATOS DISTRIBUIDA
 Hacer frente a plataformas
heterogéneas, con múltiples
bases de datos y (posiblemente)
diferentes esquemas
 Diseñar e implementar
protocolos escalables y eficaces
para la comunicación con los
datos de los sitios.
 Combine información recién
adquiridos que previamente no
estaban disponibles cuando los
modelos se calcularon con los
modelos existentes
 La flexibilidad para incorporar
nuevas técnicas de minería de
datos