Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Warehouse
Contenidos
Introduccin
Arquitectura del data warehouse
Estructura de un Data warehouse
Data marts
Granularidad
Exploracin y minera de datos
Diseo del data warehouse
Visualizacin del modelo dimensional Aplicaciones OLAP (bases de datos
dimensionales)
Carga de datos en el data warehouse
Ciclo de vida del data warehouse
Introduccin
Data Warehouse es una solucin no un producto o grupo de
productos.
Un DWH puede ayudarnos a obtener respuestas para tomar
decisiones de manera ms acertada.
Antes de construir un DWH debemos responder a las siguientes
preguntas
o
o
o
o
o
Introduccin
Definicin de DWH
Data Warehousing : diseo e implementacin de procesos, y
herramientas para gestionar y proveer informacin completa, en
tiempo, fiel y comprensible para la toma de decisiones. Incluye
todas las actividades que hacen posible a una organizacin la
creacin, gestin y mantenimiento del DWH o del datamart.
o La definicin aceptada de DWH se atribuye a Bill Inmon en 1992*:
o
Introduccin
La necesidad del DWH surge a partir de la necesidad de
obtener acceso fcil a una serie de datos estructurados con la
calidad suficiente para ser usados en la toma de decisiones.
Es sabido por todo el mundo que la informacin es un potente
activo del que se pueden obtener importantes beneficios y
ventajas competitivas para cualquier organizacin.
Introduccin
En las dcadas de los 80 y 90 las compaas se han
preocupado principalmente por la adecuacin de los sistemas
operacionales, es decir por la obtencin de los datos, la
disponibilidad de las aplicaciones, el almacenamiento de los
datos, etc... En nuestros das ha legado el momento de sacar
partido de esa informacin, el problema es que los sistemas
operacionales no permiten en la mayora de los casos la
obtencin de informacin de manera rpida y precisa para la
toma de decisiones, por diversas causas.
Introduccin
Debido principalmente a tres fenmenos que han ocurrido
durante la pasada dcada los tamaos de las bases de
datos se han visto incrementados significativamente:
Los costes de almacenamiento se han vuelto insignificantes
en comparacin con el valor de la informacin almacenada.
o Las empresas valoran la informacin (datos) como un activo
de negocio crtico.
o Muchas de las empresas multinacionales comparten su
informacin a travs de toda la organizacin a nivel
mundial.
o
Introduccin
o
Diferentes
Diferentes
Diferentes
Diferentes
estructuras de datos
motores de datos
almacenamientos fsicos de informacin (ficheros)
plataformas
o Mainframes
o Sistemas medios multiprocesador
o Proveedores externos de servicios
Informacin distribuida
Multiplicidad de tipos de datos
o Por ejemplo un sistema calcula la edad a travs de la fecha de nacimiento,
otro lo escribe en un campo, uno llama edad al atributo, otro le llama AGE...
Introduccin
Este tipo de organizaciones tendrn que desarrollar y mantener
diferentes aplicaciones para extraer, preparar y consolidar la
informacin en informes y analticas.
o Es normal tambin que los responsables de la toma de decisin, a
la hora de efectuar un hallazgo quieran profundizar ms en los
datos que han llevado a ese hallazgo.
o
Introduccin
Los sistemas DWH implementan :
Los procesos de acceso a datos heterogneos, limpios, filtrados y
transformados
o El almacenamiento de datos en estructuras fciles de acceder,
fciles de usar y comprensibles.
o
Introduccin
Los volmenes de datos en el DWH pueden ser
considerablemente altos, particularmente si existen anlisis
basados en histricos.
o
Introduccin
Los sistemas DWH no son considerados ahora como meras
fotos-fijas (snapshots) de de los datos operacionales. Los
sistemas DWH deben ser considerados como nuevas fuentes de
informacin concebidas para el uso de toda la organizacin. La
simple reingeniera de los modelos operacionales no satisfacen
los requerimientos para el DWHing. El desarrollo de DWH
requiere mucho ms anlisis aplicado a las tcnicas de
modelado y una relacin mucho mas cercana con el propio
negocio de la organizacin.
Introduccin
La acumulacin de informacin histrica en el DWH, junto
a su anlisis puede dar lugar a informaciones o
revelaciones nunca antes conocidas acerca de clientes,
competidores, etc..., por lo que el DWH aunque es un
sistema de solo-lectura (read-only) tambin puede
aportar informacin.
El DWH tambin ayuda al descubrimiento de cosas que
diferencian a la organizacin.
Introduccin
Arquitectura del
Architecture)
o
modelado
de
datos
(Data
modeling
Funcionalidad
Herramientas de usuario final
tecnologia BBDD
N de transacciones
Tamao de la transaccin
tiempo de tranasccin
Tamao BBDD en GB
Modelado de datos
Normalizacin
OLPT
ODS
OLAP
DM/DW
Operacional
Cliente Servidor/WEB
Relacional
Alto
Bajo
Corto
1
Entidad Relacin
3-5 NF
Operacional/Decisional
C/S-WEB
Relacional
Medio
Medio
Medio
OLPT * 2 - OLPT *10
Entidad Relacin
3 NF
Decisional
C/S
Cubica
Bajo
Medio
Medio
OLPT * 2 - OLPT *10
N/A
N/A
Decisional/Estrategica
C/S-WEB
Relacional
Bajo
Alto
Alto
OLPT*2-OLPT*100
Dimensional
0 NF
Nmero de tablas
El nmero de registros de la tabla mayor
El tamao en GB de la tabla mayor
La media de registros de las mayores tablas
El tamao medio en GB de las mayores tablas
La mayor transaccin (rollback) en GB. (Oracle)
El mayor segmento temporal necesitado en GB. (Oracle)
N de tablas
Media de Registros por tabla
Media de tamao por tabla (GB)
N de registros de la tabla mas grande
Tamao de la Tabla mas grande (GB)
Tamao de los segmentos de Rollback
Tamao de los segmentos temporales
OLPT
ODS
OLAP
DM/DW
1-miles
miles -millones
1 a 99
miles - millones
1 a 99
1 a 100 Mb
1 a 100 Mb
1-miles
miles - millones
1 a 99
miles - millones
1 a 99
1 a 100 Mb
1 a 100 Mb
OLPT/10
millones
1 a 99
miles - millones
1 a 99
N/A
N/A
OLPT/10
millones
1 a 999
miles - cientos de millones
1 a 999
1 a 999 Gb
1 a 999 Gb
Para cada producto, cuales son las ventas acumuladas del ao?
El sistema nos devolvera una lista de los productos con sus
cifras de venta correspondientes
A,B,C Pareto
o Basado en cifra de negocio
o Basado en rentabilidad
o Basado en periodo medio de compra
Otros...
...
A nivel
A nivel
A nivel
A nivel
...
local
provincial
regional
nacional
Estructura de un DWH
Estructura de un DWH
Est integrado
o
o
o
Conversin de datos
Reformateado (Reformatted)
Sumarizados (Summarized)
Etc...
Estructura de un DWH
Estructura de un DWH
Estructura de un DWH
No es voltil (nonvolatile)
o
o
o
o
Estructura de un DWH
Variable en el tiempo
o Que el data warehouse sea variable en el tiempo implica que
cada dato incluido en el data warehouse ha sido obtenido en
un momento en el tiempo.
Estructura de un DWH
Data Marts
Data Marts
Data Marts
Data Marts
Arquitectura en Bus
o
Data Marts
...arquitectura en bus
o
Data Marts
...arquitectura en bus
o
o
Data Marts
DWH y BI
DWH y BI
DWH y BI
DWH y BI
DWH y BI
CRM
CRM
o
o
o
o
N de impactos
N de clientes nuevos
Incremento de ventas
CrossSelling
CRM
CRM
BI
ERP
Anlisis
BBDD
Transacciones
Negocio
Data mining
ETL
Data Warehouse
Herramientas CRM
BBDD
Relaciones
Con clientes
Contact-Center
Reporting
Granularidad
Granularidad
Granularidad
Granularidad
Financiero
Operaciones
Ventas
Marketing
1 registro al mes
20 bytes/mes
52 registros al mes
1040 bytes/mes
Beneficios de la granularidad
Beneficios de la granularidad
o
o
o
o
En el nivel 1 de granularidad
respuesta.
En el nivel 2 de granularidad
Ni en el nivel 3.
En el nivel 4 de granularidad
contestada.
En el nivel 5 de granularidad
tampoco
nuestra respuesta si podra ser
tambin podra ser contestada.
Beneficios de la granularidad
Granularidad mltiple
Granularidad mltiple
Granularidad mltiple
Granularidad mltiple
Estimacin de la Granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Repetir esta operacin por cada una de las tablas del DWH
o Por lo general las estimaciones siempre se quedan pequeas
debido al crecimiento del DWH, por lo que es aconsejable
sumar un espacio extra de al menos un 30% sobre la
estimacin.
o
Estimacin de la granularidad
1.000.000
Estimacin de la granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Estimacin de la granularidad
Particionamiento
Particionamiento
Particionamiento
Reestructuracin de datos
Indexacin
Escaneado Secuencial (Full Scans)
Reorganizacin
Recuperaciones
Monitoreado
Auditora
Particionamiento
Particionamiento
Particionamiento
Clientes
Productos
Beneficios
Ventas
...
reas temticas
reas temticas
reas temticas
Donde (where)
reas temticas
Definicin
DATA WAREHOUSE
Minera de datos
DATA MINING
Interpretacin de resultados
FUNCIONES
DE SCORING
DE
RESULTADOS
Implementacin de
resultados
Consultas e Informes
vendidas.
o Clculo o investigacin de medidas de calidad como satisfaccin de
clientes, retrasos en procesos de negocio, etc..
o Predicciones de anlisis de transacciones de negocio, anlisis de
tendencias, etc...
Definicin de la consulta
Anlisis multidimensional
Enero
Vendedor
provincia
mostrados.
Roll Up
Drill Down
Vendedor 1
Vendedor 2
Vendedor 1
Vendedor 2
Vendedor 1
Vendedor 2
Mad
Mad
Mad
Mad
Mad
Mad
Sev
Sev
Sev
Sev
Sev
Sev
Data Mining
o
Gestionado por
el
Analista
Asistido por el
Analista
Gestionado por
los datos
Consultas
e
informes
Anlisis
Multidimensional
Data Mining
No redundante.
Estable
Consistente
Fiable
Compartido
Correcto
latencia
Planas
Normalizadas
De-normalizadas
Esquema en estrella
volatilidad
Repetitivas
Customizables
Algoritmicas
Modelos entidad-relacin
Los modelos ER producen un modelo de datos de una
especifica rea de interes usando para ello dos conceptos
bsicos: Entidades y las relaciones entre esas entidades. Los
modelos ER contienen tambin Atributos, que son las
propiedades inherentes a las entidades y/o relaciones.
o El modelo ER es una percepcin del mundo compuesta por
objetos llamados entidades y las relaciones entre ellos. Las
entidades se diferencian unas de otras a travs de sus
atributos.
o
Entidad
o Una entidad se define como una persona, lugar cosa o evento de
Relacin
o Una relacin se representa mediante lineas que unen a dos entidades.
Atributos
o Los atributos describen las caracteristicas o propiedades de las
Hechos (facts)
o
o
Dimensiones (dimensions)
o
o
o
Tiempo
Localizacin / Provincia
Clientes
Vendedor
Jerarquias de la dimensin
Jerarqua 1
Jerarqua 2
ao
Semana
semestre
semestre
...
trimestre
trimestre
...
mes
...
da
da
...
Jerarquias de la dimensin
o
Drill down
Medidas (measures)
o
o
dimesion1
Transacciones
Fotos-fijas peridicas (periodic snapshots)
Fotos-fijas acumulativas (accumulating snapshots)
ventas diarias
clave de fecha FK
clave de tienda FK
clave de producto FK
cantidad
valor
tiempo
Tabla de productos
clave de producto
descripcion del producto
clave de marca (FK)
modelo
clave de familia (FK)
tipo de empaquetado
tamao empaquetado
peso
precio del producto
tabla de marcas
clave de marca
nombre de la marca
tabla de f amilias
clave de familia
nombre de la familia
...tablas de dimensiones
o
tabla de hechos
ventas diarias
clave de fecha (FK)
clave de tienda (FK)
clave de producto (FK)
cantidad
valor
dimensin
tabla de tiendas
clave de tienda
provincia
Diseo en estrella
o
En el grfico se
muestra como los
atributos de las
dimensiones definen
las etiquetas de las
columnas del informe ,
mientras que las
tablas de hechos
proveen los valores
numricos.
dimensin
tabla de f echas
clave de fecha
fecha
mes
dia
ao
dimensin
Tabla de productos
clave de producto
descripcion del producto
modelo
marca
familia
tipo de empaquetado
tamao empaquetado
peso
precio del producto
tabla de hechos
ventas diarias
clave de fecha (FK)
clave de tienda (FK)
clave de producto (FK)
cantidad
valor
dimensin
tabla de tiendas
clave de tienda
provincia
suma
Mes
Enero
Enero
Enero
Febrero
Febrero
Febrero
Marca
Orbea
Marin
Marin
Specialized
Marin
Orbea
Provincia
Madrid
Madrid
Sevilla
Madrid
Madrid
Madrid
suma
A evitar...
o
o
o
o
o
Tu cerebro
De-normalizacin
o
En nuestro ejemplo
La tabla de productos
claramente viola la tercera
norma formal:
o Nombre de familia depende
productos
codigo producto
nombre producto
fecha inicio
fecha fin
codigo f amilia
nombre familia
codigo subfamilia
nombre subfamilia
codigo marca
nombre marca
ancho
alto
peso
cantidad por paquete
Marca
Orbea
Marin
Marin
Specialized
Marin
Orbea
Provincia
Madrid
Madrid
Sevilla
Madrid
Madrid
Madrid
Modelado de fechas
o
Ventas diarias
Ventas semanales
Ventas en das laborables
Ventas
Ventas
Ventas
Ventas
Ventas
Ventas
Ventas
en fines de semana
en das festivos
Mensuales
Trimestrales
Cuatrimestrales
Semestrales
Anuales
Modelado de fechas
o
dimensin
tabla de tiendas
clave de tienda
tabla de hechos
ventas diarias
dimensin
Tabla de productos
clave de producto
descripcion del producto
modelo
marca
familia
tipo de empaquetado
tamao empaquetado
peso
precio del producto
provincia
Modelado de fechas
o
En caso de que quisiramos obtener la suma de ventas por mes en cada una
de las tiendas, por cada uno de los productos, tendramos que realizar una
consulta como la siguiente (*):
(*) La consulta incluye funciones especficas del gestor de Bases de Datos ORACLE
Modelado de Fechas
Como es evidente al tener que realizar el clculo del mes y
del ao sobre la marcha en la ejecucin de la consulta, el
rendimiento de la consulta ser muy pobre, mas teniendo en
cuenta el nmero de registros sobre nuestra tabla de hechos
(ventas diarias).
o El uso de funciones especificas para realizar clculos sobre
datos de fecha adems de suponer un serio decremento del
rendimiento del DWH, condiciona el sistema a el uso del
motor de base de datos para el cual ha sido concebido ya
que cada motor de bases de datos posee sus propias
funciones para realizar clculos de fecha con diferente
sintaxis.
o
Fecha (fecha/alfanumrico)
o 12/12/2003
Da de mes (numrico)
o 1..31
Septiembre,Octubre,Noviembre,Diciembre
Trimestre
Ao (Numrico)
o ...1990,1991,1992,1993,1994...
Festivo (booleano/alfanumrico/numrico)
o Si,No
Modelado de Fechas
dia
dia de la semana
mes
nombre mes
trimestre
nombre trimestre
cuatrimestre
nombre cuatrimestre
semestre
nombre semestre
anyo
festivo
dimensin
Tabla de productos
clave de producto
dimensin
tabla de tiendas
clave de tienda
provincia
tabla de hechos
ventas diarias
clave de fecha (FK)
clave de tienda (FK)
clave de producto (FK)
fecha de venta
cantidad
valor
Modelado de fechas
o
Periodo
o 1..n
Nombre Periodo
o ....
Ejercicio Fiscal
o ....
Ejercicio comercial
o ....
Temporada
o Alta, baja
o Invierno, verano, otoo, primavera
o ....
Etc..
Modelado de fechas
Especifico de la
empresa
Natural / Gregoriano
3
2002
Septiembre
Septiembre
Octubre
Noviembre
Diciembre
Diciembre
Enero
Febrero
Marzo
2003
Marzo
Mayo
Junio
Junio
Agosto
Septiembre
Octubre
Noviembre
2004
Enero
Octubre
Noviembre
Diciembre
2004
Julio
Agosto
Septiembre
Abril
Mayo
Julio
Enero
Febrero
Abril
2003
Octubre
Noviembre
Diciembre
Febrero
Enero
Febrero
Marzo
Marzo
Modelado de Fechas
Especifico de una
empresa de moda
Natural / Gregoriano
3
2002
Septiembre
Septiembre
Octubre
Otoo
Octubre
Noviembre
Noviembre
Diciembre
Diciembre
Invierno
Enero
Febrero
Marzo
Febrero
2003
Abril
Mayo
Mayo
Junio
Junio
Julio
Marzo
Abril
2003
Enero
Agosto
Julio
Primavera
Verano
Agosto
Septiembre
Septiembre
Otoo
Octubre
Noviembre
Noviembre
2004
Diciembre
Enero
2004
Octubre
Diciembre
Febrero
Invierno
Enero
Febrero
Marzo
Marzo
Primavera
dimensin
tabla de tiendas
clave de tienda
provincia
tabla de hechos
ventas diarias
clave de fecha (FK)
clave de tienda (FK)
clave de producto (FK)
fecha de venta
cantidad
valor
o
o
o
o
Patines
3200
1345
2567
1204
6709
150
245
245
245
340
150
Balones
Camisetas
Mochilas
240
267
120
789
356
1245
3789
2567
130
780
560
125
234
1235
370
Enero
Febrero
Marzo
Abril
Mayo
Las operaciones drill down y roll up son utilizadas para mover la vista
hacia y desde un mayor nivel de detalle a un menor nivel de detalle.
Hacia un mayor nivel de detalle realizamos un drill down.
Para un menor nivel de detalle realizamos un roll up.
La operacin de Drill down tambin se conoce como agregacin dinmica.
Slice y Dice
Implementacin de OLAP
El siguiente paso se basa en la eleccin del tipo de
almacenamiento del cubo OLAP.
o La calidad del diseo inicial del proyecto de data warehouse
es inversamente proporcional al coste de la implementacin
del cubo...
o El diseador del data warehouse puede seleccionar si quiere
establecer un almacenamiento separado para los cubos, o si
quiere almacenarlos junto con el resto de datos del data
warehouse. Esto depende directamente del tamao de los
datos almacenados y la conexin prevista para la carga de
los datos.
o
El almacenaje de los cubos de OLAP es una de las decisiones crticas que se han
de tomar a la hora de disear el data warehouse. Es posible almacenar los cubos
OLAP de tres maneras:
MOLAP
OLAP Multidimensional. En MOLAP, los datos de fuente
y las agregaciones son almacenes en un formato
multidimensional. MOLAP es la opcin ms rpida para la
recuperacin de datos, pero requiere de mucho espacio
en disco, aunque en nuestros das esto no es un gran
problema debido al bajo precio de almacenamiento.
ROLAP
OLAP Relacional. Todos los datos, incluyendo las
agregaciones se almacenan dentro de una estructura
relacional de base de datos, que puede estar en la misma
localizacin de la fuente o no. ROLAP es el mtodo de
almacenamiento mas lento en la recuperacin de los
datos. ROLAP tiene sentido en pequeos volmenes de
datos.
HOLAP
OLAP Hbrido. HOLAP es una combinacin de las
anteriores (MOLAP,ROLAP). Las bases de datos HOLAP
almacenan las agregaciones dentro de una estructura
multidimensional, pero el almacenamiento de los mismos
(pre-calculados) se produce de forma relacional. HOLAP
ofrece las funcionalidades de MOLAP,pero, es tan lento
como ROLAP.
Seguridad de OLAP
El almacenamiento de los cubos tambin beneficia a las polticas de
seguridad de los datos de la empresa ya que, es posible dar acceso
a determinados usuarios a todos los datos dejando plena libertad de
actuacin con ellos (definicin de dimensiones y medidas), o bien
por otra parte dar acceso restringido y limitado a usuarios
dependiendo de su perfil y permisos, a unos u otros cubos OLAP
pre-procesados y almacenados.
o Estas estrategias de seguridad, junto con la posibilidad de
almacenamiento de los cubos OLAP, permiten a las compaas
ahorros considerables en hardware y software para el
procesamiento ad-hoc de las consultas OLAP, as como el
establecimiento de polticas de gestin de los datos adecuadas.
o
Mandos Intermedios
Directivos
Comit de direccin
Extraccin
Transformacin
Carga
Extraccin
La extraccin es el proceso de recogida de los datos desde los
sistemas operacionales o transaccionales u otras fuentes externas
de datos.
o El tipo de extraccin est por tanto directamente relacionado con el
tipo de origen desde el que se realice la extraccin.
o Podemos agrupar los mtodos de extraccin en 6 tcnicas:
o
Extraccin
Extraccin
Extraccin
Extraccin
Extraccin
Extraccin
directa
desde el log de la Base de Datos
ejecutada por disparadores (triggers)
asistida por aplicaciones
en un punto del tiempo
por comparacin
Extraccin directa
o DataExchange (Pervasive)
o DataPropagator , Visual Warehouse (IBM)
o DecisionBase (Computer associates)
o DecisionStream (Cognos)
o ActaWorks (Acta Technologies)
o Load Plus (BMC)
o Etc..
Transformacin
El proceso de transformacin convierte los datos extrados
desde los sistemas operacionales y otras fuentes a un
formato y estructura conveniente para la carga en el data
warehouse o el data mart.
o Durante este proceso, es natural que se produzcan datos
(metadatos) que describen tanto el origen como el destino
de los distintos valores despus de la transformaci.
o Este proceso tambin se conoce como mapeado de
campos (mapping).
o Ayudar a resolver las posibles anomalas de los datos en
origen
o Ayudar a producir datos de alta calidad .
o
Carga
o
La carga simple reemplaza todos los datos del destino con los
nuevos datos resultado de la transformacin. Si las tablas de
destino no existen son creadas en este proceso.
Aadir (append)
Etapa 1 -- Viabilidad
Etapa 3 Diseo
Etapa 4 Desarrollo
Especificaciones de programacin
Especificaciones de base de datos
Especificaciones de seguridad, etc...
Parte del diseo para llevar a la practica los distintos procesos
orgnicos descritos en la fase de diseo
En esta fase tambin se incluyen las pruebas del sistema antes
de pasar a produccin
Etapa 5 Implementacin
o
o
o
o
o
Requisitos
Diseo de la Arquitectura tcnica
Seleccin del producto e instalacin
Diseo del modelo dimensional
Diseo fsico
Diseo y desarrollo del proceso de transformacin y carga
Especificaciones de las aplicaciones de anlisis e informes
Desarrollo de las aplicaciones de anlisis e informes
Desarrollo e implementacin
Mantenimiento
Requisitos
o
2.
3.
4.
5.
6.
Diseo fsico
o
cardinalidad.
o ndices en Bitmap en columnas con media y baja cardinalidad.
Diseo
y
desarrollo
transformacin y carga
o
de
los
procesos
de
de
las
aplicaciones
analticas
de
http://www.hermenegildoromero.com
Hermenegildo Romero
hromero@db-team.com