Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ALMACENES DE DATOS
* Transparencias basadas parcialmente en el tutorial DW de Matilde Celma
Temario
1. Introduccin
1.1. Finalidades y Evolucin de los Sistemas de Informacin.
1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin.
1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.
2. Almacenes de Datos
2.1. Introduccin a los Almacenes de Datos.
2.2. Arquitectura de un Sistema de Almacn de Datos.
2.3. Explotacin de un Almacn de Datos: Herramientas OLAP.
2.4. Sistemas ROLAP y MOLAP.
2.5. Carga y Mantenimiento de un Almacn de Datos.
2.6. Diseo de un almacn de Datos.
2.7. Lneas de Investigacin Abiertas.
Objetivos Parte II
Conocer las ventajas y casos donde es aconsejable
recopilar informacin interna y externa en un Almacn de
Datos.
Conocer el modelo multidimensional de los almacenes de
datos y los operadores de refinamiento asociados: drill,
roll, slice & dice, pivot.
Conocer la arquitectura y diferentes implementaciones
(ROLAP, MOLAP) de Almacenes de Datos.
Reconocer pautas para el diseo y mantenimiento de ADs.
3
PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de
informacin originales (killer queries). Se debe hacer
por la noche o en fines de semana.
la base de datos est diseada para el trabajo
transaccional, no para el anlisis de los datos.
Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
(data warehouse)
motivaci
n
disponer de Sistemas de
Informacin de apoyo a la
toma de decisiones*
anlisis de la
organizacin
previsiones de
evolucin
diseo de
estrategias
Sistema Operacional
(OLTP)
BD orientada al
proceso
Sistema de Almacn
de Datos
BD orientada al
anlisis
(DW)
orientada hacia
la informacin*
relevante de la
organizacin
caracterst
icas
integrada
variable en el
tiempo
no voltil
10
Base de Datos
Transaccional
CURSO
...
REUNION
...
PAS
...
GAMA
...
VENTA
...
PROTOTIPO
...
PRODUCTO
...
Informacin
Necesaria
11
AD: Integrado
Fuente de
Datos 1
texto
Base de Datos
Transaccional 1
Fuentes
Internas
Base de Datos
Transaccional 2
Fuente de
Datos 3
HTML
Fuente de
Datos 2
Fuentes
Externas
Almacn
de Datos
12
AD: Variable
en el tiempo
Tiempo
Datos
13
AD: No voltil
Carga
Bases de datos operacionales
INSERT
READ
Almacn de Datos
READ
UPDATE
DELETE
14
rentabilidad de las
inversiones
realizadas para su
creacin
aumento de la
competitividad
en el mercado
aumento de la
productividad de
los tcnicos de
direccin
15
infravaloracin del
esfuerzo necesario para
su diseo y creacin
privacidad de
los datos
infravaloracin de los
recursos necesarios
para la captura, carga
y almacenamiento de
los datos
incremento
continuo de los
requisitos de los
usuarios
16
- el nmero de transacciones es
bajo o medio
17
Herramientas
de consultas e
informes
Base de Datos
Transaccional
Herramientas
EIS
ETL
Fuente de
Datos 1
texto
Almacn
de Datos
Herramientas
OLAP
Fuente de
Datos 3
Copias de
Seguridad
HTML
Fuente de
Datos
Interfaz y
Operadores
Fuentes
Externas
Herramientas de
Minera de
Datos
18
19
20
21
Tiempo
Marca
Descripcin
Semana
Categora
Departamento
Tipo
Da
Trimestre
Ao
importe
unidades
Almacn
Ciudad
Tipo
Regin
Almacn
Nro_producto
Mes
Ve
nt
as
Producto
22
Semana
Descripcin
Categora
Mes
Tipo
Nro_producto
as
Departamento
Da
Tiempo
Marca
Trimestre
Ao
Ve
nt
Producto
Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
importe
unidades
Ciudad
Regin
Tipo
Almacn
Almacn
23
24
Descripcin
Tiempo
hecho
Marca
Semana
Categora
Departamento
Nro_producto
Tipo
Mes
Ve
nt
as
Trimestre
Da
Ao
importe
unidades
dimensin
Almacn
medidas
Ciudad
atributos
Tipo
Regin
Almacn
Producto
25
categora
departamento
Almacn
ciudad
regin
almacn
tipo
Tiempo
da
trimestre
mes
semana
ao
26
tiempo
PERSONAL
equipo
VENTAS
27
LUGAR:
Murcia
Alicante
ciudad Zaragoza
Madrid
Ventas en
miles de
Euros
Barcelona
Valencia
PRODUCTO:
artculo
Jerarqua de dimensiones:
PRODUCTO
Categora
Cola 33cl. 57
Jabn Salitre 93
Tauritn 33cl 22
Gama
Cerveza Kiel 20 cl 5
1 2 3 4 1 2
2005
2004
TIEMPO:
trimestre
Prov.
/
Artculo
LUGAR
TIEMPO
Pas
Ao
Ciudad
Trimestre \
Supermercado
Mes Semana
\
/
Da
|
Hora
28
tiempo
proveedor
VENTAS
lugar
producto
PRODUCCIN
lugar
tiempo
tiempo
equipo
PERSONAL
lugar
proyecto
producto
CAMPAA
Almacn
formado por
4 datamarts.
tiempo
29
subconjunto de un almacn de
datos, generalmente en forma de
estrella o copo de nieve.
30
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una
visin multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de anlisis.
El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema fsico) del almacn de datos.
La herramienta OLAP genera la correspondiente
consulta y la enva al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).
31
Herramientas OLAP
una consulta a un almacn de datos consiste generalmente
en la obtencin de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por
condiciones impuestas sobre las dimensiones
medida
hecho
32
Da de la
semana
Categora
Mes
Departamento
Tipo
Tiempo
Bebidas
Marca
Nro_producto
Ve
nt
as
Producto
Herramientas OLAP
Da
Ao
Trimestre
2002
importe
unidades
Ciudad
Tipo
Regin
Almacn
Almacn
33
Herramientas OLAP
trimestre
categora
importe
E
M
R
O
F
IN
34
Herramientas OLAP
Categora
Trimestre
Ventas
Refrescos
T1
2000000
Refrescos
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Zumos
T1
1000000
Zumos
T2
1500000
Zumos
T3
8000000
Zumos
T4
2400000
Presentacin tabular
(relacional) de los
datos seleccionados
35
Herramientas OLAP
trimestre
categora
Refresco
s
Zumos
T1
T2
2000000 1000000
T3
T4
Presentacin matricial
(multidimensional) de los
datos seleccionados
3000000 2000000
36
Herramientas OLAP
Lo interesante no es poder realizar consultas que, en
cierto modo, se pueden hacer con selecciones,
proyecciones, concatenaciones y agrupamientos
tradicionales.
Lo realmente interesante de las herramientas OLAP
son sus operadores de refinamiento o manipulacin
de consultas.
DRILL
ROLL
SLICE & DICE
PIVOT
37
Herramientas OLAP
El carcter agregado de las consultas en el Anlisis
de Datos, aconseja la definicin de nuevos
operadores que faciliten la agregacin (consolidacin)
y la disgregacin (divisin) de los datos:
agregacin (roll): permite eliminar un criterio de
agrupacin en el anlisis, agregando los grupos
actuales.
disgregacin (drill): permite introducir un nuevo
criterio de agrupacin en el anlisis, disgregando
los grupos actuales.
38
Herramientas OLAP
Si se desea introducir la dimensin Almacn en el anlisis
anterior e incluir un nuevo criterio de agrupacin sobre la
ciudad del almacn:
39
Bebidas
Tiempo
a e
t
i
s Dardemla
e
c
Categora
o
e infsemana
n
Mes
o vo
n
Departamento
o ue Da Ao
i
Nro_producto
r
a en
Tipo
u
s st
u
el ar eimporte
2002
e
unidades
dis
Marca
Ve
nt
as
Producto
Herramientas OLAP
Trimestre
Ciudad
Tipo
Regin
Almacn
Almacn
40
Herramientas OLAP
trimestre
categora
SS )
O
CR udad
A
L (Ci
L
I
DR acn
Alm
In
e
m
r
o
f
d
as
importe
la operacin de DRILL
se realiza sobre el
informe original !
do
a
l
l
ta
41
Herramientas OLAP
Refrescos
Refrescos
Trimestre
Ventas
T1
2000000
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Zumos
T1
1000000
Zumos
T2
1500000
Zumos
T3
8000000
Zumos
T4
2400000
drill-across
Categora
Categora
Trimestre
Ciudad
Ventas
Refrescos
T1
Valencia
1000000
Refrescos
Len
1000000
Refrescos
T1
T2
Valencia
400000
Refrescos
T2
Len
700000
42
Herramientas OLAP
n
Le
Refrescos
Zumos
cia
n
e
l
Va
300000
500000
200000
2000000
1000000
400000
100000
500000
T1
T2
T3
T4
Presentacin matricial de
los datos seleccionados.
43
Herramientas OLAP
44
Bebidas
Tiempo
a e
t
i
s Dardemla
e
c
Categora
o
e infsemana
n
Mes
o vo
n
Departamento
o ue Da Ao
i
Nro_producto
r
a en
Tipo
u
s st
u
el ar eimporte
2002
e
unidades
dis
Marca
Ve
nt
as
Producto
Herramientas OLAP
Trimestre
Ciudad
Tipo
Regin
Almacn
Almacn
45
Herramientas OLAP
trimestre
categora
importe
SS )
O
CR estre
A
LL (Trim
O
R po
m
Tie
or
f
n
I
as
m
e
ad
g
e
r
ag
la operacin de ROLL
se realiza sobre el
informe original !
46
Herramientas OLAP
Trimestre
Ventas
Refrescos
T1
2000000
Refrescos
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Zumos
T1
1000000
Zumos
T2
1500000
Zumos
T3
8000000
Zumos
T4
2400000
roll-across
Categora
Categora
Ventas
Refrescos 8000000
Zumos
12900000
47
Herramientas OLAP
Las operaciones de agregacin (DRILL) y disgregacin (ROLL)
se pueden hacer sobre:
atributos de una dimensin sobre los que se ha definido
una jerarqua: DRILL-DOWN, ROLL-UP
departamento categora - producto (Producto)
ao - trimestre mes - da (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto Almacn -Tiempo
48
Herramientas OLAP
trimestre
categora
importe
WN )
O
D
es
L
m
L
I
(
DR mpo
Tie
en
s
ta ento y
n
ve tam ora
e
l d epar ateg
a
t
to el d or c
e
t
or o, d s, p
p
Im te a bida
es Be
de s
me
la operacin de DRILL
se realiza sobre el
informe original !
49
Herramientas OLAP
Trimestre
Ventas
T1
2000000
Refrescos
T2
1000000
Refrescos
T3
3000000
Refrescos
T4
2000000
Zumos
T1
1000000
Zumos
T2
1500000
Zumos
T3
8000000
Zumos
T4
2400000
Refrescos
drill-dow n
Categora
Categora
Trimestre
Refrescos
T1
Enero
1000000
Refrescos
T1
T1
Febrero
500000
Marzo
500000
Refrescos
Mes
Ventas
50
Herramientas OLAP
Herramientas OLAP
Ventas
Ventas
$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Store 1
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
PIVOT
Store 2
Q2
Q1
Productos
Q1
Q2
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
$5,2
$1,9
$2,3
$1,1
$5,6
$1,4
$2,6
$1,1
$8,9
$0,75
$4,6
$1,5
$7,2
$0,4
$4,6
$0,5
52
Herramientas OLAP
Ventas
Ventas
$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Productos Store1
Q1
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
$5,2
$1,9
Q2
Q2
Q1
Electronics
Toys
$8,9
$0,75
SLICE
& DICE
53
Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
ofrecer una visin multidimensional de los datos (matricial).
no imponer restricciones sobre el nmero de dimensiones.
ofrecer simetra para las dimensiones.
permitir definir de forma flexible (sin limitaciones) sobre las
dimensiones: restricciones, agregaciones y jerarquas entre
ellas.
ofrecer operadores intuitivos de manipulacin: drill-down, rollup, slice-and-dice, pivot.
ser transparentes al tipo de tecnologa que soporta el almacn
de datos (ROLAP o MOLAP).
54
ROLAP y MOLAP
El Almacn de Datos y las herramientas OLAP se
pueden basar fsicamente en varias organizaciones:
Sistemas ROLAP
se implementan sobre tecnologa relacional, pero
disponen de algunas facilidades para mejorar el
rendimiento (ndices de mapas de bits, ndices de JOIN).
Sistemas MOLAP
disponen de estructuras de almacenamiento especficas
(arrays) y tcnicas de compactacin de datos que
favorecen el rendimiento del almacn.
Sistemas HOLAP
sistemas hbridos entre ambos.
55
ROLAP y MOLAP
Sistemas ROLAP:
El almacn de datos se construye sobre un
SGBD Relacional.
Los fabricantes de SGBD relacionales
ofrecen extensiones y herramientas para
poder utilizar el SGBDR como un Sistema
Gestor de Almacenes de Datos.
56
ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales:
ndices de mapa de bits
ndices de JOIN
tcnicas de particionamiento de los datos
optimizadores de consultas
extensiones del SQL (operador CUBE, roll-up)
57
ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propsito especfico:
estructuras de datos (arrays)
tcnicas de compactacin.
El objetivo de los sistemas MOLAP es almacenar fsicamente
los datos en estructuras multidimensionales de forma que la
representacin externa y la representacin interna coincidan.
58
ROLAP y MOLAP
Estructuras
multidimensionales
El servidor MOLAP
construye y almacena datos
en estructuras
multidimensionales.
La herramienta de OLAP
presenta estas estructuras
multidimensionales.
Herramienta
OLAP
Servidor
MOLAP
Warehouse
59
ROLAP y MOLAP
MOLAP:
Datos
Estructuras
multidimensionales
Herramienta
OLAP
Arrays
Extrados del almacn de datos
almacenamiento y procesos
eficientes
Servidor
MOLAP
la complejidad de la BD se
oculta a los usuarios
el anlisis se hace sobre datos
agregados y mtricas o
indicadores precalculados.
Warehouse
60
ROLAP y MOLAP
ROLAP
MOLAP
Herramienta
OLAP
Herramienta
OLAP
Servidor
Relacional
Warehouse
Servidor
Servidor
Multidimensional
Cliente
Desktop
61
ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
pueden aprovechar la tecnologa relacional.
pueden utilizarse sistemas relacionales genricos
(ms baratos o incluso gratuitos).
el diseo lgico corresponde al fsico si se utiliza el
diseo de Kimball.
MOLAP:
generalmente ms eficientes que los ROLAP.
el coste de los cambios en la visin de los datos.
la construccin de las estructuras multidimensionales.
62
63
Correspondencia
Extraccin
Bases de datos
operacionales
Fuentes
Externas
Transporte
Transformacin
Almacenamiento
intermedio
Almacn de
datos
Extraccin
Transporte
Transformacin
Carga
Identificacin de los
datos que han cambiado
Indizacin
Limpieza y transformacin
de datos
Obtencin de datos
agregados.
Obtencin de agregados
Integracin de datos
(clculo de datos derivados)
Mantenimiento de
metadata
Realizacin de pruebas
de calidad de la carga.
Creacin de claves
Gestin de errores.
Obtencin de agregados
Mantenimiento de
metadata
Extraccin (lectura) de
datos.
Mantenimiento de
metadata
65
66
Extraccin
Bases de datos
operacionales
Almacenamiento
intermedio
Almacn de
datos
67
Identificacin de Cambios.
Identificar los datos operacionales (relevantes) que han sufrido
una modificacin desde la fecha del ltimo mantenimiento.
Mtodos
Carga total: cada vez se empieza de cero.
Comparacin de instancias de la base de datos operacional.
Uso de marcas de tiempo (time stamping) en los registros del
sistema operacional.
Uso de disparadores en el sistema operacional.
Uso del fichero de log (gestin de transacciones) del sistema
operacional.
Uso de tcnicas mixtas.
69
Transformacin
Bases de datos
operacionales
Almacenamiento
intermedio
Almacn de
datos
12M65431
12
65431
12
65431
12-m-65421
12-m-65421
12
65421
12
65421
12m65421
12m65421
12
65421
12m65421
12m65421
12M65431
12M65431
cdigo zona de
del pas ventas
nmero de
producto
cdigo de
vendedor
72
v, h
varn, hembra
73
74
ACME Inc
ACME Inc
ACME Inc
ACME Inc
75
Departamento
10
20
30
40
Emp
1099
1289
1234
6786
Nombre
Smith
Jones
Doe
Harris
Departamento
10
20
50
60
76
Venta
1/2/98
$10.00
#2
Venta
1/2/98
$15.00
#3
Venta
1/2/98
$12.00
#4
Devolucin 1/2/98
- $12.00
#5
Venta
$11.00
1/2/98
1/2/98
$10.00
#dw2 Venta
1/2/98
$15.00
#dw3 Venta
1/2/98
77
78
Base de datos
operacional
T1
T2
T3
79
Base de datos
operacional
Almacn
de datos80
Extraccin
Base de datos
operacional
Transporte
Almacenamiento
intermedio
Almacn de
datos
81
Diseo conceptual
Diseo lgico especfico
Diseo fsico
Implementacin
82
Diseo conceptual
Diseo lgico
Diseo fsico
Implementacin
Anlisis
Discernimiento de las
fuentes necesarias
del sistema de
informacin de la
organizacin (OLTP)
y externas
Requisitos de
usuario
(consultas de
anlisis
necesarias,
nivel de
agregacin, )
Diseo
Conceptual
p.ej. Entidad-Relacin
83
Diseo
Lgico
Diseo conceptual
Diseo lgico
Diseo fsico
Implementacin
Modelado
multidimensional (MR)
Esquemas
estrella
84
Diseo conceptual
Diseo lgico
Diseo
Fsico
Diseo fsico
Diseo del ETL
Implementacin
85
Implementacin
Diseo conceptual
Diseo lgico
Diseo fsico
Implementacin
Preparacin de las
vistas de usuario
(herramienta OLAP)
86
Diseo conceptual
Diseo lgico
Diseo fsico
Implementacin
87
89
90
91
92
Actividad: Ventas.
La actividad a modelar son las ventas de productos
en los almacenes de la cadena.
93
94
tabla
Dimensin 1
tabla de
hechos
m1
i
D
id_dim1
m3
i
D
tabla
Dimensin 3
id_dim2
id_dim3
tabla
Dimensin 2
m2
i
D
...
id_dim n
mn
i
D
tabla
Dimensin n
....
(hechos)
95
pro
c
du
to
producto
p
i em
da
almacn
ac
m
l
a
ventas
96
97
c
du
to
producto
p
i em
da
almacn
n
c
a
alm
ventas
tabla de id_producto
hechos id_fecha
id_almacn
.....
.....
......
98
99
rib
t
(a
)
s
o
ut
100
dimensiones
bsicas
producto
establecimiento
101
102
jerarqua natural:
da - mes - trimestre -ao
103
104
Establecimiento
Producto
id_fecha
id_establec
id_producto
da
nro_establec
nro_producto
semana
nombre
descripcin
mes
direccin
marca
ao
distrito
subcategora
da_semana
ciudad
categora
da_mes
pas
departamento
trimestre
tlfno
peso
festivo
fax
unidades_peso
....
superficie
tipo_envase
tipo_almacn
diettico
...
...
106
Establecimiento
id_fecha
id_establec
da
Producto
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
nro_establec
semana
nombre
mes
direccin
ao
distrito
da_semana
ciudad
da_mes
pas
trimestre
festivo
....
Ventas
id_fecha
id_producto
id_establec
...
tlfno
fax
superficie
tipo_almacn
...
...
...
107
108
109
Establecimiento
id_fecha
id_establec
da
Producto
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
nro_establec
semana
nombre
mes
direccin
ao
distrito
da_semana
ciudad
da_mes
pas
trimestre
festivo
....
Ventas
id_fecha
id_producto
id_establec
importe
tlfno
fax
superficie
tipo_almacn
...
unidades
nro_clientes
110
111
112
Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
113
114
115
117
Gardner, S.R.
Building the data warehouse.
Communications of the ACM 41(9), pp. 52-60, 1998.
118
119
120
121
122