Está en la página 1de 114

Introduccin a los Almacenes de Datos

OBJETIVO:
Anlisis de Datos para el Soporte en
la Toma de Decisiones.
Generalmente, la informacin que se quiere
investigar sobre un cierto dominio de la organizacin
se encuentra en bases de datos y otras fuentes
muy diversas, tanto internas como externas.
Muchas de estas fuentes son las que se utilizan
para el trabajo diario (bases de datos
operacionales).
1

Introduccin a los Almacenes de Datos


Sobre estas mismas bases de datos de trabajo ya se puede
extraer conocimiento (visin tradicional).
Uso de la base de datos transaccional para varios cometidos:
Se mantiene el trabajo transaccional diario de los sistemas de
informacin originales (conocido como OLTP, On-Line
Transactional Processing).

Se hace anlisis de los datos en tiempo real sobre la misma base de


datos (conocido como OLAP, On-Line Analytical Processing).

Introduccin a los Almacenes de Datos


Uso de la base de datos transaccional para varios cometidos:

PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de
informacin originales (killer queries). Se debe hacer
por la noche o en fines de semana.
la base de datos est diseada para el trabajo
transaccional, no para el anlisis de los datos.
Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
3

Introduccin a los Almacenes de Datos


Se desea operar eficientemente con esos datos...
los costes de almacenamiento masivo y conectividad se han
reducido drsticamente en los ltimos aos,

parece razonable recoger los datos (informacin


histrica) en un sistema separado y especfico.
NACE EL DATA-WAREHOUSING
Data warehouses (Almacenes o Bodegas de Datos)

Introduccin a los Almacenes de Datos


Almacenes de Datos (AD)

(data warehouse)

motivacin

disponer de Sistemas de
Informacin de apoyo a la
toma de decisiones*

disponer de bases de datos que permitan extraer conocimiento de


la informacin histrica almacenada en la organizacin
objetivos

anlisis de la
organizacin

previsiones de
evolucin

* DSS: Decision Support Systems

diseo de
estrategias
5

Introduccin a los Almacenes de Datos


Almacenes de datos
Base de Datos diseada con un objetivo de
explotacin distinto que el de las bases de
datos de los sistemas operacionales.

Sistema Operacional
(OLTP)

BD orientada al
proceso

Sistema de Almacn
de Datos

BD orientada al
anlisis

(DW)
6

Introduccin a los Almacenes de Datos


Almacenes de Datos
definicin

coleccin de datos diseada


para dar apoyo a los procesos
de toma de decisiones
caractersticas

orientada hacia
la informacin*
relevante de la
organizacin

integrada

* subject oriented, not process oriented

variable en el
tiempo

no voltil

Introduccin a los Almacenes de Datos


Un almacn de datos es una coleccin de datos:
orientada a un dominio
integrada
no voltil
variante en el tiempo
para ayudar en la toma de decisiones [Immon 1992, 1996]

Introduccin a los Almacenes de Datos


AD: Orientado hacia la
informacin relevante
de la organizacin

se disea para consultar eficientemente


informacin relativa a las actividades
(ventas, compras, produccin, ...) bsicas
de la organizacin, no para soportar los
procesos que se realizan en ella (gestin
de pedidos, facturacin, etc).

Base de Datos
Transaccional
CURSO
...
REUNION
...

PAS
...

GAMA
...

VENTA
...
PROTOTIPO
...

PRODUCTO
...

Informacin
Necesaria

Introduccin a los Almacenes de Datos


integra datos recogidos de
diferentes sistemas operacionales
de la organizacin (y/o fuentes
externas).

AD: Integrado

Fuente de
Datos 1
texto

Fuente de
Datos 3
HTML

Fuente de
Datos 2

Base de Datos
Transaccional 1
Fuentes
Internas
Base de Datos
Transaccional 2

Fuentes
Externas

Almacn
de Datos

10

Introduccin a los Almacenes de Datos


los datos son relativos a un periodo de
tiempo y deben ser incrementados
peridicamente.

AD: Variable
en el tiempo

Los datos son almacenados como fotos (snapshots)


correspondientes a periodos de tiempo.

Tiempo

Datos

01/2003 Datos de Enero


02/2003 Datos de Febrero
03/2003 Datos de Marzo
11

Introduccin a los Almacenes de Datos


los datos almacenados no son
actualizados, slo son incrementados.

AD: No voltil

Carga
Bases de datos operacionales

INSERT

READ

Almacn de Datos

READ

UPDATE
DELETE

El periodo de tiempo cubierto por un AD vara


entre 2 y 10 aos.
12

Introduccin a los Almacenes de Datos


Almacenes de Datos
ventajas para las
organizaciones

rentabilidad de las
inversiones
realizadas para su
creacin

aumento de la
competitividad
en el mercado

aumento de la
productividad de
los tcnicos de
direccin

13

Introduccin a los Almacenes de Datos


Almacenes de Datos
problemas

privacidad de
los datos
infravaloracin del
esfuerzo necesario para
su diseo y creacin

infravaloracin de los
recursos necesarios
para la captura, carga
y almacenamiento de
los datos

incremento
continuo de los
requisitos de los
usuarios

14

Introduccin a los Almacenes de Datos


Sistema Operacional (OLTP)

Almacn de datos (DW)

- almacena datos actuales

- almacena datos histricos

- almacena datos de detalle

- almacena datos de detalle


y datos agregados a distintos niveles

-bases de datos medianas


(100Mb-1Gb)

- bases de datos grandes


(100Gb-1Tb)

- los datos son dinmicos (actualizables)

- los datos son estticos

- los procesos (transacciones) son repetitivos

- los procesos no son previsibles

- el nmero de transacciones es elevado

- el nmero de transacciones es
bajo o medio

- tiempo de respuesta pequeo (segundos)

- tiempo de respuesta variable


(segundos-horas)

- dedicado al procesamiento de transacciones

- dedicado al anlisis de datos

- orientado a los procesos de la organizacin

- orientado a la informacin relevante

- soporta decisiones diarias

- soporta decisiones estratgicas

- sirve a muchos usuarios (administrativos)

- sirve a tcnicos de direccin


15

Arquitectura de un Almacn de Datos


La Arquitectura de un AD viene determinada por su
situacin central como fuente de informacin para
las herramientas de anlisis.
Fuentes
Internas

Herramientas
de consultas e
informes

Base de Datos
Transaccional
Herramientas
EIS

ETL

Almacn
de Datos

Fuente de
Datos 1

Herramientas
OLAP

texto

Fuente de
Datos 3
Copias de
Seguridad

HTML

Fuente de
Datos

Interfaz y
Operadores

Fuentes
Externas

Herramientas de
Minera de
Datos

16

Arquitectura de un Almacn de Datos


Componentes:
Sistema ETL (Extraction, Transformation, Load): realiza las
funciones de extraccin de las fuentes de datos
(transaccionales o externas), transformacin (limpieza,
consolidacin, ...) y la carga del AD, realizando:

extraccin de los datos.


filtrado de los datos: limpieza, consolidacin, etc.
carga inicial del almacn: ordenacin, agregaciones, etc.
refresco del almacn: operacin peridica que propaga los
cambios de las fuentes externas al almacn de datos

Repositorio Propio de Datos: informacin relevante, metadatos.


Interfaces y Gestores de Consulta: permiten acceder a los
datos ys sobre ellos se conectan herramientas ms
sofisticadas (OLAP, EIS, minera de datos).
Sistemas de Integridad y Seguridad: se encargan de un
17
mantenimiento global, copias de seguridad, ...

Arquitectura de un Almacn de Datos


Organizacin (Externa) de Los Datos
Las herramientas de explotacin de los
almacenes de datos han adoptado un
modelo multidimensional de datos.

Se ofrece al usuario una visin multidimensional


de los datos que son objeto de anlisis.

18

Arquitectura de un Almacn de Datos


EJEMPLO
Organizacin: Cadena de supermercados.
Actividad objeto de anlisis: ventas de productos.
Informacin registrada sobre una venta: del producto Tauritn
33cl se han vendido en el almacn Almacn nro.1 el da 17/7/2003, 5
unidades por un importe de 103,19 euros.

Para hacer el anlisis no interesa la venta individual (ticket)


realizada a un cliente sino las ventas diarias de productos en
los distintos almacenes de la cadena.
19

Arquitectura de un Almacn de Datos

Marca
Descripcin

Semana

Categora
Departamento

Mes

Nro_producto

Trimestre

Da
Ao

Tipo

importe
unidades
Almacn
Ciudad

Tipo

Regin

20

Arquitectura de un Almacn de Datos


Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
Marca
Semana

Descripcin
Categora

Mes

Departamento

Trimestre

Da

Nro_producto

Ao

Tipo

importe
unidades
Almacn

Actividad que es objeto de


anlisis con los indicadores
que interesa analizar

Ciudad

Tipo

Regin

21

Arquitectura de un Almacn de Datos


Modelo multidimensional:
 en un esquema multidimensional se representa una actividad
que es objeto de anlisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).
la informacin relevante sobre el hecho (actividad) se
representa por un conjunto de indicadores (medidas o atributos de
hecho).
la informacin descriptiva de cada dimensin se representa por
un conjunto de atributos (atributos de dimensin).

22

Arquitectura de un Almacn de Datos

hecho

Marca
Descripcin

Semana

Categora
Departamento

Mes

Nro_producto

Trimestre

Da
Ao

Tipo

importe
unidades

dimensin

Almacn

medidas

Ciudad
Tipo

atributos

Regin

23

Arquitectura de un Almacn de Datos


Entre los atributos de una dimensin se definen jerarquas
Producto
nro. producto

categora

departamento

Almacn
ciudad

regin

almacn
tipo

Tiempo
da

trimestre

mes
semana

ao

24

Arquitectura de un Almacn de Datos


Este esquema multidimensional recibe varios nombres:

estrella: si la jerarqua de dimensiones es lineal


proyecto

tiempo

PERSONAL
equipo

estrella jerrquica o copo de nieve: si la jerarqua no es lineal.


tiempo
producto
lugar

VENTAS

25

Arquitectura de un Almacn de Datos


Se pueden obtener hechos a diferentes niveles de
agregacin:
obtencin de medidas sobre los hechos parametrizadas por
atributos de las dimensiones y restringidas por condiciones
impuestas sobre las dimensiones
HECHO: El primer
trimestre de 2004 la
empresa vendi en
Valencia por un importe
de 22.000 euros del
producto tauritn 33 cl.

LUGAR:
Murcia
Alicante
ciudad Zaragoza

Ventas en
miles de
Euros

Madrid
Barcelona
Valencia

PRODUCTO:
artculo

Zumo Pia 1l. 17

Jerarqua de dimensiones:
PRODUCTO
Categora

Cola 33cl. 57

Jabn Salitre 93

Gama

Tauritn 33cl 22
Cerveza Kiel 20 cl 5

Leche Entera Cabra 1l 12

1 2 3 4 1 2
2005
2004

Prov.
/

Artculo

LUGAR

TIEMPO

Pas

Ao

Ciudad

Trimestre \

|
Supermercado

Mes Semana
\

TIEMPO:
trimestre

Da
|
Hora

Un nivel de agregacin para un conjunto de


dimensiones se denomina cubo.

26

Arquitectura de un Almacn de Datos


Se puede recopilar toda la informacin necesaria en
un nico esquema estrella o copo de nieve?
NO : necesidad de varios esquemas.
Cada uno de estos esquemas se denomina datamart.
producto

proveedor

producto

tiempo

VENTAS

lugar

PRODUCCIN

lugar

tiempo

tiempo
lugar
equipo

PERSONAL

Almacn
formado por
4 datamarts.

proyecto
tiempo
producto

CAMPAA

27

Arquitectura de un Almacn de Datos


El almacn de datos puede estar formado por varios
datamarts y, opcionalmente, por tablas adicionales.
Data mart

subconjunto de un almacn de
datos, generalmente en forma de
estrella o copo de nieve.

 se definen para satisfacer las necesidades


de un departamento o seccin de la
organizacin.
 contiene menos informacin de detalle y
ms informacin agregada.
28

Herramientas OLAP
 Las herramientas de OLAP presentan al usuario una
visin multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de anlisis.
 El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema fsico) del almacn de datos.
 La herramienta OLAP genera la correspondiente
consulta y la enva al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).
29

Herramientas OLAP
una consulta a un almacn de datos consiste generalmente
en la obtencin de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por
condiciones impuestas sobre las dimensiones
medida

hecho

Importe total de las ventas durante este ao de los productos


del departamento Bebidas, por trimestre y por categora ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao
Parmetros de la consulta: por categora de producto y por trimestre
30

Herramientas OLAP
Bebidas

Marca

Da de la
semana

Categora

Mes
Departamento
Da

Nro_producto

Ao

Trimestre

Tipo

2002

importe
unidades

Almacn

Importe total de ventas en


este ao, del departamento
de Bebidas, por categora y
trimestre

Ciudad

Tipo

Regin

31

Herramientas OLAP
trimestre

categora

importe

32

Herramientas OLAP
Categora

Trimestre

Ventas

Refrescos

T1

2000000

Refrescos

T2

1000000

Refrescos

T3

3000000

Refrescos

T4

2000000

Zumos

T1

1000000

Zumos

T2

1500000

Zumos

T3

8000000

Zumos

T4

2400000

Presentacin tabular
(relacional) de los
datos seleccionados

Se asumen dos categoras en


el departamento de Bebidas:
Refrescos y Zumos.
33

Herramientas OLAP
trimestre
categora

T1

T2

Refrescos 2000000 1000000


Zumos

T3

T4

Presentacin matricial
(multidimensional) de los
datos seleccionados

3000000 2000000

1000000 1500000 8000000 2400000

Los parmetros de la consulta (por trimestre y por categora)


determinan los criterios de agrupacin de los datos seleccionados
(ventas de productos del departamento Bebidas durante este ao).
La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).
34

Herramientas OLAP
Lo interesante no es poder realizar consultas que, en
cierto modo, se pueden hacer con selecciones,
proyecciones, concatenaciones y agrupamientos
tradicionales.
Lo realmente interesante de las herramientas OLAP
son sus operadores de refinamiento o manipulacin
de consultas.
DRILL
ROLL
SLICE & DICE
PIVOT

35

Herramientas OLAP
El carcter agregado de las consultas en el Anlisis
de Datos, aconseja la definicin de nuevos
operadores que faciliten la agregacin (consolidacin)
y la disgregacin (divisin) de los datos:
 agregacin (roll): permite eliminar un criterio de
agrupacin en el anlisis, agregando los grupos
actuales.
 disgregacin (drill): permite introducir un nuevo
criterio de agrupacin en el anlisis, disgregando
los grupos actuales.

36

Herramientas OLAP
Si se desea introducir la dimensin Almacn en el anlisis
anterior e incluir un nuevo criterio de agrupacin sobre la
ciudad del almacn:

Importe total de las ventas durante este ao de los


productos del departamento Bebidas, por trimestre, por
categoras y por ciudad del almacn ?.

Restricciones: productos del departamento Bebidas, ventas durante este ao


Parmetros de la consulta: por categora de producto, por trimestre y por
ciudad del almacn.
37

Herramientas OLAP
Bebidas

Marca

Da de la
semana

Categora

Mes
Departamento
Da

Nro_producto

Ao

Trimestre

Tipo

2002

importe
unidades

Almacn

Importe total de ventas en


este ao, del departamento
de Bebidas, por categora,
trimestre y ciudad

Ciudad

Tipo

Regin

38

Herramientas OLAP
trimestre

categora

importe

la operacin de DRILL
se realiza sobre el
informe original !

39

Herramientas OLAP
Categora

Refrescos
Refrescos

Trimestre

Ventas

T1

2000000

T2

1000000

Refrescos

T3

3000000

Refrescos

T4

2000000

Zumos

T1

1000000

Zumos

T2

1500000

Zumos

T3

8000000

Zumos

T4

2400000

Categora

Trimestre

Ciudad

Ventas

Refrescos

T1

Valencia

1000000

Refrescos

Len

1000000

Refrescos

T1
T2

Valencia

400000

Refrescos

T2

Len

700000

Cada grupo (categora-trimestre) de la


consulta original se disgrega en dos
nuevos grupos (categora-trimestreciudad) para las ciudades de Len y
Valencia.

* Se asumen dos ciudades: Valencia y Len.


40

Zumos

Herramientas OLAP

300000

500000

200000

2000000

1000000

400000

100000

500000

T1

T2

T3

T4

Presentacin matricial de
los datos seleccionados.
41

Herramientas OLAP

Si se desea eliminar el criterio de agrupacin sobre la


dimensin Tiempo en la consulta original:

Importe total de las ventas durante este ao de los


productos del departamento Bebidas, por categoras ?

42

Herramientas OLAP
Bebidas

Marca

Da de la
semana

Categora

Mes
Departamento
Da

Nro_producto

Ao

Trimestre

Tipo

2002

importe
unidades

Almacn

Importe total de ventas en


este ao, del departamento
de Bebidas, por categoras

Ciudad

Tipo

Regin

43

Herramientas OLAP
trimestre

categora

importe

la operacin de ROLL
se realiza sobre el
informe original !

44

Herramientas OLAP
Categora

Trimestre

Ventas

Refrescos

T1

2000000

Refrescos

T2

1000000

Refrescos

T3

3000000

Refrescos

T4

2000000

Zumos

T1

1000000

Zumos

T2

1500000

Zumos

T3

8000000

Zumos

T4

2400000

Categora

Ventas

Refrescos 8000000
Zumos

12900000

45

Herramientas OLAP
Las operaciones de agregacin (DRILL) y disgregacin (ROLL)
se pueden hacer sobre:
atributos de una dimensin sobre los que se ha definido
una jerarqua: DRILL-DOWN, ROLL-UP
departamento categora - producto (Producto)
ao - trimestre mes - da (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto Almacn -Tiempo

46

Herramientas OLAP
trimestre

categora

importe

la operacin de DRILL
se realiza sobre el
informe original !

47

Herramientas OLAP
Categora

Refrescos

Trimestre

Ventas

T1

2000000

Refrescos

T2

1000000

Refrescos

T3

3000000

Refrescos

T4

2000000

Zumos

T1

1000000

Zumos

T2

1500000

Zumos

T3

8000000

Zumos

T4

2400000

Categora

Trimestre

Refrescos

T1

Enero

1000000

Refrescos

T1
T1

Febrero

500000

Marzo

500000

Refrescos

Mes

Ventas

Cada grupo (categora-trimestre) de la


consulta original se disgrega en dos
nuevos grupos (categora-trimestre-mes).

48

Herramientas OLAP

Otras operaciones de OLAP:

 SLICE & DICE: seleccionar y proyectar


datos en el informe.

 PIVOT: reorientacin de las dimensiones


en el informe.
49

Herramientas OLAP

Ventas

Ventas
$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5

$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5

Store 1

Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics

PIVOT

Store 2

Q2

Q1

Productos Store1 Store2

Productos

Q1

Q2

Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics

$5,2
$1,9
$2,3
$1,1
$5,6
$1,4
$2,6
$1,1

$8,9
$0,75
$4,6
$1,5
$7,2
$0,4
$4,6
$0,5

50

Herramientas OLAP

Ventas
Ventas

$5,2
$1,9
$2,3
$1,1
$8,9
$0,75
$4,6
$1,5

$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5

Productos Store1
Q1

Electronics
Toys
Clothing
Cosmetics
Electronics
Toys
Clothing
Cosmetics

Electronics
Toys

$5,2
$1,9

Q2

Q2

Q1

Productos Store1 Store2

Electronics
Toys

$8,9
$0,75

SLICE
& DICE
51

Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
 ofrecer una visin multidimensional de los datos (matricial).
 no imponer restricciones sobre el nmero de dimensiones.
 ofrecer simetra para las dimensiones.
 permitir definir de forma flexible (sin limitaciones) sobre las
dimensiones: restricciones, agregaciones y jerarquas entre
ellas.
 ofrecer operadores intuitivos de manipulacin: drill-down, rollup, slice-and-dice, pivot.
 ser transparentes al tipo de tecnologa que soporta el almacn
de datos (ROLAP o MOLAP).

*Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.

52

ROLAP y MOLAP
El Almacn de Datos y las herramientas OLAP se
pueden basar fsicamente en varias organizaciones:
Sistemas ROLAP
 se implementan sobre tecnologa relacional, pero
disponen de algunas facilidades para mejorar el
rendimiento (ndices de mapas de bits, ndices de JOIN).

Sistemas MOLAP
 disponen de estructuras de almacenamiento especficas
(arrays) y tcnicas de compactacin de datos que
favorecen el rendimiento del almacn.

Sistemas HOLAP
 sistemas hbridos entre ambos.

53

ROLAP y MOLAP
Sistemas ROLAP:
 El almacn de datos se construye sobre un
SGBD Relacional.
 Los fabricantes de SGBD relacionales
ofrecen extensiones y herramientas para
poder utilizar el SGBDR como un Sistema
Gestor de Almacenes de Datos.
54

ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales:
 ndices de mapa de bits
 ndices de JOIN
 tcnicas de particionamiento de los datos
 optimizadores de consultas
 extensiones del SQL (operador CUBE, roll-up)
55

ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propsito especfico:
 estructuras de datos (arrays)
 tcnicas de compactacin.
El objetivo de los sistemas MOLAP es almacenar fsicamente
los datos en estructuras multidimensionales de forma que la
representacin externa y la representacin interna coincidan.

56

ROLAP y MOLAP
Estructuras
multidimensionales

El servidor MOLAP
construye y almacena datos
en estructuras
multidimensionales.
La herramienta de OLAP
presenta estas estructuras
multidimensionales.

Herramienta
OLAP

Servidor
MOLAP

Warehouse
57

ROLAP y MOLAP
MOLAP:
Datos

Estructuras
multidimensionales

Herramienta
OLAP

Arrays
Extrados del almacn de datos

almacenamiento y procesos
eficientes

Servidor
MOLAP

la complejidad de la BD se
oculta a los usuarios
el anlisis se hace sobre datos
agregados y mtricas o
indicadores precalculados.

Warehouse
58

ROLAP y MOLAP
ROLAP

MOLAP

Desktop
Herramienta
OLAP
Servidor
Multidimensional

Herramienta
OLAP
Servidor
Relacional

Warehouse
59

ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
 pueden aprovechar la tecnologa relacional.
 pueden utilizarse sistemas relacionales genricos
(ms baratos o incluso gratuitos).
 el diseo lgico corresponde al fsico si se utiliza el
diseo de Kimball.

MOLAP:
 generalmente ms eficientes que los ROLAP.
 el coste de los cambios en la visin de los datos.
 la construccin de las estructuras multidimensionales.

60

Carga y Mantenimiento de un A.D.


El sistema encargado del mantenimiento del almacn de datos es
el Sistema E.T.L. (Extraccin - Transformacin -Carga)
La construccin del Sistema E.T.L es responsabilidad del equipo
de desarrollo del almacn de datos.
El Sistema E.T.L es construido especficamente para cada
almacn de datos. Aproximadamente 50% del esfuerzo.
En la construccin del E.T.L se pueden utilizar herramientas del
mercado o programas diseados especficamente.

Funciones del Sistema E.T.L:


Carga inicial. (initial load)
Mantenimiento o refresco peridico: inmediato, diario, semanal,
mensual,... (refreshment)
61

Carga y Mantenimiento de un A.D.


E.T.L.
Correspondencia

Extraccin

Bases de datos
operacionales
Fuentes
Externas

Carga

Transformacin

Almacenamiento
intermedio

Almacn de
datos

El Almacenamiento intermedio permite:


Realizar transformaciones sin paralizar las bases de
datos operacionales y el almacn de datos.
Almacenar metadatos.
62
Facilitar la integracin de fuentes externas.

Carga y Mantenimiento de un A.D.


E.T.L.
Correspondencia

Extraccin

Carga

Transformacin

Carga

Identificacin de los
datos que han cambiado

 Indizacin
Limpieza y transformacin
de datos

Obtencin de datos
agregados.

Obtencin de agregados

Integracin de datos
(clculo de datos derivados)

Mantenimiento de
metadata

 Realizacin de pruebas
de calidad de la carga.

Creacin de claves

Gestin de errores.

Obtencin de agregados

Mantenimiento de
metadata

Extraccin (lectura) de
datos.

Mantenimiento de
metadata

63

Carga y Mantenimiento de un A.D.


La calidad de los datos es la clave del
xito de un almacn de datos.
Definir una estrategia de calidad:
actuacin sobre los sistemas operacionales: modificar
las reglas de integridad, los disparadores y las
aplicaciones de los sistemas operacionales.
documentacin de las fuentes de datos.
definicin de un proceso de transformacin.
nombramiento de un responsable de calidad del sistema
(Data Quality Manager).

64

Carga y Mantenimiento de un A.D.


Extraccin.
Correspondencia

Extraccin

Bases de datos
operacionales

Almacenamiento
intermedio

Almacn de
datos

Programas diseados para extraer los datos de las fuentes.


Herramientas: data migration tools, wrappers, ...
65

Carga y Mantenimiento de un A.D.


Extraccin: lectura de datos del sistema operacional.
a) durante la carga inicial .
b) mantenimiento del AD
Ejecucin de la extraccin:
a) si los datos operacionales estn mantenidos en un SGBDR, la
extraccin de datos se puede reducir a consultas en SQL o
rutinas programadas.
b) si los datos operacionales estn en un sistema propietario
(no se conoce el formato de los datos) o en fuentes externas
textuales, hipertextuales u hojas de clculo, la extraccin puede
ser muy difcil y puede tener que realizarse a partir de informes
o volcados de datos proporcionados por los propietarios que
debern ser procesados posteriormente.
66

Carga y Mantenimiento de un A.D.


Extraccin:

en el mantenimiento/refresco del AD. Antes de


realizar la extraccin es preciso Identificar los Cambios.

Identificacin de Cambios.
Identificar los datos operacionales (relevantes) que han sufrido
una modificacin desde la fecha del ltimo mantenimiento.
Mtodos
Carga total: cada vez se empieza de cero.
Comparacin de instancias de la base de datos operacional.
Uso de marcas de tiempo (time stamping) en los registros del
sistema operacional.
Uso de disparadores en el sistema operacional.
Uso del fichero de log (gestin de transacciones) del sistema
operacional.
Uso de tcnicas mixtas.

67

Carga y Mantenimiento de un A.D.


Transformacin.
Correspondencia

Transformacin

Bases de datos
operacionales

Almacenamiento
intermedio

Almacn de
datos

- Transformar los datos extrados de las fuentes operacionales:


limpieza, estandarizacin. (cleansing)
- Calcular los datos derivados: aplicar las leyes de derivacin.
68
(integration)

Carga y Mantenimiento de un A.D.


Transformacin.
12M65431

12M65431

12

65431

12

65431

12-m-65421

12-m-65421

12

65421

12

65421

12m65421

12m65421

12

65421

12m65421

12m65421

12M65431

12M65431

En los datos operacionales existen anomalas: desarrollos


independientes a lo largo del tiempo, fuentes heterogneas, ..
Eliminar anomalas:
Limpieza de datos: eliminar datos, corregir y completar datos,
eliminar duplicados, ...
Estandarizacin: codificacin, formatos, unidades de medida, ...

69

Carga y Mantenimiento de un A.D.


Transformacin.
Claves con estructura: descomponer en valores atmicos

Cdigo de producto = 12M65431345

cdigo zona de
del pas ventas

nmero de
producto

cdigo de
vendedor
70

Carga y Mantenimiento de un A.D.


Transformacin.
Unificar codificaciones: existencia de codificaciones mltiples.
v,h
1,0

v, h

varn, hembra

Deben detectarse los valores errneos.


71

Carga y Mantenimiento de un A.D.


Transformacin.
Unificar estndares:unidades de medida, unidades de
tiempo,moneda,...
cm
cm
inches
DD/MM/YY
DD-Mon-YY
MM/DD/YY
1,000 GBP
USD 600
FF 9,990

72

Carga y Mantenimiento de un A.D.


Transformacin.
Valores duplicados: deben ser eliminados.
SQL
restricciones en el SGBDR

ACME Inc
ACME Inc

ACME Inc

ACME Inc

73

Carga y Mantenimiento de un A.D.


Transformacin.
Integridad referencial: debe reconstruirse.

Departamento
10
20
30
40

Emp
1099
1289
1234
6786

Nombre
Smith
Jones
Doe
Harris

Departamento
10
20
50
60

74

Carga y Mantenimiento de un A.D.


Transformacin. Creacin de claves.
#1

Venta

1/2/98

12:00:01 Ham Pizza

$10.00

#2

Venta

1/2/98

12:00:02 Cheese Pizza

$15.00

#3

Venta

1/2/98

12:00:02 Anchovy Pizza

$12.00

#4

Devolucin 1/2/98

12:00:03 Anchovy Pizza

- $12.00

#5

Venta

12:00:04 Sausage Pizza

$11.00

1/2/98

Claves sin significado


#dw1 Venta

1/2/98

12:00:01 Ham Pizza

$10.00

#dw2 Venta

1/2/98

12:00:02 Cheese Pizza

$15.00

#dw3 Venta

1/2/98

12:00:04 Sausage Pizza $11.00

75

Carga y Mantenimiento de un A.D.


Transporte. (carga)
La fase de Transporte consiste en mover los datos desde las
fuentes operacionales o el almacenamiento intermedio hasta el
almacn de datos y cargar los datos en las correspondientes
estructuras de datos.
La carga puede consumir mucho tiempo.
En la carga inicial del AD se mueven grandes volmenes de
datos.
En los mantenimientos peridicos del AD se mueven pequeos
volmenes de datos.
La frecuencia del mantenimiento peridico est determinada
por el grnulo del AD y los requisitos de los usuarios.
76

Carga y Mantenimiento de un A.D.


Transporte. Creacin y mantenimiento de un AD.

Base de datos
operacional

T1

T2

T3

Crear el AD (base de datos)


En intervalos de tiempo fijos aadir cambios al AD. Se
deben determinar las ventanas de carga ms convenientes
para no saturar la base de datos operacional.
Ocasionalmente archivar o eliminar datos obsoletos que ya
no interesan para el anlisis.
77

Carga y Mantenimiento de un A.D.


Procesos posteriores a la carga: indizacin.
Durante la carga:
 carga con el ndice habilitado
 proceso tupla a tupla. (lento)
Despus de la carga:
 carga con el ndice deshabilitado
 creacin del ndice (total o parcial). (rpido)
Index

Base de datos
operacional

Almacn 78
de datos

Carga y Mantenimiento de un A.D.


Procesos posteriores a la carga: obtencin de agregados.
Durante la extraccin.
Despus de la carga (transporte).

Extraccin

Base de datos
operacional

Transporte

Almacenamiento
intermedio

Almacn de
datos
79

Diseo de un Almacn de Datos


Recogida y anlisis de
requisitos

Diseo conceptual

Diseo lgico especfico

Diseo fsico

Implementacin
80

Diseo de un Almacn de Datos


Recogida y anlisis de
requisitos

Diseo conceptual

Diseo lgico

Diseo fsico

Implementacin

Anlisis

Discernimiento de las
fuentes necesarias
del sistema de
informacin de la
organizacin (OLTP)
y externas

Requisitos de
usuario
(consultas de
anlisis
necesarias,
nivel de
agregacin, )

Diseo
Conceptual
p.ej. Entidad-Relacin

81

Diseo de un Almacn de Datos


Recogida y anlisis de
requisitos

Diseo
Lgico

Diseo conceptual

Diseo lgico

Diseo fsico

Implementacin

Modelado
multidimensional (MR)

Esquemas
estrella

82

Diseo de un Almacn de Datos


Recogida y anlisis de
requisitos

Diseo conceptual

Diseo lgico

Diseo
Fsico

Definicin del esquema


ROLAP o MOLAP

Diseo fsico
Diseo del ETL
Implementacin
83

Diseo de un Almacn de Datos


Recogida y anlisis de
requisitos

Implementacin
Diseo conceptual

Diseo lgico

Diseo fsico

Implementacin

Carga del AD (ETL)

Preparacin de las
vistas de usuario
(herramienta OLAP)

84

Diseo de un Almacn de Datos


Detallemos ms ahora el Diseo Lgico...
Recogida y anlisis de
requisitos

Diseo conceptual

La visin multidimensional seguida por


las herramientas de explotacin de
almacenes de datos (OLAP) ha
inspirado los modelos y metodologas
de diseo de este tipo de sistemas.

Diseo lgico

Diseo fsico

En la literatura se habla de Bases de Datos


Multidimensionales y de Diseo Multidimensional

Implementacin
85

Diseo de un Almacn de Datos


Modelado multidimensional:
 en un esquema multidimensional se representa
una actividad que es objeto de anlisis (hecho) y
las dimensiones que caracterizan la actividad
(dimensiones).
 la informacin relevante sobre el hecho (actividad)
se representa por un conjunto de indicadores
(medidas o atributos de hecho).
 la informacin descriptiva de cada dimensin se
representa por un conjunto de atributos (atributos
de dimensin).
86

Diseo de un Almacn de Datos

Modelado multidimensional:
 el modelado multidimensional se puede aplicar
utilizando distintos modelos de datos
(conceptuales o lgicos).
 la representacin grfica del esquema
multidimensional depender del modelo de datos
utilizado (relacional, ER, UML, OO, ...).

87

Diseo de un Almacn de Datos


El desarrollo de la tecnologa de almacenes de
datos se ha caracterizado por:
- un temprano desarrollo industrial provocado por
las demandas de los usuarios.
- el uso de metodologas de diseo centradas
principalmente en los niveles lgico e interno. (la
atencin se ha centrado en mejorar la eficiencia en la ejecucin de
consultas)

Metodologa de diseo basada en el modelo


relacional: Modelo multidimensional de Kimball
No es muy congruente usar modelos
para diseo conceptual.

88

Diseo de un Almacn de Datos


Pasos en el diseo del almacn de datos:
Paso 1. Elegir un proceso de la organizacin para
modelar.
Paso 2. Decidir el grnulo (nivel de detalle) de
representacin del proceso.
Paso 3. Identificar las dimensiones que
caracterizan el proceso.
Paso 4. Decidir la informacin a almacenar sobre el
proceso.

89

Diseo de un Almacn de Datos


Paso 1. Elegir un proceso de la organizacin para
modelar.
Proceso: actividad de la organizacin soportada por un
OLTP del cual se puede extraer informacin con el
propsito de construir el almacn de datos.
Pedidos (de clientes)
Compras (a suministradores)
Facturacin
Envos
Ventas
Inventario

90

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la
que se expenden unos 30.000 productos distintos.

Actividad: Ventas.
La actividad a modelar son las ventas de productos
en los almacenes de la cadena.

91

Diseo de un Almacn de Datos


Paso 2. Decidir el grnulo (nivel de detalle) de
representacin.
Grnulo: es el nivel de detalle al que se desea almacenar
informacin sobre la actividad a modelar.
 El grnulo define el nivel atmico de datos en el almacn
de datos.
 El grnulo determina el significado de las tuplas de la tabla
de hechos.
 El grnulo determina las dimensiones bsicas del esquema
transaccin en el OLTP
informacin diaria
informacin semanal
informacin mensual. ....

92

Diseo de un Almacn de Datos

tabla
Dimensin 1

tabla de
hechos
id_dim1

tabla
Dimensin 3

id_dim2
id_dim3
tabla
Dimensin 2

...
id_dim n

tabla
Dimensin n

....
(hechos)

93

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diarias de cada producto en cada almacn de la cadena.
Grnulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones bsicas del esquema.

producto
da
almacn
ventas
94

Diseo de un Almacn de Datos


Grnulo inferior: no se almacena informacin a nivel de
lnea de ticket porque no se puede identificar siempre al
cliente de la venta lo que permitira hacer anlisis del
comportamiento (hbitos de compra) del cliente.
Grnulo superior: no se almacena informacin a nivel
semanal o mensual porque se perderan opciones de
anlisis interesantes: ventas en das previos a vacaciones,
ventas en fin de semana, ventas en fin de mes, ....
En un almacn de datos se almacena informacin
a un nivel de detalle (grnulo) fino no porque se
vaya a interrogar el almacn a ese nivel sino
porque ello permite clasificar y estudiar (analizar)
la informacin desde muchos puntos de vista.

95

Diseo de un Almacn de Datos


producto
da
almacn
ventas

tabla de id_producto
hechos id_fecha
id_almacn

la clave primaria* est


formada por los
identificadores de las
dimensiones bsicas.

.....
.....
......

datos (medidas) sobre las


ventas diarias de un
producto en un almacn.

* pueden existir excepciones a esta regla general

96

Diseo de un Almacn de Datos


Paso 3. Identificar las dimensiones que caracterizan el
proceso.
 Dimensiones: dimensiones que caracterizan la actividad al
nivel de detalle (grnulo) que se ha elegido.
Tiempo

(dimensin temporal: cundo se produce la actividad?)

Producto (dimensin cul es el objeto de la actividad?)


Almacn (dimensin geogrfica: dnde se produce la actividad?)
Cliente

(dimensin quin es el destinatario de la actividad?)

 De cada dimensin se debe decidir los atributos


(propiedades) relevantes para el anlisis de la actividad.
 Entre los atributos de una dimensin existen jerarquas
naturales que deben ser identificadas (da-mes-ao)
97

Diseo de un Almacn de Datos


tabla
Dimensin 1
id_dim1
....

98

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
tiempo
definicin de
grnulo

dimensiones
bsicas

producto
establecimiento

Nota: En las aplicaciones reales el nmero de dimensiones


suele variar entre 3 y 15 dimensiones.

99

Diseo de un Almacn de Datos


Dimensin Tiempo:
 dimensin presente en todo AD porque el AD contiene
informacin histrica sobre la organizacin.
 aunque el lenguaje SQL ofrece funciones de tipo DATE, una
dimensin Tiempo permite representar otros atributos
temporales no calculables en SQL.
 se puede calcular de antemano
 atributos frecuentes:
nro. de da, nro. de semana, nro. de ao: valores absolutos del
calendario juliano que permiten hacer ciertos clculos aritmticos.
da de la semana (lunes, martes, mircoles,...): permite hacer
anlisis sobre das de la semana concretos (ej. ventas en sbado,
ventas en lunes,..).
100

Diseo de un Almacn de Datos


Dimensin Tiempo:
 atributos frecuentes:
- da del mes (1..31): permite hacer comparaciones sobre el mismo
da en meses distintos (ventas el 1 de mes).
- marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el ltimo da del mes o das de fin de semana
en distintos meses.
- trimestre del ao (1..4): permite hacer anlisis sobre un trimestre
concreto en distintos aos.
- marca de da festivo: permite hacer anlisis sobre los das contiguos
a un da festivo.
- estacin (primavera, verano..)
- evento especial: permite marcar das de eventos especiales (final de
futbol, elecciones...)

 jerarqua natural:
da - mes - trimestre -ao

101

Diseo de un Almacn de Datos


Dimensin Producto:
 la dimensin Producto se define a partir del fichero maestro de
productos del sistema OLTP.
 las actualizaciones del fichero maestro de productos deben
reflejarse en la dimensin Producto (cmo?).
 la dimensin Producto debe contener el mayor nmero posible
de atributos descriptivos que permitan un anlisis flexible. Un
nmero frecuente es de 50 atributos.
 atributos frecuentes: identificador (cdigo estndar),
descripcin, tamao del envase, marca, categora,
departamento, tipo de envase, producto diettico, peso,
unidades de peso, unidades por envase, frmula, ...
 jerarquas: producto-categora-departamento
102

Diseo de un Almacn de Datos


Dimensin Establecimiento (store) :
 la dimensin Almacn representa la informacin geogrfica bsica.
 esta dimensin suele ser creada explcitamente recopilando
informacin externa que slo tiene sentido en el A.D y que no la
tiene en un OLTP (nmero de habitantes de la ciudad del
establecimiento, caracterizacin del tipo de poblacin del distrito, ...)
 atributos frecuentes: identificador (cdigo interno), nombre,
direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo de
almacn, superficie, fecha de apertura, fecha de la ltima
remodelacin, superficie para congelados, superficie para productos
frescos, datos de la poblacin del distrito, zona de ventas, ...
 jerarquas:

establecimiento - distrito - ciudad - regin - pas (jerarqua


geogrfica)

establecimiento - zona_ventas - regin_ventas (jerarqua de


ventas)

103

Diseo de un Almacn de Datos


Tiempo

Establecimiento

Producto

id_fecha

id_establec

id_producto

da

nro_establec

nro_producto

semana

nombre

descripcin

mes

direccin

marca

ao

distrito

subcategora

da_semana

ciudad

categora

da_mes

pas

departamento

trimestre

tlfno

peso

festivo

fax

unidades_peso

....

superficie

tipo_envase

tipo_almacn

diettico

...

...

104

Diseo de un Almacn de Datos


Tiempo

Establecimiento

id_fecha

id_establec

da

nro_establec

semana

Producto
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...

nombre

mes

direccin

ao

distrito

da_semana

ciudad

da_mes

pas

trimestre
festivo
....

Ventas
id_fecha
id_producto
id_establec

tlfno
fax
superficie
tipo_almacn
...

...
...
...

105

Diseo de un Almacn de Datos


Paso 4. Decidir la informacin a almacenar sobre el
proceso.
Hechos: informacin (sobre la actividad) que se desea almacenar
en cada tupla de la tabla de hechos y que ser el objeto del
anlisis.
Precio
Unidades
Importe
....
Nota: algunos datos que en el OLTP coincidiran con valores de
atributos de dimensiones, en el almacn de datos pueden
representar hechos. (Ejemplo: el precio de venta de un producto).

106

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diarias de cada producto en cada establecimiento de la cadena.
importe total de las ventas del producto en el da
nmero total de unidades vendidas del producto en el da
nmero total de clientes distintos que han comprado el
producto en el da.

107

Diseo de un Almacn de Datos


Tiempo

Establecimiento

id_fecha

id_establec

da

Producto
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...

nro_establec

semana

nombre

mes

direccin

ao

distrito

da_semana

ciudad

da_mes

pas

trimestre
festivo
....

Ventas
id_fecha
id_producto
id_establec

tlfno
fax
superficie
tipo_almacn
...

importe
unidades
nro_clientes

108

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
 usar claves sin significado:
 evitar normalizar.
 incluir la dimensin Tiempo.
 dimensiones que cambian.
 definicin de agregados.

109

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
uso de claves sin significado.
en un almacn de datos debe evitarse el uso de las claves
del sistema operacional.
las claves de las dimensiones deben ser generadas
artificialmente: claves de tipo entero (4 bytes) son suficiente
para dimensiones de cualquier tamao (232 valores distintos).
la dimensin TIEMPO debe tener tambin una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
 en el OLTP se puede decidir reutilizar valores de la clave no
utilizados actualmente.
 en el OLTP se puede decidir cambiar la codificacin de las
claves.

110

Diseo de un Almacn de Datos


Otras Orientaciones de diseo:
evitar normalizar.
Si se define una tabla de dimensin para cada dimensin
identificada en el anlisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no est en 3 F.N.

Evitar normalizar:
 el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
111

Diseo de un Almacn de Datos

Otras Orientaciones de diseo:


 siempre introducir la dimensin Tiempo.

En un almacn de Datos muchas consultas son


restringidas y parametrizadas por criterios relativos a
periodos de tiempo (ltimo mes, este ao, ...).

112

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
dimensiones que cambian.
Se considera relevante el caso en que, en el mundo real, para un
valor de una dimensin, cambia el valor de un atributo que es
significativo para el anlisis sin cambiar el valor de su clave.
Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente
un registro representa la informacin sobre el cliente Mara Garca cuyo
estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del
cliente es utilizado con frecuencia en el anlisis de la informacin.

Existen tres estrategias para el tratamiento de los cambios en


las dimensiones:
Tipo 1: Realizar la modificacin.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.

113

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
definicin de agregados.
En un almacn de datos es usual consultar
informacin agregada!
El almacenamiento de datos agregados por distintos criterios de
agregacin en la tabla de hechos mejora la eficiencia del AD.

Estrategias de almacenamiento de datos agregados:


 Estrategia 1: definir nuevas tablas de hechos (resp. de
dimensiones) para almacenar la informacin agregada (resp. la
descripcin de los niveles de agregacin).
 Estrategia 2: insertar en la tabla de hechos (resp. dimensiones)
tuplas que representan la informacin agregada (resp. los
114
niveles de agregacin).

También podría gustarte