Está en la página 1de 88

OLAP

INTRODUCCIN
Los sistemas OLTP no sirven para proporcionar
business intelligence por varios motivos:
No estn diseados para calcular agregados. El clculo de
estas medidas perjudica el rendimiento y la gestin de las
tareas diarias. Adems el tiempo de respuesta a una
peticin de este tipo es demasiado alto.
No permite el anlisis histrico.
No es una herramienta para el anlisis de tendencias ni
permite extrapolaciones tipo data mining.
Trabajar con OLTP requiere conocimientos tcnicos: los
nombres de los campos y tablas son crpticos y las
relaciones entre tablas (claves externas) son complejas.
Data Mart
Un data mart no se disea igual que un sistema
OLTP
Su propsito principal: optimizar la velocidad de
acceso, por lo que no se crean segn las normas
de normalizacin.
Hay datos repetidos (desnormalizados) para
conseguir velocidades de respuesta a las consultas
ms elevadas.
Sigue siendo una base de datos relacional, pero se
construye para evitar combinaciones de registros al
generar informes y anlisis.
Data Mart
Las reglas de normalizacin se sustituyen por un
mtodo de diseo que gira alrededor de los
hechos
Esquemas en estrella y en copo de nieve son la
base del diseo de los data marts
Las cargas de datos pueden ser mensuales,
semanales o diarias, dependiendo de los requisitos
de BI que tenga la empresa, pero el data mart debe
estar lo suficientemente actualizado como para
permitir una toma de decisiones efectiva.
Las cargas de datos se deben hacer con una
frecuencia tal que no suponga un estrs innecesario
en el sistema OLTP
Data Mart
Los datos que se utilizan en un data mart pueden
ser clasificados en cuatro categoras:
Medidas
Dimensiones
Atributos
Jerarquas
Medidas. Una medida es un nmero que expresa
un aspecto del rendimiento de la empresa. Se utiliza
para apoyar y evaluar la toma de decisiones. Se le
puede llamar hecho. Las tablas que contienen las
medidas se llaman tablas de hechos.
Data Mart
Dimensiones. Una dimensin es una clasificacin
utilizada para expandir una medida agregada y ver las
partes que la constituyen.
Ejemplo: Medida agregada o resumida: total de ventas
435.786
Dimensin: tiempo en aos; Miembros de la dimensin:
2004, 2005, 2006, 2007
Data Mart
La medida resumida se puede expandir
Se pueden obtener hechos a diferentes
niveles de agregacin
Si se aade la dimensin producto, podra
visualizarse as:

Data Mart
Se puede seguir expandiendo la medida
aadiendo ms dimensiones como por
ejemplo la regin de las ventas o la edad del
cliente.
Medidas con 3 dimensiones forman cubos,
pero el nombre se extiende a cualquier
nmero de dimensiones.

Data Mart
Atributos. Un atributo es informacin
adicional que pertenece a un miembro de
una dimensin pero que no es el identificador
nico o la descripcin del miembro. Suele ser
informacin que probablemente los usuarios
quieran consultar como parte de su anlisis.
Se almacenan en columnas extra de las
tablas de dimensiones.
Data Mart
Jerarquas. En muchos casos la dimensin forma
parte de una estructura ms amplia con varios
niveles. Esta estructura se llama jerarqua. En el
ejemplo, las dimensiones de ao y regin de ventas
forman parte de su propia jerarqua. La dimensin
Ao contiene trimestres y los trimestres meses. La
dimensin Regin contiene provincias. Las
jerarquas permiten al usuario navegar entre
diferentes niveles de detalle dentro de las medidas
del data mart. Un usuario puede ver las ventas de
Pistachos en una determinada ciudad para el
segundo trimestre de 2006.

Ejemplo
importe
unidades
Almacn
Ciudad
Regin
Tipo
Departamento
Nro_producto
Categora
Marca
Tipo
Descripcin
hecho
medidas
dimensin
atributos
Da
Mes
Semana
Ao
Trimestre
Dimensiones
(puntos de vista)
desde los que
se puede
analizar la
actividad.
Actividad que es
objeto de anlisis
con los indicadores
que interesa
analizar
Jerarquas del Ejemplo
departamento
almacn
ciudad regin
tipo
da
mes ao
Producto
Almacn
Tiempo
nro. producto
categora
trimestre
semana
Data Mart
Las medidas, dimensiones, atributos y
jerarquas se guardan en un data mart con
una cierta estructura relacional. Existen dos
estructuras ampliamente utilizadas que se
dibujan como los diagramas mencionados
antes:
diagrama en estrella
diagrama en copo de nieve.
Diagrama en Estrella
Este esquema utiliza dos tipos de tablas de datos: la
tabla de hechos y la tabla de dimensiones.
El centro de la estrella lo forma la tabla de hechos
(puede haber ms de una). La tabla de hechos tiene una
columna para la medida y una columna para cada
dimensin que contenga una clave externa para el
miembro de esta dimensin.
La clave primaria de esta tabla es una clave compuesta,
se crea concatenando todos los campos con clave
externa.
Las dimensiones se almacenan en tablas de
dimensiones, con una columna para el identificador
nico del miembro de la dimensin y otra para
describirlo.
PERSONAL
tiempo
equipo
Ejemplo:
Esquema en
estrella con una
tabla de hechos
para ventas y
cinco
dimensiones:
producto, ao,
regin, edad, y
campaa de
marketing.
Diagrama de Copo de Nieve
Cada nivel en la jerarqua se almacena como una tabla
dimensional diferente.
Como en el diagrama en estrella, las claves externas en
la tabla de hechos en el centro del esquema apuntan al
nivel ms bajo de cada jerarqua.
Adems, la tabla de hechos de este esquema contiene
una sola fila para cada combinacin nica de los
miembros a nivel ms bajo de cada jerarqua.
Las medidas para niveles superiores se tienen que
calcular como agregados.
El esquema en copo de nieve tiene todas las ventajas
de un buen diseo relacional.
No tiene datos duplicados y, por lo tanto, su
mantenimiento es menos costoso.
VENTAS
tiempo
producto
lugar
Diagrama de Copo de Nieve
La desventaja de este diseo es que requiere
combinaciones de registros para las jerarquas altas de
las tablas dimensionales.
En data marts grandes o que respondan a muchas
consultas pueden haber problemas de rendimiento.
En ambos tipos de esquema se calculan agregados
cuando el usuario lo pide, esto es, on the fly.
En un esquema con muchas dimensiones o con
dimensiones con muchos miembros, esto puede llevar
mucho tiempo.
El propsito principal de BI es que la velocidad de
respuesta sea lo ms alta posible para que la
informacin est dispuesta en el momento justo para
aquellos que deban tomar las decisiones.
Diagrama de Copo de Nieve

Ejemplo 2 (ESTRELLA)
Ejemplo 2: Copo de nieve
Comparacin bsica
La ventaja del modelo copo de nieve es
eliminar la redundancia de datos y por lo
tanto ocupar menos espacio en disco.
En el modelo estrella las dimensiones no se
normalizan. Con ello se logra minimizar el
nmero de uniones y, por consiguiente,
incrementar el rendimiento de las consultas
(una tabla de hechos est relacionada con
numerosas tablas de dimensiones)
Relacin Data Mart - DW
Se puede recopilar toda la informacin necesaria en
un nico esquema estrella o copo de nieve?

NO : necesidad de varios esquemas.

Cada uno de estos esquemas se denomina datamart.
VENTAS
PERSONAL
PRODUCCIN
CAMPAA
tiempo
tiempo
tiempo
producto
producto
lugar
proyecto
equipo
producto proveedor
lugar
lugar
tiempo
DW formado
por 4
datamarts.
Data Mart
El almacn de datos puede estar formado por varios
datamarts y, opcionalmente, por tablas adicionales.
Data mart
se definen para satisfacer las necesidades
de un departamento o seccin de la
organizacin.
contiene menos informacin de detalle y
ms informacin agregada.
subconjunto de un almacn de
datos, generalmente en forma de
estrella o copo de nieve.
Sistemas OLAP
Con la informacin organizada en favor de la
velocidad de acceso y de clculo en el data
mart, es necesario desarrollar una interfaz o
un sistema que sea capaz de ofrecer la
informacin resumida o agregada.
El sistema que en ltima instancia es capaz
de realizar esto y de generar informes
propios de BI es el OLAP.
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una
visin multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de anlisis.
El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema fsico) del almacn de datos.
La herramienta OLAP genera la correspondiente
consulta y la enva al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).
Cubos OLAP
Como en el clculo de un valor agregado
intervienen varias dimensiones o jerarquas
inferiores, lo habitual es que el sistema OLAP
calcule y almacene algunos de estos valores (sino
todos) gracias a procesos en segundo plano
(background).
As se consigue que los tiempos de clculo no
afecten a los usuarios. Los agregados se
almacenan en una base de datos (relacional o
multidimensional segn la arquitectura empleada).
Herramientas OLAP
una consulta a un almacn de datos consiste generalmente
en la obtencin de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por
condiciones impuestas sobre las dimensiones
Importe total de las ventas durante este ao de los productos
del departamento Bebidas, por trimestre y por categora ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao
medida
hecho
Parmetros de la consulta: por categora de producto y por trimestre
Herramientas OLAP
2002
Bebidas
importe
unidades
Departamento
Nro_producto
Categora
Marca
Tipo
Da
Mes
Da de la
semana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categora y
trimestre
Trimestre
Herramientas OLAP
trimestre categora
importe
Herramientas OLAP
Presentacin tabular
(relacional) de los
datos seleccionados
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1
1000000
T4
T2
1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categoras en
el departamento de Bebidas:
Refrescos y Zumos.
Herramientas OLAP
T4 T3 T2
T1
Zumos
Refrescos
categora
trimestre
Presentacin matricial
(multidimensional) de los
datos seleccionados
Los parmetros de la consulta (por trimestre y por categora)
determinan los criterios de agrupacin de los datos seleccionados
(ventas de productos del departamento Bebidas durante este ao).
La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
Herramientas OLAP
Lo interesante no es poder realizar consultas que, en
cierto modo, se pueden hacer con selecciones,
proyecciones, concatenaciones y agrupamientos
tradicionales.

Lo realmente interesante de las herramientas OLAP
son sus operadores de refinamiento o manipulacin
de consultas.
DRILL
ROLL
SLICE & DICE
PIVOT
Herramientas OLAP
El carcter agregado de las consultas en el Anlisis
de Datos, aconseja la definicin de nuevos
operadores que faciliten la agregacin (consolidacin)
y la disgregacin (divisin) de los datos:
agregacin (roll): permite eliminar un criterio de
agrupacin en el anlisis, agregando los grupos
actuales.
disgregacin (drill): permite introducir un nuevo
criterio de agrupacin en el anlisis, disgregando
los grupos actuales.

Herramientas OLAP
Si se desea introducir la dimensin Almacn en el
anlisis anterior e incluir un nuevo criterio de
agrupacin sobre la ciudad del almacn:
Importe total de las ventas durante este ao de los
productos del departamento Bebidas, por trimestre, por
categoras y por ciudad del almacn ?.
Restricciones: productos del departamento Bebidas, ventas
durante este ao
Parmetros de la consulta: por categora de producto, por
trimestre y por ciudad del almacn.
Herramientas OLAP
2002
Bebidas
importe
unidades
Departamento
Nro_producto
Categora
Marca
Tipo
Da
Mes
Da de la
semana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categora,
trimestre y ciudad
Trimestre
Herramientas OLAP
trimestre categora
importe
la operacin de DRILL
se realiza sobre el
informe original !
Herramientas OLAP
Categora Trimestre Ventas Ciudad
T2
T1
400000
T2
700000
Refrescos
T1
Valencia
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1
1000000
T4
T2
1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Len
Refrescos
Refrescos
Refrescos
Valencia
Len
1000000
1000000
* Se asumen dos ciudades: Valencia y Len.
Cada grupo (categora-trimestre) de la
consulta original se disgrega en dos
nuevos grupos (categora-trimestre-
ciudad) para las ciudades de Len y
Valencia.
Herramientas OLAP
T1 T2
T3 T4
Z
u
m
o
s

1000000
300000
400000
500000
100000
200000
500000
2000000
Presentacin matricial de
los datos seleccionados.
Herramientas OLAP
Si se desea eliminar el criterio de agrupacin
sobre la dimensin Tiempo en la consulta original:
Importe total de las ventas durante este ao de los
productos del departamento Bebidas, por categoras ?
Herramientas OLAP
2002
Bebidas
importe
unidades
Departamento
Nro_producto
Categora
Marca
Tipo
Da
Mes
Da de la
semana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categoras
Trimestre
Herramientas OLAP
trimestre
categora importe
la operacin de ROLL
se realiza sobre el
informe original !
Herramientas OLAP
Categora Ventas
Refrescos 8000000
Zumos
12900000
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1
1000000
T4
T2
1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Herramientas OLAP
Las operaciones de agregacin (ROLL) y disgregacin (DRILL)
se pueden hacer sobre:
atributos de una dimensin sobre los que se ha definido
una jerarqua: DRILL-DOWN, ROLL-UP
departamento categora - producto (Producto)
ao - trimestre mes - da (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto Almacn -Tiempo
Herramientas OLAP
trimestre categora
importe
la operacin de DRILL
se realiza sobre el
informe original !
Herramientas OLAP
Categora Trimestre Ventas Mes
T1
T1
500000
Refrescos
T1
Enero
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1
1000000
T4
T2
1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categora-trimestre) de la
consulta original se disgrega en dos
nuevos grupos (categora-trimestre-mes).
Ejemplo 2 - Drill
Herramientas OLAP
Otras operaciones de OLAP:

PIVOT: reorientacin de las dimensiones
en el informe.
SLICE & DICE: seleccionar y proyectar
datos en el informe.

Herramientas OLAP
Ventas
Electronics
Toys
Clothing
Cosmetics
Q
1

$5,2
$1,9
$2,3
$1,1
Electronics
Toys
Clothing
Cosmetics
Q
2

$8,9
$0,75
$4,6
$1,5
Productos Store1 Store2
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Ventas
Electronics
Toys
Clothing
Cosmetics
S
t
o
r
e

1
$5,2
$1,9
$2,3
$1,1
Electronics
Toys
Clothing
Cosmetics
S
t
o
r
e

2
$5,6
$1,4
$2,6
$1,1
Productos Q1 Q2
$8,9
$0,75
$4,6
$1,5
$7,2
$0,4
$4,6
$0,5
PIVOT
Herramientas OLAP
Ventas
Electronics
Toys
Clothing
Cosmetics
Q
1

$5,2
$1,9
$2,3
$1,1
Electronics
Toys
Clothing
Cosmetics
Q
2

$8,9
$0,75
$4,6
$1,5
Productos Store1 Store2
$5,6
$1,4
$2,6
$1,1
$7,2
$0,4
$4,6
$0,5
Ventas
Electronics
Toys
Q
1

$5,2
$1,9
Productos Store1
Electronics
Toys
Q
2

$8,9
$0,75
SLICE
& DICE
Ejemplo 2 - Dice
Ejemplo 2 Dice
Agregando la dimensin rea
al filtro, especficamente el
rea Recepcin
Herramientas OLAP
Las herramientas de OLAP se caracterizan por:
ofrecer una visin multidimensional de los datos
(matricial).
no imponer restricciones sobre el nmero de
dimensiones.
permitir definir de forma flexible (sin limitaciones) sobre
las dimensiones: restricciones, agregaciones y
jerarquas entre ellas.
ofrecer operadores intuitivos de manipulacin: drill-
down, roll-up, slice-and-dice, pivot.
ser transparentes al tipo de tecnologa que soporta el
almacn de datos (ROLAP o MOLAP).


Recordemos Tipos de OLAP
Diseo de un Almacn de Datos OLAP
Diseo fsico
Diseo lgico especfico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Anlisis
Discernimiento de las
fuentes necesarias
del sistema de
informacin de la
organizacin (OLTP)
y externas
Requisitos de
usuario
(consultas de
anlisis
necesarias,
nivel de
agregacin, )
p.ej. Entidad-Relacin
Diseo
Conceptual
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Diseo
Lgico
Modelado
multidimensional (MR)
Esquemas

Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Definicin del esquema
ROLAP o MOLAP

Diseo
Fsico
Diseo del ETL
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Implementacin
Carga del AD (ETL)
Preparacin de las
vistas de usuario
(herramienta OLAP)
Diseo de un Almacn de Datos
Detallemos el Diseo Lgico...
La visin multidimensional seguida por
las herramientas de explotacin de
almacenes de datos (OLAP) ha
inspirado los modelos y metodologas
de diseo de este tipo de sistemas.
En la literatura se habla de Bases de Datos
Multidimensionales y de Diseo Multidimensional
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis de
requisitos
Diseo de un Almacn de Datos
Modelado multidimensional:
en un esquema multidimensional se representa
una actividad que es objeto de anlisis (hecho) y
las dimensiones que caracterizan la actividad
(dimensiones).
la informacin relevante sobre el hecho (actividad)
se representa por un conjunto de indicadores
(medidas o atributos de hecho).
la informacin descriptiva de cada dimensin se
representa por un conjunto de atributos (atributos
de dimensin).
Diseo de un Almacn de Datos
Pasos en el diseo del almacn de datos:
Paso 1. Elegir un proceso de la
organizacin para modelar.
Paso 2. Decidir el grnulo (nivel de detalle)
de representacin del proceso.
Paso 3. Identificar las dimensiones que
caracterizan el proceso.
Paso 4. Decidir la informacin a almacenar
sobre el proceso.
Diseo de un Almacn de Datos
Paso 1. Elegir un proceso de la organizacin para
modelar.
Proceso: actividad de la organizacin soportada por un
OLTP del cual se puede extraer informacin con el
propsito de construir el almacn de datos.
Pedidos (de clientes)
Compras (a proveedores)
Facturacin
Envos
Ventas
Inventario

Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la
que se expenden unos 30.000 productos distintos.

Actividad: Ventas.
La actividad a modelar son las ventas de productos
en los almacenes de la cadena.


Diseo de un Almacn de Datos
Paso 2. Decidir el grnulo (nivel de detalle) de
representacin.
El grnulo define el nivel atmico de datos en el
almacn de datos.
El grnulo determina el significado de las tuplas de
la tabla de hechos.
El grnulo determina las dimensiones bsicas del
esquema
transaccin en el OLTP
informacin diaria
informacin semanal
informacin mensual. ....
Diseo de un Almacn de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)






tabla de
hechos
tabla
Dimensin 3
tabla
Dimensin 1
tabla
Dimensin 2


tabla
Dimensin n
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diarias de cada producto en cada almacn de la cadena.
Grnulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones bsicas del esquema.
producto
da
almacn
ventas






Diseo de un Almacn de Datos
Grnulo inferior: no se almacena informacin a nivel de
lnea de ticket porque no se puede identificar siempre al
cliente de la venta lo que permitira hacer anlisis del
comportamiento (hbitos de compra) del cliente.
Grnulo superior: no se almacena informacin a nivel
semanal o mensual porque se perderan opciones de
anlisis interesantes: ventas en das previos a vacaciones,
ventas en fin de semana, ventas en fin de mes, ....
En un almacn de datos se almacena informacin a un
nivel de detalle (grnulo) fino no porque se vaya a
interrogar el almacn siempre a ese nivel sino porque
ello permite clasificar y estudiar (analizar) la
informacin desde muchos puntos de vista.
Diseo de un Almacn de Datos
producto
da
almacn
ventas






id_producto
id_fecha
id_almacn
.....
.....
......
tabla de
hechos
la clave primaria* est
formada por los
identificadores de las
dimensiones bsicas.
datos (medidas) sobre las
ventas diarias de un
producto en un almacn.
* pueden existir excepciones a esta regla general
Diseo de un Almacn de Datos
Paso 3. Identificar las dimensiones que caracterizan el
proceso.
Dimensiones: dimensiones que caracterizan la actividad al
nivel de detalle (grnulo) que se ha elegido. Ej:
Tiempo (dimensin temporal: cundo se produce la actividad?)
Producto (dimensin cul es el objeto de la actividad?)
Almacn (dimensin geogrfica: dnde se produce la actividad?)
Cliente (dimensin quin es el destinatario de la actividad?)
De cada dimensin se debe decidir los atributos
(propiedades) relevantes para el anlisis de la actividad.
Entre los atributos de una dimensin existen jerarquas
naturales que deben ser identificadas (da-mes-ao)
Diseo de un Almacn de Datos
id_dim1
....





tabla
Dimensin 1
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
definicin de
grnulo
dimensiones
bsicas
tiempo
producto
almacn
Nota: En las aplicaciones reales el nmero de dimensiones
suele variar entre 3 y 15 dimensiones.
Diseo de un Almacn de Datos
Dimensin Tiempo:
dimensin presente en todo AD porque el AD contiene informacin
histrica sobre la organizacin.
aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensin
Tiempo permite representar otros atributos temporales no calculables en
SQL.
atributos frecuentes:
nro. de da, nro. de semana, nro. de ao: valores absolutos del calendario que
permiten hacer ciertos clculos aritmticos.
da de la semana (lunes, martes, mircoles,...): permite hacer anlisis sobre
das de la semana concretos (ej. ventas en sbado, ventas en lunes,..).

Diseo de un Almacn de Datos
Dimensin Tiempo:
atributos frecuentes:
- da del mes (1..31): permite hacer comparaciones sobre el mismo
da en meses distintos (ventas el 1 de mes).
- marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el ltimo da del mes o das de fin de semana
en distintos meses.
- trimestre del ao (1..4): permite hacer anlisis sobre un trimestre
concreto en distintos aos.
- marca de da festivo: permite hacer anlisis sobre los das previos y
posteriores a un da festivo.
- estacin (primavera, verano..)
- evento especial: permite marcar das de eventos especiales (final de
campeonato de futbol, elecciones, paro estudiantil...)
jerarqua natural: da - mes - trimestre -ao
Diseo de un Almacn de Datos
Dimensin Producto:
la dimensin Producto se define a partir del archivo (tabla)
maestro de productos del sistema OLTP.
las actualizaciones del archivo maestro de productos deben
reflejarse en la dimensin Producto.
la dimensin Producto debe contener el mayor nmero posible
de atributos descriptivos que permitan un anlisis flexible. Un
nmero frecuente es de 50 atributos.
atributos frecuentes: identificador (cdigo estndar),
descripcin, tamao del envase, marca, categora,
departamento, tipo de envase, producto diettico, peso,
unidades por envase, frmula, ...
Jerarqua natural: producto-categora-departamento

Diseo de un Almacn de Datos
Dimensin Almacn (store) :
la dimensin Almacn representa la informacin geogrfica bsica.
esta dimensin suele ser creada explcitamente recopilando informacin
externa que slo tiene sentido en el A.D y que no la tiene en un OLTP (nmero
de habitantes de la ciudad del establecimiento, caracterizacin del tipo de
poblacin de la comuna, ...)
atributos frecuentes: identificador (cdigo interno), nombre, direccin, regin,
ciudad, pas, gerente, telfono, fax, tipo de almacn, superficie, fecha de
apertura, fecha de la ltima remodelacin, superficie para congelados,
superficie para productos frescos, datos de la poblacin del distrito, zona de
ventas, ...
Jerarquas naturales:
establecimiento - ciudad - regin - pas (jerarqua geogrfica)
establecimiento - zona_ventas - regin_ventas (jerarqua de ventas)

Diseo de un Almacn de Datos
id_establec
nro_establec
nombre
direccin
regin
ciudad
pas
tlfno
fax
superficie
tipo_almacn
...
Establecimiento
id_fecha
da
semana
mes
ao
da_semana
da_mes
trimestre
festivo
....
Tiempo
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
Producto
Diseo de un Almacn de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
direccin
regin
ciudad
pas
tlfno
fax
superficie
tipo_almacn
...
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
Establecimiento
Producto
id_fecha
da
semana
mes
ao
da_semana
da_mes
trimestre
festivo
....
Tiempo
Diseo de un Almacn de Datos
Paso 4. Decidir la informacin a almacenar sobre el
proceso.
Hechos: informacin (sobre la actividad) que se desea almacenar
en cada tupla de la tabla de hechos y que ser el objeto del
anlisis.
Precio
Unidades
Importe
....
Nota: algunos datos que en el OLTP coincidiran con valores de
atributos de dimensiones, en el almacn de datos pueden
representar hechos. (Ejemplo: el precio de venta de un producto).
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diarias de cada producto en cada establecimiento de la cadena.
importe total de las ventas del producto en el da
nmero total de unidades vendidas del producto en el da
nmero total de clientes distintos que han comprado el
producto en el da.

Diseo de un Almacn de Datos
id_fecha
id_producto
id_establec
importe
unidades
nro_clientes
Ventas
id_establec
nro_establec
nombre
direccin
regin
ciudad
pas
tlfno
fax
superficie
tipo_almacn
...
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
Establecimiento
Producto
id_fecha
da
semana
mes
ao
da_semana
da_mes
trimestre
festivo
....
Tiempo
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
uso de claves sin significado.
en un almacn de datos debe evitarse el uso de las claves
del sistema operacional.
las claves de las dimensiones deben ser generadas
artificialmente: claves de tipo entero (4 bytes) son suficiente
para dimensiones de cualquier tamao (2
32
valores distintos).
la dimensin TIEMPO debe tener tambin una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
en el OLTP se puede decidir reutilizar valores de la clave no
utilizados actualmente.
en el OLTP se puede decidir cambiar la codificacin de las
claves.
Diseo de un Almacn de Datos
Otras Orientaciones de diseo:
evitar normalizar.
Si se define una tabla de dimensin para cada dimensin
identificada en el anlisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no est en 3 F.N.
Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
Diseo de un Almacn de Datos
En un almacn de Datos muchas consultas son
restringidas y parametrizadas por criterios relativos a
periodos de tiempo (ltimo mes, este ao, ...).
Otras Orientaciones de diseo:
siempre introducir la dimensin Tiempo.
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
dimensiones que cambian.
Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente
un registro representa la informacin sobre el cliente Mara Garca cuyo
estado civil cambia el 14-02-2012 de soltera a casada. El estado civil del
cliente es utilizado con frecuencia en el anlisis de la informacin.
Se considera relevante el caso en que, en el mundo real, para un
valor de una dimensin, cambia el valor de un atributo que es
significativo para el anlisis sin cambiar el valor de su clave.
Existen tres estrategias para el tratamiento de los cambios en
las dimensiones:
Tipo 1: Realizar la modificacin.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
definicin de agregados.
En un almacn de datos es usual consultar
informacin agregada
El almacenamiento de datos agregados por distintos criterios de
agregacin en la tabla de hechos mejora la eficiencia del AD.
Estrategias de almacenamiento de datos agregados:
Estrategia 1: definir nuevas tablas de hechos (resp. de
dimensiones) para almacenar la informacin agregada .
Estrategia 2: insertar en la tabla de hechos (resp. dimensiones)
tuplas que representan la informacin agregada (resp. niveles
de agregacin).
Desventajas de sistemas OLAP
Requiere de conocimientos y experiencia elevados
para crear y gestionar las herramientas, y eso
repercute en el costo.
La definicin de medidas, dimensiones y jerarquas,
la creacin del cubo y de la herramienta OLAP
requieren conocer profundamente los procesos y
estructuras empresariales as como las tcnicas de
desarrollo para data mart y bases de datos.
En la mayora de casos OLAP funciona a partir de un
data mart con un esquema determinado, y los datos
deben ser limpiados, transformados y extrados de
OLTP como tareas programadas.
Desventajas de sistemas OLAP
Un cambio del sistema OLTP supone redisear el
proceso ETL.
El proceso ETL no funciona continuamente, esto
aade latencia al sistema, en OLAP no tenemos los
datos actualizados al segundo.
No es posible analizar escenarios hipotticos, porque
OLAP es solo de lectura.
Estas situaciones hipotticas, aunque no puedan ser
simuladas en OLAP, pueden ser estimadas a travs
de algoritmos de prediccin, clasificacin y
agrupacin. Estos algoritmos son los algoritmos de
data mining.
Trabajo Evaluacin 2
Implementar un modelo OLAP (Estrella) usando
SQLServer, usando la metodologa explicada
Estacionamientos subterrneos
Disquera
IP
Telecomunicaciones
Call center
Peaje

Generar informe
Exponer

También podría gustarte