Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODELO DIMENSIONAL
DATAWAREHOUSE
Modelo dimensional:
El modelo dimensional es la forma en que
modelamos los datos para el anlisis. En este
modelo las perspectivas o dimensiones se
combinan en una entidad denominada hechos,
la cual contiene las medidas.
Las medidas pueden analizarse desde cada
una de las perspectivas o dimensiones que
hayan definido.
DATAWAREHOUSE
Para explicar mejor el concepto, volvemos a
la representacin de la consulta
empresarial, con un ejemplo:
Las ventas de productos de limpieza
en Piura en el mes de enero
Analizar las ventas desde la perspectiva
de los productos
La perspectiva de la ubicacin geogrfica
y desde la perspectiva del tiempo.
DATAWAREHOUSE
Esto quiere decir que se podr analizar
las ventas para cualquier producto, en
cualquier ubicacin geogrfica y en
cualquier momento en el tiempo,
siendo los lmites en cada perspectiva
dados por la disponibilidad de
informacin o por el alcance del
requerimiento.
DATAWAREHOUSE
Esto quiere decir que se podr analizar
las ventas para cualquier producto, en
cualquier ubicacin geogrfica y en
cualquier momento en el tiempo,
siendo los lmites en cada perspectiva
dados por la disponibilidad de
informacin o por el alcance del
requerimiento.
DATAWAREHOUSE
DATAWAREHOUSE
Donde la ubicacin sera el eje y el
producto sera el eje x y el tiempo sera
el eje z y cada punto en el espacio
donde haya una interseccin de las 3
dimensiones contendra la(s) medida(s)
relacionada(s) a esa combinacin.
En particular la respuesta a la pregunta:
Las ventas de productos de limpieza
en Piura en el mes de enero
DATAWAREHOUSE
Diagrama entidad-relacin
dimensional
Como el objetivo es hacer un modelo
de datos para el sistema de anlisis
vamos a utilizar el diagrama entidadrelacin con el fin de modelar el
grfico de la figura 1. El diagrama ER sera como se ve en la siguiente
figura(3)
E-R D
Diagrama entidad-relacin
dimensional
En
principio
identificamos
las
entidades para el caso de la figura 1,
cada dimensin sera una entidad es
decir se tendran la entidad producto,
la entidad ubicacin, la entidad
tiempo, adems hay una entidad que
representa
las
ventas
tambin
denominada entidad hechos.
Diagrama entidad-relacin
dimensional
Para las entidades producto y ubicacin la
relacin es de muchos a muchos igual que la
relacin entre la entidad Producto y tiempo y lo
mismo pasa con la relacin entre ubicacin y
tiempo.
Las relaciones entre cada dimensin y la entidad
hechos (Ventas en este caso):
La relacin ventas producto es de uno a muchos
considerando que la dimensin Productos es un
listado de los productos y que cada hecho o
venta ocurrida es de un producto en particular.
Diagrama entidad-relacin
dimensional
La relacin ventas ubicacin tambin es uno a
muchos pues cada venta realizada de un
producto se da en una ubicacin.
La relacin ventas tiempo es de uno a muchos
pues cada venta se realiza en una unidad de
tiempo determinada.
Es importante notar que se debe
garantizar que las relaciones entre
dimensiones y hechos son de uno a
muchos
y
este
hecho
define
la
granularidad del modelo.
Diagrama entidad-relacin
dimensional
Es el mnimo nivel de detalle (agregacin) de
los datos en un modelo dimensional, esta
referido a los hechos y definido por el mnimo
nivel de detalle de las dimensiones.
En la figura 1 la granularidad ser la venta de
cada producto, por cada ubicacin y por cada
mes, es decir el mnimo nivel de datos en ese
modelo es venta por producto, por ubicacin y
por mes, no sera posible saber la venta por
producto, por ubicacin y por da pues el grano
de este modelo no es tan fino.
El esquema estrella
Esquema estrella
El modelo conceptual de la figura 4 se
denomina tambin esquema estrella o
modelo estrella y es el modelo ms
conocido en el mbito de los sistemas de
anlisis multidimensional de datos.
La entidad Ventas (hechos) no tiene un
identificador nico pues su identificador
estar dado por el identificador compuesto
que resultara de la combinacin de los 3
identificadores de las entidades dimensin.
Esquema estrella
Esquema estrella
Cada tabla que representa a una dimensin tiene
una llave primaria que es el mnimo grano de la
dimensin, adems de la llave primaria hay uno o
ms campos que describen cada dimensin por
ejemplo en campo producto de la dimensin
producto estarn los nombres de los productos. La
llave primaria de la tabla de hechos es una llave
compuesta, definida por las tres llaves forneas de
las tablas de dimensin. Las medidas son campos
en la tabla de hechos, pueden ser tantas medidas
como campos pueda tener esta tabla.
Esquema estrella
Datos de la
Tablas
Dimensiones
Esquema estrella
Datos de la
Tabla Hecho
Esquema estrella
Cada fila en la tabla de hechos representa una
celda en el cubo, y las coordenadas de cada
celda es la combinacin de las 3 dimensiones.
Es importante mencionar que cada hecho
siempre corresponde a una combinacin de
todas las dimensiones, esto debe ser tomado
en cuenta cuando se esta visualizando solo
dos dimensiones, es posible que la tercera
dimensin se este considerando como un filtro
o se este considerando en su totalidad.
Esquema estrella
Tener en cuenta:
Se observa dimensiones solo tienen un nivel,
como producto, ubicacin o mes. Sin embargo
un modelo dimensional solo con estas
posibilidades no seria de mucha utilidad, debe
tener adems la posibilidad de hacer anlisis
para diferentes niveles en cada dimensin por
ejemplo para el tiempo debe permitir ver los
datos por mes o por trimestre o por ao, bajar
a mas detalle por ejemplo a nivel del da.
Dimensiones
desnormalizadas
Agregando atributos de niveles de
granularidad ms agregados a las
entidades dimensin.
Las dimensiones en el modelo
dimensional deben tener, adems
del
mnimo
grano,
atributos
adicionales que permitan tener
granularidades ms agregadas
Dimensiones
desnormalizadas
Dimensiones
desnormalizadas
En la figura 7 se ve que se han
agregado niveles a las dimensiones
como trimestre para el tiempo, pas
para la ubicacin, y lnea de producto
para los productos, si visualizamos el
cubo
en
funcin
a
estas
agregaciones
podramos
esquematizarlo como si fuera un
cubo con una sola gran celda:
Dimensiones
desnormalizadas
Dimensiones
desnormalizadas
Suponiendo que solo algunas celdas
tenan datos, como se respondera
ahora a la pregunta: cules son las
ventas en Per, de la lnea de
productos
de
hogar,
en
el
trimestre 1?
Para responder a esta pregunta se
deberan sumar todos los valores de
las celdas que existan en el cubo con
el fin de obtener el valor deseado.
Dimensiones
desnormalizadas
Dimensiones
desnormalizadas
El modelo conceptual E-R quedara
como sigue:
Dimensiones
desnormalizadas
El modelo Fisico quedara como sigue:
Dimensiones
desnormalizadas
Como se puede ver en los diagramas solamente se
ha aadido atributos al modelo conceptual y campos
en las tablas de dimensin, no se ha alterado la
tabla de hechos y la granularidad no ha cambiado.
Ahora el campo Tipo de la tabla productos cada tipo
se repetir tantas veces como productos haya
dentro del tipo y cada Pas se repetir tantas veces
como ubicaciones haya dentro de ese pas, en este
sentido se han desnormalizado las dimensiones. As
mismo se podran agregar ms niveles agregados,
tantos como sea posible y solo se tendrn que
aadir columnas en las dimensiones.
Dimensiones
desnormalizadas
Tabla de hechos
La tabla de hechos es el centro de la estrella y
contiene los datos acerca de los hechos que se
analizan. Los hechos se miden y cuantifican para
ser analizados. Puede contener mltiples medidas
acerca de los hechos o del rea temtica.
La tabla de hechos es la tabla mas grande del
modelo estrella, pues contiene todos los hechos
del negocio. Su tamao suele ser muy grande con
respecto a las tablas dimensin, puede contener
millones o cientos de millones de registros.
Tabla de hechos
La llave primaria de la tabla de hechos es
una llave compuesta por todas las llaves
forneas provenientes de las dimensiones.
Tabla de hechos
Tipos de medidas
Desde el punto de vista de lo que
devuelven las consultas que se hagan
a una estrella las medidas pueden ser
de tres tipos:
Aditivas: Las medidas mas comunes
son aditivas por que se pueden
sumar para todas las dimensiones y
para todos sus niveles.
Tipos de medidas
No-aditivas: Una medida es noaditiva cuando no es posible hacer la
suma para cualquier dimensin, por
ejemplo el porcentaje de descuento
es una medida que no es aditiva par
ninguna dimensin.
Tipos de medidas
Tipos de medidas
Semi-aditivas: Una medida es semi aditiva
cuando se puede sumar solo para algunas
dimensiones por ejemplo si se tiene un data
mart del stock de productos, la medida
cantidad de productos en stock se puede
sumar por tipo de producto, por almacn,
pero no se puede sumar en el tiempo puesto
que la cantidad de productos a fin de mes
ser la misma cantidad que el ultimo da y no
la suma de los stock de productos de todo el
mes.
Semi-aditivas
Dimensiones
Las tablas dimensin son las
entradas al data mart, toda consulta
que se haga sobre el data mart
tendr que utilizar las tablas
dimensin para entrar a la tabla de
hechos y obtener los datos para el
anlisis. La granularidad de estas
tablas esta determinada por la
granularidad de la tabla de hechos.
Resumiendo:
PK de una sola columna.
Reduce sustancialemente el tamao de la fact table.
Reduce el tamao de los ndices de la fact table.
Permite manejar el reuso de los cdigos OLTP
Permite el seguimiento de los cambios en la
dimensin.
Mejora el rendimiento: ms registro por bloque I/O.
Granularidades tpicas
La granularidad de la tabla de hechos
define la dimensionalidad del data mart,
y el tamao de la base de datos. Se
recomienda disear con el mnimo nivel
de detalle posible, puesto que cualquier
nivel mas agregado se podr obtener
del data mart, sin embargo si fuera
necesario un nivel mas fino se tendra
que redisear y reconstruir el data mart.
Granularidades tpicas
Las granularidades ms comunes son.
Nivel de transaccin
Cuando el registro en la tabla de hechos
representa una transaccin realizada en el
negocio, por ejemplo si hablamos de ventas
cada fila en la tabla de hechos sera una
venta realizada a un cliente y estar
relacionada a una factura, por lo que el
monto de venta ser el monto total de la
factura.
Granularidades tpicas
Las granularidades ms comunes
son.
Nivel de foto
Cuando cada registro en la tabla de
hechos esta agregado para un periodo
de tiempo determinado por la llave de
la dimensin tiempo. Por ejemplo el
monto de venta por da.
Granularidades tpicas
Las granularidades ms comunes son.
Nivel de lnea-item
Cuando cada registro en la tabla de
hechos representa un tem que es parte
de una transaccin mas grande, por
ejemplo en el caso del data mart de
ventas cada lnea en la tabla de hechos
sera equivalente a un tem de la factura.
Dimensiones especiales
Dimensiones grandes
Mini dimensiones
Dimensiones sucias.
Dimensiones degeneradas.
Dimensiones analticas.
Mini dimensiones
Es un pequeo grupo de atributos
que se han extrado de una
dimensin grande.
Las dimensiones grandes pueden
tener cientos de atributos.
Algunos de estos atributos pueden
ser separados en Mini-dimensiones
Dimensiones sucias
Contiene muchos datos que se
repiten.
Contiene
datos
inconsistentes
provenientes del OLTP que no se han
limpiado.
Dimensiones degeneradas
Es aquella dimensin que ha generado
una llave fornea en la tabla de hechos y
que no existe fsicamente como tabla de
dimensin.
Nmero de factura, nmero de orden de
compra, nmero de cuenta, si no son
medidas, si no son elementos de una
dimensin, y si la granularidad lo permite,
estos nmeros se almacenan como
dimensiones degeneradas
Dimensiones degeneradas
Dimensiones analticas
Soportan el proceso analtico.
Usualmente son atributos
Presentes en casi todas las
dimensiones.
Se convierten en minidimensiones,
esto mejora la performance.
Dimensiones analticas
Soportan el proceso analtico.
Usualmente relacionados a un
atributo mas a que a la llave
primaria(ingresos, genero, edad)
Presentes en cualquier dimensin
Familias de estrellas
Varios modelo Snow flake se pueden unir mediante
sus dimensiones comunes.
En estos casos son implementaciones con multiples
reas temticas.