Está en la página 1de 72

DATAWARE HOUSE

MODELO DIMENSIONAL

DATAWAREHOUSE
Modelo dimensional:
El modelo dimensional es la forma en que
modelamos los datos para el anlisis. En este
modelo las perspectivas o dimensiones se
combinan en una entidad denominada hechos,
la cual contiene las medidas.
Las medidas pueden analizarse desde cada
una de las perspectivas o dimensiones que
hayan definido.

DATAWAREHOUSE
Para explicar mejor el concepto, volvemos a
la representacin de la consulta
empresarial, con un ejemplo:
Las ventas de productos de limpieza
en Piura en el mes de enero
Analizar las ventas desde la perspectiva
de los productos
La perspectiva de la ubicacin geogrfica
y desde la perspectiva del tiempo.

DATAWAREHOUSE
Esto quiere decir que se podr analizar
las ventas para cualquier producto, en
cualquier ubicacin geogrfica y en
cualquier momento en el tiempo,
siendo los lmites en cada perspectiva
dados por la disponibilidad de
informacin o por el alcance del
requerimiento.

DATAWAREHOUSE
Esto quiere decir que se podr analizar
las ventas para cualquier producto, en
cualquier ubicacin geogrfica y en
cualquier momento en el tiempo,
siendo los lmites en cada perspectiva
dados por la disponibilidad de
informacin o por el alcance del
requerimiento.

DATAWAREHOUSE

DATAWAREHOUSE
Donde la ubicacin sera el eje y el
producto sera el eje x y el tiempo sera
el eje z y cada punto en el espacio
donde haya una interseccin de las 3
dimensiones contendra la(s) medida(s)
relacionada(s) a esa combinacin.
En particular la respuesta a la pregunta:
Las ventas de productos de limpieza
en Piura en el mes de enero

DATAWAREHOUSE

Diagrama entidad-relacin
dimensional
Como el objetivo es hacer un modelo
de datos para el sistema de anlisis
vamos a utilizar el diagrama entidadrelacin con el fin de modelar el
grfico de la figura 1. El diagrama ER sera como se ve en la siguiente
figura(3)

E-R D

Diagrama entidad-relacin
dimensional
En
principio
identificamos
las
entidades para el caso de la figura 1,
cada dimensin sera una entidad es
decir se tendran la entidad producto,
la entidad ubicacin, la entidad
tiempo, adems hay una entidad que
representa
las
ventas
tambin
denominada entidad hechos.

Diagrama entidad-relacin
dimensional
Para las entidades producto y ubicacin la
relacin es de muchos a muchos igual que la
relacin entre la entidad Producto y tiempo y lo
mismo pasa con la relacin entre ubicacin y
tiempo.
Las relaciones entre cada dimensin y la entidad
hechos (Ventas en este caso):
La relacin ventas producto es de uno a muchos
considerando que la dimensin Productos es un
listado de los productos y que cada hecho o
venta ocurrida es de un producto en particular.

Diagrama entidad-relacin
dimensional
La relacin ventas ubicacin tambin es uno a
muchos pues cada venta realizada de un
producto se da en una ubicacin.
La relacin ventas tiempo es de uno a muchos
pues cada venta se realiza en una unidad de
tiempo determinada.
Es importante notar que se debe
garantizar que las relaciones entre
dimensiones y hechos son de uno a
muchos
y
este
hecho
define
la
granularidad del modelo.

Diagrama entidad-relacin
dimensional
Es el mnimo nivel de detalle (agregacin) de
los datos en un modelo dimensional, esta
referido a los hechos y definido por el mnimo
nivel de detalle de las dimensiones.
En la figura 1 la granularidad ser la venta de
cada producto, por cada ubicacin y por cada
mes, es decir el mnimo nivel de datos en ese
modelo es venta por producto, por ubicacin y
por mes, no sera posible saber la venta por
producto, por ubicacin y por da pues el grano
de este modelo no es tan fino.

El esquema estrella

Esquema estrella
El modelo conceptual de la figura 4 se
denomina tambin esquema estrella o
modelo estrella y es el modelo ms
conocido en el mbito de los sistemas de
anlisis multidimensional de datos.
La entidad Ventas (hechos) no tiene un
identificador nico pues su identificador
estar dado por el identificador compuesto
que resultara de la combinacin de los 3
identificadores de las entidades dimensin.

Esquema estrella

Esquema estrella
Cada tabla que representa a una dimensin tiene
una llave primaria que es el mnimo grano de la
dimensin, adems de la llave primaria hay uno o
ms campos que describen cada dimensin por
ejemplo en campo producto de la dimensin
producto estarn los nombres de los productos. La
llave primaria de la tabla de hechos es una llave
compuesta, definida por las tres llaves forneas de
las tablas de dimensin. Las medidas son campos
en la tabla de hechos, pueden ser tantas medidas
como campos pueda tener esta tabla.

Esquema estrella
Datos de la
Tablas
Dimensiones

Esquema estrella
Datos de la
Tabla Hecho

Esquema estrella
Cada fila en la tabla de hechos representa una
celda en el cubo, y las coordenadas de cada
celda es la combinacin de las 3 dimensiones.
Es importante mencionar que cada hecho
siempre corresponde a una combinacin de
todas las dimensiones, esto debe ser tomado
en cuenta cuando se esta visualizando solo
dos dimensiones, es posible que la tercera
dimensin se este considerando como un filtro
o se este considerando en su totalidad.

Esquema estrella
Tener en cuenta:
Se observa dimensiones solo tienen un nivel,
como producto, ubicacin o mes. Sin embargo
un modelo dimensional solo con estas
posibilidades no seria de mucha utilidad, debe
tener adems la posibilidad de hacer anlisis
para diferentes niveles en cada dimensin por
ejemplo para el tiempo debe permitir ver los
datos por mes o por trimestre o por ao, bajar
a mas detalle por ejemplo a nivel del da.

Dimensiones
desnormalizadas
Agregando atributos de niveles de
granularidad ms agregados a las
entidades dimensin.
Las dimensiones en el modelo
dimensional deben tener, adems
del
mnimo
grano,
atributos
adicionales que permitan tener
granularidades ms agregadas

Dimensiones
desnormalizadas

Dimensiones
desnormalizadas
En la figura 7 se ve que se han
agregado niveles a las dimensiones
como trimestre para el tiempo, pas
para la ubicacin, y lnea de producto
para los productos, si visualizamos el
cubo
en
funcin
a
estas
agregaciones
podramos
esquematizarlo como si fuera un
cubo con una sola gran celda:

Dimensiones
desnormalizadas

Dimensiones
desnormalizadas
Suponiendo que solo algunas celdas
tenan datos, como se respondera
ahora a la pregunta: cules son las
ventas en Per, de la lnea de
productos
de
hogar,
en
el
trimestre 1?
Para responder a esta pregunta se
deberan sumar todos los valores de
las celdas que existan en el cubo con
el fin de obtener el valor deseado.

Dimensiones
desnormalizadas

Dimensiones
desnormalizadas
El modelo conceptual E-R quedara
como sigue:

Dimensiones
desnormalizadas
El modelo Fisico quedara como sigue:

Dimensiones
desnormalizadas
Como se puede ver en los diagramas solamente se
ha aadido atributos al modelo conceptual y campos
en las tablas de dimensin, no se ha alterado la
tabla de hechos y la granularidad no ha cambiado.
Ahora el campo Tipo de la tabla productos cada tipo
se repetir tantas veces como productos haya
dentro del tipo y cada Pas se repetir tantas veces
como ubicaciones haya dentro de ese pas, en este
sentido se han desnormalizado las dimensiones. As
mismo se podran agregar ms niveles agregados,
tantos como sea posible y solo se tendrn que
aadir columnas en las dimensiones.

Dimensiones
desnormalizadas

Tabla de hechos
La tabla de hechos es el centro de la estrella y
contiene los datos acerca de los hechos que se
analizan. Los hechos se miden y cuantifican para
ser analizados. Puede contener mltiples medidas
acerca de los hechos o del rea temtica.
La tabla de hechos es la tabla mas grande del
modelo estrella, pues contiene todos los hechos
del negocio. Su tamao suele ser muy grande con
respecto a las tablas dimensin, puede contener
millones o cientos de millones de registros.

Tabla de hechos
La llave primaria de la tabla de hechos es
una llave compuesta por todas las llaves
forneas provenientes de las dimensiones.

Tabla de hechos

Tipos de medidas
Desde el punto de vista de lo que
devuelven las consultas que se hagan
a una estrella las medidas pueden ser
de tres tipos:
Aditivas: Las medidas mas comunes
son aditivas por que se pueden
sumar para todas las dimensiones y
para todos sus niveles.

Tipos de medidas
No-aditivas: Una medida es noaditiva cuando no es posible hacer la
suma para cualquier dimensin, por
ejemplo el porcentaje de descuento
es una medida que no es aditiva par
ninguna dimensin.

Tipos de medidas

Tipos de medidas
Semi-aditivas: Una medida es semi aditiva
cuando se puede sumar solo para algunas
dimensiones por ejemplo si se tiene un data
mart del stock de productos, la medida
cantidad de productos en stock se puede
sumar por tipo de producto, por almacn,
pero no se puede sumar en el tiempo puesto
que la cantidad de productos a fin de mes
ser la misma cantidad que el ultimo da y no
la suma de los stock de productos de todo el
mes.

Semi-aditivas

Dimensiones
Las tablas dimensin son las
entradas al data mart, toda consulta
que se haga sobre el data mart
tendr que utilizar las tablas
dimensin para entrar a la tabla de
hechos y obtener los datos para el
anlisis. La granularidad de estas
tablas esta determinada por la
granularidad de la tabla de hechos.

Llaves artificiales o surrogate


key
Los principales atributos de una
dimensin son: la llave artificial o
surrogate key, la llave del sistema
OLTP, y los campos descriptivos o
textuales que sern los que ve el
usuario para realizar el anlisis.

Llaves artificiales o surrogate


key

Llaves artificiales o surrogate


key
Una sorrugate key o llave artificial,
es un identificador nico de cada una
de las dimensiones, y no tiene
ningn significado semntico y su
nica finalidad es garantizar la
unicidad de cada registro de la
dimensin.
Es
generada
internamente en el proceso ETL
( Staging area) y no es visible para el
usuario en ningn caso

Esquema estrella - Llaves

Llaves artificiales o surrogate


key
El uso de la surrogate key permite
una reduccin sustancial del tamao
de la tabla de hechos, as mismo
reduce el tamao de los ndices de la
tabla de hechos. Este hecho mejora el
rendimiento en la escritura y las
consultas pues se pueden leer o
escribir ms registros por cada bloque
de I/O.

Llaves artificiales o surrogate


key

Resumiendo:
PK de una sola columna.
Reduce sustancialemente el tamao de la fact table.
Reduce el tamao de los ndices de la fact table.
Permite manejar el reuso de los cdigos OLTP
Permite el seguimiento de los cambios en la
dimensin.
Mejora el rendimiento: ms registro por bloque I/O.

Llaves artificiales o surrogate


key
Todas las dimensiones utilizan surrogate key.
No tienen significado semntico, solamente garantizan la
unicidad de cada registro de la dimensin.
El proceso ETL transforma las llaves OLTP y asigna las
llaves artificiales.
Una llave generalizada de 4 bytes almacena 4 billones de
valores.

Granularidades tpicas
La granularidad de la tabla de hechos
define la dimensionalidad del data mart,
y el tamao de la base de datos. Se
recomienda disear con el mnimo nivel
de detalle posible, puesto que cualquier
nivel mas agregado se podr obtener
del data mart, sin embargo si fuera
necesario un nivel mas fino se tendra
que redisear y reconstruir el data mart.

Granularidades tpicas
Las granularidades ms comunes son.
Nivel de transaccin
Cuando el registro en la tabla de hechos
representa una transaccin realizada en el
negocio, por ejemplo si hablamos de ventas
cada fila en la tabla de hechos sera una
venta realizada a un cliente y estar
relacionada a una factura, por lo que el
monto de venta ser el monto total de la
factura.

Granularidades tpicas
Las granularidades ms comunes
son.
Nivel de foto
Cuando cada registro en la tabla de
hechos esta agregado para un periodo
de tiempo determinado por la llave de
la dimensin tiempo. Por ejemplo el
monto de venta por da.

Granularidades tpicas
Las granularidades ms comunes son.
Nivel de lnea-item
Cuando cada registro en la tabla de
hechos representa un tem que es parte
de una transaccin mas grande, por
ejemplo en el caso del data mart de
ventas cada lnea en la tabla de hechos
sera equivalente a un tem de la factura.

Dimensiones especiales

Dimensiones grandes
Mini dimensiones
Dimensiones sucias.
Dimensiones degeneradas.
Dimensiones analticas.

Dimensiones grandes (cambio


rpido)
Una dimensin grande se utiliza
para
almacenar
informacin
detallada por ejemplo el padrn de
clientes.
Si se trata de un gran almacn
puede
ser
la
dimensin
de
productos.
En las agencias de gobierno,
bancos,
empresas
de
telecomunicaciones es la dimensin
de ciudadanos o clientes.

Mini dimensiones
Es un pequeo grupo de atributos
que se han extrado de una
dimensin grande.
Las dimensiones grandes pueden
tener cientos de atributos.
Algunos de estos atributos pueden
ser separados en Mini-dimensiones

Dimensiones sucias
Contiene muchos datos que se
repiten.
Contiene
datos
inconsistentes
provenientes del OLTP que no se han
limpiado.

Dimensiones degeneradas
Es aquella dimensin que ha generado
una llave fornea en la tabla de hechos y
que no existe fsicamente como tabla de
dimensin.
Nmero de factura, nmero de orden de
compra, nmero de cuenta, si no son
medidas, si no son elementos de una
dimensin, y si la granularidad lo permite,
estos nmeros se almacenan como
dimensiones degeneradas

Dimensiones degeneradas

Dimensiones analticas
Soportan el proceso analtico.
Usualmente son atributos
Presentes en casi todas las
dimensiones.
Se convierten en minidimensiones,
esto mejora la performance.

Dimensiones analticas
Soportan el proceso analtico.
Usualmente relacionados a un
atributo mas a que a la llave
primaria(ingresos, genero, edad)
Presentes en cualquier dimensin

Atributos analticos en la dimensin


cliente
En aplicaciones enfocadas en el cliente, los atributos
categricos del cliente son el corazn de las consultas de
negocio.
Algunos atributos de la dimensin cliente son:
Eventos de su vida (Fecha de graduacin, matrimonio,
hijos, compra de la casa, graduacin de hijos,
jubilacin,etc.)
Demogrficos (edad, ingreso, profesin, nivel educativo,
etc.)
Trabajo (Tamao de la compaa, ingreso estimado, sector
industrial (CIIU), etc)
Fechas importantes (cumpleaos, aniversarios, etc)
Otros (tolerancia al riesgo, propensin a gastar, estilo
preferido, msica preferida, etc)

El modelo copo de nieve


Cuando se normalizan las dimensiones el
modelo recibe el nombre de copo de nieve

Familias de estrellas
Varios modelo Snow flake se pueden unir mediante
sus dimensiones comunes.
En estos casos son implementaciones con multiples
reas temticas.

Los cambios en las Dimensiones


(Slowly changing dimentions)
Se denominan Slowly Changing dimentions o
dimensiones de cambio lento debido a que sus
atributos cambian con muy poca frecuencia en el
tiempo,
esto
tambin
muestra
que
las
dimensiones no son totalmente independientes
entre si, al menos todas dependen del tiempo.
Una de las caractersticas de un data mart o de
un data warehouse es que guardan la historia, en
ese sentido es necesario tener ciertas estrategias
con el fin de mantener una historia de los
cambios en los atributos de las dimensiones

Los cambios en las Dimensiones


(Slowly changing dimentions)
En funcin a la estrategia utilizada
para manejar estos cambios es que las
dimensiones se clasifican en:
Dimensiones del tipo 1
Dimensiones del tipo 2
Dimensiones del tipo 3

Los cambios en las Dimensiones


(Slowly changing dimentions)
Tipo 1: Sobre-escribir
Si la estrategia de actualizacin de la
dimensin es actualizar el registro cada
vez que haya un cambio en los atributos
de la dimensin entonces estamos
manteniendo solo el ltimo valor del
atributo, por lo que se esta perdiendo la
historia y esto debe estar alineado con
los requerimientos de anlisis.

Tipo 1: Sobre - escribir


Mantener el valor antiguo no es de inters para el negocio.
No preserva historia
Se puede utilizar para hacer correcciones.

Los cambios en las Dimensiones


(Slowly changing dimentions)
Tipo 2: Agregar una fila
Si la estrategia de actualizacin es insertar
un nuevo registro en a dimensin,
generando una nueva llave artificial o
surrogate key por cada cambio en los
atributos, entonces estamos preservando la
historia de los cambios en cada elemento
de esa dimensin, esta estrategia se
asumir en funcin a los requerimientos.

Tipo 2: Preserva historia


Mantener un registro del cambio en los
atributos es importante para el negocio.
Particiona la historia

Los cambios en las Dimensiones


(Slowly changing dimentions)
Tipo 3: Agregar una columna
Cuando se requiere analizar el valor actual
de una dimensin y relacionarlo con el valor
anterior
y
viceversa
es
necesario
implementar una tercera estrategia que
consiste en actualizar el registro como en el
caos de la dimensin de tipo 1, y a la vez
aadir una columna adicional a la tabla de
dimensional, en la cual se copie el valor
antiguo del atributo que haya cambiado.

Tipo 3: Mantiene el valor actual y el


anterior
Se requiere comparar el valor actual
con el valor anterior de un atributo.

También podría gustarte