Está en la página 1de 35

Bodegas de Datos y

OLAP
Modelamiento Dimensional
Parte II

Dra. MARTHA ELIANA MENDOZA B.


Ciclo de vida:
Modelado Dimensional

*extrado y traducido: The Data Warehouse Lifecycle Toolkit: Expert Methods for
Designing, Developing, and Deploying Data Warehouse. 1998

Dra. MARTHA ELIANA MENDOZA B.


Contenido

Mtodo de diseo de un TH
Browser
Copo de nieve permisible
Tcnicas de Modelamiento Dimensional.
Dimensiones
Pequeas que cambian rpidamente
Grandes que cambian rpidamente
Degeneradas
Basura
Familias de hechos

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Paso1. Escogiendo el Data Mart, Fuente de
datos sencilla o mltiple:
Inicie con una fuente de datos sencilla.

Paso2. Declarando el grano de la Tabla de


Hechos:
Transacciones individuales.
Snapshots peridicos.
Snapshots Acumulativas.

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Transacciones individuales: detalle de la
transaccin.
Las medidas son valores sencillos de la transaccin.
Ej. Transaccin de ventas al detal.

*extrado: The data warehouse toolkit : the complete guide to dimensional modeling. Ralph Kimball, Margy Ross.
2nd. Ed. Wiley Computer Publishing. 2002

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Transacciones individuales:
Ej. Transaccin de ordenes de producto.

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
3th. Ed. Wiley Computer Publishing. 2013

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Snapshot peridico:
Foto de actividad en un perodo de tiempo.
Ej. Nmina mensual, perodo, mes.

*extrado: The data warehouse toolkit: the complete guide to dimensional modeling. Ralph Kimball, Margy Ross. 2 nd.
Ed. Wiley Computer Publishing. 2002
Dra. MARTHA ELIANA MENDOZA B.
Mtodo de Diseo de una Tabla de
Hecho
Snapshot
Acumulativo:
Capturan
fechas de
pasos de un
Medidas
proceso de asociadas a las
fechas (pasos)
negocio de
una lnea de
elemento.

*extrado: The data warehouse toolkit: the complete guide to dimensional modeling. Ralph Kimball, Margy Ross.
2nd. Ed. Wiley Computer Publishing. 2002

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Comparacin de Tipos de TH.
CARACTERISTICA GRANO GRANO SNAPSHOT GRANO SNAPSHOT
TRANSACCION PERIODICO ACUMULATIVO
Representacin del Un Punto en el Regular, intervalos Lapso de tiempo
perodo de tiempo tiempo predecibles indeterminado, tpicamente
ciclo de vida corto
Grano Una fila por cada Una fila por cada perodo Una fila por ciclo de vida
evento de
transaccin
Cargas de la tabla Inserciones Inserciones Inserciones y
de hecho actualizaciones
Actualizacin de las No actualizadas, No actualizadas, solo por Actualizadas cuando hay
fila del hecho solo por un error un error actividad
Dimensin Fecha Fecha de la Fecha de fin del perodo Mltiples fechas para hitos
transaccin estndar
Medidas Actividad de la Ejecucin para un intervalo Ejecucin para el ciclo de
transaccin de tiempo predefinido vida finito

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
3th. Ed. Wiley Computer Publishing. 2013

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Paso3.
Escogiendo
las
Dimensiones

*extrado: The data warehouse toolkit: the complete guide to dimensional modeling. Ralph Kimball, Margy Ross.
2nd. Ed. Wiley Computer Publishing. 2002

Dra. MARTHA ELIANA MENDOZA B.


Mtodo de Diseo de una Tabla de
Hecho
Paso4. Escogiendo los Hechos.
Los hechos siempre deben especificar (estar acorde
con) el grano de la tabla de hechos.

*extrado: The data warehouse toolkit: the complete guide to dimensional modeling. Ralph Kimball, Margy Ross.
2nd. Ed. Wiley Computer Publishing. 2002

Dra. MARTHA ELIANA MENDOZA B.


Browser

Caractersticas de un buen browser:


Explorar una dimensin y sus relaciones.
Enumerar todos los valores distintos de un atributo.
Afectar una solicitud con restricciones previas en la
sesin.
Permitir salvar las consultas y reportes, para ser
usados en el futuro.

Dra. MARTHA ELIANA MENDOZA B.


Copo de Nieve Permisible
Dimensin Copo de Nieve:
Campos de baja cardinalidad se colocan en tablas
separadas que se enlazan con la tabla original con
claves artificiales.
Generalmente no se recomienda.

*extrado: The Data Warehouse Toolkit Second Edition: The Complete Guide to Dimensional Modeling. 2002

Dra. MARTHA ELIANA MENDOZA B.


Copo de Nieve

Problemas del copo de nieve:


El espacio en disco que se ahorra es insignificante
con respecto al tamao total del DW .
Pasos extras de administracin para crear y poblar las
claves artificiales.
Presentacin del usuario ms compleja y complicada,
(navegacin a travs de los atributos).

Dra. MARTHA ELIANA MENDOZA B.


Copo de Nieve Permisible
Sub-dimensiones <> copo de nieve.
Permite cierta normalizacin en el DW. Ejemplo: Sub-
dimensin Demografa.
Atributos demogrficos medidos para cada condado
(nombre, cantidad y % poblacin).
Clientes que pertenecen al mismo condado comparten
un conjunto de atributos.

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross. 3th.
Ed. Wiley Computer Publishing. 2013
Dra. MARTHA ELIANA MENDOZA B.
Copo de Nieve Permisible
La Sub-dimensin Demografa se permite si:
El dato demogrfico:
Existe de forma independiente de la dimensin primaria
(Cliente).
Es administrado y cargado en diferente tiempo a la
dimensin primaria.
Se ahorra bastante espacio en disco, ya que la
dimensin demografa es grande.
Se necesita hacer Browser entre los atributos de la
tabla demografa.

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones pequeas

Que cambian rpidamente:


Si los cambios son rpidos y suceden cada da o por
lo menos muchas veces por ao.
Se puede usar la tcnica Tipo 2, de dimensiones que
cambian lentamente, para tracear todas las versiones
del producto.

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones grandes

DW que almacenan datos muy granulares


requieren dimensiones grandes.
Empresas que distribuyen al pblico en general
necesitan una dimensin individual de personas.
Estos minoristas tienen dimensiones grandes de
personas (100 millones de registros o ms).
Dimensiones de clientes comerciales ms grandes,
como en las Telecomunicaciones, pueden contener
ms de 100 millones de registros.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Las dimensiones grandes pueden cambiar ms
que las dimensiones de tamao mediano.
Ejemplos:
Empresas minoristas peridicamente actualizan la
informacin de sus clientes.
Compaas de seguros deben actualizar la
informacin de sus clientes, sus automviles y casas
aseguradas.
Es importante tener una descripcin exacta de la pliza
de seguro cuando fue aprobada y cuando se ejecuta por
una demanda.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Ej. Dimensin Cliente grande con campos
demogrficos que cambian y son de inters.
Solucin, una Mini-Dimensin:
Separar los atributos que cambian de la dimensin
original.
Dejar en la dimensin original la informacin constante.

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross. 3th.
Ed. Wiley Computer Publishing. 2013
Dra. MARTHA ELIANA MENDOZA B.
El peor caso: Dimensiones grandes
que cambian rpidamente
Se necesita hacer los siguientes cambios:
Convertir los valores continuos demogrficos, en un
nmero pequeo de valores discretos.
Crear la combinacin de todos de los valores
discretos. Ejemplo:
Si son 5 atributos.
Cada uno puede tomar 10 valores posibles .
La combinacin de valores sera de 105=100.000.
Crear una clave demografa sustituta para cada
combinacin de valores en una Mini-Dimensin.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Ej. Mini-dimensin Demografa

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross. 3th.
Ed. Wiley Computer Publishing. 2013
Dra. MARTHA ELIANA MENDOZA B.
El peor caso: Dimensiones grandes
que cambian rpidamente
Cuando ocurre un hecho se colocan dos claves
de dimensin en la TH, que son:
Dimensin Cliente (dimensin original).
Dimensin Demografa, el dato demogrfico se coloca
dependiendo del hecho, permitiendo cambiar la
descripcin demogrfica del cliente frecuentemente
(cada vez que ocurra un hecho).
Esto permite soportar vistas de diferentes
perfiles de clientes:
Sin incrementar el almacenamiento de datos o
La complejidad de los datos.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Inconvenientes que se presentan:
Si la Dimensin Demografa es muy grande (por los
valores discretos).
Muchos atributos demogrficos con muchos valores c/u.
Combinacin de atributos, millones de combinaciones.
Una posible solucin:
Segunda dimensin demografa, con hechos relacionados
con el ingreso familiar y otra con el comportamiento de
las compras y crditos (2 Mini-Dimensiones).
Flexibilidad al modelo de datos y la capacidad de
monitorear cambios en la demografa familiar y el
comportamiento financiero del cliente.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Inconvenientes que se presentan:
Con esta solucin, los datos demogrficos se
separan de los descriptores constantes del cliente
(gnero, estado civil, etc.).
Los datos demogrficos solo pueden verse con los
datos del cliente por medio de la TH. Solo se asocia la
demografa con el cliente cuando se crea un registro en
la TH .
El browser es ms lento y costoso que si todos los
datos estuvieran en la sola tabla dimensional.

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Inconvenientes que se presentan:
Se puede resolver as:
Definir un evento de transaccin demogrfica al que
no se le asocie venta en dlares y permita registrar un
nuevo perfil demogrfico del cliente.
Otra forma es adicionar la clave demogrfica actual a
la tabla dimensin cliente. Esto soporta anlisis
demogrfico de todos los clientes sin atravesar la tabla
hecho. (Mini-Dimensin y Sub-dimensin)

Dra. MARTHA ELIANA MENDOZA B.


El peor caso: Dimensiones grandes
que cambian rpidamente
Se resuelve como: Mini-Dimensin y Sub-
dimensin.

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
3th. Ed. Wiley Computer Publishing. 2013

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Degeneradas (DD)

DD ocurren en TH orientadas a lneas de


elementos.
Usada para agrupar lneas de elementos de una
orden.
Promedio de lneas de elementos en una orden.
Al final del diseo:
El nmero de la orden o de transaccin queda sin
atributos.
La clave es el nmero de la orden del sistema de
produccin.
Se coloca en la TH y no se necesita hacer Join.

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Degeneradas (DD)
Ej.: Tirilla de pago que se identifica por nmero
de la transaccin.

Si al final del diseo quedan uno o mas atributos


del encabezado de la orden o factura, se puede
crear una dimensin.
*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
3th. Ed. Wiley Computer Publishing. 2013

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Basura (DB)

Despus de identificar atributos para las


dimensiones quedan un # de banderas y
atributos de texto (B&A), que:
No estn organizados de forma coherente y el
significado de estos atributos no es claro.
Se llenan espordicamente o su contenido parece
variar dependiendo del contexto del registro.

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Basura (DB)
Se deben evitar estas alternativas de solucin:
Dejar B&A como campos de la tabla de hechos.
TH aumenta alarmantemente.
Hace costoso la construccin de ndices.
Restringe la navegacin sobre estos campos.
Colocar cada B&A en una dimensin propia separada.
Crece el # de dimensiones: Un diseo de 5 dimensiones
puede crecer a 25.
Dejar por fuera del diseo estas B&A.
Si son relevantes para el anlisis del negocio.
Dejar por fuera del diseo. Si son incomprensibles,
inconsistentes o solo importan para el OLTP.

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Basura (DB)
Estudiar B&A y empaquetarlas en una o ms
DB. Ejemplo:
Diez indicadores (YES/NO) se colocan en una
dimensin sencilla (210 = 1024 registros).
Los diez campos de la TH se reemplazan con una
clave sustituta.
Se debe tener en cuenta para el diseo:
Crear todas las combinaciones de estas B&A en la
dimensin.
Crear solo los registros de las combinaciones que se
encuentran en los datos.
Depende de cuntas combinaciones se esperan?.
Cuando el # de combinaciones es muy alto y no se cree
encontrarlas todas, incluir un registro en la DB cuando
se encuentre una nueva combinacin de campos.
Dra. MARTHA ELIANA MENDOZA B.
Dimensiones Basura
Ejemplo de Dimensin Basura.
Solo combinaciones factibles o vlidas.
Toma tres valores Toman dos valores

*extrado: The data warehouse toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
3th. Ed. Wiley Computer Publishing. 2013

Dra. MARTHA ELIANA MENDOZA B.


Dimensiones Basura

Revisar el libro de The Microsoft Data


Warehouse Toolkit : With SQL Server 2008 and
the Microsoft Business Intelligence Toolset ,
Chapter 2: Designing the Business Process
Dimensional Model, en el tem Additional
Design concepts and techniques, ejemplo de
Junk Dimensions. 2011

Dra. MARTHA ELIANA MENDOZA B.


Bibliografa
The Data Warehouse Lifecycle Toolkit: Expert
Methods for Designing, Developing, and Deploying
Data Warehouses. Ralph Kimball, Laura Reeves,
Margy Ross, Warren Thornthwaite. John Wiley &
Sons, 1998.
The Microsoft Data Warehouse Toolkit: With SQL
Server 2008 and the Microsoft Business Intelligence
Toolset. Joy Mundy and Warren Thornthwaite with
Ralph Kimball. John Wiley & Sons, Second Edition.
2011.
The Data Warehouse Lifecycle Toolkit: The Definitive
Guide to Dimensional Modeling. Ralph Kimball, Margy
Ross. 3th. Ed. Wiley Computer Publishing. 2013.
Dra. MARTHA ELIANA MENDOZA B.

También podría gustarte