Está en la página 1de 10

Síntesis

The Data Warehouse Toolkit, 3rd Edition


Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

1. INTRODUCCION

A través de la experiencia en el trabajo, he aprendido que todo lo que hagamos para que
resulte “bien hecho”, debe tener un protocolo, proceso, algoritmo, pasos a seguir o como
ud. lo quiera nombrar, pero siempre siguiendo un método o técnica que ha establecido la
autoridad en la materia, ya sea una empresa o un experto, cierto ¿?

Entonces, hablando de Modelado Dimensional, la autoridad en la materia es Ralph


Kimball, así que el presente documento, es una síntesis del documento “The Data
Wareahouse Toolkit, 3rd Edition” que tiene como finalidad, exponer de manera precisa la
técnica mas optima para el desarrollo de un proyecto que involucra el Modelaje
Dimensional, diseño correcto del Data Warehouse o almacén de datos de la empresa.

Siempre cuestione todo, esa es una buena costumbre. Un buen diseño va a evitar muchos
problemas posteriores, así que bien vale la pena entender esta técnica y aplicarla.

Deseo tengas éxito en tus proyectos.

Cuestiona todo., aprende a aprender…. Armando Castañon García


1
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

2. DataWarehouse, Business Intelligence y Modelo Dimensional

Qué es Data WareHouse ? Es el Almacén de datos único y general de una organización.

Entendiendo el Modelo Dimensional.

La principal diferencia entre la 3ª forma normal y modelos dimensionales, es el grado de


normalización. Un modelo Dimensional contiene la misma información que un modelo
normalizado, pero los datos están organizados y disponibles para el usuario, en un
formato comprensible, con desempeño bueno en consultas y resistencia al cambio.

Se utiliza el concepto “Tabla de hechos para medidas”; el término “hecho”, representa


una medida de negocio, cada fila de la tabla de hechos corresponde a un evento o
transacción medible y los hechos más útiles son numéricos y aditivos. Ej. Monto en
dólares por ventas.

Todas las tablas de hechos tienen una o más llaves externas(Foreing Keys,FK) que
conectan con las llaves primarias(PK) de las dimensiones.

La tabla de hechos generalmente tiene su propia PK compuesta por un subconjunto de


FK´s. Esta llave es frecuentemente llamada llave compuesta. Cada tabla que tiene una
llave compuesta es una tabla de hechos.

La(s) tabla(s) de hechos debe(n) ser diseñada(s) en base al elemento atómico, es decir al
nivel máximo de detalle para poder hacer frente a las consultas impredecibles del usuario.
Los datos no deben ser estructurados conforme a interpretaciones individuales de los
departamentos, sino en base a “procesos empresariales”

Las tablas de dimensión contienen el contexto de cada registro de la tabla de hechos y


responde a las preguntas “quién, que, donde, cuando, como, y porque” asociado con el
evento., y tienen una llave primaria (PK) para ligarse a la tabla de hechos. A cada columna
de la tabla de dimensión, se le denomina atributo. Y típicamente están fuertemente
desnormalizadas.

Es hecho o atributo de dimensión ? Por lo general valores numéricos son casi siempre
hechos. Antes de pensar en el modelo estrella o cubos, debes tener un diseño realizado
de la mejor manera posible en lo que se refiere a tablas de hechos y dimensiones.

Cuestiona todo., aprende a aprender…. Armando Castañon García


2
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Mitos del Modelaje Dimensional:

1. Son solo para sumarizar datos

2. Son Departamentales, no empresariales

3. No son escalables

4. Solo para uso predictivo

5. No pueden ser integrados

Mejores prácticas

1. Enfócate en los procesos

2. Excelente colaboración, retroalimentación entre el equipo de desarrolladores y los


interesados en la parte del negocio (empresa)

3. Rápida adaptación a los inevitables nuevos requermientos y exigencias del negocio

4. Abordar el desarrollo de una forma iterativa e incremental.

Cuestiona todo., aprende a aprender…. Armando Castañon García


3
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

3 “Técnicas de Modelaje Dimensional de Kimball”

3.1 Los modelos dimensionales deben ser diseñados en colaboración con expertos en la
materia y representantes de la empresa con facultad para la toma de decisiones en los
datos.

3.2 Cuatro pasos en el Diseño Dimensional

3.2.1 Seleccionar el proceso de negocio

3.2.2 Establecer el grano. El grano establece exactamente lo que representa una


fila de la tabla de hechos y debe ser declarado antes de elegir dimensiones o hechos,
porque cada candidato a dimensión o hecho debe ser consistente con el grano. Grano
atómico se refiere al nivel mas bajo al cual el dato es capturado por un determinado
proceso de negocio. Cada grano propuesto para una tabla de hechos, resulta en una tabla
física, diferentes granos no deben ser mezclados en la misma tabla de hechos.

3.2.3 Identificar las dimensiones. Las identificas respondiendo a “Quien”, “Que”,


“Donde”, “Cuando”, “Porque” y “Cómo” del contexto que involucra al evento del proceso
de negocio. Las tablas de dimensión contienen atributos descriptivos utilizados por las
aplicaciones BI para filtrar y agrupar los hechos. Con el grano de la tabla de hechos bien
firme en mente, todas las posibles dimensiones se pueden identificar.

3.2.4 Identificar los hechos. Hechos, son las mediciones que resultan del evento del
proceso de negocio y casi siempre son numéricas.

La tabla de hechos, corresponde a un evento físico observable y no a las demandas de un


reporte en particular. Por ejemplo, en una transaccion de venta al detalle, la cantidad de
un producto vendido y su precio de venta son buenos hechos, mientras que el salario del
gerente de la tienda no interesa.

Cuestiona todo., aprende a aprender…. Armando Castañon García


4
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Esquema Estrella y cubos OLAP

Esquemas estrella son las estructuras dimensionales llevadas a ser creadas en un


manejador de bases de datos relacional (RDBMS). Consiste en tablas de hechos ligadas a
sus tablas de dimensión por relaciónes primary/foreing key.

Un cubo OLAP, es una estructura dimensional, implementada en una base de datos


multidimensional, equivalente al modelo estrella, es decir es modelo multidimensional del
modelo estrella.

Ventajas del Modelo Dimensional

El modelo dimensional es flexible cuando las relaciones entre los datos cambian. Los
siguientes cambios pueden ser implementados sin alterar ningúna consulta BI o de
aplicación existente y sin ninguna alteración a los resultados de dichas consultas.

1. Hechos coherentes con el grano de una tabla de hechos existente, pueden ser
agregados creando nuevas columnas

2. Dimensiones pueden ser agregadas a una tabla de hechos existente, creando nuevas
columnas para almacenar FK, cuidando que no alteren el grano de la tabla de hechos.

3. Atributos pueden ser añadidos en una tabla de dimensión existente, creando nuevas
columnas.

4. El grano de una tabla de hechos puede hacerse mas atómico, añadiendo atributos a una
tabla de dimensión existente y luego reiniciando la tabla de hechos al grano más atómico,
siendo cuidadoso en conservar los nombres de columnas tanto en la tabla de hechos
como de dimensión.

Cuestiona todo., aprende a aprender…. Armando Castañon García


5
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Técnicas básicas para el diseño de una Tabla de Hechos (Aplican para cualquier tabla de
hechos)

1. Estructura. Una tabla de hechos contiene medidas numéricas, generadas por la


medicion operacional de un evento en el mundo real. Al nivel granular mas bajo, una
fila de la tabla de hechos corresponde a un evento medible y vicecersa. Así, el diseño
fundamental de una tabla de hechos es completamente basado en la actividad física y
no es influenciado por reportes eventuales que pudieran surgir.

Además de medidas numéricas, una tabla de hechos siempre contiene foreign keys para
cada una de sus dimensiones asociadas y opcionalmente FK degeneradas de dimensión y
date/time stamps. Las tablas de hechos son la primer fuente para cálculos; son
increíblemente eficientes porque contienen solo FK de dimension y medidas, fueron
creadas para representar relaciones muchos a muchos entre dimensiones.

2. Valores nulos deben evitarse en una tabla de hechos porque pueden ocasionar
violación a la integridad referencial.

Técnicas básicas para el diseño de una Tabla de Dimensión.

Estructura. Toda tabla de dimensión tiene una PK que está embebida como foreing key en
cualquier tabla de hechos con la que esté asociada. Tablas de dimensión por lo general
tienen una cantidad considerable de columnas, planas, denormalizadas, con baja
cardinalidad en los atributos o campos de texto. (Recordemos que Cardinalidad se refiere
a la unicidad de los valores contenidos en una columna en particular de una tabla. A
menor cardinalidad, mayor duplicidad y viceversa.)

Cuestiona todo., aprende a aprender…. Armando Castañon García


6
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Mientras que valores numéricos e indicadores pueden ser tratados como atributos, los
atributos mas poderosos de una tabla de dimensión son descriptivos, tipo texto. Los
atributos de una tabla de dimensión son la fuente primaria para la definición de
restricciones y agrupaciones desde queries y aplicaciones BI. Las etiquetas descriptivas en
reportes, son típicamente valores atributos de dimensión.

Taladrando (Drilling Down)

Es la manera fundamental como los usuarios analizan los datos. Significa simplemente
añadir un atributo de dimensión al SQL query, agregado a la expresion group by. El
atributo puede proceder de cualquier dimension ligada a la tabla de hechos. No requiere
la definición de jerarquías predeterminadas o rutas drill-down.

Múltiples Jerarquías en Dimensiones

Algunas dimensiones tienen mas de una jerarquía. Por ejemplo, la dimensión


fecha_calendario, puede tener una jerarquía para el periodo fiscal con el día de la semana,
así como una jerarquía año para el día del mes. Dimensiones intensivas de localización,
pueden tener múltiples jerarquías geográficas. En todos estos casos, las jerarquías
separadas pueden coexistir en la misma tabla de dimensión.

Dimensiones con valores nulos

Evitarlos, en su lugar substituirlos por cadenas como “No Aplica”, para no ocasionar
inconsistencias.

Dimensiones copo de nieve

Cuando la relación jerárquica en una tabla de dimensión es normalizada, aparecen


atributos con baja cardinalidad como tablas secundarias conectadas a la dimensión base
por el atributo llave. Cuando este proceso se repite con todas las jerarquías de las
dimensiones, una estructura multinivel aparece llamada copo de nieve. Pese a que esta
estructura representa exactamente los datos jerárquicos, debes evitar este tipo de
esquema porque resulta dificil para el usuario final entenderlo y navegar por el. Además
también ocasiona un impacto negativo en el rendimiento de las consultas. Una tabla de
dimensión plana, denormalizada, contiene exactamente la misma información que una
con estructura de copo de nieve.

Cuestiona todo., aprende a aprender…. Armando Castañon García


7
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Dimensiones Conformadas

Una tabla de dimensión conformada es aquella que tiene el mismo significado para
cualquier tabla de hechos con la que esté relacionada. Permiten organizar y describir
hechos y medidas de igual manera a traves de multiples tablas de hechos o data marts ,
asegurando consistencia en los reportes en toda la empresa.

Una tabla de dimensión conformada, puede existir como una sola tabla que está
relacionada con múltiples tablas de hechos en el mismo almacén de datos(data
warehouse ) o como tablas de dimensión idénticas en data marts separados. Por ejemplo,
“Fecha” es una tabla de dimensión conformada muy común, porque sus atributos(dia,
semana, mes ,cuatrimestre, año, etc) tienen el mismo significado cuando se liga a
cualquier tabla de hechos. Otro ejemplo: una tabla de dimensión conformada, llamada
“producto” con el nombre del producto, descripción, y otros atributos comunes pueden
existir en múltiples data marts, cada uno almacenando datos de una tienda de la cadena.

Cadena de Valor

Identifica el flujo natural del proceso de negocio primario de una organizacion. Cada
proceso, típicamente deriva en el menos una tabla de hechos.

Construcción del almacén de datos empresarial.( Enterprise Data Warehouse Bus


Architecture)

Esta técnica de construcción, descompone el proceso de planeación del DW/BI en piezas


manejables, enfocándose en los procesos de negocio obteniendo integración por medio
de dimensiones conformadas estandarizadas que son reutilizadas a través de los procesos.

Sirve para construir la matriz del almacén de datos (data warehouse bus matrix) y estas
técnicas pueden ser aplicadas tanto a bd relacionales como multidimensionales.

Matriz del almacén de datos (Enterprise Data Warehouse Bus Matrix)

Es una herramienta esencial para el diseño del almacén de datos. Las filas de la matriz, son
los procesos de negocio y las columnas son las dimensiones. Las celdas sombreadas
indican si una dimensión está asociada con un proceso. El equipo de diseño verifica cada
fila para corroborar si cada candidato a ser dimensión está correctamente definida para
ese proceso de negocio, así como verifica también cada columna para cerciorarse si esa

Cuestiona todo., aprende a aprender…. Armando Castañon García


8
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

dimensión debe ser parte o incluída en varios procesos de negocio. Además de las
consideraciones técnicas, la matriz es utilizada para priorizar los proyectos DW/BI.

Matriz a detalle (Detailed Implementation Bus Matrix)

Es una matriz a un mayor nivel granular, donde cada fila que contiene un proceso de
negocio, es detallada para mostrar tablas de hechos específicas o cubos olap. A este nivel
de detalle, los hechos pueden ser documentados.

Matriz de oportunidades y grupos de interés(Opportunity/Stakeholder Matrix)

En esta matriz, las columnas son funciones del negocio, en lugar de las dimensiones, por
ejemplo, ventas, créditos, y entonces las celdas sombreadas las utilizamos para indicar
cuales funciones del negocio interesan a que proceso del negocio. Esta matriz ayuda a
identificar que grupos de negocio pueden o deben ser invitados a colaboraren en este
proceso.

Consideraciones avanzadas sobre las Dimensiones

Puede haber Joins entre dimensiones, referencias a otras dimensiones, dimensiones


multivalor, tablas puente, tablas puente multivalor con tiempo variable, series de tiempo,
hechos calculados como atributos de dimension, dimensiones para comentarios,
dimensiones de tipos de medidas,dimensiones de paso, dimensiones de intercambio,
dimensiones abstractas, dimensiones para auditoría.

Cuestiona todo., aprende a aprender…. Armando Castañon García


9
Síntesis
The Data Warehouse Toolkit, 3rd Edition
Guía para el Modelado Dimensional
Ralph Kimball, Margy Ross

Errores comunes a evitar en el Modelaje Dimensional

Error 10: Colocar atributos tipo texto en una tabla de hechos

Error 9: Limitar texto descriptivo para ahorrar espacio

Error 8: Dividir las jerarquías en múltiples dimensiones

Error 7: Ignorar la necesidad de dar seguimiento a los cambios en las dimensiones

Error 6: Resolver todos los problemas de rendimiento con mas hardware

Error 5: Utilizar llaves operacionales para unir dimensiones y hechos

Error 4: Negligencia para declarar y cumplir con el grano de hechos

Error 3: Utilizar un reporte para diseñar el modelo dimensional

Error 2: Esperar que los usuarios realicen consultas a datos atómicos normalizados

Error 1: Fallar al diseñar, crear hechos y dimensiones

Cuestiona todo., aprende a aprender…. Armando Castañon García


10

También podría gustarte