Está en la página 1de 5

Descripción general de las técnicas de modelado

dimensional de Kimball
Comenzando con la primera edición de The Data Warehouse Toolkit (Wiley, 1996), el Grupo
Kimball ha definido el conjunto completo de técnicas para modelar datos de forma dimensional.
En las dos primeras ediciones de este libro, sentimos que las técnicas debían ser introducidas a
través de casos de uso familiares extraídos de diversas industrias. Aunque todavía creemos que los
casos de uso de negocios son un enfoque pedagógico esencial, las técnicas se han estandarizado
tanto que algunos modeladores dimensionales invierten la lógica al comenzar con la técnica y
luego continuar con el caso de uso para el contexto. ¡Todo esto son buenas noticias! Las técnicas
de Kimball han sido aceptadas como mejores prácticas de la industria. Como evidencia, algunos
antiguos estudiantes de la Universidad de Kimball han publicado sus propios libros de modelos
dimensionales. Estos libros generalmente explican las técnicas de Kimball con precisión, pero es
una señal de la resistencia de nuestras técnicas que los libros alternativos no han extendido la
biblioteca de técnicas de manera significativa ni han ofrecido una guía conflictiva. Este capítulo es
la lista "oficial" de técnicas de modelado dimensional de Kimball de los inventores de estos
patrones de diseño. No esperamos que lea este capítulo de principio a fin al principio. Pero
pretendemos que el capítulo sea una referencia para nuestras técnicas. Con cada técnica, hemos
incluido punteros a los capítulos siguientes para obtener más explicaciones e ilustraciones
basadas en los casos de uso motivadores.

Conceptos fundamentales

Las técnicas en esta sección deben considerarse durante cada diseño dimensional. Casi todos los
capítulos del libro hacen referencia o ilustran los conceptos de esta sección.

Reúna los requisitos comerciales y las realidades de datos


Antes,al lanzar un esfuerzo de modelado dimensional, el equipo necesita comprender las
necesidades del negocio, así como las realidades de los datos fuente subyacentes.

Usted descubre los requisitos a través de sesiones con representantes comerciales para
comprender sus objetivos en función de los indicadores clave de rendimiento, cuestiones
comerciales convincentes, procesos de toma de decisiones y necesidades analíticas de apoyo. Al
mismo tiempo, las realidades de los datos se descubren al reunirse con expertos en sistemas
fuente y al realizar un análisis de datos de alto nivel para evaluar la viabilidad de los datos.

Talleres colaborativos de modelado dimensional


Los modelos deben diseñarse en colaboración con expertos en la materia y representantes de
gobierno de datos de la empresa. El modelador de datos está a cargo, pero el modelo debe
desarrollarse a través de una serie de talleres altamente interactivos con representantes
comerciales. Estos talleres brindan otra oportunidad para resolver los requisitos del negocio. Los
modelos dimensionales no deben ser diseñados de manera aislada por personas que no
entienden completamente el negocio y sus necesidades; ¡La colaboración es crítica!

Proceso de diseño dimensional de cuatro pasos


Las 4 decisiones clave tomadas durante el diseño de un modelo dimensional incluyen:

1. Seleccionar el proceso de negocio.

2. Declarar el grano.

3. Identificar las dimensiones.

4. Identificar los hechos.

Las respuestas a estas preguntas se determinan considerando las necesidades del negocio junto
con las realidades de los datos fuente subyacentes durante las sesiones de modelado
colaborativo. Después del proceso de negocio, el grano, la dimensión y las declaraciones de
hechos, el equipo de diseño determina los nombres de tabla y columna, valores de dominio de
muestra y reglas de negocio. Los representantes del gobierno de datos comerciales deben
participar en esta actividad de diseño detallado para garantizar la aceptación comercial.

Procesos comerciales
son las actividades operativas realizadas por su organización, como tomar un pedido, procesar un
reclamo de seguro, registrar a los estudiantes para una clase o tomar instantáneas de cada cuenta
cada mes. Los eventos de procesos empresariales generan o capturan métricas de rendimiento
que se traducen en hechos en una tabla de hechos. La mayoría de las tablas de hechos se centran
en los resultados de un único proceso empresarial. Elegir el proceso es importante porque define
un objetivo de diseño específico y permite declarar el grano, las dimensiones y los hechos. Cada
proceso de negocio corresponde a una fila en la matriz de bus del almacén de datos de la
empresa.

Grano
La declaración del grano es el paso fundamental en un diseño dimensional. El grano establece
exactamente lo que representa una fila de tabla de hechos. La declaración de grano se convierte
en un contrato vinculante para el diseño. El grano debe declararse antes de elegir dimensiones o
hechos porque cada dimensión o hecho candidato debe ser consistente con el grano. Esta
consistencia impone una uniformidad en todos los diseños dimensionales que es crítica para el
rendimiento de la aplicación de BI y la facilidad de uso. El grano atómico se refiere al nivel más
bajo en el que los datos son capturados por un proceso comercial dado. Le recomendamos
encarecidamente que comience centrándose en los datos de grano atómico porque resiste el
asalto de consultas de usuarios impredecibles; los granos resumidos son importantes para el
ajuste del rendimiento, pero suponen que las preguntas comunes de la empresa. Cada grano de
tabla de hechos propuesto da como resultado una tabla física separada; diferentes granos no
deben mezclarse en la misma tabla de hechos.

Dimensiones del contexto descriptivo


Las dimensiones proporcionan el contexto de "quién, qué, dónde, cuándo, por qué y cómo" que
rodea un evento de proceso de negocio. Las tablas de dimensiones contienen los atributos
descriptivos utilizados por las aplicaciones de BI para filtrar y agrupar los hechos. Con el grano de
una tabla de hechos en mente, todas las dimensiones posibles pueden ser identificadas. Siempre
que sea posible, una dimensión debe tener un valor único cuando se asocia con una fila de hechos
determinada. Las tablas de dimensiones a veces se denominan el "alma" del almacén de datos
porque contienen los puntos de entrada y las etiquetas descriptivas que permiten aprovechar el
sistema DW / BI para el análisis empresarial. Se pone una cantidad desproporcionada de esfuerzo
en la gobernanza de datos y el desarrollo de tablas de dimensiones porque son los impulsores de
la experiencia de BI del usuario

Hechos para mediciones


Los hechos son las mediciones que resultan de un evento de proceso de negocio y casi siempre
son numéricos. Una sola fila de la tabla de hechos tiene una relación uno a uno con un evento de
medición como se describe en el grano de la tabla de hechos. Por lo tanto, una tabla de hechos
corresponde a un evento físico observable, y no a las demandas de un informe particular. Dentro
de una tabla de hechos, solo se permiten hechos consistentes con el grano declarado. Por
ejemplo, en una transacción de venta minorista, la cantidad de un producto vendido y su precio
extendido son buenos datos, mientras que el salario del gerente de la tienda no está permitido.

Los esquemas en estrella y los cubos OLAP Los esquemas en estrella son estructuras
dimensionales implementadas en un sistema de gestión de bases de datos relacionales (RDBMS).
Característicamente consisten en tablas de hechos vinculadas a tablas de dimensiones asociadas a
través de relaciones de clave primaria / extranjera. Un cubo de procesamiento analítico en línea
(OLAP) es una estructura dimensional implementada en una base de datos multidimensional;
puede ser equivalente en contenido a, o más a menudo derivado de, un esquema de estrella
relacional. Un cubo OLAP contiene atributos y hechos dimensionales, pero se accede a él a través
de lenguajes con más capacidades analíticas que SQL, como XMLA y MDX. OLAP

Los cubos OLAP se incluyen en esta lista de técnicas básicas porque un cubo OLAP es a menudo el
paso final en el despliegue de un sistema DW / BI dimensional, o puede existir como una
estructura agregada basada en un esquema de estrella relacional más atómico.

Extensiones elegantes a los modelos dimensionales Los modelos dimensionales son resistentes
cuando cambian las relaciones de datos. Todos los siguientes cambios se pueden implementar sin
alterar ninguna consulta o aplicación de BI existente, y sin ningún cambio en los resultados de la
consulta.

■ Se pueden agregar hechos consistentes con el grano de una tabla de hechos existente creando
nuevas columnas.

■ Las dimensiones se pueden agregar a una tabla de hechos existente creando nuevas columnas
de clave externa, suponiendo que no alteren el grano de la tabla de hechos.

■ Se pueden agregar atributos a una tabla de dimensiones existente creando nuevas columnas.

■ El grano de una tabla de hechos se puede hacer más atómico agregando atributos a una tabla de
dimensiones existente, y luego reexpresando la tabla de hechos en el grano inferior, teniendo
cuidado de preservar los nombres de columna existentes en las tablas de hechos y dimensiones.

Técnicas básicas de tabla de hechos


Las técnicas de esta sección se aplican a todas las tablas de hechos. Hay ilustraciones de tablas de
hechos en casi todos los capítulos.

Estructura de la tabla de hechos

Una tabla de hechos contiene las medidas numéricas producidas por un evento de medición
operacional en el mundo real. En el grano más bajo, una fila de la tabla de hechos corresponde a
un evento de medición y viceversa. Por lo tanto, el diseño fundamental de una tabla de hechos se
basa enteramente en una actividad física y no está influenciado por los informes eventuales que
pueden producirse. Además de las medidas numéricas, una tabla de hechos siempre contiene
claves foráneas para cada una de sus dimensiones asociadas, así como claves de dimensión
degeneradas opcionales y marcas de fecha / hora. Las tablas de hechos son el objetivo principal de
los cálculos y las agregaciones dinámicas que surgen de las consultas.

Hechos aditivos, semi-aditivos, no aditivos


Las medidas numéricas en una tabla de hechos se dividen en tres categorías. Los hechos más
flexibles y útiles son totalmente aditivos; Las medidas aditivas se pueden sumar en cualquiera de
las dimensiones asociadas con la tabla de hechos.

Las medidas semi-aditivas pueden resumirse en algunas dimensiones, pero no en todas; Las
cantidades de saldo son hechos semi-aditivos comunes porque son aditivos en todas las
dimensiones excepto el tiempo.

Finalmente, algunas medidas son completamente no aditivas, como las proporciones. Un buen
enfoque para los hechos no aditivos es, cuando sea posible, almacenar los componentes
totalmente aditivos de la medida no aditiva y sumar estos componentes en el conjunto de
respuestas finales antes de calcular el hecho no aditivo final. Este cálculo final a menudo se realiza
en la capa de BI o en el cubo OLAP.
Nulos en las tablas de hechos
Las mediciones con valores nulos se comportan con gracia en las tablas de hechos. Las funciones
agregadas (SUM, COUNT, MIN, MAX y AVG) hacen lo "correcto" con hechos nulos. Sin embargo,
los valores nulos deben evitarse en las claves externas de la tabla de hechos porque estos valores
nulos causarían automáticamente una violación de integridad referencial. En lugar de una clave
externa nula, la tabla de dimensiones asociada debe tener una fila predeterminada (y una clave
sustituta) que represente la condición desconocida o no aplicable.

Hechos conformados
Si la misma medida aparece en tablas de hechos separadas, se debe tener cuidado para asegurarse
de que las definiciones técnicas de los hechos sean idénticas si se van a comparar o calcular juntas.
Si las definiciones de hecho separadas son consistentes, los hechos conformados deben ser
identificados de manera idéntica; pero si son incompatibles, deberían tener un nombre diferente
para alertar a los usuarios comerciales y las aplicaciones de BI.

Tablas de hechos de transacciones


Una fila en una tabla de hechos de transacciones corresponde a un evento de medición en un
punto en el espacio y el tiempo. Las tablas de hechos de grano de transacción atómica son las
tablas de hechos más dimensionales y expresivas; Esta robusta dimensionalidad permite el
máximo corte y corte de datos de transacciones. Las tablas de hechos de transacciones pueden ser
densas o dispersas porque las filas existen solo si se realizan mediciones. Estas tablas de hechos
siempre contienen una clave foránea para cada dimensión asociada y, opcionalmente, contienen
marcas de tiempo precisas y claves de dimensión degeneradas. Los hechos numéricos medidos
deben ser consistentes con el grano de la transacción.

También podría gustarte