Documentos de Académico
Documentos de Profesional
Documentos de Cultura
dimensional de Kimball
Comenzando con la primera edición de The Data Warehouse Toolkit (Wiley, 1996), el Grupo
Kimball ha definido el conjunto completo de técnicas para modelar datos de forma dimensional.
En las dos primeras ediciones de este libro, sentimos que las técnicas debían ser introducidas a
través de casos de uso familiares extraídos de diversas industrias. Aunque todavía creemos que los
casos de uso de negocios son un enfoque pedagógico esencial, las técnicas se han estandarizado
tanto que algunos modeladores dimensionales invierten la lógica al comenzar con la técnica y
luego continuar con el caso de uso para el contexto. ¡Todo esto son buenas noticias! Las técnicas
de Kimball han sido aceptadas como mejores prácticas de la industria. Como evidencia, algunos
antiguos estudiantes de la Universidad de Kimball han publicado sus propios libros de modelos
dimensionales. Estos libros generalmente explican las técnicas de Kimball con precisión, pero es
una señal de la resistencia de nuestras técnicas que los libros alternativos no han extendido la
biblioteca de técnicas de manera significativa ni han ofrecido una guía conflictiva. Este capítulo es
la lista "oficial" de técnicas de modelado dimensional de Kimball de los inventores de estos
patrones de diseño. No esperamos que lea este capítulo de principio a fin al principio. Pero
pretendemos que el capítulo sea una referencia para nuestras técnicas. Con cada técnica, hemos
incluido punteros a los capítulos siguientes para obtener más explicaciones e ilustraciones
basadas en los casos de uso motivadores.
Conceptos fundamentales
Las técnicas en esta sección deben considerarse durante cada diseño dimensional. Casi todos los
capítulos del libro hacen referencia o ilustran los conceptos de esta sección.
Usted descubre los requisitos a través de sesiones con representantes comerciales para
comprender sus objetivos en función de los indicadores clave de rendimiento, cuestiones
comerciales convincentes, procesos de toma de decisiones y necesidades analíticas de apoyo. Al
mismo tiempo, las realidades de los datos se descubren al reunirse con expertos en sistemas
fuente y al realizar un análisis de datos de alto nivel para evaluar la viabilidad de los datos.
2. Declarar el grano.
Las respuestas a estas preguntas se determinan considerando las necesidades del negocio junto
con las realidades de los datos fuente subyacentes durante las sesiones de modelado
colaborativo. Después del proceso de negocio, el grano, la dimensión y las declaraciones de
hechos, el equipo de diseño determina los nombres de tabla y columna, valores de dominio de
muestra y reglas de negocio. Los representantes del gobierno de datos comerciales deben
participar en esta actividad de diseño detallado para garantizar la aceptación comercial.
Procesos comerciales
son las actividades operativas realizadas por su organización, como tomar un pedido, procesar un
reclamo de seguro, registrar a los estudiantes para una clase o tomar instantáneas de cada cuenta
cada mes. Los eventos de procesos empresariales generan o capturan métricas de rendimiento
que se traducen en hechos en una tabla de hechos. La mayoría de las tablas de hechos se centran
en los resultados de un único proceso empresarial. Elegir el proceso es importante porque define
un objetivo de diseño específico y permite declarar el grano, las dimensiones y los hechos. Cada
proceso de negocio corresponde a una fila en la matriz de bus del almacén de datos de la
empresa.
Grano
La declaración del grano es el paso fundamental en un diseño dimensional. El grano establece
exactamente lo que representa una fila de tabla de hechos. La declaración de grano se convierte
en un contrato vinculante para el diseño. El grano debe declararse antes de elegir dimensiones o
hechos porque cada dimensión o hecho candidato debe ser consistente con el grano. Esta
consistencia impone una uniformidad en todos los diseños dimensionales que es crítica para el
rendimiento de la aplicación de BI y la facilidad de uso. El grano atómico se refiere al nivel más
bajo en el que los datos son capturados por un proceso comercial dado. Le recomendamos
encarecidamente que comience centrándose en los datos de grano atómico porque resiste el
asalto de consultas de usuarios impredecibles; los granos resumidos son importantes para el
ajuste del rendimiento, pero suponen que las preguntas comunes de la empresa. Cada grano de
tabla de hechos propuesto da como resultado una tabla física separada; diferentes granos no
deben mezclarse en la misma tabla de hechos.
Los esquemas en estrella y los cubos OLAP Los esquemas en estrella son estructuras
dimensionales implementadas en un sistema de gestión de bases de datos relacionales (RDBMS).
Característicamente consisten en tablas de hechos vinculadas a tablas de dimensiones asociadas a
través de relaciones de clave primaria / extranjera. Un cubo de procesamiento analítico en línea
(OLAP) es una estructura dimensional implementada en una base de datos multidimensional;
puede ser equivalente en contenido a, o más a menudo derivado de, un esquema de estrella
relacional. Un cubo OLAP contiene atributos y hechos dimensionales, pero se accede a él a través
de lenguajes con más capacidades analíticas que SQL, como XMLA y MDX. OLAP
Los cubos OLAP se incluyen en esta lista de técnicas básicas porque un cubo OLAP es a menudo el
paso final en el despliegue de un sistema DW / BI dimensional, o puede existir como una
estructura agregada basada en un esquema de estrella relacional más atómico.
Extensiones elegantes a los modelos dimensionales Los modelos dimensionales son resistentes
cuando cambian las relaciones de datos. Todos los siguientes cambios se pueden implementar sin
alterar ninguna consulta o aplicación de BI existente, y sin ningún cambio en los resultados de la
consulta.
■ Se pueden agregar hechos consistentes con el grano de una tabla de hechos existente creando
nuevas columnas.
■ Las dimensiones se pueden agregar a una tabla de hechos existente creando nuevas columnas
de clave externa, suponiendo que no alteren el grano de la tabla de hechos.
■ Se pueden agregar atributos a una tabla de dimensiones existente creando nuevas columnas.
■ El grano de una tabla de hechos se puede hacer más atómico agregando atributos a una tabla de
dimensiones existente, y luego reexpresando la tabla de hechos en el grano inferior, teniendo
cuidado de preservar los nombres de columna existentes en las tablas de hechos y dimensiones.
Una tabla de hechos contiene las medidas numéricas producidas por un evento de medición
operacional en el mundo real. En el grano más bajo, una fila de la tabla de hechos corresponde a
un evento de medición y viceversa. Por lo tanto, el diseño fundamental de una tabla de hechos se
basa enteramente en una actividad física y no está influenciado por los informes eventuales que
pueden producirse. Además de las medidas numéricas, una tabla de hechos siempre contiene
claves foráneas para cada una de sus dimensiones asociadas, así como claves de dimensión
degeneradas opcionales y marcas de fecha / hora. Las tablas de hechos son el objetivo principal de
los cálculos y las agregaciones dinámicas que surgen de las consultas.
Las medidas semi-aditivas pueden resumirse en algunas dimensiones, pero no en todas; Las
cantidades de saldo son hechos semi-aditivos comunes porque son aditivos en todas las
dimensiones excepto el tiempo.
Finalmente, algunas medidas son completamente no aditivas, como las proporciones. Un buen
enfoque para los hechos no aditivos es, cuando sea posible, almacenar los componentes
totalmente aditivos de la medida no aditiva y sumar estos componentes en el conjunto de
respuestas finales antes de calcular el hecho no aditivo final. Este cálculo final a menudo se realiza
en la capa de BI o en el cubo OLAP.
Nulos en las tablas de hechos
Las mediciones con valores nulos se comportan con gracia en las tablas de hechos. Las funciones
agregadas (SUM, COUNT, MIN, MAX y AVG) hacen lo "correcto" con hechos nulos. Sin embargo,
los valores nulos deben evitarse en las claves externas de la tabla de hechos porque estos valores
nulos causarían automáticamente una violación de integridad referencial. En lugar de una clave
externa nula, la tabla de dimensiones asociada debe tener una fila predeterminada (y una clave
sustituta) que represente la condición desconocida o no aplicable.
Hechos conformados
Si la misma medida aparece en tablas de hechos separadas, se debe tener cuidado para asegurarse
de que las definiciones técnicas de los hechos sean idénticas si se van a comparar o calcular juntas.
Si las definiciones de hecho separadas son consistentes, los hechos conformados deben ser
identificados de manera idéntica; pero si son incompatibles, deberían tener un nombre diferente
para alertar a los usuarios comerciales y las aplicaciones de BI.