Está en la página 1de 50

Analisis Dimensional

RECORDANDO CONCEPTOS….
Modelamiento Dimensional
Modelo Relacional vs. Modelo Dimensional

• Modelo Relacional
– La performance se busca a través de la
normalización
– Las consultas son continuas y repetitivas
– La información cambia constantemente: Estados,
atributos
– Los datos son almacenados luego de haber estado
“cerrados” por cierto periodo de tiempo
• Más transacciones en menos tiempo
– Complejo para analizar por usuarios del negocio
– Elimina la redundancia
Modelamiento Dimensional
Modelo Relacional vs. Modelo Dimensional

• Modelo Dimensional
– La performance se busca a través de la
redundancia: Menos normalizada
(desnormalizada)
– Las consultas no son predecibles: ni en la forma ni
en el fondo
– Almacena información que no cambia: No volátil
• Determina el CUANDO deben ser leídos los datos
– Lo significativo es guardar por mucho tiempo
información “cerrada” operacionalmente
• El costo de procesamiento es mínimo
– Marco intuitivo de análisis, fácil de usar
Modelamiento Dimensional
Modelo Relacional vs. Modelo Dimensional

Cuál fue la venta de zapatos azules y rojos de las diferentes tallas durante el
fin de semana de mis clientes VIP?
Items
Orders Colors

•ORDER_ID •ITEM_ID •COLOR_ID


•ITEM_ID •ITEM_DESC •COLOR_DESC Materials
•CUST_ID •COLOR_ID •MATL_ID
•DATE •SIZE_ID Sizes •MATL_DESC
•QUAN •MATL_ID •SIZE_ID
•PRICE_EA •SIZE_DESC

Customers Cust Types


Dates
•CUST_ID •CUSTYP_ID
•DATE •CUST_DESC •CUSTYP_DESC States
•DATE_TYP_ID •CUSTYP_ID
•CITY_ID •STATE_ID
Cities •STATE_DESC
•STATE_ID
Date Types •POST_CD •CITY_ID
•CITY_DESC
•DATE_TYP_ID
•DATE_TYP_DESC

11 Tablas + 10 Joins = ...


Modelamiento Dimensional
Modelo Relacional vs. Modelo Dimensional

Cuál fue la venta de zapatos azules y rojos de las diferentes tallas durante el
fin de semana de mis clientes VIP?
Sales

•DATE
•ITEM_ID Products
•CUST_ID
•QUAN •ITEM_ID
•PRICE_EA •ITEM_DESC
Customers •COLOR_ID
•COLOR_DESC
•CUST_ID
•SIZE_ID
•CUST_DESC
•SIZE_DESC
•CUSTYP_ID
•MATL_ID
•CUSTYP_DESC
•MATL_DESC
•CITY_ID
Time •CITY_DESC
•DATE •STATE_ID
•DATE_TYP_ID •STATE_DESC
•DATE_TYP_DESC •POST_CD

4 Tablas + 3 Joins = Responde ahora


Modelamiento Dimensional
Modelo Relacional vs. Modelo Dimensional

• Esquema Entidad-Relacion vs. Esquema Estrella


– Un modelo entidad relación puede originar múltiple diagramas
dimensionales
– Un modelo entidad-relacion modela la relación entre los datos, el modelo
dimensional modela situaciones estándar del negocio
– Un modelo entidad-relacion tiene una estructura variada, una manera
asimetrica de relacionar los datos, el modelo dimensional la simetria es
evidente
– Un modelo entidad-relacion provee la data empaquetada para un
modelo dimensional dentro de la estructura de datos del negocio
Fundamentos de Modelamiento
Dimensional
Tablas FACT : Constituye la estructura primaria de un modelo
DWH/DM, en la cual los “hechos” del negocio son almacenados, la
información cuantitativa es guardada en esta tabla conformando asi
las “métricas” del negocio. Ejem: Monto Vendido, Numero de
unidades vendidas, Costo incurrido, etc

“Una fila de la tabla Fact representa a una métrica. Una métrica esta
en una fila de la tabla Fact. Todas las métricas de la misma tabla Fact
deben tener la misma granularidad”

The Datawarehouse Toolkit 2nd Edition – Ralph Kimball


Fundamentos de Modelamiento
Dimensional
Dimensiones: Contienen el contexto descriptivo que complementa la
información de las tablas Fact.
El contenido de las tablas de tipo Dimensión conforman las variables
del negocio y definen las etiquetas de las filas en la Tabla Fact

“Las dimensiones son puntos de entrada en las Tablas Fact. El solido


diseño de los atributos dimensionales proveera grandes capacidades
analiticas al modelo, teniendo en cuenta que las dimensiones
implementan las interfaces de usuario al DWH/DM”.

The Datawarehouse Toolkit 2nd Edition – Ralph Kimball


Modelamiento Dimensional
Esquema Estrella - Dimensiones

• Representan entidades del modelo de negocios


• Son generalmente descriptivas
• Generalmente no cambia su significado en el tiempo
• La combinación de dimensiones es permitida a juicio del diseñador y
de acuerdo al giro del negocio

Dimensión Dimensión Dimensión Producto-


Producto Tienda Tienda

Si el producto se vende por igual Tiene sentido si los productos se venden


en todas las tiendas en tiendas especificas.
Modelamiento Dimensional
Esquema Estrella - Dimensiones

• Atributos
– Describen los miembros de una dimensión particular
– Es una medida de la calidad de un data warehouse: mayor cuando
mayor es la calidad de los campos descriptivos
– Tiene que ser nombrados con palabras con significado completo
– Asegurar la calidad: validar valores imposibles, perdidos,
obsoletos o versionados
– Disponibles de acuerdo a su uso: generalmente en la misma tabla
de dimension (salvo casos de Snowflaking)
Modelamiento Dimensional
Esquema Estrella - Dimensiones

• Atributos
– Campos texto que describen
características tangibles
– Toman valores discretos
– Son mostrados en los reportes Llave_Producto
CodigoProducto
• Jerarquía Descripcion
– Conjunto de atributos Linea
Jerarquía
– Un miembro puede ser un hijo de otro Categoria
miembro SubCategoria
TipoEmpaque
– Puede existir más de una por dimensión
Tamaño Atributos
UnidadVenta
etc.
Modelamiento Dimensional
Esquema Estrella
Dimensión Tiempo

Llave_Tiempo
• Técnica de diseño lógico Dimensión Tienda DiadelaSemana
Dimensión Producto
NumeroSemana
• Presentar la información bajo un Mes Llave_Producto
marco intuitivo que permita un Llave_Tienda PeriodoFiscal CodigoProducto
CodigoTiemda Etc. Descripcion
acceso de alta performance Nombre Tienda Linea
Direccion Categoria
• Tiene un esquema radial Distrito Fact Ventas SubCategoria
compuesto de una tabla central y Etc. TipoEmpaque
Llave_Tiempo
Tamaño
un conjunto de pequeñas tablas a Dimensión Vendedor Llave_Producto
UnidadVenta
su alrededor. Llave_Tienda
Llave_Vendedor etc.
Llave_Cliente
CodigoVendedor Llave_Vendedor
NombreVendedor Dimensión Cliente
Llave_Promocion
Nivel Vendedor ValorVentaDolares
Etc. Llave_Cliente
UnidadesVendidas NombreCliente
Dimensión Promoción ValorCostoDolares PerfilCompras
PerfilCredito
Llave_Promocion Direccion
CodigoPromocion etc.
NombrePromocion
TipoPrecio
TipoAnuncio
Etc.
Modelamiento Dimensional
Esquema Estrella
Product
Customer Date Line
Product
Customer Sales
• Customer No • Order Date Line
Type Area
• Customer Name • Week
• Customer Type Cd • Month Product
Product
• Customer Type Desc • Year Sales
Customer Type
Type
Rep
Order Fact
Order
• Customer No Product
Header
• Sales Rep Cd Product
• Product Cd
4 Dimension Order
• Order Date
Line
Star • Order Qty
• Order Line Value Product
• Product Cd
• Product Name
Organization
• Product Type Cd
• Sales Rep Cd
• Product Type Desc
• Sales Rep Name
• Product Line Cd
• Sales Area Cd
• Product Line Name
• Sales Area Desc
• Product Line Manager
El área de tarjetas de crédito de un banco desea implementar un data mart. Se desea
visualizar la información de créditos concedidos y pagos hasta llegar a cada tarjeta. Las
tarjetas pueden ser de dos tipos: “VISA” y “MASTERCARD”. También se desea visualizar
los pagos por cada vendedor y cada cliente. Cada cliente pertenece a un distrito, cada
distrito a una provincia y cada provincia a un departamento. Cada vendedor pertenece a
una agencia, y cada agencia pertenece a un distrito, cada distrito a una provincia y cada
provincia pertenece a un departamento. Las métricas deben visualizarse como totalizados
anuales, semestrales, trimestrales y mensuales. Diseñe las dimensiones, las medidas y el
modelo de datos.
El primer paso en la construcción de un data mart es la definición de las
medidas. Del enunciado del problema, puede deducirse que existen dos
medidas en este data mart: créditos concedidos y pagos.

A continuación, se deben establecer las dimensiones del data mart. Se desea visualizar la información por cliente
y vendedor. Esto sugiere la existencia de dos dimensiones: Cliente y Vendedor. Para cada dimensión, se deben
establecer los niveles. Cada cliente está en un distrito, cada distrito en una provincia y cada provincia en un
departamento. Por tanto, la dimensión Cliente tiene los siguientes niveles:

Dimensión Cliente
. Departamento
.. Provincia
… Distrito
…. Nombre cliente

Obsérvese el uso de la notación de puntos para representar a los niveles. El nivel más superior se representa por
un punto al lado izquierdo, el nivel siguiente por dos puntos, y así sucesivamente .
Respecto de la dimensión Vendedor, se sabe que cada vendedor está en una agencia, cada agencia en un
distrito, cada distrito en una provincia y cada provincia en un departamento. Por tanto, los niveles de la
dimensión Vendedor son:
Dimensión Vendedor
. Departamento
.. Provincia
… Distrito
…. Agencia
….. Nombre Vendedor

Por otro lado, las tarjetas de crédito pueden ser de dos tipos: “VISA” y “MASTERCARD”. Esto sugiere la
existencia de la dimensión Tipo Tarjeta, con un solo nivel.
Dimensión Tipo Tarjeta
. Tipo Tarjeta
.. Nro. Tarjeta

Por último, las medidas deben visualizarse como totalizados anuales, semestrales, trimestrales y mensuales.
Por lo general, todo data mart tiene una dimensión que representa las escalas temporales. En este caso,
existe una dimensión llamada Tiempo, que tiene la siguiente estructura:
Dimensión Tiempo
. Año
.. Semestre
… Trimestre
…. Mes
Ejercicio
Suponga queAAA Automobile Co. construye una data warehouse para analizar las ventas de sus autos.
La medida measure – price de un auto.

Se necesita responder las siguientes consultas típicas:


❑ encontrar las ventas totales por día, semana,mes y año
❑ encontrar las ventas totales semana,mes y año, ... para cad agencia
❑ encontrar las ventas totales semana, mes y año, ... Para cada modelo de carro
❑ encontrar las ventas totales por mes para todos las agencias en una ciudad, región y estado dados.

34
Dimensiones:

 time (day, week, month, quarter, year)


 dealer (name, city, state, region, phone)
 cars (serialno,model,color,category ,…)

20
Datawarehouse de AAA Automobile Co.

Date Dealer

Day Name
Price Fact Table City
Week
State
Month Date
Region
Quarter Dealer Phone

Year Car
Car

SerialNo
Model
unit_prices
Color
Category

descount
total
Measurements
21
price
unitpric e
date car
dealer serialNo
name
name serialNo model
color
city desc.
total category
state
region
phone
date
dateid
day week

month
year
Esquema de la DataWarehouse AAA (tarea)
car serialno model color category

date dateId day week month quarter year A1000 Lupo plata compacto
01-01-06 01 1 01 1 2006 B2000 Jetta azul sport
01-03-06 01 1 03 1 2006 C3000 Passat negro lujo
01-05-06 01 1 05 2 2006

price unitprice date name serialno desc total


110000 01-01-06 Dorada A1000 10 99000
160000 01-03-06 Angelópolis B2000 15 136000
280000 01-05-06 Centro C3000 25 210000

dealer name city state region phone


Dorada Puebla Puebla SW 7557705
Angelópolis Puebla Puebla SW 7566311
Centro Puebla Puebla SW 7557777
23
Datamart vs Datawarehouse

DOS TENDENCIAS
• “ ... Un Data Mart es subconjunto lógico de un data
warehouse ... Un Data Warehouse esta hecho de la unión de
todos sus data marts,” Ralph Kimball, 1997.
Estrategia Bottom-Up

• “Puedes capturar todos los pececillos del océano, ponerlos


juntos y, a pesar de ello, no hacen una ballena,” Bill Inmon,
1998
Estrategia Top-Down
Características del Datawarehouse
 Data Warehouse, un
almacenamiento de Interrelación de
áreas
información :
 refleja un Modelo Corporativo del
Negocio Menor Detalle
 Menor granularidad
 Data Mart, almacenamiento
de información:
Un área del
 Responde a necesidades específicas negocio
 Mayor granularidad

Mayor detalle

También podría gustarte