Documentos de Académico
Documentos de Profesional
Documentos de Cultura
S3 Modelamiento
S3 Modelamiento
Por
Elizabeth León Guzmán, Ph.D.
Profesora
Ingeniería de Sistemas
Grupo de Investigación MIDAS
Age nda
▪ Modelo Dimensional
■ Definición
■ Componentes
■ Ejemplos
■ Comparación con E/R
■ Proceso del diseño dimensional
■ Modelos de arquitectura
■ Arquitectura en bus
Modelamiento dimensional
Definición
▪ Una técnica para d i s e ñ a r el m o d e l o
l ó g i co de la bodega de datos
▪ Permite alto r e ndi mi en to en el momento
de acceder a los datos (orientado a
consultas)
▪ Dimensional (orientado al negocio)
▪ Usa algunos conceptos del modelo
entidad/relación
▪ Diferente del modelo
entidad/relación
Modelo dimensional
▪ Define un nivel mínimo de detalle
(granularidad)
▪ S e compone de:
●
Hechos
●
Medidas
●
D im e n s io n e s
●
A tr i b u t o s
●
Elem entos
●
●
R Jerarquías
elaciones
▪ He ch o s : algo que ocurre en el tiempo
(operación o actividad)
▪ M e d i d a s : V a l o r e s numéricos que
d e s c r i b e n el h e c h o que se está
analizando
▪ D i m e n s i o n e s : S on categorías
que describen el contexto en el
cual se analizan las medidas
Modelo dimensional
Dimensión
Tiempo Dimensión
Cliente
Tabla de
hechos
medidas
Dimensión
Dimensión Geografía
Producto
M o d e l o E/R
Comparación
Operacionales BI (Dimensional)
Enfocado a la actualización:
Enfocado a eliminar redundancia,
coordinar actualizaciones y repetir Enfoque a la consulta
el mismo tipo de operaciones
muchas veces en el día
Altamente normalizadas para Altamente desnormalizada ya que
soportar actualizaciones se requiere disminución de tiempos
consistentes y mantenimiento de la en la obtención de grandes
integridad referencial cantidades de datos
Tiempos de respuesta aceptables
Tiempos de respuesta en segundos o pueden ser segundos, minutos,
inferior horas
Gran cantidad de datos derivados
Almacenan pocos datos derivados (redundancia)
Agregación: Varios niveles de datos
Pocos datos agregados precalculados
M e did a s
▪ S o n las v a r i a b l e s que ayudarán a medir el
d e s e m p e ñ o del negocio.
▪ Las medidas básicas, existen físicamente
en el warehouse junto a los atributos
que los caracterizan
▪ Las medidas derivadas o calculadas se
construyen a partir de las medidas básicas
y pueden o no estar almacenados
físicamente en el data warehouse
Hechos y medidas
▪ Una fila en una tabla de hechos
corresponde a una o varias medidas
▪ Todas las medidas en la tabla de hechos
deben tener el mismo nivel de
granularidad
▪ Las medidas m a s usadas son numéricas y
aditivas
▪ Las tablas de hechos representan la
relación muchos a muchos que existe
entre las dimensiones!
D im e n s io n e s
▪ S o n las á r e a s t e m á t i c a s o su je to s del
negocio.
▪ Proveen un método general para organizar
la información corporativa
▪ S e definen como un grupo de uno o m á s
atributos. Las dimensiones no comparten
atributos
▪ Las dimensiones definen los niveles de
análisis (Jerarquías). Esto permite
obtener agregación o sumarización.
Atributos
▪ Los atributos son una a g r u p a c i ó n d e
e l e m e n t o s o items dentro de una
dimensión.
▪ Representan c a t e g o r í a s o clases de
elementos que tienen el mismo nivel lógico
dentro de una dimensión.
▪ La finalidad de los atributos es ver la
información de cada dimensión a
diferentes ni vel es d e detalle y a g r u p a r
los datos para ser analizados.
Ele m e n to s
▪ S o n las i n s t a n c i a s o valores de los
atributos que, como
componentes atómicos del
modelo.
Relaciones
▪ Los atributos de n tr o de una dimensión
están directamente relacionados uno con
otros a través de los diferentes tipos de
relaciones antes definidos.
■ Uno-a-uno (1:1)
■ Uno-a-muchos (1:M)
■ Muchos-a-uno (M:1)
■ Muchos-a-muchos
(M:N)
Jerarquías
▪ Representadas por un o r d e n a m i e n t o
l ó g i co dentro de la dimensión, se
encuentran formadas por los diferentes
tipos de relaciones entre los atributos de
una misma dimensión.
▪ Como convenciones del modelado, la
jerarquía principal se dibuja verticalmente
desde el atributo m á s agregado (arriba)
hasta el m á s atómico (abajo) y las
jerarquías características se adicionan por
los costados.
Ejemplo
▪ Empresa: Cadena de supermercados
▪ Actividad objeto de análisis: ventas de
productos
▪ Información registrada sobre una venta:
”Se vendió 5 unidades del producto A, en
el almacén número 1, el día 20/01/2007
por un total de 250.000 pesos”
Para hacer el análisis no interesa la venta individual realizada
por un cliente, si no las ventas diarias de productos en los
distintos almacenes de cadena
M i t o s del m o d e l o
dimensional
Modelos dimensionales y data marts
Realidad de
los datos
Modelo dimensional
1. Proceso del negocio
2. Granularidad
3. Dimensiones
4. Hechos Requerimientos
del
negocio
Tomado de [5]
C aso de estudio
1. Sele cci onar el p r o c e s o d e n e g o c i o a
modelar
Administrador desea
Entender las compras de los clientes desde el
P O S (punto de venta)
Determinar si es razonable
Atributos de las
dimensiones
La selección de los atributos de cada
dimensión es un paso m u y importante ya
que este permitirá a los analistas responder
muchas m a s preguntas del tipo ¿Por qué?
Dimensión T i e m p o
• Está presente en casi todos
los esquemas
multidimensionales.
• E s la dimensión esencial.
▪ Estrella
■ Desnormalizado
▪ Copo de Nieve
■ Normalizado
Estrella v s C o p o d e n ieve
▪ Estrella
■ Desnormalizado
■ Habilidad para análisis dimensional
▪ C o p o d e nieve
■ Variación del modelo estrella
■ Forma normalizada de las dimensiones (solo
las dimensiones primarias están enlazadas con
la tabla de hechos)
■ Rompe el análisis dimensional
■ S e usa cuando no se puede implementar un
modelo estrella
M o d e l o Estrella
Dimensión Dimensión
Tiempo Geografia
Tabla de
hechos
Dimensión
Dimensión Cliente
Producto
M o d e l o C o p o d e n ieve
▪ Dimensiones desnormalizadas (valores
repetidos) puede llevar a la normalización
de una dimensión
Dimensión
Clase de Producto
Dimensión
Tabla de Producto
Hechos
Dimensión
Categoría
de Producto
M o d e l o C o p o d e n ieve
▪ Atributos redundantes son removidos de la
entidad y creando una segunda
dimensión.
▪ Reduce espacio
▪ Fácil de mantener (si la descripción de un
departamento cambia, solo se necesita
actualizar una ocurrencia y no alrededor
de 3.000)
▪ Extensión del modelo dimensional
(válido)
C aso de estudio
D i m e n s i ó n p r o d u c t o (parcial) e n c o p o
d e nieve
Normalizado en 3FN
M o d e l o C o p o d e n ieve
▪ En el diseño del modelo se debe tener en
cuenta: u s o y d e s e m p e ñ o
▪ Consideraciones de este modelo
■ Múltiples tablas aumentan la complejidad de
uso
■ M a s tablas y joins afectan el desempeño de las
consultas
■ Navegar a través de las dimensiones puede ser
m á s lento (cruce de dimensiones)
■ No se pueden aprovechar los índices Bitmap que
son útiles para indexar campos con baja
cardinalidad
M o d e l o C o p o d e n ieve
■ El espacio salvado en las dimensiones es
insignificante comparado con el tamaño de la
tabla de hechos.
Descripción del depto (20 bytes) En la Nueva dimensión con 2 bytes
tabla de producto (150.000 filas) de código
Reducir 2.7 MB
(150.000*18 bytes)
Tomado de [2]
Arquitectura e n B u s
▪ Perm ite una m ejora en la
administración de los componentes de la
bodega.
▪ B a s ado en el principio reduccionista
de control sobre cada uno de los
elementos.
▪ Los elementos de desarrollo de los Data
Mart siguen las pautas de la
arquitectura
▪ Fácil incorporación de nuevos Data Marts a
la arquitectura ( p l u g a n d p l ay )
B u s Matrix
▪ Herramienta para documentar y comunicar la
arquitectura de bus.
Data
marts
Tomado de [2]
B u s Matrix
1. Lista de d a t a m a r t s d e primer nivel
❑ Derivados de una fuente
❑ Minimizar el riesgo en implementaciones
ambiciosas ( ETL, diseño e implementación)
❑ Suficientes datos interesantes para los
usuarios, mientras se continua trabajando en
implementaciones m á s difíciles
1. Identificar d a t a m a r t s c o n s o l i d a d o s
❑ Con múltiples fuentes
❑ M á s difíciles de implementar
Dimensiones que cambian
lentamente
▪ La dimensión puede cambiar con el tiempo
(no estática): cambian atributos
▪ Inaceptable colocar todo en la tabla de
hechos o crear dimensiones dependientes
12345 Ni ñ oInte1. 0 A B C 9 2 2 -Z
Estrategia
12345 N iñ o In te1 .0 E du c ac i ón A B C 9 2 2 -Z
Llave
subordinada
□ Representa la historia correctamente
□ En la tabla de hechos, antes de enero 5 del 2 0 0 6 se
referencia el articulo con llave primaria 1234, después
de esta fecha el articula tendrá la llave 3 5 8 9 6
“Es poderosa ya que la nueva fila divide
automáticamente la historia en la tabla de hechos”
“Sin embargo no permite asociar el nuevo valor del
atributo con la historia de los hechos y viceversa”
Dimensiones que cambian
lentamente
1. A dici on ar u n a c o l u m n a a la d i m e n s i ó n
12345 N iñ oInte1. 0 Estrategia A B C 9 2 2 -Z
Edu c a c i ó n
Modificar
(aplicar 1)
1. C a m b i o s p red eci b l es c o n v e r s i o n e s
mú l ti p l e s s o b r e p u e s t a s
2. C a m b i o s n o pr edec i bl es c o n ú n i ca
versión sobrepuesta
Dimensiones que cambian
rápidamente
▪ Mensualmente
▪ Separar los atributos que cambian en una
o m á s dimensiones separadas
■ La tabla de hechos tendrá dos llaves foráneas
Dimensiones que cambian
r á p i d a m e n t e - Ejemplo
Compañías de Actualización de los
seguros clientes periódicamente!
Id_time(FK)
Id_paciente(FK)
Dimensión diagnóstico Múltiples diagnósticos
Id_proveedor(FK)
Id_diagnóstico(PK) para el mismo
Id_diagnostico(FK)
… paciente?
…