Está en la página 1de 36

ARQUITECTURA DE UN

DATA WAREHOUSE
Data Vault
Reglas de Negocio

Hard Soft
Rules Rules
Hard Rules

◇ No debe cambiar el sentido de


la información
◇ Deductivas, Restrictivas,
Comportamentales, Alertas,
etc.
Deductivas

◇ Rename
◇ Retype
◇ Reformat
◇ Business Keys
◇ Relations
◇ Hash Diffs
Restrictivas

◇ Casos de prueba
◇ Cargas parciales
Stage a Data Vault
Mecanismos

Posibles implementaciones:
◇ Hacía Staging
◇ Hacía Raw (Vistas)
◇ Hacía RAW (ETL)

Desempeño o centralización?
Staging Area

◇ Extracción rápida desde la fuente


◇ Volátil
◇ La misma estructura de la fuente
◇ Correcta definición de load datetime
◇ Selección incremental (opcional)
◇ Ejecución de hard rules (batch)
◇ Record Source
Staging Area/Landing

◇ Administración de archivos
■ Extraction Date
■ File Version?
Persistent Staging Area
◇ Opcional y prescindible
◇ Solamente cambios
Ventajas:
● Iniciar cargas antes de modelar el data warehouse
● Posponer decisiones de modelado
● Errores en modelado
● CDC
Data Vault
◇ Es el core data warehouse
◇ Basado en conceptos y relaciones de
negocio
◇ Raw Data Vault
◇ Business Data Vault
◇ Histórico
◇ Variante-en-tiempo
◇ Lo más granular
Data Vault
◇ Metrics Vault (Métricas técnicas) -> Metric Mart
■ CPU
■ RAM usage
■ Disk I/O
■ Network
■ ETL Metadata
◇ Operational Vault (Real-time)
Data Vault
Presentación
◇ Los datos son convertidos en información
◇ Colección de información derivado de data
vault completamente reconstruibles
◇ Modelado dimensional
◇ Única capa accesible para los usuarios de
negocio
Presentación
Presentación
◇ Meta Mart
◇ Error Mart (Ugly data)
■ General
■ Específico
Fuente a Stage
Fuente a Stage
Stage a Data Vault
Data Vault a Presentación
Características
Stage Data Warehouse Data Marts
Captura de datos Integración de todos los Entrega de datos a
tal cual se datos con enfoque demanda con
presentan en los corporativo, basado en enfoque
sistemas de los conceptos de departamental
información negocio, auditable y con basado en hechos
operacionales de toda la información en para análisis.
forma muy todas las ventanas de
rápida. tiempo.
Arquitectura
Entidad vs Data Vault
Ensamblaje
Ensamblaje
Especificaciones
◇ Procesos de carga consistentes
◇ Reiniciables sin ningún cambio
◇ Funcionan el 99.99999% de las veces
◇ 100% de los datos se cargan el 100% de las
veces
ETL

1. Extracción
2. Transformación
3. Carga
ETL
ETL
◇ Atómico (1 destino y 1 operación)
◇ Extrae desde un capa inferior a una superior
◇ No debe fallar por constraints (Soft RI)
◇ Re-Ejecución sin ningún cambio manual
(Eg. Carga de stage, hub, etc)
◇ Recuperación automática
◇ No Múltiples cambios por ejecución
ETL -> ELT
Nomenclatura

200 300 400


350
Nomenclatura

hub link sat


Nomenclatura

pit bridge ref


Nomenclatura

dim fact
Nomenclatura

◇ 200_<interfaz>_<entidad>
◇ 300_<empresa>_<producto>_<tipo>_<nombre>[_<...>]
◇ 350_<empresa>_<producto>_<tipo>_<nombre>
◇ 400_<empresa>_<area>_<producto>_<tipo>_<nombre>

También podría gustarte