Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fundamentos DataWareHouse
Fundamentos DataWareHouse
Sesión 1:
Fundamentos del DWH
Sesión 2:
Fundamentos de la Calidad de Datos
Sesión 3:
Caso práctico: Un DWH con Calidad
2
Agenda Sesión 1
Presentación PowerData
Presentación asistentes: Conocimientos y Expectativas
Fundamentos DWH
Introducción al DWH
Arquitectura de un DWH
Modelado de Datos y Metadatos
Esquemas en Estrella
Procesos y Estrategias de carga del DWH
Herramientas de Integración de Datos
Herramientas de Reporting y Análisis
3
Presentación PowerData
4
4
Presentación PowerData
5
La solución: los servicios de datos
Mejorar Modernizar el
Necesidades decisiones y negocio y Aumentar la Subcontratar
Fusiones y rentabilidad
cumplir con la reducir los adquisiciones funciones
empresariales normativa costes de TI del negocio secundarias
Proyectos de
integración
de datos
Almacenamiento Migración Consolidación Gestión de Sincronización
de datos de datos de datos datos maestros de datos
6
La plataforma de productos de Informatica
Automatización de todo el ciclo de vida de la integración de datos
PowerExchange PowerCenter
Desarrollo y gestión
Desarrollar y colaborar con un repositorio común y metadatos compartidos
7
Presentación Asistentes:
Conocimientos y Expectativas
8
8
Fundamentos del DWH
9
Fundamentos del DWH
10
Fundamentos del DWH
Introducción al DWH: ¿Qué es?
11
¿Qué es un Data Warehouse?
Orientado a un Tema
Colección de información relacionada organizada
alrededor de un tema central
Integrado
Datos de múltiples orígenes; consistencia de datos
Variable en el tiempo
‘Fotos’ en el tiempo
Basado en fechas/periodos
No-volátil
Sólo lectura para usuarios finales
12
Orientado a Tema
Proporciona Contiene
Orden de
Compra Producto Inventario
Compuesta por Recuperado
desde
13
Integrado
Contiene
Convenciones de Nombres
Descripciones
Atributos físicos de los datos
Valores de los datos
Consistentes
Admin. Marketing
Datos
Operaciones
Ventas Cuentas
14
Variable en el tiempo
Id de cliente
Id de cliente fecha desde
nombre fecha hasta
dirección nombre
teléfono dirección
ratio de crédito teléfono
ratio de crédito
15
No-Volátil
inserción cambio
lectura
carga
borrado
16
Un Data Warehouse es ...
17
¿Para qué construir un Warehouse?
18
Visión del Usuario
Panel de Representación de
Usuarios Consulta Negocio
Finales
Base de Datos
20
Arquitectura de un DWH
Nomenclatura
DWH: Data Warehouse
DataMart
OLTP: On-Line Transaction Processing
OLAP: On-Line Analytic Processing
ROLAP: Relational On-Line Analytic Processing
MOLAP: Multidimensional On-Line Analytic Processing
ODS: Object Data Store
DSS: Decision Support System
ETL: Extract, Transform and Load
ETQL: Extract, Transform, Quality and Load
EII: Enterprise Information Integration
EAI: Enterprise Application Integration
ERP: Enterprise Resource Planning
21
Directo de OLTP a OLAP
Life
Life Life
Information System OLAP
Health
Health
Information System Health
Query
Auto Auto
Information System Auto
Analysis
22
Directo de OLTP a OLAP
23
Data Warehouse Virtual: Directo o Federado
Life
Life
Information System
Health
EII
Health
Information System "Customer"
OLAP
Auto Auto
Information System
24
Data Warehouse “Total”
Extract:
COBOL,
Life SQL,
Life Etc.
Information System Life
OLAP
MDD Tools
Extract: Enterprise
COBOL, Data
Health SQL,
Warehouse
Health Etc.
Information System Health
R/OLAP
Star Schema
Extract:
COBOL,
SQL,
Auto
Auto Etc. Auto
Information System SQL Query
25
Data Marts No Estructurados
Extract:
COBOL, Life
Life SQL, Data
Mart Life
Life Etc. OLAP
Information System MDD Tools
Extract:
COBOL, Health
Health SQL, Data
Health
Health Etc. Mart R/OLAP
Information System Star Schema
Extract:
COBOL,
Auto
SQL,
Auto Data
Auto Etc. Auto
Information System
Mart SQL Query
26
Data Marts Estructurados
Life Life
OLTP Data
Mart
EXTRACT Life
SELECT OLAP
MDD Tools
TRANSFORM
INTEGRATE
LOAD
Enterprise
Health
Data Health
Cleanse Data
OLTP for: Warehouse Data
Names Mart Health
Formats "Customer" R/OLAP
Star Schema
Values
Domains
Metadata
Auto Auto
OLTP Data
Mart Auto
SQL Query
27
OLAP (Online Analytic Processing)
Información
disponible
Condiciones
Servidores
Extracción
Red
Limpieza de Datos
Bases de Datos
Transformación
Middleware
Carga de Datos
30
Data Marts Estructurados: Visión Completa
Ficheros: FF,
XML
DM
Compras
Aplicaciones:
ERP,...
BBDD DM
DWH Financiero
Integración +
Calidad de
Datos
Tiempo Real,
WS, Http
DM
Ventas
Legacy
31
Fundamentos del DWH
Modelado de Datos y Metadatos
32
Técnicas de Modelización Estructural
Consideraciones de Tiempo
Técnicas de Optimización
33
Consideraciones de Tiempo
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
ESTRUCTURAL
¿Cuál es el impacto
Agrupaciones basadas del Tiempo en cada
en tiempo
Almacén de Datos?
Tiempo
Retención de
Histórico
Unidades de tiempo
Calendarios de negocio
Técnicas
Foto (Snapshot)
Trazado de Auditoría
Metadatos temporales
Fechas Efectivas de Inicio y Fin
Fecha de cambio en Fuentes (evento)
Fecha de cambio en Destinos (carga)
35
Foto (Snapshot)
Foto (SNAPSHOT)
36
Foto (Snapshot) Múltiple
Una tabla para cada período
Se guardan TODOS los datos (cambien o no)
Nombre de la tabla refleja el período
Buen enfoque de (extracción/carga/modelado) para
Data Marts. Cada mes, en el ejemplo, representa los
datos tal y como estaban
Mal enfoque para Staging, ya que hay mucha
replicación de datos Foto (SNAPSHOT)
37
Foto (Snapshot) Única
Se guardan TODOS los datos (cambien o no)
Buen enfoque para Data Marts y puede ser útil en el
Warehouse.
Mal enfoque para Staging, ya que hay mucha
replicación de datos
Time Stamps imprescindibles
Fecha Efectiva
Foto (SNAPSHOT) de Negocio
38
Foto (Snapshot) Única
ID_cliente
nombre
apellido1
fecha_inicio_efectiva
... nombre
apellido1
apellido2
Fecha de Negocio
Sólo se extraen/cargan género
fecha_aniversario
(no Metadato)
fecha_carga
valores modificados
40
Trazado de Auditoría
Num Fecha Efectiva Nombre Género Fecha Fecha
Cliente Inicio aniversario Carga
2304 31/10/2001 Juan Reyes Hombre 01/01/1964 01/11/2001
5590 31/10/2001 Julia Astur Mujer 06/03/1948 01/11/2001
6720 31/10/2001 Carlos Hombre 19/09/1960 01/11/2001
Márquez
7841 31/10/2001 Luis Tesquilo 25/07/1952 01/11/2001
5590 30/11/2001 Julia Picado Mujer 06/03/1948 01/12/2001
41
Técnicas de Optimización Estructural y Física
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
Tiempo
Agrupaciones basadas
ESTRUCTURAL
en tiempo
Retención de Histórico
Seguridad
Posición
Distribución
Acceso
Navegación
Uso
Herramientas
Rendimiento
Implementación
Recuperación
DBMS
42
Técnicas de Optimización
Derivación
Data Warehouse y Data Marts
Usos
Facilitar acceso PÓLIZA RESIDENCIAL
num_póliza
Consistencia resultados total_cobertura
supl_terremotos
supl_inundaciones
supl_viento
supl_robos
va c ió n
PÓLIZA
supl_arte Deri
total_suplementos
total_suplementos=
num_póliza supl_terremotos +
código_tipo_póliza supl_inundaciones +
fecha_inicio_póliza una supl_viento +
fecha_inicio_cobertura de supl_robo +
fecha_fin_cobertura supl_arte
términos
cantidad_prima
cantidad_servicio PÓLIZA_AUTOMOVIL
num_póliza
total_colisión
...
43
Técnicas de Optimización
Data Warehouse PÓLIZA RESIDENCIAL
Agregación num_póliza
total_cobertura
supl_terremotos
supl_inundaciones
No cambio de supl_viento
supl_robos
supl_arte
granularidad PÓLIZA total_suplementos
fecha_carga
num_póliza
cantidad_prima
cantidad_servicio PÓLIZA_AUTOM OVIL
fecha_carga
num_póliza
total_colisión
AGREGACIÓN descuento_cliente
indic_precio_especial
fecha_carga
PÓLIZA RESIDENCIAL
AGREGACIÓN
num_póliza
código_tipo_póliza PÓLIZA_AUTOM OVIL
fecha_inicio_póliza
fecha_inicio_cobertura num_póliza
fecha_fin_cobertura total_colisión
términos descuento_cliente
cantidad_prima indic_precio_especial
cantidad_servicio código_tipo_póliza
total_cobertura fecha_inicio_póliza
supl_terremotos fecha_inicio_cobertura
supl_inundaciones fecha_fin_cobertura
supl_viento términos
supl_robos cantidad_prima
supl_arte cantidad_servicio
total_suplementos fecha_carga
fecha_carga
44 Data Marts
Técnicas de Optimización
CLIENTE
RESUM EN ANUAL
id_cliente
CLIENTES
fecha_alta_cliente
fecha_baja_cliente
Sumarización nombre
apellido1
id_cliente
año_resumen
valor_inicio_año
apellido2
Histórica grupo_edad
género
valor_final_año
total_cuenta_inicio_año
total_cuenta_final_año
Agrupada
estado_civil
total_años_como_cliente
indic_cliente_perdido
fecha_carga
AÑO
BASE CLIENTELA
ANUAL
num_año
id_zona
id_producto
código_tipo
num_año
cuenta_cliente
TRIM ESTRE
num_trimestre
BASE CLIENTELA
id_zona
id_producto
M ES código_tipo
num_mes
num_mes cuenta_cliente
45
Técnicas de Optimización
Particionamiento Horizontal
Particiones por filas RESUM EN ANUAL
CLIENTES
Uso valor_final_año
total_cuenta_inicio_año
total_cuenta_final_año
Aislar datos sensibles total_años_como_cliente
id_cliente id_cliente
año_resumen año_resumen
valor_inicio_año valor_inicio_año
valor_final_año valor_final_año
total_cuenta_inicio_año total_cuenta_inicio_año
total_cuenta_final_año total_cuenta_final_año
total_años_como_cliente total_años_como_cliente
46
Técnicas de Optimización
CLIENTE
id_cliente
fecha_alta_cliente
fecha_baja_cliente
Particionamiento Vertical nombre
apellido1
apellido2
División por columnas grupo_edad
género
estado_civil
Posibilidad de columnas indic_cliente_perdido
num_cuenta_debito
redundantes nombre_banco_debito
num_autorización_débito
rango_crédito
Uso fecha_ultimo_check_credito
fecha_carga
PÓLIZA RESIDENCIAL
M APEO_ID_CLIENTE CLIENTE
código_sist_origen num_id_cliente
id_cliente_origen fecha_alta
fecha_inicio fecha_baja
fecha_fin grupo_edad
num_id_cliente ...
49 fecha_carga fecha_carga
Técnicas de Optimización PÓLIZA_AUTOMOVIL VEHÍCULO
num_póliza num_bastidor
fecha_inicio_póliza fecha_inicio_vehículo
fecha_inicio_cobertura num_póliza
fecha_fin_cobertura marca
términostotal_colisión modelo
descuento_cliente ...
indic_precio_especial ind_ABS
código_tipo_póliza ind_airbag
ind_ESP
Pre-Joins
...
fecha_carga fecha_carga
En el DW
términostotal_colisión
descuento_cliente
indic_precio_especial
Mantendremos también las tablas código_tipo_póliza
marca
separadas para cuando no necesitemos la modelo
...
Join ind_ABS
ind_airbag
ind_ESP
fecha_carga
50
Técnicas de Optimización
Cadenas de Datos
Caso especial de Agregación
Eficiente para Reporting
NUNCA en operacionales o
Staging, pero muy útil en DW
y DM
51
Técnicas de Optimización
Seguridad
Distribución
Recuperación
errores
Tamaño &
Bases de Datos del
Crecimiento
Data Warehose
Estabilidad
Histórico
Plataforma
Acceso &
Navegación
52
Fundamentos del DWH
Esquemas en Estrella
53
Puntos Fuertes de la Modelización Dimensional
54
Modelización Dimensional -
Regla de Oro
55
El Esquema en Estrella
Hechos
Dimensiones
De-normalizado (generalmente)
Tiene caminos de unión bien diseñados
Paraleliza la visión de los datos por el usuario
Son fácilmente modificables
Simplifica la comprensión y navegación por los
metadatos
Amplia la elección de herramientas de usuario final
56
Modelización Dimensional
57
Esquema en Estrella (conceptual)
58
Diseño de una Tabla de Hechos
59
Identifique el Proceso Departamental
60
Determine los Hechos
¿Qué hechos están disponibles?
¿Cuáles son los datos cuantitativos fundamentales que hay
por debajo?
Los hechos más útiles son los numéricos y aditivos
Enlace el evento a:
Tiempo / estudiante / profesor / curso / facilidades
62
Las Agregaciones Pueden:
64
Para Cada Tabla de Dimensión
65
La Dimensión de Tiempo
66
Establezca Relaciones
67
Métodos para Identificar Dimensiones y Hechos
Informes de Concepto
Reuniones y Entrevistas
Requerimientos Especiales del Proyecto
Documentos sobre Ámbito del Proyecto
Peticiones de Información
‘Cartas a los Reyes Magos’
Modelos y Bases de Datos Existentes
Informes Actuales (y Deseados)
68
Ejemplo:
Intereses de la División Financiera
La división financiera ha preparado la siguiente lista de
funcionalidades deseables en el data mart.
Muchos de estos datos son información de cliente /
demográfica.
Nos permitirá evaluar el impacto de costes en nuestros
clientes, ubicación y uso por nuestros clientes, costes
incurridos por ubicación para servir a nuestros clientes y
otros tipos de evaluaciones financieras relativas a costes,
uso, etc.
Este tipo de información será muy valiosa para dirigir los
aspectos financieros y políticos de las planificaciones y
soluciones futuras a los problemas actuales.
Esta información nos permitirá contestar mejor a las
importantes preguntas que aparecerán durante ese
proceso.
69
Ejemplo:
Frase de Ejemplo de Misión
70
Ejemplo:
Preguntas a la División Financiera
1. Datos demográficos de nuestros clientes - el tipo
de datos que aparece en un censo (tipo de
vivienda, valor de la vivienda, ocupación, sexo,
educación, ingresos, etc.) Puede ser usado para
enviar mensajes oficiales, evaluación de intereses
de penalización, y mercado objetivo.
72
Ejemplo:
El Esquema Financiero en Estrella
73
Fundamentos del DWH
Procesos y Estrategias de Carga del DWH
74
Mapeo de Datos
Mapeo LÓGICO -
describe cómo ir desde donde se encuentra
hasta donde quiere ir
Mapeo FÍSICO -
Indica las rutas, baches, desvíos atajos de la
carretera
TRANSPORTE -
Decida si está conduciendo un coche deportivo o
un camión de recogida de chatarra
PLANIFICACIÓN -
Indica cuándo saldrá y cuánto espera que le lleve
llegar al destino
75
Soluciones de Extracción, Transformación y Carga de
Datos (ETL)
76
Plataformas de Integración de Datos
Soluciones integradas
Capacidad de implantación a nivel corporativo
Metadatos completos, abiertos y extensibles
Abanico de transformaciones y reglas de negocio
Análisis, entrega y planificación integradas
Gestión Ad-hoc de agregaciones
Monitorización y Auditoría integradas
Funciones avanzadas de Calidad de Datos
Versionados, despliegues inteligentes
77
Proceso de Diseño
2. IMPORTACIÓN DE
DEFICIONES DE ORÍGENES
1. CREACIÓN DE
REPOSITORIO
4. CREACIÓN DE
MAPPINGS Def Origen
Mapeo
3. CREACIÓN DE ESQUEMA
Def Destino DESTINO
78
Transformaciones Más Comunes
Creación de valores por defecto para los nulos
Gestión de fechas
Selección o filtrado de datos origen
Unión de orígenes heterogéneos
(SAP+Ficheros+Tablas+…)
Normalización de los ficheros de datos
Generación de esquemas en estrella
Creación de estrategias de actualización
Creación y actualización de agregaciones
Creación de dimensiones ‘slowly-changing’
79
Algunas Transformaciones
Selección de datos del Origen representa la consulta o primer filtrado/ordenación de los
datos origen
80
Trabajo con Transformaciones
Ejemplo: Estrategia de Actualización
EXTRACCIÓN ESTRATEGIA DE
ORIGEN DEL ORIGEN LOOKUP ACTUALIZACIÓN DESTINO
Busca Basado en la
Job_IDs coincidencia de
en el Job_IDs,
destino
T_JOBS
81
Diseño de Cargas
82
Consejos sobre Planificación de Cargas
Orden de carga – cargue primero las tablas independientes
Determine la ventana necesaria de carga – use las horas de
inicio y final para determinar el tiempo necesario para las cargas
83
Plan de Carga de Destinos
84
Planificación de Cargas
Timing Planificación
Planificación propio
Ejecución manual
de la herramienta
Ejecución periódica
cada n minutos/horas/días Planificador genérico
un máximo de veces/ Control^M, Tareas
para siempre Programadas de Windows
Ejecución concreta
Scripts de carga (.bat, .sh, JCL)
En un momento determinado
Cada primer martes de mes a las 21:43
Ejecución basada en eventos
Disponibilidad del fichero origen
Sólo si la carga anterior acabó bien/mal
85
Monitorización de Cargas
86
La Creación de un Data Warehouse
Sostenible y sus Data Marts
Incrementales
Requiere la Automatización
de los Procesos de Carga
87
Fundamentos del DWH
Herramientas de Integración de Datos
88
Integración de Datos, más allá del BI
89
¿Un proceso simple?
ETL
90
Ensanchando el concepto de Integración de Datos
EIM, Content
Management Metadatos
Bases de Datos
91 (Oracle, Microsoft, IBM, …)
Acceso Universal a los Datos
Entrega de datos a Sistemas, Procesos y Organizaciones
Mainframe
and Midrange Flat Files, XLS, PPT Oracle
FTP SQL Server
Encrypted Stream Industry Formats
XML, PDF, DOC, …
Etc etc ….
92
Informatica PowerCenter
Puntos de interés como plataforma de integración de datos (1/2)
94
Informatica PowerCenter
“Trabajar como pienso” Del papel …
MAESTRO DATAWAREHOUSE
95
Informatica PowerCenter
… a la práctica
96
Informatica PowerCenter Metadata Reporter
Presentación web de los metadatos del repositorio
97
Fundamentos del DWH
Herramientas de Reporting y Análisis
98
Tipos de Herramientas OLAP
99
On-Line Analytic Processing - (OLAP)
101
Motores Relacionales:
102
OLAP Relacional:
103
OLAP Relacional (total):
104
OLAP Multidimensional
105
Bases de Datos Multidimensionales:
el ‘HiperCubo’
Ti
m
e
Customer
Product
MÁS:
Región
Territorio
Vendedor
Etc.
106
OLAP Multidimensional
ROLAP MOLAP
SQL ‘Estándar’ Propietario (SQL)
Tablas/Registros Vectores/Cubos
Respuesta más lenta Respuesta muy rápida
Consultas de SQL flexibles Consultas predefinidas
Funciones limitadas Funciones especiales
Uso de perfiles existentes Nuevos perfiles de
desarrollo
108
Argumentos de MOLAP contra ROLAP
109
Argumentos de ROLAP contra MOLAP
110
Data Mining
Data mining
El proceso crea la teoría en base a la navegación
automática por los datos
¿Quién compra realmente los artículos más caros?
¿Cuáles son sus nombres para el mercado indicado?
111
Herramientas de Data Mining:
113
Múltiples Necesidades = Múltiples
Herramientas
114
Sin Datos de Calidad
todo lo que Tenemos
son Opiniones
115
116