Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
Sesin 1:
Fundamentos del DWH
Sesin 2:
Fundamentos de la Calidad de Datos
Sesin 3:
Caso prctico: Un DWH con Calidad
2
Agenda Sesin 1
Presentacin PowerData
Presentacin asistentes: Conocimientos y Expectativas
Fundamentos DWH
Introduccin al DWH
Arquitectura de un DWH
Modelado de Datos y Metadatos
Esquemas en Estrella
Procesos y Estrategias de carga del DWH
Herramientas de Integracin de Datos
Herramientas de Reporting y Anlisis
3
Presentacin PowerData
4
4
Presentacin PowerData
5
La solucin: los servicios de datos
Mejorar Modernizar el
Necesidades decisiones y negocio y Aumentar la Subcontratar
Fusiones y rentabilidad
cumplir con la reducir los adquisiciones funciones
empresariales normativa costes de TI del negocio secundarias
Proyectos de
integracin
de datos
Almacenamiento Migracin Consolidacin Gestin de Sincronizacin
de datos de datos de datos datos maestros de datos
6
La plataforma de productos de Informatica
Automatizacin de todo el ciclo de vida de la integracin de datos
PowerExchange PowerCenter
Desarrollo y gestin
Desarrollar y colaborar con un repositorio comn y metadatos compartidos
7
Presentacin Asistentes:
Conocimientos y Expectativas
8
8
Fundamentos del DWH
9
Fundamentos del DWH
10
Fundamentos del DWH
Introduccin al DWH: Qu es?
11
Qu es un Data Warehouse?
Orientado a un Tema
Coleccin de informacin relacionada organizada
alrededor de un tema central
Integrado
Datos de mltiples orgenes; consistencia de datos
Variable en el tiempo
Fotos en el tiempo
Basado en fechas/periodos
No-voltil
Slo lectura para usuarios finales
12
Orientado a Tema
Proporciona Contiene
Orden de
Compra Producto Inventario
Compuesta por Recuperado
desde
13
Integrado
Contiene
Convenciones de Nombres
Descripciones
Atributos fsicos de los datos
Valores de los datos
Consistentes
Admin. Marketing
Datos
Operaciones
Ventas Cuentas
14
Variable en el tiempo
Id de cliente
Id de cliente fecha desde
nombre fecha hasta
direccin nombre
telfono direccin
ratio de crdito telfono
ratio de crdito
15
No-Voltil
insercin cambio
lectura
carga
borrado
16
Un Data Warehouse es ...
17
Para qu construir un Warehouse?
18
Visin del Usuario
Panel de Representacin de
Usuarios Consulta Negocio
Finales
Base de Datos
20
Arquitectura de un DWH
Nomenclatura
DWH: Data Warehouse
DataMart
OLTP: On-Line Transaction Processing
OLAP: On-Line Analytic Processing
ROLAP: Relational On-Line Analytic Processing
MOLAP: Multidimensional On-Line Analytic Processing
ODS: Object Data Store
DSS: Decision Support System
ETL: Extract, Transform and Load
ETQL: Extract, Transform, Quality and Load
EII: Enterprise Information Integration
EAI: Enterprise Application Integration
ERP: Enterprise Resource Planning
21
Directo de OLTP a OLAP
Life
Life Life
Information System OLAP
Health
Health
Information System Health
Query
Auto Auto
Information System Auto
Analysis
22
Directo de OLTP a OLAP
23
Data Warehouse Virtual: Directo o Federado
Life
Life
Information System
Health
EII
Health
Information System "Customer"
OLAP
Auto Auto
Information System
24
Data Warehouse Total
Extract:
COBOL,
Life SQL,
Life Etc.
Information System Life
OLAP
MDD Tools
Extract: Enterprise
COBOL, Data
Health SQL,
Warehouse
Health Etc.
Information System Health
R/OLAP
Star Schema
Extract:
COBOL,
SQL,
Auto
Auto Etc. Auto
Information System SQL Query
25
Data Marts No Estructurados
Extract:
COBOL, Life
Life SQL, Data
Mart Life
Life Etc. OLAP
Information System MDD Tools
Extract:
COBOL, Health
Health SQL, Data
Health
Health Etc. Mart R/OLAP
Information System Star Schema
Extract:
COBOL,
Auto
SQL,
Auto Data
Auto Etc. Auto
Information System
Mart SQL Query
26
Data Marts Estructurados
Life Life
OLTP Data
Mart
EXTRACT Life
SELECT OLAP
MDD Tools
TRANSFORM
INTEGRATE
LOAD
Enterprise
Health
Data Health
Cleanse Data
OLTP for: Warehouse Data
Names Mart Health
Formats "Customer" R/OLAP
Star Schema
Values
Domains
Metadata
Auto Auto
OLTP Data
Mart Auto
SQL Query
27
OLAP (Online Analytic Processing)
Informacin
disponible
Condiciones
Servidores
Extraccin
Red
Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos
30
Data Marts Estructurados: Visin Completa
Ficheros: FF,
XML
DM
Compras
Aplicaciones:
ERP,...
BBDD DM
DWH Financiero
Integracin +
Calidad de
Datos
Tiempo Real,
WS, Http
DM
Ventas
Legacy
31
Fundamentos del DWH
Modelado de Datos y Metadatos
32
Tcnicas de Modelizacin Estructural
Consideraciones de Tiempo
Tcnicas de Optimizacin
33
Consideraciones de Tiempo
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
ESTRUCTURAL
Cul es el impacto
Agrupaciones basadas del Tiempo en cada
en tiempo
Almacn de Datos?
Tiempo
Retencin de
Histrico
Unidades de tiempo
Calendarios de negocio
Tcnicas
Foto (Snapshot)
Trazado de Auditora
Metadatos temporales
Fechas Efectivas de Inicio y Fin
Fecha de cambio en Fuentes (evento)
Fecha de cambio en Destinos (carga)
35
Foto (Snapshot)
Foto (SNAPSHOT)
36
Foto (Snapshot) Mltiple
Una tabla para cada perodo
Se guardan TODOS los datos (cambien o no)
Nombre de la tabla refleja el perodo
Buen enfoque de (extraccin/carga/modelado) para
Data Marts. Cada mes, en el ejemplo, representa los
datos tal y como estaban
Mal enfoque para Staging, ya que hay mucha
replicacin de datos Foto (SNAPSHOT)
37
Foto (Snapshot) nica
Se guardan TODOS los datos (cambien o no)
Buen enfoque para Data Marts y puede ser til en el
Warehouse.
Mal enfoque para Staging, ya que hay mucha
replicacin de datos
Time Stamps imprescindibles
Fecha Efectiva
Foto (SNAPSHOT) de Negocio
38
Foto (Snapshot) nica
ID_cliente
nombre
apellido1
fecha_inicio_efectiva
... nombre
apellido1
apellido2
Fecha de Negocio
Slo se extraen/cargan gnero
fecha_aniversario
(no Metadato)
fecha_carga
valores modificados
40
Trazado de Auditora
Num Fecha Efectiva Nombre Gnero Fecha Fecha
Cliente Inicio aniversario Carga
2304 31/10/2001 Juan Reyes Hombre 01/01/1964 01/11/2001
5590 31/10/2001 Julia Astur Mujer 06/03/1948 01/11/2001
6720 31/10/2001 Carlos Hombre 19/09/1960 01/11/2001
Mrquez
7841 31/10/2001 Luis Tesquilo 25/07/1952 01/11/2001
5590 30/11/2001 Julia Picado Mujer 06/03/1948 01/12/2001
41
Tcnicas de Optimizacin Estructural y Fsica
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
Tiempo
Agrupaciones basadas
ESTRUCTURAL
en tiempo
Retencin de Histrico
Seguridad
Posicin
Distribucin
Acceso
Navegacin
Uso
Herramientas
Rendimiento
Implementacin
Recuperacin
DBMS
42
Tcnicas de Optimizacin
Derivacin
Data Warehouse y Data Marts
Usos
Facilitar acceso PLIZA RESIDENCIAL
num_pliza
Consistencia resultados total_cobertura
supl_terremotos
supl_inundaciones
supl_viento
supl_robos
va c i n
PLIZA
supl_arte Deri
total_suplementos
total_suplementos=
num_pliza supl_terremotos +
cdigo_tipo_pliza supl_inundaciones +
fecha_inicio_pliza una supl_viento +
fecha_inicio_cobertura de supl_robo +
fecha_fin_cobertura supl_arte
trminos
cantidad_prima
cantidad_servicio PLIZA_AUTOMOVIL
num_pliza
total_colisin
...
43
Tcnicas de Optimizacin
Data Warehouse PLIZA RESIDENCIAL
Agregacin num_pliza
total_cobertura
supl_terremotos
supl_inundaciones
No cambio de supl_viento
supl_robos
supl_arte
granularidad PLIZA total_suplementos
fecha_carga
num_pliza
cantidad_prima
cantidad_servicio PLIZA_AUTOM OVIL
fecha_carga
num_pliza
total_colisin
AGREGACIN descuento_cliente
indic_precio_especial
fecha_carga
PLIZA RESIDENCIAL
AGREGACIN
num_pliza
cdigo_tipo_pliza PLIZA_AUTOM OVIL
fecha_inicio_pliza
fecha_inicio_cobertura num_pliza
fecha_fin_cobertura total_colisin
trminos descuento_cliente
cantidad_prima indic_precio_especial
cantidad_servicio cdigo_tipo_pliza
total_cobertura fecha_inicio_pliza
supl_terremotos fecha_inicio_cobertura
supl_inundaciones fecha_fin_cobertura
supl_viento trminos
supl_robos cantidad_prima
supl_arte cantidad_servicio
total_suplementos fecha_carga
fecha_carga
44 Data Marts
Tcnicas de Optimizacin
CLIENTE
RESUM EN ANUAL
id_cliente
CLIENTES
fecha_alta_cliente
fecha_baja_cliente
Sumarizacin nombre
apellido1
id_cliente
ao_resumen
valor_inicio_ao
apellido2
Histrica grupo_edad
gnero
valor_final_ao
total_cuenta_inicio_ao
total_cuenta_final_ao
Agrupada
estado_civil
total_aos_como_cliente
indic_cliente_perdido
fecha_carga
AO
BASE CLIENTELA
ANUAL
num_ao
id_zona
id_producto
cdigo_tipo
num_ao
cuenta_cliente
TRIM ESTRE
num_trimestre
BASE CLIENTELA
id_zona
id_producto
M ES cdigo_tipo
num_mes
num_mes cuenta_cliente
45
Tcnicas de Optimizacin
Particionamiento Horizontal
Particiones por filas RESUM EN ANUAL
CLIENTES
Uso valor_final_ao
total_cuenta_inicio_ao
total_cuenta_final_ao
Aislar datos sensibles total_aos_como_cliente
id_cliente id_cliente
ao_resumen ao_resumen
valor_inicio_ao valor_inicio_ao
valor_final_ao valor_final_ao
total_cuenta_inicio_ao total_cuenta_inicio_ao
total_cuenta_final_ao total_cuenta_final_ao
total_aos_como_cliente total_aos_como_cliente
46
Tcnicas de Optimizacin
CLIENTE
id_cliente
fecha_alta_cliente
fecha_baja_cliente
Particionamiento Vertical nombre
apellido1
apellido2
Divisin por columnas grupo_edad
gnero
estado_civil
Posibilidad de columnas indic_cliente_perdido
num_cuenta_debito
redundantes nombre_banco_debito
num_autorizacin_dbito
rango_crdito
Uso fecha_ultimo_check_credito
fecha_carga
PLIZA RESIDENCIAL
M APEO_ID_CLIENTE CLIENTE
cdigo_sist_origen num_id_cliente
id_cliente_origen fecha_alta
fecha_inicio fecha_baja
fecha_fin grupo_edad
num_id_cliente ...
49 fecha_carga fecha_carga
Tcnicas de Optimizacin PLIZA_AUTOMOVIL VEHCULO
num_pliza num_bastidor
fecha_inicio_pliza fecha_inicio_vehculo
fecha_inicio_cobertura num_pliza
fecha_fin_cobertura marca
trminostotal_colisin modelo
descuento_cliente ...
indic_precio_especial ind_ABS
cdigo_tipo_pliza ind_airbag
ind_ESP
Pre-Joins
...
fecha_carga fecha_carga
En el DW
trminostotal_colisin
descuento_cliente
indic_precio_especial
Mantendremos tambin las tablas cdigo_tipo_pliza
marca
separadas para cuando no necesitemos la modelo
...
Join ind_ABS
ind_airbag
ind_ESP
fecha_carga
50
Tcnicas de Optimizacin
Cadenas de Datos
Caso especial de Agregacin
Eficiente para Reporting
NUNCA en operacionales o
Staging, pero muy til en DW
y DM
51
Tcnicas de Optimizacin
Seguridad
Distribucin
Recuperacin
errores
Tamao &
Bases de Datos del
Crecimiento
Data Warehose
Estabilidad
Histrico
Plataforma
Acceso &
Navegacin
52
Fundamentos del DWH
Esquemas en Estrella
53
Puntos Fuertes de la Modelizacin Dimensional
54
Modelizacin Dimensional -
Regla de Oro
55
El Esquema en Estrella
Hechos
Dimensiones
De-normalizado (generalmente)
Tiene caminos de unin bien diseados
Paraleliza la visin de los datos por el usuario
Son fcilmente modificables
Simplifica la comprensin y navegacin por los
metadatos
Amplia la eleccin de herramientas de usuario final
56
Modelizacin Dimensional
57
Esquema en Estrella (conceptual)
58
Diseo de una Tabla de Hechos
59
Identifique el Proceso Departamental
60
Determine los Hechos
Qu hechos estn disponibles?
Cules son los datos cuantitativos fundamentales que hay
por debajo?
Los hechos ms tiles son los numricos y aditivos
Enlace el evento a:
Tiempo / estudiante / profesor / curso / facilidades
62
Las Agregaciones Pueden:
64
Para Cada Tabla de Dimensin
65
La Dimensin de Tiempo
66
Establezca Relaciones
67
Mtodos para Identificar Dimensiones y Hechos
Informes de Concepto
Reuniones y Entrevistas
Requerimientos Especiales del Proyecto
Documentos sobre mbito del Proyecto
Peticiones de Informacin
Cartas a los Reyes Magos
Modelos y Bases de Datos Existentes
Informes Actuales (y Deseados)
68
Ejemplo:
Intereses de la Divisin Financiera
La divisin financiera ha preparado la siguiente lista de
funcionalidades deseables en el data mart.
Muchos de estos datos son informacin de cliente /
demogrfica.
Nos permitir evaluar el impacto de costes en nuestros
clientes, ubicacin y uso por nuestros clientes, costes
incurridos por ubicacin para servir a nuestros clientes y
otros tipos de evaluaciones financieras relativas a costes,
uso, etc.
Este tipo de informacin ser muy valiosa para dirigir los
aspectos financieros y polticos de las planificaciones y
soluciones futuras a los problemas actuales.
Esta informacin nos permitir contestar mejor a las
importantes preguntas que aparecern durante ese
proceso.
69
Ejemplo:
Frase de Ejemplo de Misin
70
Ejemplo:
Preguntas a la Divisin Financiera
1. Datos demogrficos de nuestros clientes - el tipo
de datos que aparece en un censo (tipo de
vivienda, valor de la vivienda, ocupacin, sexo,
educacin, ingresos, etc.) Puede ser usado para
enviar mensajes oficiales, evaluacin de intereses
de penalizacin, y mercado objetivo.
72
Ejemplo:
El Esquema Financiero en Estrella
73
Fundamentos del DWH
Procesos y Estrategias de Carga del DWH
74
Mapeo de Datos
Mapeo LGICO -
describe cmo ir desde donde se encuentra
hasta donde quiere ir
Mapeo FSICO -
Indica las rutas, baches, desvos atajos de la
carretera
TRANSPORTE -
Decida si est conduciendo un coche deportivo o
un camin de recogida de chatarra
PLANIFICACIN -
Indica cundo saldr y cunto espera que le lleve
llegar al destino
75
Soluciones de Extraccin, Transformacin y Carga de
Datos (ETL)
76
Plataformas de Integracin de Datos
Soluciones integradas
Capacidad de implantacin a nivel corporativo
Metadatos completos, abiertos y extensibles
Abanico de transformaciones y reglas de negocio
Anlisis, entrega y planificacin integradas
Gestin Ad-hoc de agregaciones
Monitorizacin y Auditora integradas
Funciones avanzadas de Calidad de Datos
Versionados, despliegues inteligentes
77
Proceso de Diseo
2. IMPORTACIN DE
DEFICIONES DE ORGENES
1. CREACIN DE
REPOSITORIO
4. CREACIN DE
MAPPINGS Def Origen
Mapeo
3. CREACIN DE ESQUEMA
Def Destino DESTINO
78
Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas
Seleccin o filtrado de datos origen
Unin de orgenes heterogneos
(SAP+Ficheros+Tablas+)
Normalizacin de los ficheros de datos
Generacin de esquemas en estrella
Creacin de estrategias de actualizacin
Creacin y actualizacin de agregaciones
Creacin de dimensiones slowly-changing
79
Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los
datos origen
80
Trabajo con Transformaciones
Ejemplo: Estrategia de Actualizacin
EXTRACCIN ESTRATEGIA DE
ORIGEN DEL ORIGEN LOOKUP ACTUALIZACIN DESTINO
Busca Basado en la
Job_IDs coincidencia de
en el Job_IDs,
destino
T_JOBS
81
Diseo de Cargas
82
Consejos sobre Planificacin de Cargas
Orden de carga cargue primero las tablas independientes
Determine la ventana necesaria de carga use las horas de
inicio y final para determinar el tiempo necesario para las cargas
83
Plan de Carga de Destinos
84
Planificacin de Cargas
Timing Planificacin
Planificacin propio
Ejecucin manual
de la herramienta
Ejecucin peridica
cada n minutos/horas/das Planificador genrico
un mximo de veces/ Control^M, Tareas
para siempre Programadas de Windows
Ejecucin concreta
Scripts de carga (.bat, .sh, JCL)
En un momento determinado
Cada primer martes de mes a las 21:43
Ejecucin basada en eventos
Disponibilidad del fichero origen
Slo si la carga anterior acab bien/mal
85
Monitorizacin de Cargas
86
La Creacin de un Data Warehouse
Sostenible y sus Data Marts
Incrementales
Requiere la Automatizacin
de los Procesos de Carga
87
Fundamentos del DWH
Herramientas de Integracin de Datos
88
Integracin de Datos, ms all del BI
89
Un proceso simple?
ETL
90
Ensanchando el concepto de Integracin de Datos
EIM, Content
Management Metadatos
Bases de Datos
91 (Oracle, Microsoft, IBM, )
Acceso Universal a los Datos
Entrega de datos a Sistemas, Procesos y Organizaciones
Mainframe
and Midrange Flat Files, XLS, PPT Oracle
FTP SQL Server
Encrypted Stream Industry Formats
XML, PDF, DOC,
Etc etc .
92
Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (1/2)
94
Informatica PowerCenter
Trabajar como pienso Del papel
MAESTRO DATAWAREHOUSE
95
Informatica PowerCenter
a la prctica
96
Informatica PowerCenter Metadata Reporter
Presentacin web de los metadatos del repositorio
97
Fundamentos del DWH
Herramientas de Reporting y Anlisis
98
Tipos de Herramientas OLAP
99
On-Line Analytic Processing - (OLAP)
101
Motores Relacionales:
102
OLAP Relacional:
103
OLAP Relacional (total):
104
OLAP Multidimensional
105
Bases de Datos Multidimensionales:
el HiperCubo
Ti
m
e
Customer
Product
MS:
Regin
Territorio
Vendedor
Etc.
106
OLAP Multidimensional
ROLAP MOLAP
SQL Estndar Propietario (SQL)
Tablas/Registros Vectores/Cubos
Respuesta ms lenta Respuesta muy rpida
Consultas de SQL flexibles Consultas predefinidas
Funciones limitadas Funciones especiales
Uso de perfiles existentes Nuevos perfiles de
desarrollo
108
Argumentos de MOLAP contra ROLAP
109
Argumentos de ROLAP contra MOLAP
110
Data Mining
Data mining
El proceso crea la teora en base a la navegacin
automtica por los datos
Quin compra realmente los artculos ms caros?
Cules son sus nombres para el mercado indicado?
111
Herramientas de Data Mining:
113
Mltiples Necesidades = Mltiples
Herramientas
114
Sin Datos de Calidad
todo lo que Tenemos
son Opiniones
115
116