Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Agenda
Sesin 1:
Fundamentos del DWH
Sesin 2:
Fundamentos de la Calidad de Datos
Sesin 3:
Caso prctico: Un DWH con Calidad
Agenda Sesin 1
Presentacin PowerData Presentacin asistentes: Conocimientos y Expectativas Fundamentos DWH
Introduccin al DWH Arquitectura de un DWH Modelado de Datos y Metadatos Esquemas en Estrella Procesos y Estrategias de carga del DWH Herramientas de Integracin de Datos Herramientas de Reporting y Anlisis
Presentacin PowerData
4 4
Presentacin PowerData
Empresa lider especializada en Data Management Colaboradores de Informatica Corporation en Espaa (Elite Partner), Chile, Argentina, Per y Uruguay (Distributor)
www.powerdata.es www.informatica.com
Informatica
Nacida en 1993, en California +1.400 colaboradores
Powerdata
Nacida en 1999, en Barcelona 90 empleados
Inteligencia empresarial
Consolidacin de aplicaciones
BPO SaaS
Almacenamiento de datos
Migracin de datos
Sincronizacin de datos
Servicios de datos
Plataforma de productos de Informatica Informatica PowerExchange Informatica Data Explorer Informatica Data Quality Informatica PowerCenter
Acceso
A cualquier sistema, por lotes o en tiempo real
Deteccin
Buscar y perfilar cualquier tipo de datos de cualquier fuente
Limpieza
Integracin
Transformar y conciliar datos de todo tipo
Entrega
Entregar los datos adecuados en el momento y formato adecuados
PowerExchange
PowerCenter
Desarrollo y gestin
Desarrollar y colaborar con un repositorio comn y metadatos compartidos
Presentacin Asistentes:
Conocimientos y Expectativas
8 8
10
11
Qu es un Data Warehouse?
Orientado a un Tema
Coleccin de informacin relacionada organizada alrededor de un tema central
Integrado
Datos de mltiples orgenes; consistencia de datos
Variable en el tiempo
Fotos en el tiempo Basado en fechas/periodos
No-voltil
Slo lectura para usuarios finales
Orientado a Tema
Los usuarios piensan en trminos de cosas y sus relaciones, no en trminos de procesos, funciones o aplicaciones.
Proveedor
Pedido
Realiza
Cliente
Contiene Inventario
Recuperado desde
13
Integrado
Contiene
Convenciones de Nombres Descripciones Atributos fsicos de los datos Valores de los datos
Consistentes
Ventas Cuentas
14
Variable en el tiempo
Entorno Operacional
Data Warehouse
Datos en fotos Horizonte de 5 10 aos Refleja la perspectiva desde un momento en el tiempo
Horizonte de 30 - 90 das
Exactitud en los accesos
Id de cliente fecha desde fecha hasta nombre direccin telfono ratio de crdito
15
No-Voltil
insercin
cambio lectura
carga
borrado
Sistema OLTP
(dinmico)
Sistema DSS
(ms esttico)
16
18
Usuarios Finales
Base de Datos
20
Arquitectura de un DWH
Nomenclatura
21
DWH: Data Warehouse DataMart OLTP: On-Line Transaction Processing OLAP: On-Line Analytic Processing ROLAP: Relational On-Line Analytic Processing MOLAP: Multidimensional On-Line Analytic Processing ODS: Object Data Store DSS: Decision Support System ETL: Extract, Transform and Load ETQL: Extract, Transform, Quality and Load EII: Enterprise Information Integration EAI: Enterprise Application Integration ERP: Enterprise Resource Planning
Life
Life Information System Life OLAP
Health
Health Information System Health Query
Auto
Auto Analysis
22
Life
Life Information System
Health
Health Information System
EII
"Customer" OLAP
Auto
24
Life
Life Information System
Health
Health Information System
Auto
Auto Information System
25
Life
Life Information System
Health
Health Information System
Auto
Auto Information System
26
Health OLTP
Auto OLTP
27
28
Informacin disponible
Condiciones
29
El interfaz de usuario simple Trabaja contra representacin de negocio de los datos Todos los componentes en una pantalla
Transformacin Middleware
Carga de Datos
30
DWH
DM Financiero
DM Ventas Legacy Diseo Mapeos Perfilado de Datos ETL, Estandarizacin, Desduplicacin Almacenamiento: Agregacin, Indexacin,... Replicacin Distribucin Anlisis Reporting Cuadros Mando
32
33
Consideraciones de Tiempo
Staging Area Data Warehouse Data Marts Relacional Dimensional
ESTRUCTURAL
Tiempo
Tcnicas
Foto (Snapshot) Trazado de Auditora
Metadatos temporales
Fechas Efectivas de Inicio y Fin Fecha de cambio en Fuentes (evento) Fecha de cambio en Destinos (carga)
35
Foto (Snapshot)
Dos tcnicas diferentes Mltiples Tablas
Tabla nica
Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registro
Foto (SNAPSHOT) Nov 2001 CLIENTE CLIENTE Num Cliente Oct 2001 CLIENTE Nombre Apellido1 Num Cliente Apellido2 Nombre Gnero Apellido1 Fecha Carga Apellido2 Gnero Fecha Carga O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga
36
CLIENTE O bien Num Cliente Fecha Efectiva Inicio Nombre Apellido1 Apellido2 Gnero Fecha Carga
37
O bien
38
Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Juan Reyes Julia Picado Carlos Mrquez Luis Tesquilo
Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001 01/12/2001 01/12/2001 01/12/2001
Trazado de Auditora
CLIENTE ID_cliente nombre apellido1 apellido2 gnero fecha_aniversario
AUDITORIA CLIENTE ID_cliente fecha_inicio_efectiva nombre apellido1 apellido2 gnero fecha_aniversario fecha_carga
...
Trazado de Auditora
Num Cliente 2304 5590 6720 7841 5590 Fecha Efectiva Inicio 31/10/2001 31/10/2001 31/10/2001 31/10/2001 30/11/2001 Nombre Juan Reyes Julia Astur Carlos Mrquez Luis Tesquilo Julia Picado Gnero Hombre Mujer Hombre Fecha aniversario 01/01/1964 06/03/1948 19/09/1960 25/07/1952 06/03/1948 Fecha Carga 01/11/2001 01/11/2001 01/11/2001 01/11/2001 01/12/2001
Mujer
Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final
41
Actualidad de Datos Agrupaciones basadas en tiempo Retencin de Histrico Seguridad Distribucin Acceso Navegacin Herramientas Rendimiento Tamao Disponibilidad Recuperacin DBMS Cmo debe optimizarse cada almacn de datos en la Implementacin?
42
Implementacin
FSICO
Uso
Posicin
Tiempo
Tcnicas de Optimizacin
Derivacin
Data Warehouse y Data Marts Usos
Facilitar acceso Consistencia resultados
PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos
PLIZA
va Deri
cin
una de
PLIZA_AUTOMOVIL
43
Tcnicas de Optimizacin
Agregacin
No cambio de granularidad Objetivo: Facilitar el acceso a los datos
Data Warehouse
PLIZA RESIDENCIAL num_pliza total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga
PLIZA num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga
una de
AGREGACIN
PLIZA RESIDENCIAL num_pliza cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_inundaciones supl_viento supl_robos supl_arte total_suplementos fecha_carga
AGREGACIN
PLIZA_AUTOM OVIL num_pliza total_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio fecha_carga
44
Data Marts
Tcnicas de Optimizacin
CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga RESUM EN ANUAL CLIENTES id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
Sumarizacin
Histrica Agrupada
AO num_ao
M ES num_mes
45
Tcnicas de Optimizacin
Particionamiento Horizontal
Particiones por filas Todos los campos repetidos en las nuevas tablas Uso
Aislar datos sensibles Reduccin tamao tablas
RESUM EN ANUAL CLIENTES id_cliente ao_resumen cdigo_regin valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
RESUM EN ANUAL CLIENTES - SUR id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
RESUM EN ANUAL CLIENTES - NORTE id_cliente ao_resumen valor_inicio_ao valor_final_ao total_cuenta_inicio_ao total_cuenta_final_ao total_aos_como_cliente
46
Tcnicas de Optimizacin
CLIENTE id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito fecha_carga Campos con Datos no Sensibles Campos con Datos Sensibles
Particionamiento Vertical
Divisin por columnas Posibilidad de columnas redundantes Uso
Seguridad Distribucin
CLIENTE
CLIENTE_SEGURO id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 num_cuenta_debito nombre_banco_debito num_autorizacin_dbito rango_crdito fecha_ultimo_check_credito
id_cliente fecha_alta_cliente fecha_baja_cliente nombre apellido1 apellido2 grupo_edad gnero estado_civil indic_cliente_perdido fecha_carga
Tcnicas de Optimizacin
Particionamiento por Estabilidad
Basado en frecuencia de cambio
PLIZA RESIDENCIAL num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin supl_pieles supl_arte supl_joyas supl_otros fecha_carga
PLIZA RESIDENCIAL
num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminos cantidad_prima cantidad_servicio total_cobertura supl_terremotos supl_viento supl_inundacin fecha_carga
48
Tcnicas de Optimizacin
Fichero M aster Ventas
Claves Alternativas
Caso especial de derivacin
Fichero M aster M arketing ID_campaa ID_cliente ... PLIZAS ID_Pliza ID_Tomador ... Identificador Pliza Identificador Asegurado Identificador campaa Identificador Cliente
49
Tcnicas de Optimizacin
PLIZA_AUTOMOVIL
VEHCULO num_bastidor fecha_inicio_vehculo num_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga
Pre-Joins
Caso especial de Agregacin Data Warehouse y Data Marts
num_pliza fecha_inicio_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza ... fecha_carga
PLIZA_Y_VEHCULO num_bastidor fecha_inicio_vehculo num_pliza fecha_inicio_cobertura fecha_fin_cobertura trminostotal_colisin descuento_cliente indic_precio_especial cdigo_tipo_pliza marca modelo ... ind_ABS ind_airbag ind_ESP fecha_carga
Tcnicas de Optimizacin
Cadenas de Datos
Caso especial de Agregacin Eficiente para Reporting
51
Tcnicas de Optimizacin
Balancear diferentes Factores
Rendimiento Seguridad Distribucin
52
53
Los Esquemas en Estrella deberan ser utilizados para cualquier dato accedido directamente por los usuarios finales.
55
El Esquema en Estrella
Hechos Dimensiones
De-normalizado (generalmente)
Tiene caminos de unin bien diseados Paraleliza la visin de los datos por el usuario Son fcilmente modificables Simplifica la comprensin y navegacin por los metadatos Amplia la eleccin de herramientas de usuario final
56
Modelizacin Dimensional
Tablas de Hechos: contienen datos cuantitativos sobre el negocio
La clave primaria es una concatenacin de claves de dimensin, incluyendo el tiempo Cada elemento de la clave primaria compuesta es una clave de integridad referencial hacia una tabla de dimensin. Contienen menos atributos, pero muchos ms registros
Tablas de Dimensin: gestionan datos descriptivos que reflejan las diversas dimensiones del negocio
Contienen muchos atributos pero menos (pocos) registros La clave primaria ayuda a componer las claves primarias de las tablas de hechos
57
58
60
Enlace el evento a:
Tiempo / estudiante / profesor / curso / facilidades
62
Siempre existirn al menos dos dimensiones; quiz hasta una decena. El tiempo ser una dimensin prcticamente siempre Cul es el identificador (clave primaria) de cada una de las dimensiones?
No_Cliente, ID_Cuenta, NoFactura
64
Use la clave primaria como una parte de la clave compuesta de la tabla de hechos
Identifique los atributos de inters para los usuarios
Qu atributos deben ser de-normalizados? Qu otros atributos podran tener valores significativos? Hay alguna oportunidad de incluir datos de fuera? Cules?
65
La Dimensin de Tiempo
Debe ser da a da durante 5-10 aos
Separe los campos de semana, mes, da, ao, da de la semana, vacaciones, estaciones, etc.
Trimestres naturales y fiscales Crela como una sola tabla en el DWH Cargue el contenido en los DM a medida que se necesiten
66
Establezca Relaciones
Dibuje la relacin visualmente Identifique la cardinalidad (1-N) Entre la tabla de hechos . . . y cada tabla de dimensin Una Imagen vale ms . . .
67
70
3.
71
6. Presupuesto del ao en curso por zona debe mostrar el presupuesto actual y en qu reas se han ido incurriendo esos costes.
7. Valor de activos por zona un informe que muestre el valor depreciativo de los activos propios por zona.
72
73
74
Mapeo de Datos
Mapeo LGICO describe cmo ir desde donde se encuentra hasta donde quiere ir
PLANIFICACIN Indica cundo saldr y cunto espera que le lleve llegar al destino
75
Aproximacin de primera generacin (o crecimiento casero) Mapean origen a destino con capacidades variables de transformacin y limpieza Generan cdigo o directamente deben programarse Suelen controlar metadatos limitados
76
Proceso de Diseo
2. IMPORTACIN DE DEFICIONES DE ORGENES
1. CREACIN DE REPOSITORIO
4. CREACIN DE MAPPINGS
78
Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas Seleccin o filtrado de datos origen
Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los datos origen Normalizacin convierte registros de orgenes relacionales o VSAM a registros normalizados (clusulas OCCURS, REDEFINES) Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo Filtro funciona como un filtro condicional de los registros procesados Agregacin realiza clculos agregados (totales o incrementales) Rango limita los registros a los primeros o ltimos de un rango Estrategia de Actualizacin para marcar cada registro como insercin, actualizacin, borrado, o registro rechazado Lookup busca valores complementarios y los pasa a otros objetos Procedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datos Generador de Secuencia genera nuevos identificadores nicos
80
ORIGEN
DESTINO
81
Diseo de Cargas
Ordene los datos por secuencias especficas de carga Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadsticas de carga y mensajes de error Cree el plan para cargas fallidas qu debe ocurrir Produzca la notificacin inmediata y automtica en caso de fallos (y/o xitos) en las cargas
FUENTE: ONeil, 1997
82
84
Planificacin
Ejecucin concreta
85
Monitorizacin de Cargas
El mantenimiento de un data mart es una revisin constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva
86
La Creacin de un Data Warehouse Sostenible y sus Data Marts Incrementales Requiere la Automatizacin de los Procesos de Carga
87
88
89
Un proceso simple?
ETL
90
Metadatos
Data Web Services (SOA)
Data Grid
Data Profiling
High Availability
Real Time
Aplicaciones y Midleware
(SAP, Siebel, TIBCO, Biztalk, )
EAI
BI
Changed Data Capture Mainframe Auditing Scheduling Team Base Develop/
(BO, SAS, Microstrategy, Hyperion, Cognos )
Bases de Datos
91
(Oracle, Microsoft, IBM, )
Packaged Applications
Informix Teradata ODBC Flat Files Web Logs VSAM C-ISAM Complex Files Tape Formats
Flat Files, XLS, PPT Oracle SQL Server FTP Encrypted Stream Industry Formats XML, PDF, DOC,
Etc etc .
92
Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (1/2)
Reutilizacin de componentes
Anlisis de Impacto Anlisis del Linaje de datos
93
Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (2/2)
Adaptabilidad y escalabilidad Capacidad de expandir las Transformaciones con mdulos externos (PL/Sql, C++, )
94
Informatica PowerCenter
Trabajar como pienso Del papel
TABLA REFERENCIA
DESTINO
MAESTRO
DATAWAREHOUSE
DETALLE
UNION
TOTALES
SALIDA _ XML
95
Informatica PowerCenter
a la prctica
96
97
98
99
Los resultados son mostrados como tablas cruzadas, o tablas pivotantes Capacidades de modelizacin
(incluyendo un motor de clculos)
FUENTE:
Motores Relacionales:
Almacenan los datos como lneas (registros) en tablas Todos siguen el mismo modelo relacional Se accede a ellos a travs de un lenguaje comn - SQL Tienen aproximadamente el mismo conjunto de funcionalidades
102
OLAP Relacional:
Permite el acercamiento mayor a las percepciones de los usuarios
104
OLAP Multidimensional
Refleja los pensamientos de los usuarios sobre la actividad del negocio Hace referencia a cubos de datos Los cubos de ms de tres dimensiones se conocen como hipercubos El modelo de datos representado por el hipercubo es un modelo multidimensional Cualquier base de datos que pueda almacenar y representar ese modelo es una BD multidimensional
FUENTE: ONeil, 1997
105
Ti
e
Product
Customer
OLAP Multidimensional
Normalmente almacena los datos como vectores internos
Dispone de libreras especiales de funciones Cambios en la estructura dimensional pueden requerir la regeneracin del cubo Requiere recursos que administren la generacin de las estructuras
107
. . . La Zona de Guerra
MOLAP ROLAP Propietario (SQL) SQL Estndar Vectores/Cubos Tablas/Registros Respuesta muy rpida Respuesta ms lenta Consultas de SQL flexibles Consultas predefinidas Funciones especiales Funciones limitadas Uso de perfiles existentes Nuevos perfiles de desarrollo
108
109
110
Data Mining
Anlisis del Warehouse
Comienza con una hiptesis Busca aquellos datos que soportan esa hiptesis.
Muestra los clientes mayores que (asumimos que) compran los artculos ms caros
Data mining
El proceso crea la teora en base a la navegacin automtica por los datos
Quin compra realmente los artculos ms caros? Cules son sus nombres para el mercado indicado?
FUENTE: Computerworld, March 29, 1999
111
114
son Opiniones
115
116