Está en la página 1de 116

Creando el prximo Data Warehouse:

Integracin y Calidad de Datos


Sesin 1: Fundamentos del DWH
Alberto Collado
1
Agenda

Sesin 1:
Fundamentos del DWH

Sesin 2:
Fundamentos de la Calidad de Datos

Sesin 3:
Caso prctico: Un DWH con Calidad

2
Agenda Sesin 1

Presentacin PowerData
Presentacin asistentes: Conocimientos y Expectativas
Fundamentos DWH
Introduccin al DWH
Arquitectura de un DWH
Modelado de Datos y Metadatos
Esquemas en Estrella
Procesos y Estrategias de carga del DWH
Herramientas de Integracin de Datos
Herramientas de Reporting y Anlisis

3
Presentacin PowerData

4
4
Presentacin PowerData

Empresa lider especializada en Data Management


Colaboradores de Informatica Corporation en Espaa (Elite
Partner), Chile, Argentina, Per y Uruguay (Distributor)
www.powerdata.es
www.informatica.com
Informatica
Nacida en 1993, en California
+1.400 colaboradores
Powerdata
Nacida en 1999, en Barcelona
90 empleados

5
La solucin: los servicios de datos

Mejorar Modernizar el
Necesidades decisiones y negocio y Aumentar la Subcontratar
Fusiones y rentabilidad
cumplir con la reducir los adquisiciones funciones
empresariales normativa costes de TI del negocio secundarias

Inteligencia Eliminacin Consolidacin Hubs de productos, BPO


Iniciativas de empresarial de sistemas de aplicaciones proveedores SaaS
TI heredados y clientes

Proyectos de
integracin
de datos
Almacenamiento Migracin Consolidacin Gestin de Sincronizacin
de datos de datos de datos datos maestros de datos

Servicios Servicios de datos


de datos

Plataforma de productos de Informatica

Informatica Informatica Informatica Informatica


PowerExchange Data Explorer Data Quality PowerCenter

6
La plataforma de productos de Informatica
Automatizacin de todo el ciclo de vida de la integracin de datos

Auditora, control y creacin de informes


Garantizar la coherencia de los datos, realizar anlisis de impacto y supervisar
constantemente la calidad de la informacin

Data Explorer Data Quality

Acceso Deteccin Limpieza Integracin Entrega


A cualquier Buscar y perfilar Validar, corregir y Transformar y Entregar los datos
sistema, por cualquier tipo de estandarizar datos conciliar datos de adecuados en el
lotes o en datos de de todo tipo todo tipo momento y formato
tiempo real cualquier fuente adecuados

PowerExchange PowerCenter

Desarrollo y gestin
Desarrollar y colaborar con un repositorio comn y metadatos compartidos

7
Presentacin Asistentes:
Conocimientos y Expectativas

8
8
Fundamentos del DWH

9
Fundamentos del DWH

Introduccin al DWH: Qu es?


Arquitectura de un DWH
Modelado de Datos y Metadatos
Esquemas en Estrella
Procesos y Estrategias de carga del DWH
Herramientas de Integracin de Datos
Herramientas de Reporting y Anlisis

10
Fundamentos del DWH
Introduccin al DWH: Qu es?

11
Qu es un Data Warehouse?

Orientado a un Tema
Coleccin de informacin relacionada organizada
alrededor de un tema central

Integrado
Datos de mltiples orgenes; consistencia de datos

Variable en el tiempo
Fotos en el tiempo
Basado en fechas/periodos

No-voltil
Slo lectura para usuarios finales

Menos frecuencia de cambios/actualizaciones


Usado para el Soporte a Decisiones y Anlisis de Negocio

12
Orientado a Tema

Los usuarios piensan en trminos de cosas y sus relaciones,


no en trminos de procesos, funciones o aplicaciones.

Proveedor Pedido Realiza Cliente

Proporciona Contiene

Orden de
Compra Producto Inventario
Compuesta por Recuperado
desde

13
Integrado

Contiene
Convenciones de Nombres
Descripciones
Atributos fsicos de los datos
Valores de los datos
Consistentes
Admin. Marketing
Datos
Operaciones

Ventas Cuentas

14
Variable en el tiempo

Entorno Operacional Data Warehouse


Datos en fotos
Datos con valores actuales Horizonte de 5 10 aos
Horizonte de 30 - 90 das Refleja la perspectiva desde un
momento en el tiempo
Exactitud en los accesos

Id de cliente
Id de cliente fecha desde
nombre fecha hasta
direccin nombre
telfono direccin
ratio de crdito telfono
ratio de crdito

15
No-Voltil

insercin cambio
lectura
carga

borrado

Sistema OLTP Sistema DSS


(dinmico)
(ms esttico)

16
Un Data Warehouse es ...

un modelo de datos de soporte a decisiones que


representa la informacin que una compaa necesita
para tomar BUENAS decisiones estratgicas.

basado en la estructura de un sistema de gestin de


base de datos relacional el cual puede ser usado para
INTER-RELACIONAR los datos contenidos en l.

con el propsito de proporcionar a los usuarios finales


un acceso SENCILLO a la informacin.

un CONCEPTO, no una COSA

17
Para qu construir un Warehouse?

Para tener un mayor conocimiento del negocio


Para tomar mejores decisiones y en un tiempo
menor
Para mejorar y ser ms efectivos
Para no perder distancia con la competencia
en definitiva

18
Visin del Usuario

Panel de Representacin de
Usuarios Consulta Negocio
Finales

Base de Datos

Solucin integrada de: Consultas, informes y anlisis.


Capa semntica que da una representacin de los datos desde el
punto de vista de negocio.

Los usuarios utilizan trminos de negocio, no trminos


informticos.
19
Fundamentos del DWH
Arquitectura de un DWH

20
Arquitectura de un DWH

Nomenclatura
DWH: Data Warehouse
DataMart
OLTP: On-Line Transaction Processing
OLAP: On-Line Analytic Processing
ROLAP: Relational On-Line Analytic Processing
MOLAP: Multidimensional On-Line Analytic Processing
ODS: Object Data Store
DSS: Decision Support System
ETL: Extract, Transform and Load
ETQL: Extract, Transform, Quality and Load
EII: Enterprise Information Integration
EAI: Enterprise Application Integration
ERP: Enterprise Resource Planning

21
Directo de OLTP a OLAP

Life
Life Life
Information System OLAP

Health
Health
Information System Health
Query

Auto Auto
Information System Auto
Analysis
22
Directo de OLTP a OLAP

Es bueno, si los datos lo son.


Horizonte de tiempo limitado
Compite con OLTP por los recursos
Uso frecuente para hojas de clculo
No tiene metadatos (o slo implcitos)
Principalmente, para jefes de departamentos,
no se considera informacin para las masas
No hay informacin cruzada entre los
diferentes sistemas

23
Data Warehouse Virtual: Directo o Federado

Life
Life
Information System

Health
EII
Health
Information System "Customer"
OLAP

Auto Auto
Information System

24
Data Warehouse Total

Extract:
COBOL,
Life SQL,
Life Etc.
Information System Life
OLAP
MDD Tools

Extract: Enterprise
COBOL, Data
Health SQL,
Warehouse
Health Etc.
Information System Health
R/OLAP
Star Schema

Extract:
COBOL,
SQL,
Auto
Auto Etc. Auto
Information System SQL Query

25
Data Marts No Estructurados

Extract:
COBOL, Life
Life SQL, Data
Mart Life
Life Etc. OLAP
Information System MDD Tools

Extract:
COBOL, Health
Health SQL, Data
Health
Health Etc. Mart R/OLAP
Information System Star Schema

Extract:
COBOL,
Auto
SQL,
Auto Data
Auto Etc. Auto
Information System
Mart SQL Query

26
Data Marts Estructurados

Life Life
OLTP Data
Mart
EXTRACT Life
SELECT OLAP
MDD Tools
TRANSFORM
INTEGRATE
LOAD
Enterprise
Health
Data Health
Cleanse Data
OLTP for: Warehouse Data
Names Mart Health
Formats "Customer" R/OLAP
Star Schema
Values
Domains
Metadata

Auto Auto
OLTP Data
Mart Auto
SQL Query

27
OLAP (Online Analytic Processing)

Herramientas orientadas a consulta/anlisis


Puede ser ROLAP o MOLAP
'Multi-dimensional', es decir, puede ser visualizada como
cuadrculas' o 'cubos'
Consulta interactiva de datos, siguiendo un hilo a travs
de mltiples pasos -- 'drill-down'
Visualizacin como tablas cruzadas, y tablas pivotantes
Actualizacin de la base de datos
Capacidad de modelizacin (motor de clculo)
Pronsticos, tendencias y anlisis estadstico.
28
Ejemplo uso de una herramienta de consulta
Informacin solicitada

Informacin
disponible

Condiciones

El interfaz de usuario simple


Trabaja contra representacin de negocio de los datos
Todos los componentes en una pantalla
29
Los informes son la capa visible

Integracin Datos no slo en entornos analticos


Importancia de la Calidad

Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Servidores
Extraccin
Red
Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos
30
Data Marts Estructurados: Visin Completa

Ficheros: FF,
XML
DM
Compras
Aplicaciones:
ERP,...

BBDD DM
DWH Financiero
Integracin +
Calidad de
Datos
Tiempo Real,
WS, Http
DM
Ventas
Legacy

Diseo Mapeos ETL, Almacenamiento: Anlisis


Replicacin
Perfilado de Estandarizacin, Agregacin, Reporting
Distribucin
Datos Desduplicacin Indexacin,... Cuadros Mando

Metadatos: Anlisis Impacto, Linaje de datos, Auditora, Monitorizacin, etc

31
Fundamentos del DWH
Modelado de Datos y Metadatos

32
Tcnicas de Modelizacin Estructural

En esta seccin veremos tcnicas que afectarn a


diversos puntos

Consideraciones de Tiempo
Tcnicas de Optimizacin

33
Consideraciones de Tiempo
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
ESTRUCTURAL

Cul es el impacto
Agrupaciones basadas del Tiempo en cada
en tiempo
Almacn de Datos?
Tiempo

Retencin de
Histrico

Todo el DW se ve afectado por cambios temporales porque


por definicin es Tiempo-dependiente
Preguntas importantes:
Cuan actual deben ser los datos para satisfacer las
necesidades de negocio?
Cunta historia necesitamos en nuestro negocio?
Qu niveles de agregacin son necesarios para qu ciclos de
negocio?
34
Tcnicas de Modelizacin Temporal

Unidades de tiempo
Calendarios de negocio

Tcnicas
Foto (Snapshot)
Trazado de Auditora

Metadatos temporales
Fechas Efectivas de Inicio y Fin
Fecha de cambio en Fuentes (evento)
Fecha de cambio en Destinos (carga)

35
Foto (Snapshot)

Dos tcnicas diferentes


Mltiples Tablas
Tabla nica
Uso de Fecha Efectiva Inicio en un
ejemplo. Metadatos a nivel de registro

Foto (SNAPSHOT)

Nov 2001 CLIENTE


CLIENTE
Num Cliente
Oct 2001 CLIENTE
Nombre Num Cliente
Apellido1 O bien Fecha Efectiva Inicio
Num Cliente
Apellido2 Nombre
Gnero Nombre Apellido1
Apellido1
Fecha Carga Apellido2
Apellido2 Gnero
Gnero Fecha Carga
Fecha Carga

36
Foto (Snapshot) Mltiple
Una tabla para cada perodo
Se guardan TODOS los datos (cambien o no)
Nombre de la tabla refleja el perodo
Buen enfoque de (extraccin/carga/modelado) para
Data Marts. Cada mes, en el ejemplo, representa los
datos tal y como estaban
Mal enfoque para Staging, ya que hay mucha
replicacin de datos Foto (SNAPSHOT)

Nov 2001 CLIENTE


CLIENTE
Num Cliente
Nombre
Oct 2001 CLIENTE Num Cliente
Apellido1 O bien Fecha Efectiva Inicio
Apellido2
Num Cliente Nombre
GneroNombre Apellido1
Fecha Carga
Apellido1 Apellido2
Apellido2 Gnero
Gnero Fecha Carga
Fecha Carga

37
Foto (Snapshot) nica
Se guardan TODOS los datos (cambien o no)
Buen enfoque para Data Marts y puede ser til en el
Warehouse.
Mal enfoque para Staging, ya que hay mucha
replicacin de datos
Time Stamps imprescindibles
Fecha Efectiva
Foto (SNAPSHOT) de Negocio

Nov 2001 CLIENTE


CLIENTE
Num Cliente
Oct 2001 CLIENTE
Nombre Num Cliente
Apellido1 Fecha Efectiva Inicio
Num Cliente O bien Nombre
Apellido2
GneroNombre Apellido1
Apellido1
Fecha Carga Apellido2
Apellido2 Gnero
Gnero Fecha Carga
Fecha Carga

38
Foto (Snapshot) nica

Fechas (Time Stamps) necesarias para


identificar la validez de los datos:
Fecha efectiva de Inicio
Fecha efectiva de Fin (no est en el ejemplo)
Fecha de Carga
Num Cliente Fecha Efectiva Inicio Nombre Gnero Fecha Carga
2304 31/10/2001 Juan Reyes Hombre 01/11/2001
5590 31/10/2001 Julia Astur Mujer 01/11/2001
6720 31/10/2001 Carlos Mrquez Hombre 01/11/2001
7841 31/10/2001 Luis Tesquilo 01/11/2001
2304 30/11/2001 Juan Reyes Hombre 01/12/2001
5590 30/11/2001 Julia Picado Mujer 01/12/2001
6720 30/11/2001 Carlos Mrquez Hombre 01/12/2001
7841 30/11/2001 Luis Tesquilo 01/12/2001
Vemos la duplicidad de los datos
39
Trazado de Auditora
CLIENTE

ID_cliente
nombre
apellido1

Guarda los cambios de


apellido2
gnero
fecha_aniversario
los datos de inters
Informacin:
Fecha del cambio
Razn del cambio Metadato a nivel
AUDITORIA CLIENTE
Cmo se ha detectado ID_cliente
registro

fecha_inicio_efectiva
... nombre
apellido1
apellido2
Fecha de Negocio
Slo se extraen/cargan gnero
fecha_aniversario
(no Metadato)
fecha_carga
valores modificados

40
Trazado de Auditora
Num Fecha Efectiva Nombre Gnero Fecha Fecha
Cliente Inicio aniversario Carga
2304 31/10/2001 Juan Reyes Hombre 01/01/1964 01/11/2001
5590 31/10/2001 Julia Astur Mujer 06/03/1948 01/11/2001
6720 31/10/2001 Carlos Hombre 19/09/1960 01/11/2001
Mrquez
7841 31/10/2001 Luis Tesquilo 25/07/1952 01/11/2001
5590 30/11/2001 Julia Picado Mujer 06/03/1948 01/12/2001

Slo cambios en la tabla


Usado en Staging Area y Data Warehouse
Posible en Data Marts, pero no es habitual ya
que no es claro para un usuario final

41
Tcnicas de Optimizacin Estructural y Fsica
Staging Data Data Marts
Area Warehouse Relacional Dimensional
Actualidad de Datos
Tiempo

Agrupaciones basadas
ESTRUCTURAL

en tiempo
Retencin de Histrico
Seguridad
Posicin

Distribucin

Acceso
Navegacin
Uso

Herramientas
Rendimiento
Implementacin

Tamao Cmo debe optimizarse cada


almacn de datos en la
Disponibilidad Implementacin?
FSICO

Recuperacin
DBMS

42
Tcnicas de Optimizacin

Derivacin
Data Warehouse y Data Marts
Usos
Facilitar acceso PLIZA RESIDENCIAL
num_pliza
Consistencia resultados total_cobertura
supl_terremotos
supl_inundaciones
supl_viento
supl_robos
va c i n
PLIZA
supl_arte Deri
total_suplementos
total_suplementos=
num_pliza supl_terremotos +
cdigo_tipo_pliza supl_inundaciones +
fecha_inicio_pliza una supl_viento +
fecha_inicio_cobertura de supl_robo +
fecha_fin_cobertura supl_arte
trminos
cantidad_prima
cantidad_servicio PLIZA_AUTOMOVIL

num_pliza
total_colisin
...

43
Tcnicas de Optimizacin
Data Warehouse PLIZA RESIDENCIAL

Agregacin num_pliza
total_cobertura
supl_terremotos
supl_inundaciones

No cambio de supl_viento
supl_robos
supl_arte
granularidad PLIZA total_suplementos
fecha_carga
num_pliza

Objetivo: Facilitar el cdigo_tipo_pliza


fecha_inicio_pliza
fecha_inicio_cobertura una

acceso a los datos fecha_fin_cobertura


trminos
de

cantidad_prima
cantidad_servicio PLIZA_AUTOM OVIL
fecha_carga
num_pliza
total_colisin
AGREGACIN descuento_cliente
indic_precio_especial
fecha_carga

PLIZA RESIDENCIAL
AGREGACIN
num_pliza
cdigo_tipo_pliza PLIZA_AUTOM OVIL
fecha_inicio_pliza
fecha_inicio_cobertura num_pliza
fecha_fin_cobertura total_colisin
trminos descuento_cliente
cantidad_prima indic_precio_especial
cantidad_servicio cdigo_tipo_pliza
total_cobertura fecha_inicio_pliza
supl_terremotos fecha_inicio_cobertura
supl_inundaciones fecha_fin_cobertura
supl_viento trminos
supl_robos cantidad_prima
supl_arte cantidad_servicio
total_suplementos fecha_carga
fecha_carga

44 Data Marts
Tcnicas de Optimizacin
CLIENTE
RESUM EN ANUAL
id_cliente
CLIENTES
fecha_alta_cliente
fecha_baja_cliente
Sumarizacin nombre
apellido1
id_cliente
ao_resumen
valor_inicio_ao
apellido2
Histrica grupo_edad
gnero
valor_final_ao
total_cuenta_inicio_ao
total_cuenta_final_ao

Agrupada
estado_civil
total_aos_como_cliente
indic_cliente_perdido
fecha_carga

AO
BASE CLIENTELA
ANUAL
num_ao
id_zona
id_producto
cdigo_tipo
num_ao
cuenta_cliente
TRIM ESTRE

num_trimestre

BASE CLIENTELA

id_zona
id_producto
M ES cdigo_tipo
num_mes
num_mes cuenta_cliente

45
Tcnicas de Optimizacin

Particionamiento Horizontal
Particiones por filas RESUM EN ANUAL
CLIENTES

Todos los campos repetidos id_cliente


ao_resumen
en las nuevas tablas cdigo_regin
valor_inicio_ao

Uso valor_final_ao
total_cuenta_inicio_ao
total_cuenta_final_ao
Aislar datos sensibles total_aos_como_cliente

Reduccin tamao tablas

RESUM EN ANUAL RESUM EN ANUAL


CLIENTES - SUR CLIENTES - NORTE

id_cliente id_cliente
ao_resumen ao_resumen
valor_inicio_ao valor_inicio_ao
valor_final_ao valor_final_ao
total_cuenta_inicio_ao total_cuenta_inicio_ao
total_cuenta_final_ao total_cuenta_final_ao
total_aos_como_cliente total_aos_como_cliente

46
Tcnicas de Optimizacin
CLIENTE

id_cliente
fecha_alta_cliente
fecha_baja_cliente
Particionamiento Vertical nombre
apellido1
apellido2
Divisin por columnas grupo_edad
gnero
estado_civil
Posibilidad de columnas indic_cliente_perdido
num_cuenta_debito
redundantes nombre_banco_debito
num_autorizacin_dbito
rango_crdito
Uso fecha_ultimo_check_credito
fecha_carga

Seguridad Campos con Campos con


Datos no Sensibles Datos Sensibles
Distribucin
CLIENTE CLIENTE_SEGURO

Puede ser que tengamos id_cliente


fecha_alta_cliente
id_cliente
fecha_alta_cliente
Horizontal y Vertical a la fecha_baja_cliente
nombre
fecha_baja_cliente
nombre
apellido1 apellido1
vez apellido2
grupo_edad
apellido2
num_cuenta_debito
gnero nombre_banco_debito
estado_civil num_autorizacin_dbito
indic_cliente_perdido rango_crdito
fecha_carga fecha_ultimo_check_credito
47
Tcnicas de Optimizacin
Particionamiento por Estabilidad PLIZA RESIDENCIAL

Basado en frecuencia de cambio num_pliza


fecha_inicio_pliza
fecha_inicio_cobertura
Uso en Staging Area fecha_fin_cobertura
trminos
cantidad_prima
Velocidad de carga cantidad_servicio
total_cobertura
Separar datos ms voltiles minimiza supl_terremotos
supl_viento
cambios supl_inundacin
supl_pieles
supl_arte
supl_joyas
supl_otros
fecha_carga

PLIZA RESIDENCIAL

num_pliza PLIZA RESIDENCIAL


Claves Primarias fecha_inicio_pliza
en ambas tablas num_pliza
fecha_inicio_cobertura
fecha_inicio_pliza
fecha_fin_cobertura
supl_pieles
trminos
supl_arte
cantidad_prima
supl_joyas
cantidad_servicio
supl_otros
total_cobertura
fecha_carga
supl_terremotos
supl_viento
supl_inundacin
fecha_carga
Metadatos a
Nivel Registro en
ambas tablas
48
Tcnicas de Optimizacin
Fichero M aster Ventas
Nmero_factura Identificador Factura
Claves Alternativas Nmero_cliente Identificador Cliente

Caso especial de derivacin


...

Fichero M aster M arketing


Creada artificialmente para ID_campaa Identificador campaa

identificar entidades ID_cliente Identificador Cliente


...

Habitualmente un entero PLIZAS

Staging DW DM ID_Pliza Identificador Pliza


ID_Tomador Identificador Asegurado

Hay que mantener un mapeo ...

Generacin Claves Alternativas

M APEO_ID_CLIENTE CLIENTE

cdigo_sist_origen num_id_cliente
id_cliente_origen fecha_alta
fecha_inicio fecha_baja
fecha_fin grupo_edad
num_id_cliente ...
49 fecha_carga fecha_carga
Tcnicas de Optimizacin PLIZA_AUTOMOVIL VEHCULO
num_pliza num_bastidor
fecha_inicio_pliza fecha_inicio_vehculo
fecha_inicio_cobertura num_pliza
fecha_fin_cobertura marca
trminostotal_colisin modelo
descuento_cliente ...
indic_precio_especial ind_ABS
cdigo_tipo_pliza ind_airbag
ind_ESP
Pre-Joins
...
fecha_carga fecha_carga

Caso especial de Agregacin


Data Warehouse y Data Marts
Existe redundancia de Informacin PLIZA_Y_VEHCULO

Incrementeo uso espacio num_bastidor


fecha_inicio_vehculo
num_pliza
Acceso mucho ms rpido fecha_inicio_cobertura
fecha_fin_cobertura

En el DW
trminostotal_colisin
descuento_cliente
indic_precio_especial
Mantendremos tambin las tablas cdigo_tipo_pliza
marca
separadas para cuando no necesitemos la modelo
...
Join ind_ABS
ind_airbag
ind_ESP
fecha_carga
50
Tcnicas de Optimizacin

Cadenas de Datos
Caso especial de Agregacin
Eficiente para Reporting
NUNCA en operacionales o
Staging, pero muy til en DW
y DM

51
Tcnicas de Optimizacin

Balancear diferentes Factores


Rendimiento

Seguridad

Distribucin

Recuperacin
errores

Tamao &
Bases de Datos del
Crecimiento
Data Warehose
Estabilidad

Histrico
Plataforma
Acceso &
Navegacin

52
Fundamentos del DWH
Esquemas en Estrella

53
Puntos Fuertes de la Modelizacin Dimensional

Coincide con las percepciones de los usuarios


Estructura predecible, estndar
Facilita el desarrollo de consultas y anlisis
Las herramientas OLAP pueden hacer suposiciones
Cada dimensin es equivalente para todos los datos
Puede ser modificada fcilmente
Usa perspectivas de modelizacin comunes
Simplifica la agregacin

54
Modelizacin Dimensional -
Regla de Oro

Los Esquemas en Estrella deberan


ser utilizados para cualquier dato
accedido directamente por los
usuarios finales.

55
El Esquema en Estrella

Hechos
Dimensiones
De-normalizado (generalmente)
Tiene caminos de unin bien diseados
Paraleliza la visin de los datos por el usuario
Son fcilmente modificables
Simplifica la comprensin y navegacin por los
metadatos
Amplia la eleccin de herramientas de usuario final

56
Modelizacin Dimensional

Tablas de Hechos: contienen datos cuantitativos sobre el


negocio
La clave primaria es una concatenacin de claves de
dimensin, incluyendo el tiempo
Cada elemento de la clave primaria compuesta es una clave
de integridad referencial hacia una tabla de dimensin.
Contienen menos atributos, pero muchos ms registros

Tablas de Dimensin: gestionan datos descriptivos que


reflejan las diversas dimensiones del negocio
Contienen muchos atributos pero menos (pocos) registros
La clave primaria ayuda a componer las claves primarias de
las tablas de hechos

57
Esquema en Estrella (conceptual)

58
Diseo de una Tabla de Hechos

Elija el PROCESO del Data Mart


Comience el contenido del data mart a partir de datos de un
solo origen

Defina la GRANULARIDAD de la tabla de hechos


Elija el nivel granular ms bajo posible
Transacciones individuales o fotos

Elija las DIMENSIONES


Reflejan el contenido de la tabla de hechos y la granularidad

Elija los HECHOS


Los hechos individuales y el mbito de estos hechos deben
ser especficos a la granularidad de la tabla de hechos

59
Identifique el Proceso Departamental

Cul es el proceso o funcin


subyacente para el DM?
Cul es el mbito aproximado del
DM?
Quin usar el DM?
A qu preguntas les gustara a los
usuarios que contestaran los datos del
DM?

60
Determine los Hechos
Qu hechos estn disponibles?
Cules son los datos cuantitativos fundamentales que hay
por debajo?
Los hechos ms tiles son los numricos y aditivos

Qu nivel de detalle (granularidad) necesita mantener?


Sern datos atmicos (todo el detalle) o datos agregados
(sumarizados)?
Si son agregados, cmo (usando qu algoritmo)?
Para qu propsito de negocio?

Cul es la frecuencia de carga de datos requerida?


Cada transaccin?
Cada hora? Da? Semana? Mes?
61
Tablas de Hechos Sin Hechos - EVENTOS

Eventos: Algo que ha ocurrido


Ejemplo: Asistencia de estudiantes a una clase, asientos
de pasajeros de lnea area o habitaciones de hotel
ocupadas

Enlace el evento a:
Tiempo / estudiante / profesor / curso / facilidades

Tpico para crear un hecho vaco


Asistencia = 1

La granularidad es el evento individual de asistencia a


clase
FUENTE: Kimball, 1998

62
Las Agregaciones Pueden:

Asegurar la consistencia entre data marts


Ser hechas reutilizables para mantenerlas de
manera centralizada
Mejorar el rendimiento del usuario
Reducir los recursos necesarios para
preparar las consultas (CPU, disco,
memoria)
Ser utilizadas en base a:
Frecuencia de acceso
Efecto del nmero de registros
63
Determine las Dimensiones

Qu dimensiones pueden necesitar los usuarios?


Cules son los conceptos fundamentales (entidades o
temas) con los que los usuarios trabajarn?

Siempre existirn al menos dos dimensiones; quiz


hasta una decena.
El tiempo ser una dimensin prcticamente siempre
Cul es el identificador (clave primaria) de cada una de
las dimensiones?
No_Cliente, ID_Cuenta, NoFactura

Los atributos de la dimensin se convierten en las


cabeceras de los registros SQL

64
Para Cada Tabla de Dimensin

Establezca la clave primaria para cada registro


dimensional
Use la clave primaria como una parte de la clave
compuesta de la tabla de hechos
Identifique los atributos de inters para los usuarios
Qu atributos deben ser de-normalizados?
Qu otros atributos podran tener valores significativos?
Hay alguna oportunidad de incluir datos de fuera?
Cules?
Aydese de los valores reales contenidos en los atributos

65
La Dimensin de Tiempo

Debe ser da a da durante 5-10 aos


Separe los campos de semana, mes, da, ao,
da de la semana, vacaciones, estaciones, etc.
Trimestres naturales y fiscales
Crela como una sola tabla en el DWH
Cargue el contenido en los DM a medida que se
necesiten

66
Establezca Relaciones

Dibuje la relacin visualmente


Identifique la cardinalidad (1-N)
Entre la tabla de hechos . . . y cada tabla de
dimensin
Una Imagen vale ms . . .

67
Mtodos para Identificar Dimensiones y Hechos

Informes de Concepto
Reuniones y Entrevistas
Requerimientos Especiales del Proyecto
Documentos sobre mbito del Proyecto
Peticiones de Informacin
Cartas a los Reyes Magos
Modelos y Bases de Datos Existentes
Informes Actuales (y Deseados)

68
Ejemplo:
Intereses de la Divisin Financiera
La divisin financiera ha preparado la siguiente lista de
funcionalidades deseables en el data mart.
Muchos de estos datos son informacin de cliente /
demogrfica.
Nos permitir evaluar el impacto de costes en nuestros
clientes, ubicacin y uso por nuestros clientes, costes
incurridos por ubicacin para servir a nuestros clientes y
otros tipos de evaluaciones financieras relativas a costes,
uso, etc.
Este tipo de informacin ser muy valiosa para dirigir los
aspectos financieros y polticos de las planificaciones y
soluciones futuras a los problemas actuales.
Esta informacin nos permitir contestar mejor a las
importantes preguntas que aparecern durante ese
proceso.
69
Ejemplo:
Frase de Ejemplo de Misin

Capture datos de nuestro sistema para realizar


evaluaciones por zonas de nuestros clientes,
intereses y beneficios y para asesorar el
impacto de costes sobre nuestra base de
clientes.

70
Ejemplo:
Preguntas a la Divisin Financiera
1. Datos demogrficos de nuestros clientes - el tipo
de datos que aparece en un censo (tipo de
vivienda, valor de la vivienda, ocupacin, sexo,
educacin, ingresos, etc.) Puede ser usado para
enviar mensajes oficiales, evaluacin de intereses
de penalizacin, y mercado objetivo.

2. Clientes por clase de inters definicin por


clientes residenciales, comerciales, industriales,
gobierno y multifamiliares.

3. Beneficio demogrfico por cliente y consumo


como valor de la vivienda, ingresos o educacin.
71
Ejemplo:
Preguntas a la Divisin Financiera (2)
4. Informacin sobre el servicio al cliente incluyendo beneficio
por los diferentes tipos de intereses y cobros por zona
geogrfica, beneficio y consumo.
5. Beneficio total por clase de cliente y categora de intereses a
lo largo de los ltimos cinco aos. Qu clases de clientes dan
ms beneficio?
6. Presupuesto del ao en curso por zona debe mostrar el
presupuesto actual y en qu reas se han ido incurriendo esos
costes.
7. Valor de activos por zona un informe que muestre el valor
depreciativo de los activos propios por zona.

72
Ejemplo:
El Esquema Financiero en Estrella

73
Fundamentos del DWH
Procesos y Estrategias de Carga del DWH

74
Mapeo de Datos
Mapeo LGICO -
describe cmo ir desde donde se encuentra
hasta donde quiere ir

Mapeo FSICO -
Indica las rutas, baches, desvos atajos de la
carretera

TRANSPORTE -
Decida si est conduciendo un coche deportivo o
un camin de recogida de chatarra

PLANIFICACIN -
Indica cundo saldr y cunto espera que le lleve
llegar al destino

75
Soluciones de Extraccin, Transformacin y Carga de
Datos (ETL)

Aproximacin de primera generacin (o crecimiento


casero)
Mapean origen a destino con capacidades variables
de transformacin y limpieza
Generan cdigo o directamente deben programarse
Suelen controlar metadatos limitados

FUENTE: Doug Hackney, 1998

76
Plataformas de Integracin de Datos

Soluciones integradas
Capacidad de implantacin a nivel corporativo
Metadatos completos, abiertos y extensibles
Abanico de transformaciones y reglas de negocio
Anlisis, entrega y planificacin integradas
Gestin Ad-hoc de agregaciones
Monitorizacin y Auditora integradas
Funciones avanzadas de Calidad de Datos
Versionados, despliegues inteligentes
77
Proceso de Diseo

2. IMPORTACIN DE
DEFICIONES DE ORGENES
1. CREACIN DE
REPOSITORIO

4. CREACIN DE
MAPPINGS Def Origen

Mapeo
3. CREACIN DE ESQUEMA
Def Destino DESTINO

78
Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas
Seleccin o filtrado de datos origen
Unin de orgenes heterogneos
(SAP+Ficheros+Tablas+)
Normalizacin de los ficheros de datos
Generacin de esquemas en estrella
Creacin de estrategias de actualizacin
Creacin y actualizacin de agregaciones
Creacin de dimensiones slowly-changing

79
Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer filtrado/ordenacin de los
datos origen

Normalizacin convierte registros de orgenes relacionales o VSAM a registros


normalizados (clusulas OCCURS, REDEFINES)

Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo


Filtro funciona como un filtro condicional de los registros procesados
Agregacin realiza clculos agregados (totales o incrementales)
Rango limita los registros a los primeros o ltimos de un rango
Estrategia de Actualizacin para marcar cada registro como insercin, actualizacin,
borrado, o registro rechazado
Lookup busca valores complementarios y los pasa a otros objetos
Procedimientos Externos/Almacenados llama a programas desarrollados en otros
lenguajes o en la base de datos
Generador de Secuencia genera nuevos identificadores nicos

80
Trabajo con Transformaciones
Ejemplo: Estrategia de Actualizacin

EXTRACCIN ESTRATEGIA DE
ORIGEN DEL ORIGEN LOOKUP ACTUALIZACIN DESTINO
Busca Basado en la
Job_IDs coincidencia de
en el Job_IDs,
destino
T_JOBS

81
Diseo de Cargas

Ordene los datos por secuencias especficas de


carga
Fuerce a reglas limitadas de integridad de datos
Busque la carga correcta de cada paso
Construya estadsticas de carga y mensajes de
error
Cree el plan para cargas fallidas qu debe ocurrir
Produzca la notificacin inmediata y automtica en
caso de fallos (y/o xitos) en las cargas

FUENTE: ONeil, 1997

82
Consejos sobre Planificacin de Cargas
Orden de carga cargue primero las tablas independientes
Determine la ventana necesaria de carga use las horas de
inicio y final para determinar el tiempo necesario para las cargas

Ejecute cargas en paralelo


Ejecucin concurrente
Uso de threads, desarrollos multiproceso, paralelizacin de
base de datos
No sobrecargue los sistemas origen o destino

Carque en paralelo un mismo destino


Datos de sistemas independientes que van al mismo destino

Cargue mltiples destinos en paralelo


Datos del mismo origen que vayan a diferentes destinos
ahorre accesos de lectura

83
Plan de Carga de Destinos

Primero, tablas independientes


Despus, tablas que no contienen claves forneas
a otras tablas
Por ltimo, las tablas que contienen claves
forneas a otras tablas
Tenga cuidado con transacciones de base de
datos e intervalos de commit: los datos pueden
estar cargados pero no validados

84
Planificacin de Cargas

Timing Planificacin
Planificacin propio
Ejecucin manual
de la herramienta
Ejecucin peridica
cada n minutos/horas/das Planificador genrico
un mximo de veces/ Control^M, Tareas
para siempre Programadas de Windows
Ejecucin concreta
Scripts de carga (.bat, .sh, JCL)
En un momento determinado
Cada primer martes de mes a las 21:43
Ejecucin basada en eventos
Disponibilidad del fichero origen
Slo si la carga anterior acab bien/mal

85
Monitorizacin de Cargas

El mantenimiento de un data mart es una


revisin constante de los procesos para
optimizar valores de datos, pasos, tiempos,
recursos utilizados, accesos a sistemas
origen o destino debido a los constantes
requerimientos nuevos de los usuarios finales
y el crecimiento en funcionalidad y volumen
de datos que eso conlleva

86
La Creacin de un Data Warehouse
Sostenible y sus Data Marts
Incrementales
Requiere la Automatizacin
de los Procesos de Carga

87
Fundamentos del DWH
Herramientas de Integracin de Datos

88
Integracin de Datos, ms all del BI

El ETL se ha quedado relegado a entornos


analticos
Aparecen necesidades de Integracin de datos
para otro tipo de proyectos
Externalizacin
Migraciones
Integracin de Aplicaciones, BBDD
Sincronizacin
etc

89
Un proceso simple?

ETL

90
Ensanchando el concepto de Integracin de Datos
EIM, Content
Management Metadatos

Complex Data Grid Data Web


Data
Data Services
Profiling
Exchange (SOA)
High
Availability Quality

Real ETL Federation


Time
EAI DWL
Aplicaciones
y BI
Midleware Changed
Data Mainframe
Auditing
Team Base
(BO, SAS, Microstrategy,
Hyperion, Cognos )
(SAP, Siebel, TIBCO, Biztalk, ) Scheduling
Capture Develop/

Bases de Datos
91 (Oracle, Microsoft, IBM, )
Acceso Universal a los Datos
Entrega de datos a Sistemas, Procesos y Organizaciones

Systems IBM MQSeries Web Services


XML
TIBCO
webMethods JMS
SAP NetWeaver XI ODBC
XML, Messaging,
and Web Services
SAP NetWeaver Peoplesoft
SAP IDOC Oracle Apps
SAP BCI Siebel
SAP DMI SAS
SAP BW
Packaged
Applications
Oracle Informix
DB2 UDB Teradata
DB2/400 ODBC
SQL Server Flat Files
Sybase Web Logs
Relational and
Flat Files ADABAS VSAM
Datacom C-ISAM
DB2 Complex Files
IDMS Tape Formats
IMS

Mainframe
and Midrange Flat Files, XLS, PPT Oracle
FTP SQL Server
Encrypted Stream Industry Formats
XML, PDF, DOC,
Etc etc .

92
Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (1/2)

Permite integrar mltiples fuentes de datos heterogneas


Desarrollo de alta productividad
Herramientas de trabajo visuales. Interfaz grfico totalmente intuitivo
Asistentes de transformacin
NO hay generacin de cdigo
Deteccin de errores (debugger integrado)
Reutilizacin de componentes
Fcil de mantener: Metadatos corporativos
Anlisis de Impacto
Anlisis del Linaje de datos
Presentacin Web Metadatos y Autodocumentacin
Metadatos extensibles
Despliegues guiados. Rollback
Versionado
93
Informatica PowerCenter
Puntos de inters como plataforma de integracin de datos (2/2)

Plataforma de Alto rendimiento


Grid computing
Alta Disponibilidad
Tolerancia a fallos y recuperacin automtica
Soporte a cargas BULK
Capacidades de Tiempo real
Conectores WebServices, ESB, EAI
Adaptabilidad y escalabilidad
Plataforma, recursos, volumen y usuarios
Capacidad de expandir las Transformaciones con mdulos
externos (PL/Sql, C++, )
Autodocumentacin
Planificador integrado

94
Informatica PowerCenter
Trabajar como pienso Del papel

TABLA REFERENCIA DESTINO

MAESTRO DATAWAREHOUSE

DETALLE UNION TOTALES SALIDA_XML

95
Informatica PowerCenter
a la prctica

96
Informatica PowerCenter Metadata Reporter
Presentacin web de los metadatos del repositorio

97
Fundamentos del DWH
Herramientas de Reporting y Anlisis

98
Tipos de Herramientas OLAP

Herramientas de Consulta y Generacin de


Informes
Consultas Ad Hoc
Herramientas EIS
Herramientas de Data Mining
Herramientas basadas en Web

99
On-Line Analytic Processing - (OLAP)

Perspectiva multidimensional de los datos


pueden ser vistos como cuadrculas de datos

Consulta interactiva de datos


seguimiento de un flujo de informacin mediante mltiples
pasos de drill-down

Los resultados son mostrados como tablas


cruzadas, o tablas pivotantes
Capacidades de modelizacin
(incluyendo un motor de clculos)

Usado para anlisis de previsiones,


tendencias y estadsticas
100 FUENTE: Neil Raden, 1995
Caractersticas del Procesamiento OLAP

Acceden a volmenes de datos ENORMES


Analizan las relaciones entre muchas
dimensiones
Involucran a datos agregados (ventas,
presupuestos, beneficios, etc.)
Comparan datos agregados a lo largo del
tiempo
Presentan los datos en diferentes jerarquas
Realizan clculos complejos
Pueden responder rpidamente a los usuarios

101
Motores Relacionales:

Almacenan los datos como lneas (registros)


en tablas
Todos siguen el mismo modelo relacional
Se accede a ellos a travs de un lenguaje
comn - SQL
Tienen aproximadamente el mismo conjunto
de funcionalidades

102
OLAP Relacional:

Permite el acercamiento mayor a las percepciones de


los usuarios
NO requiere la regeneracin de la base de datos si
cambian las dimensiones
No requiere ms trabajo de front-end
Posiblemente requiere menos re-trabajo a lo largo del
tiempo
EST limitado por un conjunto de funciones
disponibles
Permite una granularidad ms flexible en los datos

103
OLAP Relacional (total):

Posee un potente generador SQL, capaz de crear


consultas multi-pasada
Puede crear rangos no triviales, comparaciones y
clculos de porcentajes respecto al total
Genera SQL optimizado, con extensiones
Usa metadatos para modelos / consultas
Est siendo promocionado por los fabricantes de
BBDD

104
OLAP Multidimensional

Refleja los pensamientos de los usuarios sobre la


actividad del negocio
Hace referencia a cubos de datos
Los cubos de ms de tres dimensiones se conocen
como hipercubos
El modelo de datos representado por el hipercubo
es un modelo multidimensional
Cualquier base de datos que pueda almacenar y
representar ese modelo es una BD multidimensional
FUENTE: ONeil, 1997

105
Bases de Datos Multidimensionales:
el HiperCubo

Ti
m
e
Customer

Product
MS:
Regin
Territorio
Vendedor
Etc.
106
OLAP Multidimensional

Normalmente almacena los datos como vectores


internos
Proporciona un gran rendimiento ante las consultas
Porque los datos han sido preparados previamente
dentro de la estructura
A veces limitado a un nmero concreto de celdas del
cubo

Dispone de libreras especiales de funciones


Cambios en la estructura dimensional pueden requerir
la regeneracin del cubo
Requiere recursos que administren la generacin de
las estructuras
107
. . . La Zona de Guerra

ROLAP MOLAP
SQL Estndar Propietario (SQL)
Tablas/Registros Vectores/Cubos
Respuesta ms lenta Respuesta muy rpida
Consultas de SQL flexibles Consultas predefinidas
Funciones limitadas Funciones especiales
Uso de perfiles existentes Nuevos perfiles de
desarrollo

108
Argumentos de MOLAP contra ROLAP

Los gestores de bases de datos relacionales no


gestionan las relaciones multidimensionales con
eficiencia
Inherentemente de dos dimensiones
El SQL no es obvio para los usuarios finales
Las uniones mltiples y el pobre rendimiento son un
serio problema
Las tablas denormalizadas absorben el rendimiento y
los recursos

109
Argumentos de ROLAP contra MOLAP

Los cubos ofrecen niveles limitados de detalle


No estn de acuerdo con el modelo dimensional
Las MDDs no disponen de un un mtodo de acceso
estndar (como SQL)
No se pueden cambiar las dimensiones sin regenerar
completamente el cubo
El mbito de cada producto y su funcionalidad para el
soporte a decisiones pueden variar ampliamente
Cada herramienta es prcticamente de una categora
diferente

110
Data Mining

Anlisis del Warehouse


Comienza con una hiptesis
Busca aquellos datos que soportan esa hiptesis.
Muestra los clientes mayores que (asumimos que) compran
los artculos ms caros

Data mining
El proceso crea la teora en base a la navegacin
automtica por los datos
Quin compra realmente los artculos ms caros?
Cules son sus nombres para el mercado indicado?

FUENTE: Computerworld, March 29, 1999

111
Herramientas de Data Mining:

Requieren datos detallados histricos

Requieren una calidad de datos muy alta

Buscan patrones de comportamiento

Necesitan una seleccin equilibrada de


variables

FUENTE: ComputerWorld, Mar 29, 1999


112
Seleccin de Herramientas Finales:

Debera ocurrir MS TARDE en el proceso

La CLAVE de la seleccin de la herramienta son los usuarios


finales: es la nica parte que vern de todo el proyecto de DW

Enfquese hacia los requerimientos que solucionan problemas


tcnicos y de negocio importantes para diferenciarlas

Involucre a los usuarios finales que usarn las herramientas

Compruebe sus funciones, facilidad de uso, integracin,


metadatos, cuota de mercado y estabilidad

FUENTE: ONeil, 1997 (y others)

113
Mltiples Necesidades = Mltiples
Herramientas

La realidad del data mart es que


necesitar mltiples herramientas para
dar soporte a los diferentes usuarios
Use un nmero manejable de estas
herramientas
Estas herramientas deberan ser
consideradas en los cambios de
tecnologa y necesidades de usuarios

114
Sin Datos de Calidad
todo lo que Tenemos
son Opiniones

115
116

También podría gustarte