Está en la página 1de 59

Metodologas para el

Data WareHousing

Mg. Samuel Oporto Daz


Mapa del Curso

Inteligencia
de Negocios

Metodologa
Kimball

Modelo
Planeamiento Modelado Modelado Minera de
del ETL
del Proyecto Dimensional Fsico Datos
Negocio

Reportes
Tabla de Contenido
Antecedentes
Metodologa Kimball
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Objetivos
1. Presentar los enfoques para el desarrollo de DWH
2. Presentar la metodologa de Kimball
ANTECEDENTES
Metodologas OLAP / OLTP
Sistemas de Informacin Data Warehouse
Los procesos a automatizar son El uso de los datos es
repetibles y previsibles. exploratorio y menos predictible.
Modelado Entidad Relacin. Modelado multidimensional.
Atencin en una rpida Enfocado en la carga y la
modificacin en lnea de los presentacin de los datos
datos.

DWH no es solamente crear un conjunto de reportes que corren peridicamente.


Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
Conceptos Clave
Datamart. Repositorio de datos especifico.
Diseado para responder las preguntas especficas.
Diseado para servir las necesidades de unidades de negocio
(ventas, comercializacin, operaciones, contabilidad, etc.)
Es construido usando modelado dimensional

Data warehouse. Repositorio de datos organizacional


Almacena datos de toda la empresa y de todas las reas.
Es una coleccin empresarial de datamarts.
Contiene data masiva e integrada

Inteligencia de Negocios.
Reportes y anlisis de datos almacenadas en el DWH
Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.
Metodologas para el DWH
Top-Down Bottom-Up Hybrid Federated
Profesional Bill Inmon Rodolfo Kimball Muchos Doug Hackney
profesionales
nfasis DWH DataMarts DWH y DataMarts Integrado a
entornos BI
heterogneos
Diseo Modelo normalizado El modelo Modelos locales y Una arquitectura de
basado en la dimensional de uno o mas arquitecturas;
empresa datamarts, usa esquemas de comparte
esquema de estrella estrella dimensiones,
hechos, reglas,
definiciones a
travs de la
organizacin
Arquitectu Compuesto de rea de inters y Modelo empresarial Realidad del cambio
ra varios niveles de datamarts normalizado de alto en organizaciones y
reas de inters y nivel; sistemas
datamarts datamarts inciales.
dependientes
Data set DWH datos a nivel Contiene datos Carga datamarts Uso de cualquiera
atmico; atmicos y con datos atmicos significado posible
datamarts datos sumarizados y sumarizados va para integrar las
sumarizados un rea de inters necesidades de
no persistente negocio
Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una coleccin de fuentes dispares en
almacenes de datos detalles y variantes en el
Top-Down
tiempo.

Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la Botton-Up
empresa.
Enfoques acerca del DWH
Bill Inmon Normalizado.
Building the Data Warehouse
Corporate Information Factory

Ralph Kimball -> Dimensional.


The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit
Enfoques acerca del DWH
Bill Inmon Top-Down
El DWH usa modelo de datos de toda la empresa
El DWH es un depsito de datamarts
Ms tiempo para implementar.
Fracasos por falta de paciencia y de compromiso

Ralph Kimball -> Bottom-Up


Inicia con un datamart, luego otros datamarts.
El flujo de datos: fuente datamart
datamart DWH
Rpido de implementar, por etapas
Necesita asegurar:
La consistencia de la metadata.
Estar seguro que cada cosa es llamado por su nombre.
ENFOQUE INMON
El modelo Inmon
Consiste de todas las bases y sistemas de informacin de
una organizacin
Modelo CIF (Corporate Information Factory)
Fabrica de Informacin corporativa.

Define el medio ambiente de las bases de datos como:


Operacional
DWH atmico
Departamental
Individual

El DH es parte de un todo ms grande (CIF)


Modelado Inmon
Tres niveles en el modelado de los datos
Entidad Relacin
Relaciones entre entidades, atributos y relaciones

Modelo MID-Level (MID-Level Model o *DIS*)


Conjunto de items de datos
Conjunto de datos por departamento
Cuatro construcciones:
1. Agrupamiento de datos primarios
2. Agrupamiento de datos secundarios
3. Conectores
4. Datos de Tipo de

Modelo de datos fsico


Optimizado para mejor rendimiento (de-normalizado
Modelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos
de Inmon
ENFOQUE KIMBALL
Enfoque Kimball
El modelo dimensional se inicia con tablas:
De hechos
De dimensiones
Los hechos contienen metricas
Las dimensiones contienen atributos
Puede contener grupos de datos repetidos
Los datos no estn normalizados
Accesible al usuario final
El ciclo de vida Kimball
El ciclo de vida Kimball
Ilustra el flujo general de implementacin de un DWH.

Identifica secuencia de tareas ordenadas y actividades


principales que debe suceder concurrentemente.

Muchas necesidades deben ser acomodadas para lograr


nica necesidad de la organizacin.

No todos los detalles de las tareas del ciclo de vida deben


ser ejecutados en todos los proyectos.
Ciclos de vida KLC, SDLC, y DBLC

Planificacin DB Initial Study

DB Design
Anlisis

Ejecucin
Diseo del
Sistema detallado
Comprobacin

Ejecucin
Operacin

Mantenimiento Mantenimiento

Kimball LifeCycle System Development Life Cycle Data Base Life Cycle
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Planificacin del programa/proyecto
Visin de programas y proyectos de Kimball
Proyecto, se refiere a una iteracin simple del KLC
Desde el lanzamiento hasta el despliegue.

Programa, se refiere a la amplia coordinacin


progresiva de recursos, infraestructura, tiempos y
comunicacin a travs de mltiples proyectos
Un programa contiene proyectos mltiples

En la realidad los programas no necesariamente inician


antes del proyecto, aunque debera ser as.
Planificacin del programa/proyecto
Planificacin de proyecto.
Definir el alcance Entender los requerimientos
del negocio.
Identificar tareas
Programacin de tareas
Planificar el uso de los recursos.
Asignar la carga de trabajo a los recursos
El documento final representa un plan del proyecto.
Administracin del programa/proyecto
Refuerza el plan del proyecto.

Actividades:
Monitoreo del estado de los procesos y actividades.
Rastreo de problemas
Desarrollo de un plan de comunicacin comprensiva
que direccione la empresa y las reas de TI
Lnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el
proyecto a tres lneas (tracks) concurrentes:
Tecnologa
Datos
Aplicaciones de BI
El flujo de actividad de las lneas, se indican por las
flechas
La dependencia entre tareas se indican por el alineamiento
vertical de las tareas
Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH
Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH

Front Office: Sponsor y Directores

Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.

Lnea regular: Equipo de proyecto principal.


Analista del sistema de negocio
Modelador de datos
DBA
Diseador ETL

Desarrollador de aplicaciones para el usuario final.

Equipos especiales: Seguridad, Calidad


Ejercicio 1
Ejercicio 2
Identifique los recursos necesarios para el desarrollo del
proyecto.
Ejercicio 2
Identifique los recursos necesarios para el desarrollo del
proyecto.

Los recursos pueden ser:


Humanos
Equipamiento
Servicios de terceros
Tiempo
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Definicin de requerimientos del negocio
El xito del proyecto depende de una comprensin slida
de las necesidades de negocio.

Comprender los factores claves que dirigen el negocio es


crucial para traducir exitosamente las necesidades de
negocio en las consideraciones de diseo
Requerimientos del Negocio
Requerimientos de uso de informacin
Tipo de informacin que las personas necesitan.
Tipo de anlisis.

Requerimiento de datos
Fuente de datos
Calidad de datos y limpieza de datos
Almacenamiento de datos
Carga de datos
Proceso de definicin de requerimientos
Bus Matrix
Relaciona los procesos organizacionales a las entidades u
objetos que participan en el proceso.
Cada fila es un proceso y cada columna una dimensin
Priorizacin de Procesos
Recoleccin de Requerimientos
Quin va ha ir a recoger los requerimientos?.

Los usuarios pueden ser clasificados como:


Ejecutivos Senior
Administradores de departamentos clave
Analistas de negocio
DBA de sistemas operacionales
Personal de TI

Los ejecutivos senior le darn un sentido de direccin y


alcance para su almacn de los datos.
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Diseo de la arquitectura tecnolgica
Marco arquitectural completo del proyecto

Consideraciones a tomarse en cuenta:


Las necesidades de negocio
Medio ambiente tecnolgico actual
Direccin tcnica estratgica planeada.
Seleccin de producto e instalacin
Basado en la arquitectura tcnica diseada.

Evaluacin y seleccin de
Plataforma de hardware
DBMS (base de datos)
Herramienta ETL
Herramientas de consultas (query tools)
Herramienta de reportes.

Instalacin de productos/componentes/herramientas.

Prueba de productos instalados para garantizar la


integracin de extremo a extremo con el entorno del DWH.
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Lnea de datos

Diseo del modelo dimensional Diseo del modelo fsico

ETL
Modelado dimensional
Anlisis de los datos de un proceso de
negocio para:
identificar la granularidad de las tablas
de hechos
dimensiones y atributos asociados
hechos numricos.

Contiene los mismos datos y relaciones


que un modelo normalizado en la 3FN,
pero estructurado de manera diferente.

Mejora el entendimiento y desempeo de


consultas al DW

Las construcciones primarias son:


Tablas de hechos
Tablas de dimensiones
Modelado dimensional tabla de hechos
Contiene mtricas derivadas de un
proceso de negocio o un evento.
Ventas, contabilidad, logstica, etc.

El MD debe ser estructurado alrededor


de un proceso del negocio

Se disea vistas similares y


consistentes de los datos para toda la
organizacin.

La granularidad de la tabla de hechos,


debe ser el ms atmico posible
Esto permite mayor flexibilidad y
extensibilidad.
Modelado dimensional tabla de dimensiones
Contiene la descripcin de atributos y
caractersticas asociadas con medidas de eventos
tangibles y especficos, tales como clientes,
productos, representantes de ventas.

Los atributos de dimensin son usados por limitar,


agrupar, o rotular una pregunta.

Las relaciones jerarquicas N:1 son


denormalizadas en tablas de dimensin simples.
Esquema de estrella
Una tabla de hechos
Varias tablas de dimensiones.
Ejemplo:
Asuma este esquema para una cadena de venta al por menor.
El hecho puede ser el ingreso de dinero.
Esquema de copo de nieve
Es una variacin del esquema de estrella.
Es un esquema ms complejo que el esquema de
estrella porque las tablas que describen las
dimensiones estn normalizadas.
Esquema de copo de nieve
Desventajas:
Las tablas de hecho ocupan +90% del
almacenamiento, (el beneficio es poco).
Normalizar las tablas de dimensin pueda
deteriorar la ejecucin de un DWH.

Ventajas:
Es apropiado si se presenta alguna de las
siguientes condiciones:
Una dimensin es esparcida
Una dimensin tiene una lista muy
larga de atributos

En la prctica, muchos DWH


normalizarn algunas dimensiones y
otros no (usan una combinacin de
copo de nieve y de estrella)
Diseo fsico
Preparando el entorno de base de datos.

Preparando la seguridad apropiada.

Estrategia preliminar de afinamiento (tuning) de indexacin


y agregacin.

Si son apropiadas las bases de datos OLAP que se


disean durante este proceso.
ETL Diseo y desarrollo
Es la fase ms importante.
Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.
Capacidades de sistema ETL:
Extraccin
Limpieza y conformidad
Entrega y administracin
ETL
Los datos en bruto son extrados de los sistemas
operacionales y transformados en informacin significativa
para el negocio

Los procesos ETL deben diseados mucho antes que


cualquier datos sea extrada de la fuente

Se verifica la calidad de los datos de entrada.


Las condiciones de calidad de datos se controlan
continuamente
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Aplicacin del BI
Aplicaciones que consultan,
analizan y presentan informacin
desde el modelo dimensional.

Las aplicaciones BI entregan


valor al negocio desde la solucin
DW/BI.

La meta es entregar capacidades


al negocio para soportar y mejorar
la toma de decisiones.
1. Diseo de Aplicaciones BI.
2. Desarrollo de aplicaciones BI.
Aplicacin del BI
Diseo de Aplicaciones BI.
Identifica las aplicaciones de BI
candidatas y interfaces de navegacin
apropiadas
Orienta las necesidades de los
usuarios.
Produce la especificacin de las
aplicaciones BI

Desarrollo de aplicaciones BI.


Configuracin de la metadata del
negocio y de la infraestructura de
herramientas.
Construccin y validacin de
aplicaciones BI analticas y
operacionales y un portal de
navegacin.
Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos
Lnea de datos
Modelo dimensional
Modelo fsico
ETL
Lnea de aplicacin del BI
Diseo del BI
Desarrollo del BI
Despliegue
Despliegue
Crecimiento
Mantenimiento
Despliegue
Si la planificacin se ha ejecutado se
puede asegurar:
Los resultados de las lneas de
tecnologa, datos y aplicacin del BI.
Disponibilidad de la infraestructura de
capacitacin y apoyo.

El despliegue debe ser bien sincronizado.

El despliegue debe ser aplazado si todas


las piezas, tales como entrenamiento,
documentacin, y validacin de datos, no
estn listos para la liberacin de
produccin.
Mantenimiento
Cuando el sistema esta en produccin
Incluye:
Tareas tcnico operacionales que
son necesarias para mantener el
sistema operando ptimamente.
Monitorio del uso.
Tuning del desempeo.
Mantenimiento de la tabla de
ndices.
Backup del sistema.
Apoyo permanente, capacitacin y
comunicacin con los usuarios finales
Crecimiento
Los DWH tienden a expandirse
(si son exitosos)

Es considerado como un signo


de xito.

Nuevos requerimientos deben


ser priorizados.

Empezar el ciclo de nuevo


Construir sobre las bases ya establecidas.
Enfoque en los nuevos requerimientos
PREGUNTAS