Está en la página 1de 59

Metodologas para el Data WareHousing

Mg. Samuel Oporto Daz

Mapa del Curso


Inteligencia de Negocios

Metodologa Kimball

Planeamiento del Proyecto

Modelo del Negocio

Modelado Dimensional

Modelado Fsico

ETL

Minera de Datos

Reportes

Tabla de Contenido
Antecedentes Metodologa Kimball
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Objetivos
1. Presentar los enfoques para el desarrollo de DWH 2. Presentar la metodologa de Kimball

ANTECEDENTES

Metodologas OLAP / OLTP


Sistemas de Informacin
Los procesos a automatizar son repetibles y previsibles. Modelado Entidad Relacin. Atencin en una rpida modificacin en lnea de los datos.

Data Warehouse
El uso de los datos es exploratorio y menos predictible. Modelado multidimensional. Enfocado en la carga y la presentacin de los datos

DWH no es solamente crear un conjunto de reportes que corren peridicamente. Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

Conceptos Clave
Datamart. Repositorio de datos especifico.
Diseado para responder las preguntas especficas. Diseado para servir las necesidades de unidades de negocio (ventas, comercializacin, operaciones, contabilidad, etc.) Es construido usando modelado dimensional

Data warehouse. Repositorio de datos organizacional


Almacena datos de toda la empresa y de todas las reas. Es una coleccin empresarial de datamarts. Contiene data masiva e integrada

Inteligencia de Negocios.
Reportes y anlisis de datos almacenadas en el DWH Data warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.

Metodologas para el DWH


Profesional nfasis Diseo Top-Down Bill Inmon DWH Modelo normalizado basado en la empresa Bottom-Up Rodolfo Kimball DataMarts El modelo dimensional de datamarts, usa esquema de estrella Hybrid Muchos profesionales DWH y DataMarts Federated Doug Hackney Integrado a entornos BI heterogneos

Modelos locales y uno o Una arquitectura de mas esquemas de arquitecturas; comparte estrella dimensiones, hechos, reglas, definiciones a travs de la organizacin Modelo empresarial normalizado de alto nivel; datamarts inciales. Realidad del cambio en organizaciones y sistemas

Arquitectura Compuesto de varios niveles de reas de inters y datamarts dependientes Data set DWH datos a nivel atmico; datamarts datos sumarizados

rea de inters y datamarts

Contiene datos atmicos Carga datamarts con y sumarizados datos atmicos y sumarizados va un rea de inters no persistente

Uso de cualquiera significado posible para integrar las necesidades de negocio

Historia de DWH
Inmon. 1990 Publica Building the Data Warehouse 2002 Mejora su libro y define una arquitectura como una coleccin de fuentes dispares en almacenes de datos detalles y variantes en el tiempo.
Kimball 1996 Publica The Data Warehouse Toolkit 2002 Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.

Top-Down

Botton-Up

Enfoques acerca del DWH


Bill Inmon Normalizado.
Building the Data Warehouse Corporate Information Factory

Ralph Kimball -> Dimensional.


The Data Warehouse Lifecycle Toolkit The Data Warehouse Toolkit

Enfoques acerca del DWH


Bill Inmon Top-Down
El DWH usa modelo de datos de toda la empresa El DWH es un depsito de datamarts Ms tiempo para implementar. Fracasos por falta de paciencia y de compromiso

Ralph Kimball -> Bottom-Up


Inicia con un datamart, luego otros datamarts. El flujo de datos: fuente datamart datamart DWH Rpido de implementar, por etapas
Necesita asegurar:
La consistencia de la metadata. Estar seguro que cada cosa es llamado por su nombre.

ENFOQUE INMON

El modelo Inmon
Consiste de todas las bases y sistemas de informacin de una organizacin
Modelo CIF (Corporate Information Factory) Fabrica de Informacin corporativa.

Define el medio ambiente de las bases de datos como:


Operacional DWH atmico Departamental Individual

El DH es parte de un todo ms grande (CIF)

Modelado Inmon
Tres niveles en el modelado de los datos Entidad Relacin
Relaciones entre entidades, atributos y relaciones

Modelo MID-Level (MID-Level Model o *DIS*)


Conjunto de items de datos Conjunto de datos por departamento Cuatro construcciones: 1. Agrupamiento de datos primarios 2. Agrupamiento de datos secundarios 3. Conectores 4. Datos de Tipo de

Modelo de datos fsico


Optimizado para mejor rendimiento (de-normalizado

Modelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos de Inmon

ENFOQUE KIMBALL

Enfoque Kimball
El modelo dimensional se inicia con tablas:
De hechos De dimensiones

Los hechos contienen metricas Las dimensiones contienen atributos


Puede contener grupos de datos repetidos

Los datos no estn normalizados Accesible al usuario final

El ciclo de vida Kimball

El ciclo de vida Kimball


Ilustra el flujo general de implementacin de un DWH.
Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente. Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.

No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.

Ciclos de vida KLC, SDLC, y DBLC

Planificacin

DB Initial Study

Anlisis

DB Design

Ejecucin Diseo del Sistema detallado

Comprobacin

Ejecucin

Operacin

Mantenimiento

Mantenimiento

Kimball LifeCycle

System Development Life Cycle

Data Base Life Cycle

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Planificacin del programa/proyecto


Visin de programas y proyectos de Kimball Proyecto, se refiere a una iteracin simple del KLC Desde el lanzamiento hasta el despliegue. Programa, se refiere a la amplia coordinacin progresiva de recursos, infraestructura, tiempos y comunicacin a travs de mltiples proyectos Un programa contiene proyectos mltiples
En la realidad los programas no necesariamente inician antes del proyecto, aunque debera ser as.

Planificacin del programa/proyecto


Planificacin de proyecto. Definir el alcance Entender los requerimientos del negocio. Identificar tareas Programacin de tareas Planificar el uso de los recursos. Asignar la carga de trabajo a los recursos El documento final representa un plan del proyecto.

Administracin del programa/proyecto


Refuerza el plan del proyecto.
Actividades: Monitoreo del estado de los procesos y actividades. Rastreo de problemas Desarrollo de un plan de comunicacin comprensiva que direccione la empresa y las reas de TI

Lnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas (tracks) concurrentes:
Tecnologa Datos Aplicaciones de BI

El flujo de actividad de las lneas, se indican por las flechas La dependencia entre tareas se indican por el alineamiento vertical de las tareas

Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH

Ejercicio 1
Identifique roles para el equipo de desarrollo de un DWH
Front Office: Sponsor y Directores

Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.


Lnea regular: Equipo de proyecto principal.
Analista del sistema de negocio Modelador de datos DBA Diseador ETL

Desarrollador de aplicaciones para el usuario final.


Equipos especiales: Seguridad, Calidad

Ejercicio 1

Ejercicio 2
Identifique los recursos necesarios para el desarrollo del proyecto.

Ejercicio 2
Identifique los recursos necesarios para el desarrollo del proyecto.
Los recursos pueden ser: Humanos Equipamiento Servicios de terceros Tiempo

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Definicin de requerimientos del negocio


El xito del proyecto depende de una comprensin slida de las necesidades de negocio.
Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseo

Requerimientos del Negocio


Requerimientos de uso de informacin
Tipo de informacin que las personas necesitan. Tipo de anlisis.

Requerimiento de datos
Fuente de datos Calidad de datos y limpieza de datos Almacenamiento de datos Carga de datos

Proceso de definicin de requerimientos

Bus Matrix
Relaciona los procesos organizacionales a las entidades u objetos que participan en el proceso. Cada fila es un proceso y cada columna una dimensin

Priorizacin de Procesos

Recoleccin de Requerimientos
Quin va ha ir a recoger los requerimientos?.
Los usuarios pueden ser clasificados como: Ejecutivos Senior Administradores de departamentos clave Analistas de negocio DBA de sistemas operacionales Personal de TI Los ejecutivos senior le darn un sentido de direccin y alcance para su almacn de los datos.

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Diseo de la arquitectura tecnolgica


Marco arquitectural completo del proyecto
Consideraciones a tomarse en cuenta: Las necesidades de negocio Medio ambiente tecnolgico actual Direccin tcnica estratgica planeada.

Seleccin de producto e instalacin


Basado en la arquitectura tcnica diseada.
Evaluacin y seleccin de Plataforma de hardware DBMS (base de datos) Herramienta ETL Herramientas de consultas (query tools) Herramienta de reportes. Instalacin de productos/componentes/herramientas. Prueba de productos instalados para garantizar la integracin de extremo a extremo con el entorno del DWH.

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Lnea de datos

Diseo del modelo dimensional

Diseo del modelo fsico

ETL

Modelado dimensional
Anlisis de los datos de un proceso de negocio para: identificar la granularidad de las tablas de hechos dimensiones y atributos asociados hechos numricos.
Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente. Mejora el entendimiento y desempeo de consultas al DW Las construcciones primarias son: Tablas de hechos Tablas de dimensiones

Modelado dimensional tabla de hechos


Contiene mtricas derivadas de un proceso de negocio o un evento.
Ventas, contabilidad, logstica, etc.

El MD debe ser estructurado alrededor de un proceso del negocio


Se disea vistas similares y consistentes de los datos para toda la organizacin. La granularidad de la tabla de hechos, debe ser el ms atmico posible Esto permite mayor flexibilidad y extensibilidad.

Modelado dimensional tabla de dimensiones


Contiene la descripcin de atributos y caractersticas asociadas con medidas de eventos tangibles y especficos, tales como clientes, productos, representantes de ventas.
Los atributos de dimensin son usados por limitar, agrupar, o rotular una pregunta. Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensin simples.

Esquema de estrella
Una tabla de hechos Varias tablas de dimensiones. Ejemplo:
Asuma este esquema para una cadena de venta al por menor. El hecho puede ser el ingreso de dinero.

Esquema de copo de nieve


Es una variacin del esquema de estrella. Es un esquema ms complejo que el esquema de estrella porque las tablas que describen las dimensiones estn normalizadas.

Esquema de copo de nieve


Desventajas:
Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco). Normalizar las tablas de dimensin pueda deteriorar la ejecucin de un DWH. Es apropiado si se presenta alguna de las siguientes condiciones: Una dimensin es esparcida Una dimensin tiene una lista muy larga de atributos

Ventajas:

En la prctica, muchos DWH normalizarn algunas dimensiones y otros no (usan una combinacin de copo de nieve y de estrella)

Diseo fsico
Preparando el entorno de base de datos.
Preparando la seguridad apropiada.

Estrategia preliminar de afinamiento (tuning) de indexacin y agregacin.


Si son apropiadas las bases de datos OLAP que se disean durante este proceso.

ETL Diseo y desarrollo


Es la fase ms importante.
Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH. Capacidades de sistema ETL: Extraccin Limpieza y conformidad Entrega y administracin

ETL
Los datos en bruto son extrados de los sistemas operacionales y transformados en informacin significativa para el negocio Los procesos ETL deben diseados mucho antes que cualquier datos sea extrada de la fuente
Se verifica la calidad de los datos de entrada. Las condiciones de calidad de datos se controlan continuamente

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Aplicacin del BI
Aplicaciones que consultan, analizan y presentan informacin desde el modelo dimensional. Las aplicaciones BI entregan valor al negocio desde la solucin DW/BI. La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones. 1. Diseo de Aplicaciones BI. 2. Desarrollo de aplicaciones BI.

Aplicacin del BI
Diseo de Aplicaciones BI.
Identifica las aplicaciones de BI candidatas y interfaces de navegacin apropiadas Orienta las necesidades de los usuarios. Produce la especificacin de las aplicaciones BI

Desarrollo de aplicaciones BI.


Configuracin de la metadata del negocio y de la infraestructura de herramientas. Construccin y validacin de aplicaciones BI analticas y operacionales y un portal de navegacin.

Ciclo de Vida
Planificacin del proyecto Requerimientos del Negocio Lnea tecnolgica
Arquitectura tecnolgica Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional Modelo fsico ETL

Lnea de aplicacin del BI


Diseo del BI Desarrollo del BI

Despliegue
Despliegue Crecimiento Mantenimiento

Despliegue
Si la planificacin se ha ejecutado se puede asegurar: Los resultados de las lneas de tecnologa, datos y aplicacin del BI. Disponibilidad de la infraestructura de capacitacin y apoyo.
El despliegue debe ser bien sincronizado. El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentacin, y validacin de datos, no estn listos para la liberacin de produccin.

Mantenimiento
Cuando el sistema esta en produccin Incluye: Tareas tcnico operacionales que son necesarias para mantener el sistema operando ptimamente. Monitorio del uso. Tuning del desempeo. Mantenimiento de la tabla de ndices. Backup del sistema. Apoyo permanente, capacitacin y comunicacin con los usuarios finales

Crecimiento
Los DWH tienden a expandirse (si son exitosos)
Es considerado como un signo de xito. Nuevos requerimientos deben ser priorizados. Empezar el ciclo de nuevo Construir sobre las bases ya establecidas. Enfoque en los nuevos requerimientos

PREGUNTAS