Está en la página 1de 41

CARRERA DE INGENIERIA DE SISTEMAS

Ing. Johny Pretell C.


Lima, Semestre 2014-1

Agenda
01. Metodologas para el DWH

02. Data Warehouse.- Conceptos


03. Mapa del Proceso BI
04. Data Marts.- Construccin

05. Tcnica Multidimensional

CARRERA DE INGENIERA DE SISTEMAS

Metodologas OLAP / OLTP


Sistemas de Informacin

Los procesos a automatizar son


repetibles y previsibles.
Modelado Entidad Relacin.
Atencin en una rpida
modificacin en lnea de los
datos.

Data Warehouse

El uso de los datos es


exploratorio y menos predictible.
Modelado multidimensional.
Enfocado en la carga y la
presentacin de los datos

DWH no es solamente crear un conjunto de reportes que corren peridicamente.


Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

Conceptos Clave
Datamart. Repositorio de datos especifico.
Diseado para responder las preguntas especficas.
Diseado para servir las necesidades de unidades de negocio
(ventas, comercializacin, operaciones, contabilidad, etc.)
Es construido usando modelado dimensional

Data warehouse. Repositorio de datos organizacional


Almacena datos de toda la empresa y de todas las reas.
Es una coleccin empresarial de datamarts.
Contiene data masiva e integrada

Inteligencia de Negocios.
Reportes y anlisis de datos almacenadas en el DWH
Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.

Metodologas para el DWH


Profesional

Top-Down
Bill Inmon

Bottom-Up
Rodolfo Kimball

Hybrid
Muchos profesionales

Federated
Doug Hackney

nfasis

DWH

DataMarts

DWH y DataMarts

Integrado a entornos BI
heterogneos

Diseo

Modelo normalizado
basado en la empresa

El modelo dimensional
de datamarts, usa
esquema de estrella

Modelos locales y uno o Una arquitectura de


mas esquemas de
arquitecturas; comparte
estrella
dimensiones, hechos,
reglas, definiciones a
travs de la organizacin

Arquitectura Compuesto de varios


niveles de reas de
inters y datamarts
dependientes

rea de inters y
datamarts

Modelo empresarial
normalizado de alto
nivel;
datamarts inciales.

Data set

Contiene datos atmicos Carga datamarts con


y sumarizados
datos atmicos y
sumarizados va un rea
de inters no persistente

DWH datos a nivel


atmico;
datamarts datos
sumarizados

Realidad del cambio en


organizaciones y sistemas

Uso de cualquiera
significado posible para
integrar las necesidades
de negocio

Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una coleccin de fuentes dispares en
almacenes de datos detalles y variantes en el
tiempo.
Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la
empresa.

Top-Down

Botton-Up

Enfoques acerca del DWH


Bill Inmon Normalizado.
Building the Data Warehouse
Corporate Information Factory

Ralph Kimball -> Dimensional.


The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit

Enfoques acerca del DWH


Bill Inmon Top-Down

El DWH usa modelo de datos de toda la empresa


El DWH es un depsito de datamarts
Ms tiempo para implementar.
Fracasos por falta de paciencia y de compromiso

Ralph Kimball -> Bottom-Up


Inicia con un datamart, luego otros datamarts.
El flujo de datos: fuente
datamart
datamart DWH
Rpido de implementar, por etapas
Necesita asegurar:
La consistencia de la metadata.
Estar seguro que cada cosa es llamado por su nombre.

ENFOQUE INMON

CARRERA DE INGENIERA DE SISTEMAS

El modelo Inmon
Consiste de todas las bases y sistemas de informacin de
una organizacin
Modelo CIF (Corporate Information Factory)
Fabrica de Informacin corporativa.

Define el medio ambiente de las bases de datos como:

Operacional
DWH atmico
Departamental
Individual

El DH es parte de un todo ms grande (CIF)

Modelado Inmon
Tres niveles en el modelado de los datos
Entidad Relacin
Relaciones entre entidades, atributos y relaciones

Modelo MID-Level (MID-Level Model o *DIS*)


Conjunto de items de datos
Conjunto de datos por departamento
Cuatro construcciones:
1. Agrupamiento de datos primarios
2. Agrupamiento de datos secundarios
3. Conectores
4. Datos de Tipo de

Modelo de datos fsico


Optimizado para mejor rendimiento (de-normalizado

Modelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos
de Inmon

ENFOQUE KIMBALL

CARRERA DE INGENIERA DE SISTEMAS

Enfoque Kimball
El modelo dimensional se inicia con tablas:
De hechos
De dimensiones

Los hechos contienen metricas


Las dimensiones contienen atributos
Puede contener grupos de datos repetidos

Los datos no estn normalizados


Accesible al usuario final

El ciclo de vida Kimball

El ciclo de vida Kimball


Ilustra el flujo general de implementacin de un DWH.
Identifica secuencia de tareas ordenadas y actividades
principales que debe suceder concurrentemente.
Muchas necesidades deben ser acomodadas para lograr
nica necesidad de la organizacin.
No todos los detalles de las tareas del ciclo de vida deben
ser ejecutados en todos los proyectos.

Ciclos de vida KLC, SDLC, y DBLC

Planificacin

Anlisis

DB Initial Study

DB Design

Ejecucin

Diseo del
Sistema detallado

Ejecucin

Mantenimiento

Kimball LifeCycle

System Development Life Cycle

Comprobacin

Operacin

Mantenimiento

Data Base Life Cycle

Metodologia
Propuesta por
Cognos
(adaptacin de
Kimball)

CARRERA DE INGENIERA DE SISTEMAS

Ciclo de Vida
Planificacin del proyecto
Requerimientos del Negocio
Lnea tecnolgica
Arquitectura tecnolgica
Seleccin e instalacin de productos

Lnea de datos
Modelo dimensional
Modelo fsico
ETL

Lnea de aplicacin del BI


Diseo del BI
Desarrollo del BI

Despliegue
Despliegue
Crecimiento
Mantenimiento

Qu es Data Warehouse?
Un almacn de datos analticos orientados a un
determinado mbito de la empresa (organizacin, rea,
tema, etc.), integrado, no voltil y variable en el tiempo.

CARRERA DE INGENIERA DE SISTEMAS

Data Warehouse y Data Marts


Data desde
Sistemas
Operationales

Data
Warehouse

Data Marts

Ventas

Produccion

OLTP
Contabilidad
OLTP

Data
Empresarial

OLTP

CARRERA DE INGENIERA DE SISTEMAS

Presupuesto

Datos en
un Entorno
OLAP

ETL
Extraer, transformar y cargar abreviado como ETL es el proceso
que permite a las organizaciones mover datos desde mltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de
datos, data mart, o data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso de negocio.
Los datos de los sistemas OLAP son obtenidos desde los
sistemas OLTP.
Este no es un proceso trivial, existen cientos de potenciales
problemas al momento de obtener los datos

CARRERA DE INGENIERA DE SISTEMAS

Mapa del Proceso para Implementar


una Base de Datos Estratgica
(DWH) para el Negocio

Inteligencia
de Negocios

Metodologa
Kimball

Planeamiento
del Proyecto

Modelo
del
Negocio

Modelado
Dimensional

Modelado
Fsico

ETL

Reportes

CARRERA DE INGENIERA DE SISTEMAS

Minera de
Datos

Ejemplo de una Arquitectura DWH

CARRERA DE INGENIERA DE SISTEMAS

Datamart o Data Warehouse

Tabla de hechos

Tabla de Dimensiones

Estructura del Datamart

CARRERA DE INGENIERA DE SISTEMAS

Hechos

Dimensiones

Eventos
que
ocurren
dinmicamente en el negocio de
la empresa.

Cada dimensin describe un


aspecto del negocio y proporciona
el acceso intuitivo y simple a
datos.

Ejem. Admisin de alumnos.


La tabla de hechos es la tabla
primaria del modelo dimensional,
y contiene los valores del negocio
que se desea analizar las
medidas - indicadores.
Cada tabla de hechos contiene las
claves
externas,
que
se
relacionan con sus respectivas
tablas de dimensiones, y las
columnas con los valores que
sern analizados.
CARRERA DE INGENIERA DE SISTEMAS

Cada dimensin se define por su


clave primaria que sirve para
mantener la integridad referencial
en la tabla de hechos a la que se
relaciona.
Un cubo requiere que se defina al
menos una dimensin en su
esquema.

Construccin del
Data Warehouse
o Data Mart

CARRERA DE INGENIERA DE SISTEMAS

Ejemplo
Construiremos el modelo del Data Mart de
ventas en tres etapas:
Etapa 1 Construccin de las Dimensiones

Etapa 2 Armado de la Tabla de Hechos


Etapa 3 Definicin de las Medidas
CARRERA DE INGENIERA DE SISTEMAS

Ejemplo: Los ejecutivos de Ventas


necesitan informacin sobre

Dimensiones
Tiempo

Sucursal

Vendedor

Cliente

Producto

Ventas_Importe

Ventas_Costo

Ventas_Unidades

Ventas_ImporteTotal

Ventas_Ganancia

Ventas_Promedio

Medidas

CARRERA DE INGENIERA DE SISTEMAS

Definiendo las
Dimensiones
Tiempo

(Esquema Estrella)

Vendedor

Tabla de Hechos o
FACT TABLE
Ventas

Producto

Sucursal
Cliente

CARRERA DE INGENIERA DE SISTEMAS

Tcnica Dimensional
?qu

?cundo

?cmo

Medida

CARRERA DE INGENIERA DE SISTEMAS

?quin

Tcnica Dimensional
PRODUCTO

TIEMPO

ORGANIZACIN
SUCURSAL
VEMNDEDOR

Monto vendido
Unidades vendidas

CARRERA DE INGENIERA DE SISTEMAS

CLIENTE

Tcnica Dimensional
TIEMPO

Proveed

PRODUCTO
Famila

Anual
Marca

Trim
Mes

Producto
Dia

Personal

Cliente

Seccin
Sucursal
VENDEDOR

Monto vendido
Unidades vendidas

CARRERA DE INGENIERA DE SISTEMAS

Zona
CLIENTE

Dimensin Tiempo
Dimensin
Tiempo

*
**
***
****
*****

Ao
Semestre
Trimestre
Mes
Da

Dimensin
Vendedor
Dimensin Vendedor

Dimensin Sucursal
Sucursal
Dimensin

*
**
***
****
*****

Sucursal
Tipo Sucursal
Pas
Provincia
Ciudad

**
***

Sucursal
Seccin
Vendedor

Dimensin
Cliente
Dimensin Cliente

*
**
***
****

Pas
Provincia
Ciudad
Razn Social

Dimensiones

Medidas

Tiempo

Sucursal

Vendedor

Cliente

Producto

Ventas_Importe

Ventas_Costo

Ventas_Unidades

Ventas_ImporteTotal

Ventas_Ganancia

Ventas_Promedio

CARRERA DE INGENIERA DE SISTEMAS

Esquema
Copo de Nieve

Dimensiones

Medidas

Tiempo

Sucursal

Vendedor

Cliente

Producto

Ventas_Importe

Ventas_Costo

Ventas_Unidades

Ventas_ImporteTotal

Ventas_Ganancia

Ventas_Promedio

CARRERA DE INGENIERA DE SISTEMAS

IDs de las Dimensiones

Fact_Ventas

Definiendo la
Tabla de Hechos

ID_Tiempo
ID_Producto
ID_Cliente
ID_Vendedor
ID_Sucursal

Medidas

Dimensiones

Tiempo

Sucursal

Vendedor

Cliente

Producto

Ventas_Importe

Ventas_Costo

Ventas_Unidades

Ventas_ImporteTotal

Ventas_Ganancia

Ventas_Promedio

CARRERA DE INGENIERA DE SISTEMAS

A la tabla de hechos le puedo agregar las mediciones

Fact_Ventas
ID_Tiempo
ID_Producto
ID_Cliente
ID_Vendedor
ID_Sucursal

Medidas

CARRERA DE INGENIERA DE SISTEMAS

Fact_Ventas
ID_Fecha
ID_Producto
ID_Cliente
ID_Vendedor
Ventas_Importe
Ventas_Costo
Ventas_Unidades

Dimensin Tiempo
Dimensin
Tiempo

*
**
***
****
*****

Ao
Semestre
Trimestre
Mes
Da

Dimensin Sucursal
Sucursal
Dimensin

*
**
***
****
*****

Sucursal
Tipo Sucursal
Pas
Provincia
Ciudad

Fact_Ventas
ID_Fecha
ID_Producto
ID_Cliente
ID_Vendedor
Ventas_Importe
Ventas_Costo
Ventas_Unidades

Dimensin
Cliente
Dimensin Cliente

*
**
***
****

Pas
Provincia
Ciudad
Razn Social

CARRERA DE INGENIERA DE SISTEMAS

Dimensin
Vendedor
Dimensin Vendedor

*
**
***

Sucursal
Seccin
Vendedor

Dimensiones

Medidas

Tiempo

Sucursal

Vendedor

Cliente

Producto

Ventas_Importe

Ventas_Costo

Ventas_Unidades

Ventas_ImporteTotal

Ventas_Ganancia

Ventas_Promedio

CARRERA DE INGENIERA DE SISTEMAS

Conclusiones
Finales

CARRERA DE INGENIERA DE SISTEMAS

Para la Prxima Clase

Tema a Tratar: - REUQERIMIENTOS DEL NEGOCIO

Fin de la Sesin 04
CARRERA DE INGENIERA DE SISTEMAS