Está en la página 1de 42

MAESTRIA EN GESTION DE

SISTEMAS DE INFORMACION E
INTELIGENCIA DE NEGOCIOS
DATA WAREHOUSE

DATAWAREHOUSE
Arquitectura:

LOAD MANAGER

Este proceso se encarga de todas las tareas que se realizarn desde que se
toman los datos de los diferentes OLTP hasta que se cargan en el DW.

Extraccin
En este proceso se exploran las diversas fuentes OLTP que se tengan a
disposicin, y se extrae la informacin que se considere relevante al proyecto
BI, basndose en las necesidades y requisitos de los usuarios.
Si los datos operacionales residen en un SGBD Relacional, el proceso de
extraccin se puede reducir a consultas en SQL o rutinas programadas. En
cambio, si se encuentran en un sistema no convencional o fuentes externas,
ya sean textuales, hipertextuales, hojas de clculos, etc, la obtencin de los
mismos puede ser un tanto ms dicultoso

LOAD MANAGER
Transformacin

Es la encargada de convertir aquellos datos inconsistentes en un conjunto


de datos compatibles y congruentes, para que puedan ser cargados en el
DW.
Los casos ms comunes son los siguientes:
a) Codicacin.
b) Medida de atributos.
c) Convenciones de nombramiento.
d) Limpieza de datos.
Codificacin:
Al integrar varias fuentes de datos puede
existir ms de una forma de codicar un
atributo en comn. Por ejemplo, en el campo
estado, puede estar su valor con 0 y 1,
otros con Apagado y Encendido, otros con
off y on, etc. En este caso, es seleccionar
un solo valor y unificar un solo formato , para
que cuando la informacin llegue al DW, est
integrada de manera uniforme.

LOAD MANAGER
Medidas de atributos:
Los tipos de unidades de medidas utilizados para representar los atributos
de una entidad, varan considerablemente entre s, a travs de los
diferentes OLTP. Por ejemplo, al registrar la longitud de un producto
determinado, de acuerdo a la aplicacin que se emplee para tal n, las
unidades de medidas pueden ser explicitadas en centmetros, metros,
pulgadas, etc.

LOAD MANAGER
Convenciones de nombramiento :
Se presenta cuando, un mismo atributo es nombrado de diversas maneras en los
diferentes OLTP. Por ejemplo, al referirse al nombre del proveedor, puede
hacerse como nombre, razn_social, proveedor, etc. Aqu, se debe utilizar la
convencin de nombramiento que para los usuarios sea ms comprensible.

LOAD MANAGER
Limpieza de Datos:
En este proceso se aplica distintos tipos de acciones contra el mayor nmero de
datos errneos, inconsistentes e irrelevantes.
Datos anmalos: Ignorarlos, eliminar la columna, filtrar la columna, reemplazar el
valor, discretizar los valores de las columnas. Ejemplo 1 a 5 poner bajo, 6 a 10
poner alto.
Datos Faltantes: Ignorarlos, Eliminar la columna, Reemplazar el valor o esperar
que los datos faltantes estn disponibles.

LOAD MANAGER
Carga
Esta funcin se encarga, por un lado de realizar las tareas relacionadas con:

Carga Inicial (Initial Load).

Actualizacin o mantenimiento peridico (siempre teniendo en cuenta un


intervalo de tiempo predefinido para tal operacin).
La carga inicial, se refiere precisamente a la primera carga de datos que se le
realizar al DW. Por lo general, esta tarea consume un tiempo bastante
considerable, ya que se deben insertar registros que han sido generados
aproximadamente, y en casos ideales, durante ms de cinco aos.
Los mantenimientos peridicos mueven pequeos volmenes de datos, y su
frecuencia est dada en funcin del grnulo del DW y los requerimientos de los
usuarios. El objetivo de esta tarea es aadir al depsito aquellos datos nuevos que
se fueron generando desde el ltimo refresco.
Por otra parte, el proceso de Carga tiene la tarea de mantener la estructura del
DW, y trata temas relacionados con: Relaciones muchos a muchos, Claves
Subrogadas, ETC.

ACTIVIDAD EVALUACION II
Instalacin de las herramientas Pentaho 5.3
Pentaho BI Server
Pentaho Data Integration

Trabajo en grupo, realizar la transformacin de los datos


utilizando la herramienta pentaho.

PRESENTACION ETL

DW MANAGER
El DW Manager posee las siguientes funciones principales:
Almacena los datos de forma multidimencional, es decir , a travs de
tablas de hechos y tabla de dimensiones.
Gestiona las diferentes estructuras de datos que se construyan o
describan sobre el DW, como cubos Multidimensionales.
Gestiona y mantiene metadatos.
Transformar e integrar los datos fuentes en un modelo adecuado para la
toma de decisiones.
Los modelos de datos son implementados a travs de esquemas o
estructuras OLAP.

DW MANAGER
Conceptos OLAP y OLTP
OLTP (procesamiento de transacciones en lnea)
Los esquemas OLTP son diseados para soportar el procesamiento de
informacin diaria de las empresas, y el nfasis recae en maximizar la
capacidad transaccional de sus datos. Su estructura es altamente normalizada,
para brindar mayor eciencia a sistemas con muchas transacciones que
acceden a un pequeo nmero de registros y estn fuertemente condicionadas
por los procesos operacionales que deben soportar, para la ptima actualizacin
de sus datos. Esta estructura es ideal para llevar a cabo el proceso
transaccional diario, brindar consultas sobre los datos cargados y tomar
decisiones diarias.

DW MANAGER
Conceptos OLTP y OLAP
OLAP (procesamiento analtico en lnea)
Los esquemas OLAP estn diseados para poder llevar a cabo procesos de
consulta y anlisis para luego tomar decisiones estratgicas y tcticas de alto
nivel.

DW MANAGER
Base de datos multidimencional

Una base de datos multidimensional es una base de datos en donde su


informacin se almacena en forma multidimensional, es decir, a travs de
tablas de hechos y tablas de dimensiones.
Tabla de dimensiones :
Las tablas de dimensiones definen como estn los datos organizados
lgicamente y proveen el medio para analizar el contexto del negocio.
Contienen datos cualitativos mediante los cuales los usuarios podrn filtrar y
manipular la informacin almacenada en la tabla de hechos.
Cada tabla posee generalmente:
Clave principal o identificador nico, no siempre es la
clave primaria del OLTP, se recomienda manejar claves
propias del DW y se nombran como (claves subrogadas).
Clave forneas.
Datos de referencia primarios, son campos que
describe los criterios de anlisis relevantes para la
organizacin, generalmente de tipo texto. Ejm: Nombre
Datos de referencia secundarios: datos que
complementan la descripcin de la dimensin. Ejm: mail

DW MANAGER
Base de datos multidimencional

En un DW, la creacin y el mantenimiento de una tabla de dimensin


Tiempo es obligatoria podrn por ejemplo analizar las ventas realizadas
teniendo en cuenta el da de la semana en que se produjeron, quincena,
mensual, trimestral, semestral, anual, etc. Cada dato que se registra en una
tabla de hecho, tiene asociada una marca de tiempo, es decir, en qu
momento ocurri este hecho.
Tabla de hechos :
La tabla de hechos posee atributos llamados de hechos o de sntesis, y son
de tipo cuantitativo. Sus valores (medidas) se obtienen generalmente por la
aplicacin de una funcin estadstica que resume un conjunto de valores en
un nico valor. Por ejemplo: ventas en dlares, cantidad de unidades en
inventario, cantidad de unidades de producto vendidas, horas trabajadas,
promedio de piezas producidas, consumo de combustible de un vehculo,
etctera..

DW MANAGER
Base de datos multidimensional
Tabla de hechos :
La tabla de hechos contiene datos instantneos en el tiempo, que son
filtrados, agrupados y explorados a travs de condiciones definidas en las
tablas de dimensiones. Los datos son cualitativos y posee una clave
primaria que est compuesta por las claves primarias de las tablas de
dimensiones relacionadas a este.
Los datos que residen en una tabla de hechos son utilizados para crear
indicadores a travs de sumas, promedios, mnimos, mximos, totales por
sector, porcentajes ,etc, al momento de crear un cubo multidimensional.

Una tabla de hechos posee datos llamados datos agregados (hechos) en


donde se posee:
datos agregados bsicos Ejm: precio, cantidad
datos agregados derivados Ejm: total= precio*cantidad

DW MANAGER
Tipos de modelamiento de un DW
Existe varios esquemas para el modelado de los datos en un DW, los esquemas
ms usados son:
Esquema Estrella:
Este modelo, consta de una tabla de hechos central y de varias tablas de
dimensiones relacionadas a esta, a travs de sus respectivas claves.
Este modelo debe estar totalmente desnormalizado, es decir que no puede
presentarse en tercera forma normal (3ra FN).
Las ventajas que trae aparejada la desnormalizacin, son las de obviar
uniones (Join) entre las tablas cuando se realizan consultas, procurando as
un mejor tiempo de respuesta y una mayor sencillez con respecto a su
utilizacin. El punto en contra, es que se genera un cierto grado de
redundancia, pero el ahorro de espacio no es significativo.

DW MANAGER
Tipos de modelamiento de un DW
Esquema Copo de Nieve :
En este modelo existe una tabla de hechos central que est relacionada con
una o ms tablas de dimensiones, quienes a su vez pueden estar
relacionadas o no con una o ms tablas de dimensiones.
Este modelo es ms cercano a un modelo de entidad relacin, que al
modelo en estrella, debido a que sus tablas de dimensiones estn
normalizadas.

DW MANAGER
Tipos de modelamiento de un DW
Esquema Constelacin :
Este modelo est compuesto por una serie de esquemas en estrella y est
formado por una tabla de hechos principal (HECHOS_A) y por una o ms
tablas de hechos auxiliares (HECHOS_B), las cuales pueden ser
sumarizaciones de la principal. Dichas tablas estn en el centro del modelo
y estn relacionadas con sus respectivas tablas de dimensiones.
No es necesario que las diferentes tablas de hechos compartan las mismas
tablas de dimensiones, ya que, las tablas de hechos auxiliares pueden
vincularse con solo algunas de las tablas de dimensiones asignadas a la
tabla de hechos principal, y tambin pueden hacerlo con nuevas tablas.
dimensiones..

DW MANAGER
Caractersticas Generales de un ESQUEMA ESTRELLA
No se repitan los atributos entre dimensiones.
Las dimensiones estn desnormalizadas.
Las dimensiones tengan clave primaria.
Las dimensiones contengan solo datos que estn relacionados con ellas.
Exista una Dimensin tiempo.
La tabla hecho contenga como clave primaria la concatenacin de las claves
primarias de las dimensiones.

DW MANAGER
Ejemplos de modelamiento de un DW

DW MANAGER
Ejemplos de modelamiento de un DW
ESQUEMA COPO DE NIEVE

DW MANAGER
Ejemplos de modelamiento de un DW

DW MANAGER
Pasos bsicos para generar un Modelo de Base de Datos Multidimensional a
partir de un Modelo de Base de Datos Relacional
Paso 1
Paso 2

Identificar Proceso de negocio


Identificar elementos en el modelo relacional

Paso 3

Reconocerlos en el modelo realcional

Paso 4

Formar subesquemas del modelo realcional

Paso 5
Paso 6

Mapeo de valores en un repositorio temporal (opcional)

Definir tabla de hechos y dimensiones, desnormalizarlo

Paso 7

Definir la dimensin tiempo

Paso 8

Definir las claves de los hechos y dimensiones

Paso 9

Definicin de las medidas o indicadores

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
1. Identificar el proceso del negocio

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
2. Identificar los elementos en el Modelo Relacional

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
3. Reconocerlo en el Modelo Relacional

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
3. Reconocerlo en el Modelo Relacional

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
4. Formar subesquemas o agrupar tablas con informacin comn

DW MANAGER
5. Mapeo de valores en un repositorio temporal (opcional)

DW MANAGER
Diagrama de base de datos entidad relacin en el repositorio temporal
para el cubo de activos fijos.

DW MANAGER
Ejemplo de modelamiento de un DW
6. Definir tabla de hechos y
dimensiones , desnormalizarlos

DW MANAGER
Ejemplo de modelamiento de un DW Prctico

7. Definir la dimensin tiempo.

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
8. Definir las claves de las dimensiones y hechos

DW MANAGER
Ejemplo de modelamiento de un DW Prctico
9. Definir las medidas o indicadores

DW MANAGER
Ejemplos de modelamiento de un DW
Modelo Dimensional Activos Fijos

ACTIVIDAD EVALUACION III


1. Trabajo en grupo, escoger un modelo o esquema de modelamiento de un DW y
elaborar un modelo dimensional en base a los siguientes requerimientos :

ACTIVIDAD EVALUACION III


Fuente original de la base de datos matriculas

ACTIVIDAD EVALUACION III


Fuente original de la base de datos matriculas

ACTIVIDAD EVALUACION III


2. Trabajo en grupo, escoger un modelo o esquema de modelamiento de un DW y
elaborar un modelo dimensional en base a los siguientes requerimientos :
.
.
.
.
.
.
.
.

Se requiere un modelo para determinar :


NUMERO DE ESTUDIANTES
POR SEMESTRE/POR ANIO/POR MES
TIEMPO: ANIO/SEMESTRE/MES/DIA
NUMERO DE ESTUDIANTES POR NIVEL
NUMERO DE ESTUDIANTES POR MODALIDAD
NUMERO DE ESTUDIANTES QUE FUERON ADMITIDOS
EN EL ANIO 2010
NUMERO DE ESTUDIANTES QUE INGRESARON EL PRIMER NIVEL HACE UN
ANIO ATRS
NUMERO TOTAL DE ESTUDIANTES GRADUADOS EN POSTGRADOS

DW MANAGER
Tipos de implementacin de un DW
Los mencionados esquemas pueden ser implementados de diversas
maneras, que, independientemente al tipo de arquitectura, requieren
que toda la estructura de datos este desnormalizada o semi
desnormalizada, para evitar desarrollar uniones (Join) complejas para
acceder a la informacin, con el n de agilizar la ejecucin de
consultas.
Los diferentes tipos de implementacin son los siguientes:
Relacional ROLAP
Multidimensional MOLAP
Hbrido HOLAP

ACTIVIDAD EVALUACION IV
Trabajo en grupo, investigar los tipos de implementacin y desarrollar una exposicin en
base a los siguientes puntos:

Definicin y conceptos
ROLAP
MOLAP
HOLAP
Comparaciones
ROLAP
MOLAP
HOLAP

También podría gustarte