Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SISTEMAS DE INFORMACION E
INTELIGENCIA DE NEGOCIOS
DATA WAREHOUSE
DATAWAREHOUSE
Arquitectura:
LOAD MANAGER
Este proceso se encarga de todas las tareas que se realizarn desde que se
toman los datos de los diferentes OLTP hasta que se cargan en el DW.
Extraccin
En este proceso se exploran las diversas fuentes OLTP que se tengan a
disposicin, y se extrae la informacin que se considere relevante al proyecto
BI, basndose en las necesidades y requisitos de los usuarios.
Si los datos operacionales residen en un SGBD Relacional, el proceso de
extraccin se puede reducir a consultas en SQL o rutinas programadas. En
cambio, si se encuentran en un sistema no convencional o fuentes externas,
ya sean textuales, hipertextuales, hojas de clculos, etc, la obtencin de los
mismos puede ser un tanto ms dicultoso
LOAD MANAGER
Transformacin
LOAD MANAGER
Medidas de atributos:
Los tipos de unidades de medidas utilizados para representar los atributos
de una entidad, varan considerablemente entre s, a travs de los
diferentes OLTP. Por ejemplo, al registrar la longitud de un producto
determinado, de acuerdo a la aplicacin que se emplee para tal n, las
unidades de medidas pueden ser explicitadas en centmetros, metros,
pulgadas, etc.
LOAD MANAGER
Convenciones de nombramiento :
Se presenta cuando, un mismo atributo es nombrado de diversas maneras en los
diferentes OLTP. Por ejemplo, al referirse al nombre del proveedor, puede
hacerse como nombre, razn_social, proveedor, etc. Aqu, se debe utilizar la
convencin de nombramiento que para los usuarios sea ms comprensible.
LOAD MANAGER
Limpieza de Datos:
En este proceso se aplica distintos tipos de acciones contra el mayor nmero de
datos errneos, inconsistentes e irrelevantes.
Datos anmalos: Ignorarlos, eliminar la columna, filtrar la columna, reemplazar el
valor, discretizar los valores de las columnas. Ejemplo 1 a 5 poner bajo, 6 a 10
poner alto.
Datos Faltantes: Ignorarlos, Eliminar la columna, Reemplazar el valor o esperar
que los datos faltantes estn disponibles.
LOAD MANAGER
Carga
Esta funcin se encarga, por un lado de realizar las tareas relacionadas con:
ACTIVIDAD EVALUACION II
Instalacin de las herramientas Pentaho 5.3
Pentaho BI Server
Pentaho Data Integration
PRESENTACION ETL
DW MANAGER
El DW Manager posee las siguientes funciones principales:
Almacena los datos de forma multidimencional, es decir , a travs de
tablas de hechos y tabla de dimensiones.
Gestiona las diferentes estructuras de datos que se construyan o
describan sobre el DW, como cubos Multidimensionales.
Gestiona y mantiene metadatos.
Transformar e integrar los datos fuentes en un modelo adecuado para la
toma de decisiones.
Los modelos de datos son implementados a travs de esquemas o
estructuras OLAP.
DW MANAGER
Conceptos OLAP y OLTP
OLTP (procesamiento de transacciones en lnea)
Los esquemas OLTP son diseados para soportar el procesamiento de
informacin diaria de las empresas, y el nfasis recae en maximizar la
capacidad transaccional de sus datos. Su estructura es altamente normalizada,
para brindar mayor eciencia a sistemas con muchas transacciones que
acceden a un pequeo nmero de registros y estn fuertemente condicionadas
por los procesos operacionales que deben soportar, para la ptima actualizacin
de sus datos. Esta estructura es ideal para llevar a cabo el proceso
transaccional diario, brindar consultas sobre los datos cargados y tomar
decisiones diarias.
DW MANAGER
Conceptos OLTP y OLAP
OLAP (procesamiento analtico en lnea)
Los esquemas OLAP estn diseados para poder llevar a cabo procesos de
consulta y anlisis para luego tomar decisiones estratgicas y tcticas de alto
nivel.
DW MANAGER
Base de datos multidimencional
DW MANAGER
Base de datos multidimencional
DW MANAGER
Base de datos multidimensional
Tabla de hechos :
La tabla de hechos contiene datos instantneos en el tiempo, que son
filtrados, agrupados y explorados a travs de condiciones definidas en las
tablas de dimensiones. Los datos son cualitativos y posee una clave
primaria que est compuesta por las claves primarias de las tablas de
dimensiones relacionadas a este.
Los datos que residen en una tabla de hechos son utilizados para crear
indicadores a travs de sumas, promedios, mnimos, mximos, totales por
sector, porcentajes ,etc, al momento de crear un cubo multidimensional.
DW MANAGER
Tipos de modelamiento de un DW
Existe varios esquemas para el modelado de los datos en un DW, los esquemas
ms usados son:
Esquema Estrella:
Este modelo, consta de una tabla de hechos central y de varias tablas de
dimensiones relacionadas a esta, a travs de sus respectivas claves.
Este modelo debe estar totalmente desnormalizado, es decir que no puede
presentarse en tercera forma normal (3ra FN).
Las ventajas que trae aparejada la desnormalizacin, son las de obviar
uniones (Join) entre las tablas cuando se realizan consultas, procurando as
un mejor tiempo de respuesta y una mayor sencillez con respecto a su
utilizacin. El punto en contra, es que se genera un cierto grado de
redundancia, pero el ahorro de espacio no es significativo.
DW MANAGER
Tipos de modelamiento de un DW
Esquema Copo de Nieve :
En este modelo existe una tabla de hechos central que est relacionada con
una o ms tablas de dimensiones, quienes a su vez pueden estar
relacionadas o no con una o ms tablas de dimensiones.
Este modelo es ms cercano a un modelo de entidad relacin, que al
modelo en estrella, debido a que sus tablas de dimensiones estn
normalizadas.
DW MANAGER
Tipos de modelamiento de un DW
Esquema Constelacin :
Este modelo est compuesto por una serie de esquemas en estrella y est
formado por una tabla de hechos principal (HECHOS_A) y por una o ms
tablas de hechos auxiliares (HECHOS_B), las cuales pueden ser
sumarizaciones de la principal. Dichas tablas estn en el centro del modelo
y estn relacionadas con sus respectivas tablas de dimensiones.
No es necesario que las diferentes tablas de hechos compartan las mismas
tablas de dimensiones, ya que, las tablas de hechos auxiliares pueden
vincularse con solo algunas de las tablas de dimensiones asignadas a la
tabla de hechos principal, y tambin pueden hacerlo con nuevas tablas.
dimensiones..
DW MANAGER
Caractersticas Generales de un ESQUEMA ESTRELLA
No se repitan los atributos entre dimensiones.
Las dimensiones estn desnormalizadas.
Las dimensiones tengan clave primaria.
Las dimensiones contengan solo datos que estn relacionados con ellas.
Exista una Dimensin tiempo.
La tabla hecho contenga como clave primaria la concatenacin de las claves
primarias de las dimensiones.
DW MANAGER
Ejemplos de modelamiento de un DW
DW MANAGER
Ejemplos de modelamiento de un DW
ESQUEMA COPO DE NIEVE
DW MANAGER
Ejemplos de modelamiento de un DW
DW MANAGER
Pasos bsicos para generar un Modelo de Base de Datos Multidimensional a
partir de un Modelo de Base de Datos Relacional
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Paso 9
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
1. Identificar el proceso del negocio
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
2. Identificar los elementos en el Modelo Relacional
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
3. Reconocerlo en el Modelo Relacional
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
3. Reconocerlo en el Modelo Relacional
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
4. Formar subesquemas o agrupar tablas con informacin comn
DW MANAGER
5. Mapeo de valores en un repositorio temporal (opcional)
DW MANAGER
Diagrama de base de datos entidad relacin en el repositorio temporal
para el cubo de activos fijos.
DW MANAGER
Ejemplo de modelamiento de un DW
6. Definir tabla de hechos y
dimensiones , desnormalizarlos
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
8. Definir las claves de las dimensiones y hechos
DW MANAGER
Ejemplo de modelamiento de un DW Prctico
9. Definir las medidas o indicadores
DW MANAGER
Ejemplos de modelamiento de un DW
Modelo Dimensional Activos Fijos
DW MANAGER
Tipos de implementacin de un DW
Los mencionados esquemas pueden ser implementados de diversas
maneras, que, independientemente al tipo de arquitectura, requieren
que toda la estructura de datos este desnormalizada o semi
desnormalizada, para evitar desarrollar uniones (Join) complejas para
acceder a la informacin, con el n de agilizar la ejecucin de
consultas.
Los diferentes tipos de implementacin son los siguientes:
Relacional ROLAP
Multidimensional MOLAP
Hbrido HOLAP
ACTIVIDAD EVALUACION IV
Trabajo en grupo, investigar los tipos de implementacin y desarrollar una exposicin en
base a los siguientes puntos:
Definicin y conceptos
ROLAP
MOLAP
HOLAP
Comparaciones
ROLAP
MOLAP
HOLAP