Está en la página 1de 85

DATA WARE HOUSE

1. ASPECTOS TEORICOS

1.1 INTRODUCCION AL DATA WAREHOUSE

En la actualidad, el dinmico mundo de los negocios plantea la necesidad de


disponer de un acceso rpido y sencillo a informacin para la toma de
decisiones.

El data warehouse permite que los gerentes tomen decisiones siguiendo un


enfoque racional, basados en informacin confiable y oportuna. Consiste
bsicamente en la transformacin de los datos operacionales en informacin
til para decidir.

1.1 INTRODUCCION AL DATA WAREHOUSE

Desde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus
sistemas operacionales para entender sus necesidades de informacin.

El data warehouse, es el centro de las grandes instituciones, por que provee un ambiente para que
las organizaciones hagan un mejor uso de la informacin que esta siendo administrada por diversas
aplicaciones operacionales. Data warehouse es una coleccin de datos en la cual se encuentra
integrada la informacin, no voltil de tiempo variante que se usa como soporte para la toma de
decisiones.

Al reunir los elementos de datos apropiados desde diversas fuentes, simplifica el proceso de anlisis
y consultas de esta informacin en menos tiempo.

Un data warehouse se crea al extraer la informacin desde una o ms bases de datos, esta
informacin es transformada para eliminar inconsistencias y luego es cargada en la data warehouse.

La innovacin que se brinda dentro de un ambiente data warehousing, puede permitir a cualquier
organizacin hacer un uso optimo de los datos, y hacer la toma de decisiones mas efectiva.

El data warehouse es siempre un almacn de datos transformados y separados de la aplicacin o


base de donde se encontraron.

Conceptos

Un Data Warehouse es un conjunto integrado de bases de datos, con


orientacin temtica, que estn diseados para el apoyo a la Toma de
decisiones, y donde cada unidad de datos es relevante en algn momento del
tiempo.

Bill H Immon

Conceptos

Un almacn de datos se establece para aplicaciones que apoyan decisiones y


no para procesamiento de transacciones ordinarias. Esta optimizado para
recuperacin de datos, en oposicin a procesamiento de transacciones.

Ralph Kimball

Conceptos

Es un repositorio estructurado, a nivel Empresa, de datos orientados hacia


reas de negocio, que contiene datos histricos y que est preparado para
facilitar la toma de decisiones.

Para qu construir un Warehouse?

Para tener un mayor conocimiento del negocio

Para tomar mejores decisiones y en un tiempo


menor

Para mejorar y ser ms efectivos

Para no perder distancia con la competencia

en definitiva

Visin del Usuario


Usuarios
Finales

Panel de
Consulta

Representacin de
Negocio

Base de Datos

Solucin integrada de: Consultas, informes y anlisis.

Capa semntica que da una representacin de los datos desde el


punto de vista de negocio.

Los usuarios utilizan trminos de negocio, no trminos


informticos.

Objetivos

Hacer la informacin de la organizacin accesible

Hacer la informacin consistente

Controlar el acceso efectivo de los datos.

Generar informacin de manera flexible

Servir de ayuda a la toma de decisiones.

ESTRUCTURA

Altamente
Altamenteresumido
resumido

Ligeramente
Ligeramenteresumido
resumido

Detalle
Detalleactual
actual

Detalle
Detallehistrico
histricode
delos
losdatos
datos

1.2. SISTEMAS DE INFORMACION


ESTATREGICO
TACTICO

TECNICO-OPERATIVO

INTERINSTUCIONAL

1.2. SISTEMAS DE INFORMACION


ESTRATEGICO
Orientados a soportar la toma de decisiones, proporcionando un soporte bsico.
Se caracterizan por que son sistemas si carga peridica de trabajo, su utilizacin no es
predecible.

TACTICOS.
Diseados para las actividades y manejo de la documentacin, para consultas en el
sistema, proporcionar informes, facilitar la gestin independiente por parte de los niveles
intermedios de la organizacin.

SISTEMAS TECNICO-OPERATIVOS.
Operaciones tradicionales de captura masiva de datos. Y servicios bsicos de tratamiento
de datos (contabilidad, presupuestos, almacenes, personal etc).

SISTEMAS INTERINSTITUCIONALES
Es el ultimo nivel de sistemas de informacin, son como consecuencia del mercado global
el cual obliga a implementar estructuras de comunicacin entre la organizacin y el
mercado. (Internet).

1.3. CARACTERISTICAS

Los datos de un Warehouse difieren de los datos operacionales usados por las
aplicaciones de produccin.

Base de datos Operacional

Datos operacionales.
Orientado a la aplicacin.
Actual.
Detallada
Cambia continuamente.

Data Warehouse
Datos del negocio para
informacin.
Orientado al sujeto.
Actual + histrico.
Detallada + resumida.
Estable.

Caractersticas

Entre las principales se tiene:

Orientado al tema

Integrado

Variante en el Tiempo

No voltil

Orientado al Tema
Una
primera
caracterstica del data
warehouse es que la
informacin se clasifica
en base a los aspectos
que son de inters para
la empresa.
Ejemplo:
Para
un
fabricante pueden ser
cliente, vendedor y
producto.

Los usuarios piensan en trminos de cosas y sus relaciones,


no en trminos de procesos, funciones o aplicaciones.

Proveedor
Proporciona
Orden de
Compra

Compuesta por

Pedido

Realiza

Cliente

Contiene
Producto

Recuperado
desde

Inventario

Integrado
La base de datos
contiene los datos de
todos los sistemas
operacionales de la
organizacin, y dichos
datos
deben
ser
consistentes.

Contiene

Convenciones de Nombres

Descripciones

Atributos fsicos de los datos

Valores de los datos

Consistentes

Admin. Marketing
Operaciones

Datos

Ventas Cuentas

Variante en el Tiempo

Como la informacin en
el data warehouse es
solicitada en cualquier
momento (es decir, no
"ahora mismo"), los datos
encontrados
en
el
depsito se llaman
variante en el tiempo".

Entorno Operacional

Data Warehouse

Datos con valores actuales

Horizonte de 30 - 90 das

Exactitud en los accesos

Id de cliente
nombre
direccin
telfono
ratio de crdito

Datos en fotos
Horizonte de 5 10 aos
Refleja la perspectiva desde un
momento en el tiempo

Id de cliente
fecha desde
fecha hasta
nombre
direccin
telfono
ratio de crdito

No voltil
La informacin no se
modifica ni se elimina,
una vez almacenado un
dato, ste se convierte
en informacin deslo
lectura, y se mantiene
para futuras consultas.

Beneficios
Los beneficios que un data warehouse puede aportar:

Proporciona una herramienta para la toma de decisiones en cualquier rea


funcional, basndose en informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para


encontrar relaciones ocultas entre los datos del almacn: obteniendo un valor
aadido para el negocio de dicha informacin.

Proporciona la capacidad de aprender de los datos del pasado y de predecir


situaciones futuras en diversos escenarios.

Simplificar dentro de la empresa la implantacin de sistemas de gestin


integral de la relacin con el cliente.

Supone una optimizacin tecnologca y econmica en entornos de centro de


informacin, estadstica o de generacin de informes con retornos de la inversin
espectaculares.

Flujo de datos de un DW

DEBILIDADES

FORTALEZAS

Falta de normalizacin
Alto costo
Reanalisis de modelo de datos,
objetos, transacciones,
almacenamiento,
Diseo complejo y multidisciplinar
Cambio dinmico de requerimientos
de informacin
Administracin y mantenimiento
Sistemas, aplicaciones y
almacenamiento especifico.

Integrador de sistemas.
Consistencia.
Accesibilidad.
Disponibilidad.
Menor costo de difusin y formacin.
Visin amplia de negocio.
Orientado a la toma de decisiones.
Modelizacin y simulacin.
Informacin consolidada.
Extraccin de informacin
conocimiento.

1.5. ESTRUCTURA DE UN DATA


WAREHOUSE
Altamente
Altamenteresumido
resumido

Ligeramente
Ligeramenteresumido
resumido

Detalle
Detalleactual
actual

Detalle
Detallehistrico
histricode
delos
losdatos
datos

1.4. METODOS PARA LA CREACION DE DW


Metodolo de kimball

Lametodologade Kimball, llamadaModeloDimensional (Dimensional Modeling), se basa en lo que se


denominaCiclo de VidaDimensional del Negocio (Business Dimensional Lifecycle). Esta metodologa es
considerada una de lastcnicasfavoritas a la hora de construir un Data Warehouse.

En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el propsito de optimizar la


toma de decisiones, con base en las consultas hechas en una base de datos relacional que estn ligadas
con lamedicino un conjunto de mediciones de los resultados de los procesos de negocio.

El Modelo Dimensional es una tcnica dediseolgico que tiene comoobjetivopresentar los datos
dentro de un marco de trabajo estndar e intuitivo, para permitir su acceso con un alto rendimiento.
Cada Modelo Dimensional esta compuesta por una tabla con una llave combinada, llamada tabla de
hechos, y con un conjunto de tablas ms pequeas llamadas tablas de dimensiones. Los elementos de
estas tablas se pueden definir de la siguiente manera:

Hechos:es una coleccin de piezas de datos y datos de contexto. Cada hecho representa una parte del
negocio, una transaccin o un evento.

Dimensiones:es una coleccin de miembros, unidades o individuos del mismo tipo.

Medidas:son atributos numricos de un hecho que representan elcomportamientodel negocio relativo


a una dimensin.

1.4. METODOS PARA LA CREACION DE DW


Paradigma Bill Inmon.

Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP (Sistemas Transaccionales)
de las organizaciones a un lugar centralizado donde los datos puedan ser utilizados para el analisis (sera
el CIF o Corporate Information Factory). Insiste ademas en que ha de tener las siguientes
caractersticas:

Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.

Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin,
y dichos datos deben ser consistentes.

No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte
en informacin de slo lectura, y se mantiene para futuras consultas.

Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados
para que los informes que se puedan generar reflejen esas variaciones.

La informacin ha de estar a los mximos niveles de detalle. Los Dw departamentales o datamarts son
tratados como subconjuntos de este Dw corporativo, que son construidos para cubrir las necesidades
individuales de analisis de cada departamento, y siempre a partir de este Dw Central (del que tambin
se pueden construir los ODS ( Operational Data Stores ) o similares).

El enfoque Inmon tambien se referencia normalmente comoTop-down. Los datos son


extraidos de los sistemas operacionales por los procesos ETL y cargados en las areas de
stage, donde son validados y consolidados en el DW corporativo, donde ademas existen los
llamados metadatos que documentan de una forma clara y precisa el contenido del DW. Una
vez realizado este proceso, los procesos de refresco de los Data Mart departamentales
obtienen la informacin de el, y con las consiguientes transformaciones, organizan los datos
en las estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.

La metodologia para la construccin de un sistema de este tipo es la habitual para


construir un sistema de informacin, utilizando las herramientas habituales (esquema
Entidad Relacion, DIS (Data Item Sets, etc). Para el tratamiento de los cambios en los
datos, usa laContinue and Discrete Dimension Management(inserta fechas en los datos
para determinar su validez para las Continue Dimension o bien mediante el concepto de
snapshot o foto para las Discrete Dimension).

Al tener este enfoque global, es mas dificil de desarrollar en un proyecto sencillo (pues
estamos intentando abordar el todo, a partir del cual luego iremos al detalle).

1.4. METODOS PARA LA CREACION DE DW


Paradigma Ralph Kimball.

El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa,
siendo una copia de los datos transaccionales estructurados de una forma especial para el
analisis, de acuerdo alModelo Dimensional (no normalizado), que incluye, como ya
vimos, las dimensiones de anlisis y sus atributos, su organizacin jerarquica, asi
como los diferentes hechos de negocio que se quieren analizar. Por un lado tenemos
tablas para las representar las dimensiones y por otro lado tablas para los hechos (las
facts tables). Los diferentes Data Marts estan conectados entre si por la llamadabus
structure, que contiene los elementos anteriormente citados a traves de las dimensiones
conformadas (que permiten que los usuarios puedan realizar querys conjuntos sobre los
diferentes data marts, pues este bus contiene los elementos en comn que los
comunican). Una dimensin conformada puede ser, por ejemplo, la dimensin cliente,
que incluye todos los atributos o elementos de analisis referentes a los clientes y que
puede ser compartida por diferentes data marts (ventas, pedidos, gestin de cobros, etc).

Este enfoque tambin se referencia comoBottom-up, pues al final el Datawarehouse


Corporativo no es mas que la unin de los diferentes datamarts, que estan estructurados
de una forma comn a travs de la bus structure. Esta caracteristica le hace mas
flexible y sencillo de implementar, pues podemos construir un Data Mart como primer
elemento del sistema de anlisis, y luego ir aadiendo otros que comparten las
dimensiones ya definidas o incluyen otras nuevas. En este sistema, los procesos ETL
extraen la informacin de los sistemas operacionales y los procesan igualmente en el
area stage, realizando posteriormente el llenado de cada uno de los Data Mart de una
forma individual, aunque siempre respetando la estandarizacion de las dimensiones
(dimensiones conformadas).

La metodologa para la construccin del Dw incluye las 4 fases que vimos en la entrada
anterior del blog, que son:Seleccin del proceso de negocio, definicin de la
granuralidad de la informacin, eleccin de las dimensiones de anlisis e
identificacin de los hechos o mtricas. Igualmente define el tratamiento de los
cambios en los datos a travs de lasDimensiones Lentamente Cambiantes (SCD).

ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA


DATAWAREHOUSE
En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor / monitor. El
extractor es el responsable de homogenizar la informacin. El monitor es el responsable de detectar los
cambios que puedan ser realizados en las fuentes y reportarlos al integrador.
El integrador recibe los resultados de los extractores y despus de integrarlos, los carga al DW. Para
poder cargar la informacin, se debe disear una estructura, para almacenar los datos, el esquema
multidimensional del DW.
El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para
permitir su anlisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construccin
y explotacin.
La fase de construccin se refiere al diseo e implementacin de herramientas encargados de llevar los
datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la informacin
previamente. Un proceso posterior pero asociad a esta mis fase es el proceso de mantenimiento. Este se
encarga de llevar los datos nuevos al DW.
En la fase de explotacin se lleva a cabo el anlisis de los datos almacenados dentro del DW a travs de
tcnicas que facilitan y hacen mas eficiente su consulta. Ya con el DW poblado lo ultimo es disear e
implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindndole todas
las ventajas del anlisis de la informacin.

1.4. ARQUITECTURA DE UN DATAWAREHOUSE


INTERFAZ

ADMINISTRADOR DE CONSULTAS
Nos sirve para comprender como se
relacionan los componentes
involucrados en una estrategia de
Datawarehouse.

DATAWAREHOUSE

INTEGRADOR

EXTRACTOR / MONITOR

FUENTE

EXTRACTOR / MONITOR

FUENTE

PROCESAMIENTO ANALITO EN LINEA

Es el acrnimo en ingls de procesamiento analtico en lnea (On-Line


Analytical Processing).
Es una solucin utilizada en el campo de la llamada Inteligencia empresarial
(o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes
cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos
OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas
Transaccionales (OLTP).

La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la


hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP
que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE.

TIPOS DE SISTEMAS OLAP (PLATAFORMAS)

1. ROLAP - Relacional OLAP. (Procesamiento analtico relacional en


lnea)

2. MOLAP - Multidimensional OLAP. (procesamiento analtico


multidimensional en linea)

3. HOLAP - Hbrido OLAP hbrido. (procesamiento analtico en linea)

ROLAP

Son sistemas en los cuales los datos


se encuentra almacenados en una
base de datos relacional

Ventajas

Desventajas

Seguridad de integridad Consultas mas lentas


de base de datos
Escalable para grandes
volmenes

Construccion cara

Los datos pueden ser


compartidos

Calculos limitados a las


funciones de las base
de datos

Estructura mas
dinamica

MOLAP

En estos sistemas los datos se


encuentra almacenados en una
estructura de datos
multidimensional.

Ventajas

Desventajas

Mayor rendimiento en
el procesamiento

Tamao limitado para


la arquitectura del cubo

Posibilita hacer clculos No puede acceder a


mas complicados
datos que no estan

HOLAP

En estos sistemas mantiene los registros detallados en la base de datos


relacional, mientras que los datos resumidos o agregados ase almacenan
en un a base de datos multidimensional separada

Comparacin

ROLAP

MOLAP

HOLAP

Los datos son accedidos


directamente desde el
Datawarehouse u otra
fuente de datos
relacional y no son
almacenados por
separado

Los datos son


precalculados y luego
son almacenados en
cubos de datos
multidimensionales

Mantiene los
volmenes de datos
mas grande en la base
de datos relacional y
las agregacionEs en
una base de datos
Molap separada

UTILIDADES DE OLAP

Tienen acceso a grandes cantidades de datos.

Analizan las relaciones entre muchos tipos de elementos empresariales.

Involucran datos

Comparan datos agregados a travs de periodos jerrquicos. Presentan datos


en diferentes perspectivas.

Involucran clculos complejos entre elementos de datos.

Pueden responder con rapidez a consultas de usuarios.

Beneficios de OLAP

Es de fcil uso y acceso flexible para los usuarios.

Los datos estn organizados en diferentes dimensiones, lo que permite un


mejor anlisis.

Permite encontrar la historia en los datos.

Genera ciertas ventajas competitivas.

Requerimientos Funcionales de los


Sistemas OLAP

Construir un Datawarehouse y/o Datamart.

Uso de herramientas de Almacenamiento (bases de datos


multidimensionales), Herramientas de Extraccin y Coleccin, Herramientas
para Reportes de Usuario Final y Herramientas para Anlisis Inteligentes.
Requerimientos Funcionales de los Sistemas OLAP

Un servidor que sea altamente escalable.

Un segundo servidor para las herramientas de consulta de datos.

Operadores para el manejo de cubos de


datos

1. CUBE

2. ROLLUP

3. DRILLDOWN

4. GROUPING SETS

5. SLICE (Rebanada)

6. PIVOT

7. Dado

8. Ascenso

9. Descenso Operadores

BD MULTIDIMENSIONALES PARA SISTEMAS


OLAP: CUBOS OLAP

Los cubos OLAP son vectores (subconjunto de datos organizados y condensados dentro de una estructura multidimensional) en los cuales se
dispone la informacin, y gracias a esta ordenada jerarqua es posible llevar
a cabo un anlisis rpido de los datos.
Una base de datos multidimensional puede contener varios cubos o
vectores que extendern las posibilidades del sistema OLAP con el cual se
trabaja.

Product

MS:
Regin
Territorio
Vendedor
Etc.

C u s to m e r

CUBO OLAP

El acrnimo OLAP procede de la expresin en inglsOn-Line


Analytical Processing, o procesamiento analticoonline, usada
para designar los sistemas de anlisis de datos basados en
estructuras multidimensionales, o lo que frecuentemente se
denominacubos OLAP.

Los cubos OLAP son, pues, precisamente eso: estructuras


multidimensionales (cubos) que permitenanalizar
bases de datos relacionales de gran volumen y variedadcon una
gran agilidad y rapidez, reduciendo enormemente el tiempo y los
recursos empleados en el anlisis.

Nos referimos a cubos OLAP cuando ha-blamos de BD


multidimensionales, en las cuales el almacenamiento
fsico de datos se realiza en vectores multidimensionales.

Los parmetros en funcin de los cuales se analizan los


datos se conocen como dimensiones.

Los atributos (generalmente textuales) de las dimensiones


determinan el valor (mtrica) de los indicadores de un
hecho desde las celdas del cubo.

Cubo OLAP: componentes

Indicadores representan algn aspecto cuantificable o medible de los


objetos a analizar. Normalmente, se representan por valores numricos .

Dimensiones Las dimensiones de un cubo son atributos relativos a los


indicadores .
Son las perspectivas de anlisis de los indicadores ,
utilizadas para indexar, ordenar, agrupar o abreviar los valores de los
indicadores .

Ejemplos de dimensiones :

- producto (diferentes tipos o denominaciones de productos)

- localidad (o provincia, o regiones, o zonas geogrficas)

- tiempo (medido de diferentes maneras: hrs, das, meses, aos.)

- tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc.

Regin
Id Ciudad
Nombre
Direccin
Regin
Tiempo

Producto
Medida
Id Producto
Id Ciudad
Id Tiempo
unid vendidas

Id Tiempo
Fecha

ESQUEMA EN ESTRELLA

Id Producto
Descripcin
Marca
Grupo
Familia
Tipo
Precio

Tablas de Hechos: contienen datos cuantitativos sobre el


negocio

La clave primaria es una concatenacin de claves de


dimensin, incluyendo el tiempo

Cada elemento de la clave primaria compuesta es una clave


de integridad referencial hacia una tabla de dimensin.

Contienen menos atributos, pero muchos ms registros

Tablas de Dimensin: gestionan datos descriptivos que


reflejan las diversas dimensiones del negocio

Contienen muchos atributos pero menos (pocos) registros

La clave primaria ayuda a componer las claves primarias de


las tablas de hechos

BASE DE DATOS MULTIDIMENSIONALES


OLAP: CUBO OLAP

Las BD multidimensionales implican tres variantes posibles de


modelamiento, que permiten realizar consultas de soporte de
decisin:
1. Esquema en Estrella(Star Scheme).

2. Esquema Copo de Nieve(Snowflake Scheme).

3. Esquema Constelacino copo de estrellas (Starflake Scheme).

Esquema en Estrella(Star Scheme).

Esquema de la estrella es la arquitectura de almacn de datos ms simple. En este


diseo del almacn de datos la tabla de Variables (Hechos) esta rodeada por
Dimensiones y juntos forman una estructura que permite implementar mecanismos
bsicos para poder utilizarla con una herramienta de consultas OLAP.
Esquema estrella del Almacn de Datos implementa un diseo lgico relacional de
base da datos que resulta en que las tablas de hechos representan la Tercera Forma
Normal (3FN) y lasdimensiones representan la Segunda Forma Normal (2FN).
El motivo por dejar de mantener las tablas en el modelo relacional y permitir el
almacenamiento de informacin redundante, es optimizar el tiempo de respuesta
de base datos y dar informacin a un usuario en menos tiempo posible. En este
modelo, para obtener informacin solicitada no hay que construir una sentencia
SQL muy compleja que lease muchas tablas de una vez. Una herramienta de
consultas slo tiene que acceder una tabla.

Esquema Copo de Nieve(Snowflake Scheme

Esquema en copo de nieve (bola de nieve) es una variedad ms compleja del


esquema estrella. El afinamiento est orientado a facilitar mantenimiento de
dimensiones.
Lo que distingue a la arquitectura en copo de nieve de la esquema estrella, es
que las tablas dedimensiones en este modelo representan relaciones
normalizadas (3NF)y forman parte de un modelo relacional de base de
datos.
Con varios usos del esquema en bola de nieve, el ms comn es cuando las
tablas de dimensiones estn muy grandes o complejos y es muy difcil
representar los datos en esquema estrella.

3. Esquema Constelacino copo de estrellas


(Starflake Scheme).

Para cada esquema estrella o esquema del copo de nieve en almacn de datos es posible
construir un esquema deconstelacin de hechos.
Este esquema es ms complejo que las otras arquitecturas debido al facto de que contiene
multiples tablas de hechos. Con este solucin las tablas de dimensiones pueden estar
compartidas entre mas que una tabla de los factos.
El esquema de constelacin de hechos tiene mucha flexibilidad y este facto es su grande virtud.
Sin embargo, el problema es que cuando el nmero de las tablas vinculadas aumenta, la
arquitectura puede llegar a ser muy compleja y difcil para mantener.
En una esquema de constelacin de factos las distintas tablas de los hechos estn asignadas a las
dimensiones relevantes para cada de los hechos. Esto puede ser util cuando los hechos estan
asignadas a un nivel de un dimensin y los otros hechos a otro nivel de detalle de un dimensin.

El modelo este puede ser una solucin adecuada cuando por ejemplo hay una tabla de hechos de
venta (con un nivel de detalle hasta un da y el numero de factura) y hay otra tabla de factos
con los Pronsticos (con los campos clave: mes, cdigo articulo, cdigo cliente).

Ejemplo uso de una herramienta de consulta


Informacin solicitada

Informacin
disponible

Condiciones

El interfaz de usuario simple


Trabaja contra representacin de negocio de los
datos
Todos los componentes en una pantalla

Los informes son la capa visible


Integracin Datos no slo en entornos
analticos
Importancia de la Calidad
Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Extraccin

Servidores
Red

Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos

Data Marts Estructurados: Visin Completa

IMPLEMENTACIN
En esta fase, el proyecto de data warehouse debe tener asignado el
liderazgo adecuado, as como, los recursos humanos, recursos
tecnolgicos y el presupuesto apropiado.
Sin embargo, deben evaluarse otros aspectos, como desarrollar un
proyecto en su totalidad o por fases y adems, diferenciar el tipo de
proyecto a realizar.

ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

a) Proyecto Total o Proyecto en Fases


b) Modelo lgico de datos
c) Proyecto Especializado o Proyecto Base

ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

A) Proyecto Total o Proyecto en Fases


Es ms viable el desarrollo de un proyecto en fases que produzcan resultados a
corto plazo que el desarrollo de un proyecto que entregue resultados al trmino
de varios aos. Por ello, el proyecto debe estar centrado en un rea o un
proceso.

ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

b) Modelo lgico de datos


El modelo lgico de datos debe tener un alcance ms alto y cubrir todas las reas
de inters, as como los procesos ms estratgicos de cada una de ellas.
Ejemplo: Puede cubrir las reas de mercadeo, crdito y comercializacin y los
procesos de segmentacin, scoring para retencin, scoring para crdito y gestin
de clientes, productos y canales de ventas.

ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION

c) Proyecto Especializado o Proyecto Base


Decidir sobre qu tipo de proyecto, es algo complicado. Un proyecto
especializado soporta directamente un proceso especfico, por ejemplo:
retencin de clientes.
Un proyecto base entrega capacidad genrica de anlisis a todos los usuarios que
tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la
solucin de un problema especfico o el soporte especializado de un proceso
especfico.
Un proyecto base es ms econmico y fcil de acabar que uno especializado, ms
costoso y difcil de terminar.

ESTRATEGIAS PARA EL PROCESO DE


IMPLEMENTACION
Deben definirse las siguientes:

ESTRATEGIAS PARA EL PROCESO DE


IMPLEMENTACION
1Identificar el problema en el cual el uso estratgico de la informacin
detallada, permita conseguir una solucin para generar una ventaja competitiva
o un ahorro de costos.
Ejemplo: Un problema puede ser la ausencia de un modelo para estudios de
retencin de clientes.

ESTRATEGIAS PARA EL PROCESO DE


IMPLEMENTACION

2Definir el modelo lgico de datos a implementar para resolver el problema


planteado.

Ejemplo: Se puede dar un modelo lgico cuando se presenta al usuario la


informacin en trminos de dimensiones (clientes, productos, canales de
ventas, promociones, adquirientes, etc) bsicas del modelo de datos y hechos
que se registrarn para estas dimensiones (medidas de ventas, de costos, de
produccin, de facturacin, de cartera, de calidad, de servicio, etc.).

ESTRATEGIAS PARA EL PROCESO DE


IMPLEMENTACION

3Reunir los datos para poblar ese modelo lgico de datos.

ESTRATEGIAS PARA EL PROCESO DE


IMPLEMENTACION
4Tomar iniciativas de complementacin de informacin para asegurar la
calidad de los datos requeridos para poblar el modelo de datos.
Estas definiciones deben estar acompaadas de un servidor apropiado para el
data warehouse, as como elementos de comunicaciones, nodos cliente, el
manejador de la base de datos del data warehouse y otros hardware y software
requeridos para la implementacin del proyecto.

ESTRATEGIAS EN LA IMPLEMENTACION
Deben plantearse las siguientes:
1Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe
estar orientado a generar buen rendimiento en el procesamiento de consultas, a
diferencia del modelo lgico que est orientado al usuario y a la facilidad de
consulta.

ESTRATEGIAS EN LA IMPLEMENTACION

2Definir los procesos de extraccin, filtro, transformacin de informacin y


carga de datos que se deben implementar para poblar ese modelo de datos.

ESTRATEGIAS EN LA IMPLEMENTACION

3Definir los procesos de administracin de la informacin que permanece en el


data warehouse

ESTRATEGIAS EN LA IMPLEMENTACION

4Definir las formas de consultas a la informacin del data warehouse que se le


proporcionar al usuario. Para sto, debe considerarse la necesidad de resolver
un problema y la potencia de consulta.

ESTRATEGIAS EN LA IMPLEMENTACION

5Completar el modelo de consulta base, relativo al rea seleccionada.

ESTRATEGIAS EN LA IMPLEMENTACION

6Implementar los procesos estratgicos del rea de trabajo, es decir,


implementar herramientas especializadas de scoring, herramientas
especializadas para induccin de conocimiento (Data Mining), etc.

ESTRATEGIAS EN LA IMPLEMENTACION

7Completar las reas de inters, en forma similar a lo descrito anteriormente.

Costos

Muchos proyectos de data warehouse usan productos como Warehouse


Manager de Prism Solutions o Passport de Carleton, para una gama de tareas
de gestin de data warehouse, que incluyen:
Extraccin de los datos desde las bases de datos operacionales
Preparacin de los datos para cargarlos en una base de datos del depsito,
Administracin de la metadata.
Estos productos cuestan desde $ 75,000 a ms de $ 200,000 Dls,
dependiendo del tamao y la complejidad del proyecto y pueden tambin
limpiar, transformar y validar.

Empresas que usan una Data wareHouse

Empresas de telecomunicaciones. Jazztel, Vodafone, France


Telecom...
Empresas de transporte. British Airways, Union Pacific, Air France,
etc.
Empresas de fabricacin de bienes de consumo masivo. Coca-Cola,
Adidas, Nike, 3M, Bosh Siemens,
Entidades Financieras. BBVA, Caja Madrid, Caja Extremadura
Comercio Minorista. Corte Ingls, Cortefiel, Eroski.
Y otras mas como:
Wal*Mart, Kmart, Sears, Meijer, Kohl's Department Stores, American
Stores (Jewel/OSCO/Lucky/Savon/ACME/SuperSaver), Mervyn's,
Buttrey Food & Drug, QVC Home Shopping, Canadian Tyre, WH Smith
Books (Gran Bretaa), Great Universal (GB), Supermercados Casino
(Francia), Migrosgenossenschaftsbund (Suiza), Otto Versand (Alemania).
Procter & Gamble, Hallmark, Maybelline, Helene Curtis, Owens Corning
Glass, Karsten Ping Golf Clubs, Walt Disney, Whirlpool.

Conclusiones

Es un conjunto de proceso y acciones, orientados a un tema, integrados y no


voltiles que sirven para la toma de decisiones de la gerencia.

El data warehouse a pesar de su alto costo, siguen funcionando y brindando


credibilidad a la informacin que provee a los usuarios.

En resumen

Un Data Warehouse tiene como objetivo almacenar y proveer a la Organizacin de


informacin relevante y a tiempo
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para
encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor
aadido para el negocio de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y de predecir
situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de
la relacin con el cliente
Supone una optimizacin tecnolgica y econmica en entornos de Centro de
Informacin, estadstica o de generacin de informes con retornos de la inversin
espectaculares.
Sistemas tradicionales vs Data Warehouse
Solucin: crear almacenes de datos especializados por rea, que reciben los datos
desde el almacn centralizado, estos almacenes se conocen como Data Marts.

También podría gustarte