Está en la página 1de 22

INTRODUCCIN AL DATA WAREHOUSE

Necesidades informacionales

Son aquellas que tienen por objeto obtener la informacin necesaria, que sirva de base para la toma de decisiones tanto a escala estratgica como tctica. Estas necesidades informacionales se basan en gran medida en el anlisis de un nmero considerable de datos, en el que es tan importante el obtener un valor muy detallado de negocio como el valor totalizado para el mismo. Es fundamental tambin la visin histrica de todas las variables analizadas, y el anlisis de los datos del entorno. Estos requerimientos no son, a priori, difciles de resolver dado que la informacin est efectivamente en los sistemas operacionales.

Cualquier actividad que realiza la empresa est reflejada de forma minuciosa en sus bases de datos.

Problemas con las necesidades de tipo informacional


En primer lugar, al realizar consultas masivas de

informacin (con el fin de conseguir el valor agrupado o grupo de valores solicitados), se puede ver perjudicado el nivel de servicio del resto de sistemas, dado que las consultas de las que estamos hablando, suelen ser bastante costosas en recursos.
Adems, las necesidades se ven insatisfechas por la

limitada flexibilidad a la hora de navegar por la informacin y a su inconsistencia debido a la falta de una visin global (cada visin particular del dato est almacenada en el sistema operacional que lo gestiona).

QU ES UN DATA WAREHOUSE?

Definicin
El Data Warehouse es una coleccin de

datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin. Bill Inmon -Using de Data Warehouse.

Integrado
Los datos almacenados en el Data Warehouse

deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas.
La informacin suele estructurarse tambin

en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temtico
Slo los datos necesarios para el proceso de generacin

del conocimiento del negocio se integran desde el entorno operacional.


Los datos se organizan por temas para facilitar su acceso

y entendimiento por parte de los usuarios finales.


Por ejemplo, todos los datos sobre clientes pueden ser

consolidados en una nica tabla del Data Warehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar

Histrico
El tiempo es parte implcita de la informacin

contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. La informacin almacenada en el Data Warehouse sirve, entre otras cosas, para realizar anlisis de tendencias. El Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones

No voltil
El almacn de informacin de un Data

Warehouse existe para ser ledo, y no modificado. La informacin es por tanto permanente, significando la actualizacin del Data Warehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

Anlisis multidimensional
E.F. Codd, considerado como el padre de las bases de

datos relacionales, ha venido insistiendo desde principio de los noventa, que disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones.
Muchas de estas decisiones se basan en un anlisis de

naturaleza multidimensional, que se intentan resolver con la tecnologa no orientada para esta naturaleza.
Este anlisis multidimensional, parte de una visin de la

informacin como dimensiones de negocio.

Dimensiones del negocio


Estas dimensiones de negocio se

comprenden mejor fijando un ejemplo, para lo que vamos a mostrar, para un sistema de gestin de expedientes, las jerarquas que se podran manejar para el nmero de los mismo para las dimensiones: zona geogrfica, tipo de expediente y tiempo de resolucin

Un gerente de una zona estara interesado en visualizar la informacin para su zona en el tiempo para todos los productos que distribuye, lo podra tener una representacin grfica como la siguiente:

Un director de producto, sin embargo querra examinar la distribucin geogrfica de sus productos, para toda la informacin histrica almacenada en el Data Warehouse

O se podra tambin examinar los datos en un determinado momento o una visin particularizada.

Para comprender el concepto de Data Warehouse, es importante considerar los procesos que lo conforman. A continuacin se describen dichos procesos clave en la gestin de un Data Warehouse

Procesos de un Data Warehouse


Extraccin: obtencin de informacin de las distintas

fuentes tanto internas como externas.


Elaboracin:filtrado, limpieza, depuracin,

homogeneizacin y agrupacin de la informacin.


Carga:organizacin y actualizacin de los datos y los

metadatos en la base de datos.


Explotacin:extraccin y anlisis de la informacin en los

distintos niveles de agrupacin.

Procesos de un Data Warehouse


Desde el punto de vista del usuario, el nico

proceso visible es la explotacin del almacn de datos, aunque el xito del Data Warehouse radica en los tres procesos iniciales que alimentan la informacin del mismo y suponen el mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacn.

Sistema tradicional y Data Warehouse


Predomina la actualizacin La actividad ms importante Predomina la consulta La actividad ms importante

es de tipo operativo, da a da Predomina el proceso puntual


Mayor importancia a la

es el anlisis y la decisin estratgica


Predomina el proceso masivo Mayor importancia al

estabilidad
Datos en general

dinamismo
Datos en distintos niveles de

desagregados
Importancia del dato actual

detalle y agregacin
Importancia del dato histrico

Sistema tradicional y Data Warehouse


Importante del tiempo de Importancia de la respuesta

respuesta de la transaccin

masiva
Visin multidimensional Usuarios de perfiles altos Explotacin de toda la

instantnea
Estructura relacional Usuarios de perfiles medios o

bajos
Explotacin de la informacin

informacin interna y externa


relacionada con el negocio

relacionada con la operativa de cada aplicacin

Desarrollo gradual
Una de las claves del xito en la construccin de un

Data Warehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.