Está en la página 1de 33

El Data Warehouse es una coleccin de datos

orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin. Bill Inmon -Using de Data Warehouse.

Los datos almacenados en el Data Warehouse

deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas.
La informacin suele estructurarse tambin en

distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Slo los datos necesarios para el proceso de generacin del

conocimiento del negocio se integran desde el entorno operacional.


Los datos se organizan por temas para facilitar su acceso y

entendimiento por parte de los usuarios finales.


Por ejemplo, todos los datos sobre clientes pueden ser

consolidados en una nica tabla del Data Warehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar

El tiempo es parte implcita de la informacin

contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente.
La informacin almacenada en el Data Warehouse

sirve, entre otras cosas, para realizar anlisis de tendencias.


El Data Warehouse se carga con los distintos valores

que toma una variable en el tiempo para permitir comparaciones

El almacn de informacin de un Data

Warehouse existe para ser ledo, y no modificado.


La informacin es por tanto permanente,

significando la actualizacin del Data Warehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

Los Datamarts(DMs) son DWs de alcance limitados,

dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.

Tanto los DWs como los DMs forman la base a partir

de la cual las empresas pueden utilizar las herramientas BI Business Intelligence -para la extraccin de informaciones gerenciales

Datos operacionales Contenido Organizacin Estabilidad


Valores elementales Por aplicacin Dinmicos

Data Warehouse
Datos sumarizados, derivados Por tema Estticos hasta su actualizacin

Datos operacionales Estructura Frecuencia de acceso Tipo de acceso


Optimizada para uso transaccional (NORMALIZADA) Alta

Data Warehouse
Optimizada para querys complejos (DESNORMALIZADA) Media y baja

Lectura / escritura Lectura Actualizacin Sumarizacin campo por campo

Datos operacionales Uso Tiempo de respuesta


Predecible Repetitivo Segundos

Data Warehouse
Ad hoc Heurstico Segundos a minutos

Demasiados datos
datos corruptos o con ruido
datos redundantes (requieren factorizacin) datos irrelevantes excesiva cantidad de datos

Pocos datos
atributos perdidos (missings)
valores perdidos poca cantidad de datos

Datos fracturados
datos incompatibles mltiples fuentes de datos

Cuntas filas?.

Cuntas columnas?.
Cunta historia? Regla general : cuanto ms datos, mejor

En la prctica : condicionado a los recursos de

obtencin y procesamiento.

Los Datamarts(DMs) son DWs de alcance limitados,

dicho de otra manera son pequeos repositorios de datos especficos para cada rea de negocios o departamentos de las empresas.

E.F. Codd, considerado como el padre de las bases de datos

relacionales, ha venido insistiendo desde principio de los noventa, que disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones.
Muchas de estas decisiones se basan en un anlisis de

naturaleza multidimensional, que se intentan resolver con la tecnologa no orientada para esta naturaleza.
Este anlisis multidimensional, parte de una visin de la

informacin como dimensiones de negocio.

Estas dimensiones de negocio se comprenden mejor

fijando un ejemplo, para lo que vamos a mostrar, para un sistema de gestin de expedientes, las jerarquas que se podran manejar para el nmero de los mismo para las dimensiones: zona geogrfica, tipo de expediente y tiempo de resolucin

Otra caracterstica del Data Warehouse es que

contiene datos relativos a los datos, concepto que se ha venido asociando al trmino de metadatos.
Los metadatos permiten mantener informacin de la

procedencia de la informacin, la periodicidad de refresco, su fiabilidad, forma de clculo, etc., relativa a los datos de nuestro almacn.

Estos metadatos sern los que permitan simplificar y

automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales.

Soportar al usuario final, ayudndole a acceder al Data

Warehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de navegacin

Soportar a los responsables tcnicos del Data

Warehouse en aspectos de auditora, gestin de la informacin histrica, administracin del Data Warehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos, etc.

Extraccin: obtencin de informacin de las distintas

fuentes tanto internas como externas.


Elaboracin:filtrado, limpieza, depuracin,

homogeneizacin y agrupacin de la informacin.


Carga:organizacin y actualizacin de los datos y los

metadatos en la base de datos.


Explotacin:extraccin y anlisis de la informacin en los

distintos niveles de agrupacin.

Desde el punto de vista del usuario, el nico proceso

visible es la explotacin del almacn de datos, aunque el xito del Data Warehouse radica en los tres procesos iniciales que alimentan la informacin del mismo y suponen el mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacn.

Predomina la actualizacin La actividad ms importante es de tipo operativo, da a da Predomina el proceso puntual


Predomina la consulta La actividad ms importante es el anlisis y la decisin estratgica


Predomina el proceso masivo Mayor importancia al dinamismo Datos en distintos niveles de detalle y agregacin Importancia del dato histrico

Mayor importancia a la estabilidad Datos en general desagregados Importancia del dato actual

Importante del tiempo de

Importancia de la respuesta

respuesta de la transaccin instantnea


Estructura relacional Usuarios de perfiles medios o

masiva
Visin multidimensional Usuarios de perfiles altos Explotacin de toda la

bajos
Explotacin de la informacin

relacionada con la operativa de cada aplicacin

informacin interna y externa relacionada con el negocio

Una de las claves del xito en la construccin de un

Data Warehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios.
Por ello es importante elegir este usuario inicial o

piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares