Está en la página 1de 13

Data Warehouse

BASES DE DATOS AVANZADAS


L.I. Eloy Martnez Parra

Eduardo Velasco Vargas


8 Semestre

Acatlan de Osorio Puebla


Febrero 2012.

TABLA DE CONTENIDO

DATA WAREHOUSE

FUNDAMENTOS y Definicin de data Warehouse

CARACTERSTICAS

BENEFICIOS

ARQUITECTURA (CICLO DE VIDA) y Planificacin del Proyecto y Definicin de los Requerimientos del Negocio y Modelado Dimensional y Diseo Fsico y Diseo y Desarrollo de Presentacin de Datos y Diseo de la Arquitectura Tcnica y Seleccin de Productos e Instalacin y Especificacin de Aplicaciones para Usuarios Finales y Desarrollo de Aplicaciones para Usuarios Finales y Implementacin y Mantenimiento y crecimiento y Gerenciamiento del Proyecto y Puntos problemticos de un DW APLICACIONES

FUNDAMENTOS DE DATA WAREHOUSE DEFINICIONES DE DATA WAREHOUSE: El Data Warehouse es una coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin. Bill Inmon -Using de Data Warehouse. En el Data Warehouse se almacenan los datos de los sistemas transaccionales con una organizacin no relacional que facilita la consulta y la extraccin de informacin de grandes volmenes de datos. Los sistemas Data Warehouse estn orientados a procesos de consultas en contraposicin con los procesos transaccionales, sus tablas pueden no estar normalizadas y se admite redundancia en los datos. Data Warehouse es un sistema orientado al usuario final, integrado, con variaciones de tiempo y sobre todo una coleccin de datos como soporte al proceso de toma de decisiones. De acuerdo con algunas otras organizaciones, DATA WAREHOUSE, es una arquitectura. Para otros, es simplemente un almacn de datos (separados y que no interfiere con los sistemas operativos actuales de una empresa), para satisfacer las diversas consultas y requerimientos de informacin. Para algunos otros, DW es un proceso que agrupa datos desde mltiples fuentes heterogneas, incluyendo datos histricos para soportar la continua necesidad de consultas, reportes analticos y soporte de decisiones. En definitiva DATA WAREHOUSE no es ni un producto de software ni una mquina, o tecnologa de bases de datos en particular, sino una serie de componentes y procesos que en conjunto forman la arquitectura llamada DATA WAREHOUSE. Para comprender el concepto de Data Warehouse, es importante considerar los procesos que lo conforman. A continuacin se describen dichos procesos clave en la gestin de un Data Warehouse.

CARACTERSTICAS El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. Un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que

tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales.

BENEFICIOS Un Data Warehouse puede dar lugar a una serie de importantes beneficios para la organizacin. En cualquier caso, su utilizacin permitir que la informacin de gestin sea: Accesible, correcta, uniforme y actualizada. Estas caractersticas asociadas a la informacin contenida en un Data Warehouse, junto con otra serie de aspectos inherentes al mismo dan lugar a la obtencin de un conjunto de ventajas, que podemos resumir del siguiente modo:  Menor costo en la toma de decisiones. Se suprime el desperdicio de tiempo que se poda producir al intentar ejecutar consultas de datos largas y complejas con bases de datos que estaban diseadas especficamente para transacciones ms cortas y sencillas.  Posibilidad de encontrar relaciones ocultas. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos, obteniendo un valor aadido para el negocio.  Aprendizaje del pasado. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.  Mayor flexibilidad ante el entorno. El Data Warehouse convierte los datos operacionales en informacin relacionada y estructurada, que genera el conocimiento necesario para la toma de decisiones. Esto permite establecer una base nica del modelo de informacin de la organizacin, que puede dar lugar a una visin global de la informacin en base a los conceptos de negocio que tratan los usuarios. Adems, aporta una mejor calidad y flexibilidad en el anlisis del mercado, y del entorno en general. Esta visin global puede conllevar tambin la obtencin de otras ventajas competitivas, al permitir el desempeo de tareas que en los sistemas tradicionales sufriran un costo adicional, por ejemplo:

 Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en la calidad de gestin, lo que tambin repercute en la relacin con el cliente. De hecho, el que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una consecuencia directa en una mayor capacidad para responder a las necesidades de los clientes.
 Rediseo de procesos. Ofrecer a los usuarios una capacidad de

anlisis de la informacin de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una visin ms profunda y clara de los procesos de negocio propiamente dichos, lo que a su vez permite obtener ideas renovadoras para el rediseo de los mismos. ARQUITECTURA (CICLO DE VIDA)

Los ambientes operacionales pueden ser desarrollados por el clsico SDLC (Ciclo de vida del desarrollo de sistemas). El DW operaba bajo un ciclo de vida bastante diferente, a veces denominado CLDS (el inverso de SDLC). El clsico SDLC es guiado por los requerimientos. En una etapa posterior se comienza con el diseo y luego con el desarrollo. El CLDS es casi la inversa, comienza con los datos. Una vez que se identifica a los datos, los mismos son integrados y luego testeados. Ms tarde son desarrolladas las aplicaciones de explotacin y finalmente son atendidos los requerimientos de consulta de los usuarios. Dado el particular flujo del ciclo de vida, se lo suele llamar data-driven (guiado por los datos) en contraposicin al tradicional guiado por los requerimientos (requirement-driven) del SDLC. Ejemplos de esta metodologa de trabajo puede tambin encontrarse en donde se propone un enfoque metodolgico al estilo denominado Dimensional Fact Model (DFM), que comienza con el anlisis de los sistemas de informacin y luego se cubre los requerimientos de los usuarios en base a la informacin disponible en los sistemas fuentes. Es importante destacar tambin que el ciclo de vida de un DW es evolutivo y cclico ajustndose al ciclo de vida espiral aplicado en otros ambientes de desarrollo. Es por esta y otras razones que comnmente se dice que Data Warehousing es un proceso. El ciclo de vida de los Data Warehouse. El marco presentado con el nombre de Business Dimensional Lifecycle (BDL) ilustra las diferentes etapas por las que debe pasar todo proceso de Data Warehousing. El diagrama ilustra la secuencialidad de tareas de alto nivel requeridas para el efectivo diseo, desarrollo e implementacin de data Warehouse. El diagrama muestra una vista general del mapa de ruta de un proyecto en el cual cada rectngulo es un mojn que nos indica dnde estamos parados, por dnde pasamos y hacia dnde debemos dirigirnos.

Planificacin del Proyecto La planificacin busca identificar la definicin y el alcance del proyecto de data Warehouse, incluyendo justificaciones del negocio y evaluaciones de factibilidad. La planificacin del proyecto se focaliza sobre recursos, perfiles, tareas, duraciones y secuencialidad. El plan de proyecto resultante identifica todas las tareas asociadas con el BDL e identifica las partes involucradas.

Esta etapa se concentra sobre la definicin del proyecto (identificacin del escenario del proyecto para saber de dnde surge la necesidad del data Warehouse. Antes de comenzar un proyecto de data Warehouse o data mart, hay que estar seguro si existe la demanda y de dnde proviene. Si no se tiene un slido usuario sponsor y no hay usuarios entusiasmados, posponga el proyecto.

Factores asociados con estas etapas incluyen: identificacin de los usuarios sponsors, convincentes motivaciones del negocio, cooperacin entre reas de sistemas y negocios, cultura analtica de la organizacin y anlisis de factibilidad (tanto tecnolgica como de disponibilidad de datos). Definicin de los Requerimientos del Negocio Un factor determinante en el xito de un proceso de Data Warehousing es la interpretacin correcta de los diferentes niveles de requerimientos expresados por los diferentes niveles de usuarios. La tcnica utilizada para relevar los requerimientos de los analistas del negocio difiere de los enfoques tradicionales guiados por los datos. Los diseadores de los data Warehouse deben entender los factores claves que guan al negocio para determinar efectivamente los requerimientos y traducirlos en consideraciones de diseo apropiadas.

Los usuarios finales y sus requerimientos impactan siempre en las implementaciones realizadas de una data Warehouse, los requerimientos del negocio se posicionan en el centro del universo del data Warehouse. Como destaca siempre el autor, los requerimientos del negocio deben determinar el alcance del data Warehouse (qu datos debe contener, cmo debe estar organizado, cada cunto debe actualizarse, quines y desde dnde accedern, etc.).
Modelado Dimensional

La definicin de los requerimientos del negocio determina los datos necesarios para cumplir los requerimientos analticos de los usuarios. Disear los modelos de datos para soportar estos anlisis requiere un enfoque diferente al usado en los sistemas operacionales. Bsicamente se comienza con una matriz donde se determina la dimensionalidad de cada indicador y luego se especifican los diferentes grados de detalle (atributos) dentro de cada concepto del negocio (dimensin), como as tambin la granularidad de cada indicador (variable o mtrica) y las

diferentes jerarquas que dan forma al modelo dimensional del negocio (BDM) o mapa dimensional. Diseo Fsico El diseo fsico de las base de datos se focaliza sobre la seleccin de las estructuras necesarias para soportar el diseo lgico. Algunos de los elementos principales de este proceso son la definicin de convenciones estndares de nombres y seteos especficos del ambiente de la base de datos. La indexacin y las estrategias de particionamiento son tambin determinadas en esta etapa.
Diseo y Desarrollo de Presentacin de Datos

Esta etapa es tpicamente la ms subestimada de las tareas en un proyecto de data Warehouse. Las principales sub-etapas de esta zona del ciclo de vida son: La extraccin, la transformacin y la carga (ETL process). Se definen como procesos de extraccin a aquellos requeridos para obtener los datos que permitirn efectuar la carga del Modelo Fsico acordado. As mismo, se definen como procesos de transformacin los procesos para convertir o recodificar los datos fuente a fin poder efectuar la carga efectiva del Modelo Fsico. Por otra parte, los procesos de carga de datos son los procesos requeridos para poblar el Data Warehouse. Todas estas tareas son altamente crticas pues tienen que ver con la materia prima de la data Warehouse: los datos. La desconfianza y prdida de credibilidad de la data Warehouse sern resultados inmediatas e inevitables si el usuario choca con informacin inconsistente. Es por ello que la calidad de los datos es un factor determinante en el xito de un proyecto de data warehousing. Es en esta etapa donde deben sanearse todos los inconvenientes relacionados con la calidad de los datos fuente. Diseo de la Arquitectura Tcnica Los ambientes de data warehousing requieren la integracin de numerosas tecnologas. Se debe tener en cuenta tres factores: los requerimientos del negocio, los actuales ambientes tcnicos y las directrices tcnicas estratgicas futuras planificadas para de esta forma poder establecer el diseo de la arquitectura tcnica del ambiente de data warehousing. Seleccin de Productos e Instalacin Utilizando el diseo de arquitectura tcnica como marco, es necesario evaluar y seleccionar componentes especficos de la arquitectura como ser la plataforma de hardware, el motor de base de datos, la herramienta de ETL o el desarrollo pertinente, herramientas de acceso, etc.

Una vez evaluados y seleccionados los componentes determinados se procede con la instalacin y prueba de los mismos en un ambiente integrado de data warehousing. Especificacin de Aplicaciones para Usuarios Finales No todos los usuarios del Warehouse necesitan el mismo nivel de anlisis. Es por ello que en esta etapa se identifican los diferentes roles o perfiles de usuarios para determinar los diferentes tipos de aplicaciones necesarias en base al alcance de los diferentes perfiles (gerencial, analista del negocio, vendedor, etc.). Desarrollo de Aplicaciones para Usuarios Finales Siguiendo a la especificacin de las aplicaciones para usuarios finales, el desarrollo de las aplicaciones de los usuarios finales involucra configuraciones de la meta data y construccin de reportes especficos. Una vez que se ha cumplido con todos los pasos de la especificacin y se tiene la posibilidad de trabajar con algunos datos de prueba, comienza el desarrollo de la aplicacin:      Seleccin de un enfoque de implementacin Desarrollo de la aplicacin Prueba y verificacin de datos Documentacin y Roll Out Mantenimiento.

Implementacin La implementacin representa la convergencia de la tecnologa, los datos y las aplicaciones de usuarios finales accesible desde el escritorio del usuario del negocio. Hay varios factores extras que aseguran el correcto funcionamiento de todas estas piezas, entre ellos se encuentran la capacitacin, el soporte tcnico, la comunicacin, las estrategias de feedback. Todas estas tareas deben ser tenidas en cuenta antes de que cualquier usuario pueda tener acceso a la data Warehouse.

Mantenimiento y crecimiento Como se remarca siempre, Data Warehousing es un proceso (de etapas bien definidas, con comienzo y fin, pero de naturaleza espiral) pues acompaa a la evolucin de la organizacin durante toda su historia. Se necesita continuar con los relevamientos de forma constante para poder seguir la evolucin de las metas por conseguir. Si se ha utilizado el BDL el data Warehouse est preparado para evolucionar y crecer. Al contrario de los sistemas tradicionales, los cambios en el desarrollo deben ser vistos como signos de xito y no de falla. Es importante establecer las prioridades para poder manejar los nuevos requerimientos de los usuarios y de esa forma poder evolucionar y crecer. Gerenciamiento del Proyecto El gerenciamiento del proyecto asegura que las actividades del BDL se lleven en forma y sincronizadas. Como lo indica el diagrama, el gerenciamiento acompaa todo el ciclo de vida. Entre sus actividades principales se encuentra el monitoreo del estado del proyecto y la comunicacin entre los requerimientos del negocio y las restricciones de informacin para poder manejar correctamente las expectativas en ambos sentidos.

Puntos problemticos de un DW Los principales puntos de atencin que pueden llegar a complicar un proyecto de data warehousing se discriman en segn las siguientes tres reas: Rutinas de Carga. Incluye programas de extraccin y limpieza de datos. Surgen problemas en este punto dada la falta de integracin y estructura consistente (alineada) entre los sistemas fuentes. Mantenimiento. Dados los diferentes perodos de almacenamiento para OLTP y OLAP y el hecho de que los DW son sistemas secundarios de informacin, otro problema surge para sincronizar los datos entre los sistemas operacionales fuentes y los Warehouse. Tuning. Dado los patrones de uso y los mtodos de acceso tpicos de los sistemas OLAP, diseadores y administradores deben realizar cambios significativos a los implementados en el Tuning de sistemas OLTPs.

APLICACIONES APLICACIONES DONDE SE APLICA EL DW     Data Warehouse y Sistemas de Marketing Data Warehouse y Anlisis de Riesgo Financiero Data Warehouse y Anlisis de Riesgo de Crdito Data Warehouse: Otras reas de Aplicacin

Data Warehouse y Sistemas de Marketing La aplicacin de tecnologas de Data Warehouse supone un nuevo enfoque de Marketing, haciendo uso del Marketing de Base de Datos. En efecto, un sistema de Marketing Warehouse implica un marketing cientfico, analtico y experto, basado en el conocimiento exhaustivo de clientes, productos, canales y mercado. Este conocimiento se deriva de la disposicin de toda la informacin necesaria, tanto interna como externa, en un entorno de Data Warehouse, persiguiendo con toda esta informacin, la optimizacin de las variables controladas del Marketing Mix y el soporte a la prediccin de las variables no controlables (mediante tcnicas de Data Mining). Data Warehouse y Anlisis de Riesgo Financiero El Data Warehouse aplicado al anlisis de riesgos financieros ofrece capacidades avanzadas de desarrollo de aplicaciones para dar soporte a las diversas actividades de gestin de riesgos. Es posible desarrollar cualquier herramienta utilizando las funciones que incorpora la plataforma, gracias a la potencionalidad estadstica aplicada al riesgo de crdito. El uso del Data Warehouse ofrece una gran flexibilidad para creacin o modificacin de modelos propios de valoracin y medicin de riesgos, tanto motivados por cambios en la regulacin, como en avances en la modelizacin de estos instrumentos financieros. Ello por cuanto se puede almacenar y poner a disposicin informacin histrica de mercado y el uso de tcnicas de Data Mining nos simplifica la implantacin de cualquier mtodo estadstico. Data Warehouse y Anlisis de Riesgo de Crdito La informacin relativa a clientes y su entorno se ha convertido en fuente de prevencin de Riesgos de Crdito. En efecto, existe una tendencia general en todos los sectores a recoger, almacenar y analizar informacin crediticia como soporte a la toma de decisiones de Anlisis de Riesgos de Crdito. Los avances en la tecnologa de Data Warehouse hacen posible la optimizacin de los sistemas de Anlisis de Riesgo de Crdito.

Data Warehouse: Otras reas de aplicacin Otras reas de la empresa han aplicado las soluciones que proporciona la tecnologa Data Warehouse para mejorar gran parte de sus procesos actuales. Entre ellas destacamos:
y y

Control de Gestin Logstica

Mejora de la relacin con proveedores, Racionalizacin de los procesos de control de inventarios, Optimizacin de los niveles de produccin, Previsin de la demanda en infraestructura.
y

Recursos Humanos

Planificacin de incorporaciones, Gestin de carreras profesionales, Asignacin de recursos a proyectos alternativos.

También podría gustarte