Está en la página 1de 23

1.- OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line Analytical Processing).

Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares. La razn de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE. Funcionalidad En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de hechos numricos llamados medidas que se clasifican por dimensiones. El cubo de metadatos es tpicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensin de los cuadros. Tipos de sistemas OLAP Tradicionalmente, los sistemas OLAP se clasifican segn las siguientes categoras: ROLAP Implementacin OLAP que almacena los datos en un motor relacional. Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas Los esquemas ms comunes sobre los que se trabaja son estrella copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. La arquitectura est compuesta por un servidor de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es que permite el anlisis de una enorme cantidad de datos. MOLAP Esta implementacin OLAP almacena los datos en una base de datos multidimensional. Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente

calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados.

HOLAP (Hybrid OLAP) Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional. Comparacin Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de las caractersticas especficas de los beneficios entre los proveedores). Algunas implementaciones MOLAP son propensas a la "explosin" de la base de datos; este fenmeno provoca la necesidad de grandes cantidades de espacio de almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas condiciones: elevado nmero de dimensiones, resultados precalculados y escasos datos multidimensionales. Las tcnicas habituales de atenuacin de la explosin de la base de datos no son todo lo eficientes que sera deseable. Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexacin y a las optimizaciones de almacenamiento. MOLAP tambin necesita menos espacio de almacenamiento en comparacin con los especializados ROLAP porque su almacenamiento especializado normalmente incluye tcnicas de compresin. ROLAP es generalmente ms escalable. Sin embargo, el gran volumen de preprocesamiento es difcil de implementar eficientemente por lo que con frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verse afectado. Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases de datos preparadas para realizar clculos, las funciones especializadas que se pueden utilizar tienen ms limitaciones. HOLAP (OLAP Hbrido) engloba un conjunto de tcnicas que tratan de combinar MOLAP y ROLAP de la mejor forma posible. Generalmente puede pre-procesar rpidamente, escala bien, y proporciona una buena funcin de apoyo. Otros tipos Los siguientes acrnimos a veces tambin se utilizan, aunque no son sistemas tan generalizados como los anteriores:

WOLAP o Web OLAP: OLAP basado u orientado para la web. DOLAP o Desktop OLAP: OLAP de escritorio RTOLAP o Real Time OLAP: OLAP en tiempo real SOLAP o Spatial OLAP: OLAP espacial 2.- Datawarehouse Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las

interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc. Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa: Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. 3.- Datamart Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de informacin.

Por tanto, para crear el datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts: Datamart OLAP Se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice.

Datamart OLTP Pueden basarse en un simple extracto del datawarehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Las estructuras ms comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque slo es posibles en algunos SGBD avanzados, como Oracle). Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos

4.- herramientas datawahrehouse Sistemas de Soporte a la Decisin (DSS) Un Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada al anlisis de los datos de una organizacin. En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo,

no es as: estas aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos, manejarlos desde distintas perspectivas... etc.

El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas son algunas de sus caractersticas principales: Informes dinmicos, flexibles e interactivos, de manera que el usuario no tenga que ceirse a los listados predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus dudas reales. No requiere conocimientos tcnicos. Un usuario no tcnico puede crear nuevos grficos e informes y navegar entre ellos, haciendo drag&drop o drill through. Por tanto, para examinar la informacin disponible o crear nuevas mtricas no es imprescindible buscar auxilio en el departamento de informtica. Rapidez en el tiempo de respuesta, ya que la base de datos subyacente suele ser un datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve. Este tipo de bases de datos estn optimizadas para el anlisis de grandes volmenes de informacin (vease nalisis OLTP-OLAP). Integracin entre todos los sistemas/departamentos de la compaa. El proceso de ETL previo a la implantacin de un Sistema de Soporte a la Decisin garantiza la calidad y la integracin de los datos entre las diferentes unidades de la empresa. Existe lo que se llama: integridad referencial absoluta. Cada usuario dispone de informacin adecuada a su perfil. No se trata de que todo el mundo tenga acceso a toda la informacin, sino de que tenga acceso a la informacin que necesita para que su trabajo sea lo ms eficiente posible.

Disponibilidad de informacin histrica. En estos sistemas est a la orden del da comparar los datos actuales con informacin de otros perodos histricos de la compaa, con el fin de analizar tendencias, fijar la evolucin de parmetros de negocio... etc.

Diferencia con otras herramientas de Business Intelligence El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia de otras herramientas como los Cuadros de Mando (CMI) o los Sistemas de Informacin Ejecutiva (EIS), explotar al mximo la informacin residente en una base de datos corporativa (datawarehouse o datamart), mostrando informes muy dinmicos y con gran potencial de navegacin, pero siempre con una interfaz grfica amigable, vistosa y sencilla.

Otra diferencia fundamental radica en los usuarios a los que estn destinadas las plataformas DSS: cualquier nivel gerencial dentro de una organizacin, tanto para situaciones estructuradas como no estructuradas. (En este sentido, por ejemplo, los CMI estn ms orientados a la alta direccin). Por ltimo, destacar que los DSS suelen requerir (aunque no es imprescindible) un motor OLAP subyacente, que facilite el anlisis casi ilimitado de los datos para hallar las causas raices de los problemas/pormenores de la compaa.

Tipos de Sistemas de Soporte a Decisiones Sistemas de informacin gerencial (MIS) Los sistemas de informacin gerencial (MIS, Management Information Systems), tambien llamados Sistemas de Informacin Administrativa (AIS) dan soporte a un

espectro ms amplio de tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin CRM/ERP implantada en la misma compaa. Sistemas de informacin ejecutiva (EIS) Los sistemas de informacin ejecutiva (EIS, Executive Information System) son el tipo de DSS que ms se suele emplear en Business Intelligence, ya que proveen a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. Sistemas expertos basados en inteligencia artificial (SSEE) Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Este concepto est muy relacionado con el datamining. Sistemas de apoyo a decisiones de grupo (GDSS) Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.

Sistemas de Informacin Ejecutiva (EIS) Un Sistema de Informacin para Ejecutivos o Sistema de Informacin Ejecutiva es una herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado de los indicadores de negocio que le afectan al instante, manteniendo tambin la

posibilidad de analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para determinar el plan de accin ms adecuado.

De forma ms pragmtica, se puede definir un EIS como una aplicacin informtica que muestra informes y listados (query & reporting) de las diferentes reas de negocio, de forma consolidada, para facilitar la monitorizacin de la empresa o de una unidad de la misma. El EIS se caracteriza por ofrecer al ejecutivo un acceso rpido y efectivo a la informacin compartida, utilizando interfaces grficas visuales e intutivas. Suele incluir alertas e informes basados en excepcin, as como histricos y anlisis de tendencias. Tambin es frecuente que permita la domiciliacin por correo de los informes ms relevantes. A travs de esta solucin se puede contar con un resumen del comportamiento de una organizacin o rea especfica, y poder compararla a travs del tiempo. Es posible, adems, ajustar la visin de la informacin a la teora de Balanced Scorecard o Cuadro de Mando Integral impulsada por Norton y Kaplan, o bien a cualquier modelo estratgico de indicadores que maneje la compaa.

Cuadro de Mando Integral El Cuadro de Mando Integral (CMI), tambin conocido como Balanced Scorecard (BSC) o dashboard, es una herramienta de control empresarial que permite establecer y monitorizar los objetivos de una empresa y de sus diferentes reas o unidades. Tambin se puede considerar como una aplicacin que ayuda a una compaa a expresar los objetivos e iniciativas necesarias para cumplir con su estrategia, mostrando de forma continuada cundo la empresa y los empleados alcanzan los resultados definidos en su plan estratgico.

Diferencia con otras herramientas de Business Intelligence El Cuadro de Mando Integral se diferencia de otras herramientas de Business Intelligence, como los Sistemas de Soporte a la Decisin (DSS) o los Sistemas de Informacin Ejecutiva (EIS), en que est ms orientados al seguimiento de indicadores que al anlisis minucioso de informacin. Por otro lado, es muy comn que un CMI sea controlado por la direccin general de una compaa, frente a otras herramientas de Business Intelligence ms enfocadas a a la direccin departamental. El CMI requiere, por tanto, que los directivos analicen el mercado y la estrategia para construir un modelo de negocio que refleje las interrelaciones entre los diferentes componentes de la empresa (plan estratgico). Una vez que lo han construido, los responsables de la organizacin utilizan este modelo como mapa para seleccionar los indicadores del CMI.

Tipos de Cuadros de Mando El Cuadro de Mando Operativo (CMO), es una herramienta de control enfocada al seguimiento de variables operativas, es decir, variables pertenecientes a reas o departamentos especficos de la empresa. La periodicidad de los CMO puede ser diaria, semanal o mensual, y est centrada en indicadores que generalmente representan procesos, por lo que su implantacin y puesta en marcha es ms sencilla y rpida. Un

CMO debera estar siempre ligado a un DSS (Sistema de Soporte a Decisiones) para indagar en profundidad sobre los datos. El Cuadro de Mando Integral (CMI), por el contrario, representa la ejecucin de la estrategia de una compaa desde el punto de vista de la Direccin General (lo que hace que sta deba estar plenamente involucrada en todas sus fases, desde la definicin a la implantacin). Existen diferentes tipos de cuadros de mando integral, si bien los ms utilizados son los que se basan en la metodologa de Kaplan & Norton. La principales caractersticas de esta metodologa son que utilizan tanto indicadores financieros como no financieros, y que los objetivos estratgicos se organizan en cuatro reas o perspectivas: financiera, cliente, interna y aprendizaje/crecimiento. La perspectiva financiera incorpora la visin de los accionistas y mide la creacin de valor de la empresa. Responde a la pregunta: Qu indicadores tienen que ir bien para que los esfuerzos de la empresa realmente se transformen en valor? Esta perspectiva valora uno de los objetivos ms relevantes de organizaciones con nimo de lucro, que es, precisamente, crear valor para la sociedad. La perspectiva del cliente refleja el posicionamiento de la empresa en el mercado o, ms concretamente, en los segmentos de mercado donde quiere competir. Por ejemplo, si una empresa sigue una estrategia de costes es muy posible que la clave de su xito dependa de una cuota de mercado alta y unos precios ms bajos que la competencia. Dos indicadores que reflejan este posicionamiento son la cuota de mercado y un ndice que compare los precios de la empresa con los de la competencia. La perspectiva interna recoge indicadores de procesos internos que son crticos para el posicionamiento en el mercado y para llevar la estrategia a buen puerto. En el caso de la empresa que compite en coste, posiblemente los indicadores de productividad, calidad e innovacin de procesos sean importantes. El xito en estas dimensiones no slo afecta a la perspectiva interna, sino tambin a la financiera, por el impacto que tienen sobre las rbricas de gasto. La perspectiva de aprendizaje y crecimiento es la ltima que se plantea en este modelo de CMI. Para cualquier estrategia, los recursos materiales y las personas son la clave del xito. Pero sin un modelo de negocio apropiado, muchas veces es difcil apreciar la importancia de invertir, y en pocas de crisis lo primero que se recorta es precisamente la fuente primaria de creacin de valor: se recortan inversiones en la mejora y el desarrollo de los recursos.

Pese a que estas cuatro son las perspectivas ms genricas, no son "obligatorias". Por ejemplo, una empresa de fabricacin de ropa deportiva tiene, adems de la perspectiva de clientes, una perspectiva de consumidores. Para esta empresa son tan importantes sus distribuidores como sus clientes finales. Una vez que se tienen claros los objetivos de cada perspectiva, es necesario definir los indicadores que se utilizan para realizar su seguimiento. Para ello, debemos tener en cuenta varios criterios: el primero es que el nmero de indicadores no supere los siete por perspectiva, y si son menos, mejor. La razn es que demasiados indicadores difuminan el mensaje que comunica el CMI y, como resultado, los esfuerzos se dispersan intentando perseguir demasiados objetivos al mismo tiempo. Puede ser recomendable durante el diseo empezar con una lista ms extensa de indicadores. Pero es necesario un proceso de sntesis para disponer de toda la fuerza de esta herramienta. No obstante, la aportacin que ha convertido al CMI en una de las herramientas ms significativas de los ltimos aos es que se cimenta en un modelo de negocio. El xito de su implantacin radica en que el equipo de direccin se involucre y dedique tiempo al desarrollo de su propio modelo de negocio.

Beneficios de la implantacin de un Cuadro de Mando Integral

La fuerza de explicitar un modelo de negocio y traducirlo en indicadores facilita el consenso en toda la empresa, no slo de la direccin, sino tambin de cmo alcanzarlo. Clarifica cmo las acciones del da a da afectan no slo al corto plazo, sino tambin al largo plazo.

Una vez el CMI est en marcha, se puede utilizar para comunicar los planes de la empresa, aunar los esfuerzos en una sola direccin y evitar la dispersin. En este caso, el CMI acta como un sistema de control por excepcin. Permita detectar de forma automtica desviaciones en el plan estratgico u operativo, e incluso indagar en los datos operativos de la compaa hasta descubrir la causa original que di lugar a esas desviaciones.

Riesgos de la implantacin de un Cuadro de Mando Integral


Un modelo poco elaborado y sin la colaboracin de la direccin es papel mojado, y el esfuerzo ser en vano. Si los indicadores no se escogen con cuidado, el CMI pierde una buena parte de sus virtudes, porque no comunica el mensaje que se quiere transmitir. Cuando la estrategia de la empresa est todava en evolucin, es contraproducente que el CMI se utilice como un sistema de control clsico y por excepcin, en lugar de usarlo como una herramienta de aprendizaje. Existe el riesgo de que lo mejor sea enemigo de lo bueno, de que el CMI sea perfecto, pero desfasado e intil.

5.- Diagrama en Estrella Uno de los tipos de consultas ms usadas en las OLAP es la llamada Estrella. Su nombre lo adquiere debido a que su implementacin en un ambiente relacional (MOLAP Multidimentional Online Analitical Processing) est dado por varias tablas que almacenan las jerarquas dimensionales y una tabla que contiene el hecho con una relacin 1:m con estas tablas de dimensiones. Veamos un ejemplo grfico: Figura 2: Diagrama en estrella del Hecho, Ventas. (Microsoft Data Warehouse Training Kit, 2000)

Como podemos ver en la figura las tablas de dimensiones estn ligadas a la tabla Hecho, por relaciones. La integridad referencial es llevada a cabo por la creacin de llaves forneas en la tabla Hecho, que a su ves forman parte de la llave principal de la esta tabla. Es importante destacar que las jerarquas completas son guardadas en una sola tabla dimensin. Este es el formato no normalizado, existe otro formato que intenta normalizar estas tablas dimensin. Ejemplo (Time_Dim). Cada tabla dimensin tiene su propia llave que es mantenida por el sistema Data Warehouse. A estas llaves se les llama Surrogate Key. Las llaves Surrogate Jerrquicas, no son ms que una codificacin de cada elemento de la jerarqua almacenado en la tabla dimensin. Veamos la figura 3 de cmo se logran estas llaves. Figura 3: Formacin de una llave Surrogate Jerrquica (Robert Wrembel & Christian Concilia, 2007)

Vamos a ver ahora como sera una consulta sobre este tipo de diagrama en estrella: Figura 3: Plantilla de consulta para una consulta en estrella (ad hoc star query) (Robert Wrembel & Christian Concilia, 2007)

Nota: En la figura las D1, D2, .. , Dk significan tablas de dimensin y los LP1, LP2, ,LPk son los predicados usados para simplificar la consulta. El ejemplo siguiente muestra mejor como sera esta consulta: (Robert Wrembel & Christian Concilia, 2007)

En este tipo de procesamiento el mayor de los problemas es el super join que se crea al procesar las tablas de dimensiones con los datos de la tabla Hecho, para esto se han hecho varios estudios sobre la mejor forma de hacer este tipo de consultas de forma que sean lo ms ptimas posibles, una de las tcnicas mejores probadas es la de reescribir la consulta como lo muestra el siguiente ejemplo que mostramos: Ejemplo: Optimizar la consulta en el Data Warehouse (Robert Wrembel & Christian Concilia, 2007)

Para cerrar con broche dorado este tema es necesario hacer alusin a los llamados Cubos de datos: Estos no son ms que el conjunto formado por todas las tablas Dimensin y la tabla Hecho que al final dan una vista en forma de Cubo cuyas celdas estn compuestas por las medidas de la tabla Hecho. Esta es la base de las aplicaciones OLAP. El cubo de datos es lo que hace que los reportes sean obtenidos con un bajo tiempo de respuesta y que el anlisis de los datos pueda ser tan diverso, pues cada cara del cubo se refiere a un anlisis distinto de las medidas almacenadas. Veamos el ejemplo grfico del cubo: Figura 4: Cubo de datos (Microsoft Books Online, 2000)

Como podemos ver en el ejemplo la cantidad de produccin puede ser analizada por producto, teniendo en cuenta la dimensin Producto, Por Tiempo, por Localizacin de las Industrias o en su conjunto por todas ellas a la vez o cualquier combinacin de estas. Esto le da al analista o al sistema experto una amplia gama de posibilidades de las cuales puede tomar ventaja. En nuestro caso de estudio de las ventas. El cubo de datos formado por la Tabla Sales_Fac en conjunto con las restantes tablas de Dimensin nos permite analizar las ventas por Empleado, por Consumidor, por Tiempo, Etc. Esquema en copos de nieve Esquema en copo de nieve (bola de nieve) es una variedad ms compleja del esquema estrella. El afinamiento est orientado a facilitar mantenimiento de dimensiones. Lo que distingue a la arquitectura en copo de nieve de la esquema estrella, es que las tablas de dimensiones en este modelo representan relaciones normalizadas (3NF) y forman parte de un modelo relacional de base de datos. Con varios usos del esquema en bola de nieve, el ms comn es cuando las tablas de dimensiones estn muy grandes o complejos y es muy difcil representar los datos en esquema estrella. Por ejemplo, si una tabla dimensional de los clientes (CUSTOMERS) contiene un million de filas, seria una idea buena crear una tabla con grupos de clientes (CUSTOMER_GROUPS) y mover los datos comunes para cada grupo de clientes a esta tabla. El tamao de estas dos tablas ser mucho menor que de una tabla no normalizada con todos los datos de clientes. El problema es que para extraer datos de las tablas en esquema de copo de nieve, a veces hay que vincular muchas tablas en las sentencias SQL que puede llegar a ser muy complejo y difcil para mantener.

Un ejemplo del esquema en copos de nieve

6.- Tabla de Hechos y dimensiones

Qu es una tabla de hecho? Una tabla de hecho es una representacin de un proceso de negocio. A nivel de diseo es una tabla que permite guardar dos tipos de atributos diferenciados: Medidas del proceso / actividad / flujo de trabajo / evento que se pretende modelizar. Claves forneas hacia registros en una tabla de dimensin (o en otras palabras, como ya sabemos, hacia una vista de negocio). Hemos ya hablado de esos conceptos en artculos anteriores. Otra forma de pensar en una tabla de hecho es que es una coleccin de fotografas de un evento que nos permiten determinar la evolucin del mismo. Tipos de tablas de hecho En el momento de hablar de los diferentes tipos de tabla de hechos que existen es preciso indicar que se va a usar la terminologa original por ser mucho ms precisa:

- Transaction Fact Tables: Representan eventos que suceden en un determinado espacio-tiempo. Se caracterizan por permitir analizar los datos con el mximo detalle. - Factless Fact Tables/Coverage Tables: Son tablas que no tienen medidas y tiene sentido dado que representan el hecho que el evento suceda. Frecuentemente se aaden contadores a dichas tablas para facilitar las consultas SQL. - Periodic Snapshot Fact Tables: Son tablas de hecho usadas para recoger informacin de forma peridica a intervalos de tiempo regulares. Dependiendo de la situacin medida o de la necesidad de negocio este tipo de tablas de hecho son una agregacin de las anteriores o estn diseadas especficamente. - Accumulating Snapshot Fact Table: Representan el ciclo de vida completo de una actividad o proceso, que tiene un principio y final. Se caracterizan por presentar mltiples dimensiones que relacionadas con los eventos presentes en un proceso. Con la vista puesta de entrar en detalle a hablar sobre el diseo de data warehouse, vamos a definir conceptos bsicos: tabla de hecho, dimensin y mtricas. Si bien en las estructuras relacionales existentes en nuestras bases de datos transaccionales tenemos que crear un diseo lgico siguiendo las formas normales, en el data warehouse no debe seguirse ese patrn de diseo. La idea principal es que la informacin sea presentada desnormalizada para optimizar la consultas. Para ello debemos identificar en el seno de nuestra organizacin, los procesos de negocio, las vistas para el proceso de negocio y medidas cuantificables asociadas a los mismos. De esta manera hablaremos de: - Tabla de hecho: Es la representacin en el data warehouse de los procesos de negocio de la organizacin. Por ejemplo, una venta puede identificarse como un proceso de negocio de manera que es factible, si corresponde en nuestra organizacin, considerar la tabla de hecho ventas. - Dimensin: Es la representacin en el data warehouse de una vista para un cierto proceso de negocio. Si regresamos al ejemplo de una venta, para la misma tenemos el cliente que ha comprado, la fecha en la que se ha realizado, Estos conceptos pueden ser considerados como vistas para este proceso de negocio. Puede ser interesante recuperar todas las compras realizadas por un cliente. Ello nos hace entender por qu la identificamos como una dimensin. - Mtrica: Son los indicadores de negocio de un proceso de negocio. Aquellos conceptos cuantificables que permiten medir nuestro proceso de negocio. Por ejemplo, en una venta tenemos el importe de la misma.

8.- Bases de datos OLTP y OLAP


OLTP - On-Line Transactional Processing
Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos. El proceso transaccional es tpico de las bases de datos operacionales.

El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente). Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o CRM implantado, sistema de informacin departamental...). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es comn la falta de compatibilidad y la existencia de islas de datos). El historial de datos suele limitarse a los datos actuales o recientes.

OLAP - On-Line Analytical Processing


Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc. Este sistema es tpico de los datamarts. El acceso a los datos suele ser de slo lectura. La accin ms comn es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones. Los datos se estructuran segn las reas de negocio, y los formatos de los datos estn integrados de manera uniforme en toda la organizacin. El historial de datos es a largo plazo, normalmente de dos a cinco aos. Las bases de datos OLAP se suelen alimentar de informacin procedente de los sistemas operacionales existentes, mediante un proceso de extraccin, transformacin y carga (ETL).

9.- Aunque no todo es tan complicado como parece (O si?) , Existe software especializado para crear Cubos OLAP como : Pentaho: Que es pentaho?

Pentaho es la solucin BI Open Source lder del mercado y la mejor alternativa a los productos comerciales. Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de anlisis e informes integrado con un motor de workflow de procesos de negocio. La plataforma ser capaz de ejecutar

las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la informacin adecuada en el momento adecuado, mediante analisis OLAP, Cuadros de Mando, etc La plataforma Open Source Pentaho Business Intelligence cubre muy amplias necesidades de Anlisis de los Datos y de los Informes empresariales. Las soluciones de Pentaho estn escritas en Java y tienen un ambiente de implementacin tambin basado en Java. Eso hace que Pentaho es una solucin muy flexible para cubrir una amplia gama de necesidades empresariales tanto las tpicas como las sofisticadas y especificas al negocio Mondrian: Que es Mondrian?

Mondrian es un servidor OLAP que esta escrito en Java. Permite interactuar con grandes cantidades de datos almacenados en Bases de Datos relacionales, sin necesidad de utilizar complejas sentencias SQL. /* Bueno; espero que con toda esta explicacion @_@ segun les halla quedado claro que es eso de OLAP, pero y que para los que lleguen por casualidad al blog les sea de ayuda esta pequea recopilacion de informacion, pero de igual forma les dejo algunos enlaces que estan buenos */