Está en la página 1de 6

METODOLOGIAS DEL DATA WAREHOUSE

Metodología KIMBALL vs Metodología INMON

Kimball defiende una metodología de trabajo “Bottom-up”. Con esto quiere decir que el procedimiento a seguir
para construir un data warehouse es empezar en un principio por pequeños componentes para ir
evolucionando a estructuras y modelos superiores. Y esto es así porque para Kimball un data warehouse no es
más que la unión de los diferentes data marts de una organización.
Ventajas del enfoque de Kimball

Algunos de los principales beneficios del enfoque de diseño de Kimball DW incluyen:

 Los beneficios del modelado dimensional son que es rápido de construir ya que no se involucra la
normalización, lo que significa una ejecución rápida de la fase inicial del almacenamiento de
datos diseño de procesos.
 Una ventaja del esquema en estrella es que la mayoría de los operadores de datos pueden
comprenderlo fácilmente debido a su estructura des normalizada, simplifica la consulta y el análisis.
 La huella del sistema de almacenamiento de datos es trivial porque se centra en áreas y procesos
comerciales individuales en lugar de en toda la empresa. Por lo tanto, ocupa menos espacio en la base
de datos, lo que simplifica la administración del sistema.
 Permite la recuperación rápida de datos desde el almacén de datos; ya que los datos se segregan en
tablas de hechos y dimensiones.

Desventajas del enfoque de Kimball

Algunos de los inconvenientes del enfoque de diseño de Kimball incluyen:

 En el diseño de Kimball, los datos no se integran por completo antes de la presentación de informes, se
pierde la idea de una "fuente única de la verdad".
 Pueden ocurrir irregularidades cuando los datos se actualizan en la arquitectura Kimball DW. Esto se
debe a que, en el almacén de datos de técnicas de desnormalización, se agregan datos redundantes a
las tablas de la base de datos.
 En la arquitectura Kimball DW, pueden producirse problemas de rendimiento debido a la adición de
columnas en la tabla de hechos; ya que estas tablas son bastante detalladas. La adición de nuevas
columnas puede expandir las dimensiones de la tabla de hechos, afectando su rendimiento. Además, el
modelo de almacén de datos dimensional se vuelve difícil de alterar con cualquier cambio en las
necesidades comerciales.
 El proceso de incorporar una gran cantidad de datos heredados al almacén de datos es complejo.
En el modelo Inmon, la premisa es que la información se almacene al máximo nivel de detalle (garantizando la
futura exploración de los datos), permaneciendo invariable y no volátil, de manera que los cambios que sufran
los datos a lo largo del tiempo queden registrados sin que puedan modificarse o eliminarse.
Este enfoque de Inmon suele denominarse como una metodología de trabajo ‘Top-Down’, ya que se centra
primero en una visión global de la compañía, para ir desmembrándola en pequeños sets de datos
departamentales. Así, con esta arquitectura, todos los Data Marts de la organización están conectados al Data
Warehouse, evitándose la aparición de incongruencias y anomalías al comparar los datos entre distintos
departamentos.

Ventajas del método Inmon

El enfoque de diseño de Inmon ofrece los siguientes beneficios:

 El almacén de datos actúa como una fuente unificada de verdad para toda la empresa, donde se
integran todos los datos.
 Este enfoque tiene una redundancia de datos muy baja. Por lo tanto, hay menos posibilidad de
irregularidades en la actualización de datos, lo que hace que el proceso de almacenamiento de datos
ETL sea más sencillo y menos susceptible a fallas.
 Simplifica los procesos comerciales, ya que el modelo lógico representa objetos comerciales
detallados.
 Este enfoque ofrece una mayor flexibilidad; ya que es más fácil actualizar el almacén de datos en caso
de que haya algún cambio en los requisitos comerciales o los datos de origen.

Desventajas del método Inmon

Los posibles inconvenientes de este enfoque son los siguientes:

 La complejidad aumenta a medida que se agregan varias tablas al modelo de datos con el tiempo.
 Se requieren recursos expertos en el modelado de datos de almacenamiento de datos, y eso puede ser
costoso y difícil de encontrar.
 La configuración preliminar y la entrega requieren mucho tiempo.
 Se requiere una operación ETL adicional, ya que los data marts se crean después de la creación del
almacén de datos.
Metodología HEFESTOS

HEFESTO es una metodología propia, cuya propuesta está fundamentada en una muy amplia investigación,
comparación de metodologías existentes, experiencias propias en procesos de confección de almacenes de
datos. Cabe destacar que HEFESTO está en continua evolución, y se han tenido en cuenta, como gran valor
agregado, todos los feedbacks que han aportado quienes han utilizado esta metodología en diversos países y
con diversos fines.
Esta metodología cuenta con las siguientes características:

 Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son sencillos de
comprender.
 Se basa en los requerimientos de los usuarios, por lo cual su estructura es capaz de adaptarse con
facilidad y rapidez ante los cambios en el negocio.
 Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar y analizar.
 Es independiente del tipo de ciclo de vida que se emplee para contener la metodología.
 Es independiente de las herramientas que se utilicen para su implementación.
 Se aplica tanto para Data Warehouse como para Data Mart.

Pasos a seguir para la metodología:


Análisis de Requerimientos

Identificar preguntas (que es lo que quiere analizar el cliente)


El primer paso comienza con el acopio de las necesidades de información, el cual puede llevarse a cabo a
través de muy variadas y diferentes técnicas, cada una de las cuales poseen características inherentes y
específicas, como por ejemplo entrevistas, cuestionarios, observaciones, etc.

El análisis de los requerimientos de los diferentes usuarios, es el punto de partida de esta metodología, ya que
ellos son los que deben, en cierto modo, guiar la investigación hacia un desarrollo que refleje claramente lo
que se espera del depósito de datos, en relación a sus funciones y cualidades.

El objetivo principal de esta fase, es la de obtener e identificar las necesidades de información clave de alto
nivel, que es esencial para llevar a cabo las metas y estrategias de la empresa, y que facilitará una eficaz y
eficiente toma de decisiones.

Identificar indicadores y perspectivas de análisis (como lo quiere analizar)


Una vez que se han establecido las preguntas claves, se debe proceder a su descomposición para descubrir los
indicadores que se utilizarán y las perspectivas de análisis que intervendrán.

Para ello, se debe tener en cuenta que los indicadores, para que sean realmente efectivos son, en general,
valores numéricos y representan lo que se desea analizar concretamente, por ejemplo: saldos, promedios,
cantidades, sumatorias, fórmulas, etc. En cambio, las perspectivas se refieren a los objetos mediante los cuales
se quiere examinar los indicadores, con el fin de responder a las preguntas planteadas, por ejemplo: clientes,
proveedores, sucursales, países, productos, rubros, etc. Cabe destacar, que el Tiempo es muy comúnmente
una perspectiva.

Modelo Conceptual
En esta etapa, se construirá un modelo conceptual a partir de los indicadores y perspectivas obtenidas en el
paso anterior.

A través de este modelo, se podrá observar con claridad cuáles son los alcances del proyecto, para luego
poder trabajar sobre ellos, además al poseer un alto nivel de definición de los datos, permite que pueda ser
presentado ante los usuarios y explicado con facilidad.

Análisis de los OLTP


Establecer correspondencias con los requerimientos
El objetivo de este análisis, es el de examinar los OLTP disponibles que contengan la información requerida,
como así también sus características, para poder identificar las correspondencias entre el modelo conceptual y
las fuentes de datos.

En el caso de los indicadores, deben explicitarse como se calcularán, y más aún si son fórmulas u operaciones
complejas.

La idea es, que todos los elementos del modelo conceptual estén correspondidos en los OLTP.

Seleccionar los campos que integrarán cada perspectiva. Nivel de granularidad(nivel de detalle a observar)
Una vez que se han establecido las relaciones con los OLTP, se examinarán y seleccionarán los campos que
contendrá cada perspectiva, ya que será a través de estos por los que se manipularán y filtrarán los
indicadores.
Para ello, basándose en las correspondencias establecidas en el paso anterior, se debe presentar al usuario los
datos de análisis disponibles para cada perspectiva. Es muy importante conocer en detalle que significa cada
campo y/o valor de los datos encontrados en los OLTP, por lo cual, es conveniente investigar su sentido, ya sea
a través de diccionarios de datos, reuniones con los encargados del sistema, análisis de los datos propiamente
dichos, etc.

Elaboración del Modelo lógico DW

Diseñar tablas de dimensiones

Este paso, se aplicará por igual a todos los tipos de esquemas lógicos.

Lo primero que se hará será crear las dimensiones del mismo, para ello se tomará cada perspectiva con sus
atributos relacionados y se les realizará el siguiente proceso:

 Se elegirá un nombre que identifique la dimensión.


 Se añadirá un campo que represente su clave principal.
 Se redefinirán los nombres de los atributos si es que no son lo bastante explicativos.

Diseñar tablas de hechos

En este paso, se definirán las tablas de hechos, que son las que contendrán los indicadores de estudio.

Para los esquemas en estrella y copo de nieve, se realizará lo siguiente:

 Al igual que las dimensiones, se le deberá asignar un nombre a la tabla de hechos que en este caso
represente la información analizada, área de investigación, negocio enfocado, etc.
 Se definirá su clave primaria, que se compone de la combinación de las claves primarias de cada
dimensión que se utilizará para generar las consultas.
 Se renombrarán los hechos o indicadores si es que no llegasen a ser lo suficientemente explícitos.

Realizar uniones

Para los tres tipos de esquemas, se realizarán las uniones correspondientes entre sus tablas de dimensiones y
sus tablas de hechos.

Determinar jerarquías

Para los esquemas en estrella y constelación, se deberán especificar las jerarquías que existirán dentro de
cada tabla de dimensión, teniendo siempre presente cual es el objetivo de las mismas. Para representar las
jerarquías en el modelo lógico, se deberán colocar los atributos pertenecientes a las jerarquías en sus
respectivas tablas, en orden descendente y acompañado con un número ordinal encerrado entre corchetes.

Procesos ETL

Una vez construido el modelo lógico, se deberá proceder a probarlo con datos, a través de procesos ETL.

Para realizar la compleja actividad de extraer datos de diferentes fuentes, para luego integrarlos, filtrarlos y
depurarlos, existen varios softwares que facilitan estas tareas, por lo cual este paso se centrará solo en la
generación de las sentencias SQL que contendrán los datos que serán de interés.
Antes de realizar la carga de datos, es conveniente efectuar una limpieza de los mismos, para evitar valores
faltantes y anómalos.

En la cláusula ORDER BY de las sentencias SQL, que se efectuarán para cargar cada tabla, deben figurar los
atributos, medidas y claves en orden de aparición de sus respectivas tablas. Al realizar esta acción, se logrará
aportar mayor eficiencia cuando se realizan búsquedas de datos.

Metodologia SAS Rapid Data Warehouse Methodology

Planteamos aquí la metodología propuesta por SAS Institute: la “Rapid Warehousing Methodology”. Dicha
metodología es iterativa, y está basada en el desarrollo incremental del proyecto de Data Warehouse dividido
en cinco fases:

Fases a seguir:

 Definición de los objetivos


 Definición de los requerimientos de información
 Diseño y modelización
 Implementación
 Revisión

También podría gustarte