Está en la página 1de 13

ARQUITECTURA DE UNA BODEGA

DE DATOS

Estructura de contenidos

INTRODUCCIN.................................................................... 3

1. ARQUITECTURA DE UNA BODEGA DE DATOS......................... 3

1.1 PROPIEDADES................................................................. 3

1.2 ARQUITECTURA DE UNA CAPA........................................... 4

1.3 ARQUITECTURA DE DOS CAPAS......................................... 5

1.3.1 Capa Fuente................................................................. 5

1.3.2 Extraccin de Datos....................................................... 6

1.3.3 Capa de Data Warehouse............................................... 7

1.3.4 Anlisis........................................................................ 7

1.4 ARQUITECTURA DE TRES CAPAS........................................ 8

1.5 Data Marts...................................................................... 9

GLOSARIO............................................................................ 11

BIBLIOGRAFA...................................................................... 12

WEBGRAFA.......................................................................... 12

FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje


ARQUITECTURA DE UNA BODEGA DE DATOS
Mapa conceptual

2
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

INTRODUCCIN

El manejo de informacin inmerso en las dinmicas organizacionales


actuales, exige la combinacin de estrategias que involucran por un lado
el uso y mantenimiento de bases de datos relacionales con las que se
realizan tareas transaccionales y operativas, al tiempo que se derivan
otras tareas asociadas a la toma de decisiones producto de las actividades
gerenciales que se enfocan en el anlisis de datos complejos y de gran
volumen. Los datos de comportamiento variable y creciente representados
en fuentes heterogneas deben ser depurados y presentados de una
forma resumida y concreta para revisar tendencias y evaluar acciones
especficas procurando generar ventaja comparativa y permitiendo a las
organizaciones proyectarse en mercados cada vez ms competitivos. En
estos escenarios aparecen las Bodegas de Datos (del ingls data warehouse)
para brindar soluciones orientadas a poder almacenar y centralizar la
informacin originada a partir de distintas fuentes y definidas como lo
expresa el autor Ralph Kimball como: Una copia de las transacciones de
datos especficamente estructurada para la consulta y el anlisis.

Enfocados en esta tarea, nos ocuparemos de estudiar las diferentes


opciones de arquitectura que se podran abordar al momento de definir la
creacin de una bodega de datos.

1. ARQUITECTURA DE UNA BODEGA DE DATOS

1.1 PROPIEDADES

Para poder definir la arquitectura de una bodega de datos, debemos


analizar unas propiedades esenciales representadas en:

Separacin: Los procesos de anlisis y transacciones deberan


ser guardados en lo posible de forma independiente.

Escalabilidad: Las arquitecturas de Hardware y Software deben


ser fciles de mejorar conforme al volumen de los datos, definidas
para fcil administracin y manejo de procesos, estimadas por el
nmero de requerimientos de usuarios que determinan incrementos
progresivamente.

3
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

Extensibilidad: La arquitectura debe estar en capacidad de recibir


nuevas aplicaciones y tecnologas sin redisear el sistema

Seguridad: Monitorear los accesos es una tarea esencial previa al


almacenamiento de los datos en un data warehouse.

Administrable: La administracin de los datos en el la bodega de


datos no debe ser compleja

Dos clasificaciones son comnmente adoptadas para definir la arquitectura


de una bodega de datos. La primera clasificacin, es una estructura que
depende del nmero de capas usada por la arquitectura. La segunda
clasificacin, depende de cmo las diferentes capas son empleadas para
crear vistas del data warehouse orientada a necesidades especficas de
una empresa o a departamentos especficos de la organizacin.

1.2 ARQUITECTURA DE UNA CAPA

Source layer
Operational data

Data warehouse
Middleware

Analysis

Reporting
tools
OLAP
tools

4
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Una arquitectura de una capa no es comnmente usada en la prctica. La
meta en esta arquitectura es minimizar la cantidad de datos almacenados
removiendo datos redundantes.

Esto significa que un Data Warehouse es implementado como una vista


multidimensional de datos operacionales creados por un middleware
especfico, o el procesamiento con una capa intermedia.

La debilidad de esta arquitectura radica en su incapacidad para cumplir con


el requisito de la separacin entre el proceso de anlisis y transaccional.
Las consultas de anlisis son enviadas a los datos operacionales una vez
el middleware los interpreta. En este sentido, las consultas afectan la
carga de trabajo de las transacciones regulares. Adicionalmente, aunque
esta arquitectura puede reunir los requerimientos para integracin
y exactitud de los datos, este no puede registrar ms datos que los
provenientes de las fuentes bsicas. Por esta razn, un enfoque virtual
para almacenamiento de datos slo puede tener xito si las necesidades
de anlisis son particularmente restringidas y el volumen de datos a
analizar es muy grande.

1.3 ARQUITECTURA DE DOS CAPAS

El concepto de separacin es la esencia en la definicin de la arquitectura


tpica para un sistema de almacenamiento de datos pensado en dos capas
tal cual como se aprecia en la figura 2. Se denomina arquitectura de dos
capas a la separacin fsica entre las fuentes de datos disponibles y lo
dispuesto en la bodega de datos, que consta de cuatro etapas posteriores
de flujo de datos enunciadas a continuacin:

1.3.1 Capa Fuente

Un sistema de almacenamiento de datos utiliza fuentes heterogneas


de datos. Esos datos se almacenan originalmente en la base de datos
relacional o bases de datos legadas, o puede provenir de sistemas de
informacin externos a la empresa.

5
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

Source layer

Operational data External data Data staging

ETL tools

Meta-data
Data warehouse
Data warehouse
layer

Data marts

Analysis
What-if analysis
Reporting tools
tools
Data mining
OLAP
tools
tools

1.3.2 Extraccin de Datos

Los datos almacenados en las fuentes deben ser extrados y limpiados


para remover inconsistencias y llenar espacios vacos, integrando fuentes
de datos heterogneos a partir de esquemas comunes. Las llamadas
herramientas ETL (Extraction, Transformation and Loading) pueden
mezclar esquemas heterogneos, extraer, transformar, limpiar, validar,
filtrar, y cargar fuentes de datos dentro de una bodega de datos. En s,
esta etapa se ocupa de los problemas que son tpicos de los sistemas de
informacin distribuidos, tales como la gestin de datos inconsistentes y
estructuras de datos incompatibles.

6
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

1.3.3 Capa de Data Warehouse

La informacin es almacenada en un repositorio centralizado denominado


data warehouse o bodega de datos. El data warehouse puede ser
accedido directamente, pero este tambin puede ser usado como fuente
para creacin de data marts, los cuales parcialmente replican contenidos
de los data warehouse y son diseados por necesidades de dependencias
especficas en una empresa. Los repositorios que contienen la meta
data almacenan informacin como fuentes, procedimientos de acceso,
extraccin de datos, usuarios, esquemas de data mart, etc.

1.3.4 Anlisis

En esta capa, la integracin de datos es eficiente y de acceso flexible


para generar informes, analizar la informacin de forma dinmica y
simular escenarios hipotticos de negocio. Esta capa debe funcionar con
navegadores de datos agregados, optimizadores de consultas complejas,
y con interfaces grficas de usuario de fcil manejo.

Es necesario estudiar a fondo la diferencia arquitectnica entre los


almacenes de datos y los data marts. Los componentes sealados como
un data warehouse en la figura 2 son frecuentemente llamados data
warehouse primario o data warehouse corporativo que actan como
un sistema de almacenamiento centralizado para todos los datos que se
resumen.

Los Data marts pueden ser vistos como pequeos almacenes de datos
replicando la parte de una almacn de datos principal requerido en el
dominio de una aplicacin especfica.

A continuacin se enuncian algunos beneficios de una arquitectura de dos


capas:

En sistemas de bodega de datos, la informacin de buena calidad


est siempre disponible, incluso cuando el acceso a las fuentes se niega
temporalmente por razones tcnicas o razones de la organizacin.

El anlisis de consultas en la bodega de datos no afecta la


administracin de las transacciones.

7
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

Las bodegas de datos son estructuradas lgicamente de acuerdo a


un modelo multidimensional.

Las bodegas de datos pueden utilizar soluciones especficas de diseo


orientadas a la optimizacin de aplicaciones de anlisis y reportes.

1.4 ARQUITECTURA DE TRES CAPAS

Source layer

Operational data External data

Data staging
ETL tools

Reconciled data Reconcilled layer


Meta-data

ETL tools

Data warehouse Data warehouse


layer

Data marts

Analysis

What-if analysis
Reporting tools
tools
Data mining
OLAP
tools
tools

8
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

En esta arquitectura, la tercera capa es la capa de datos reconciliados


o almacn de datos operativos. En esta capa se materializan los datos
operativos obtenidos despus de la integracin y la limpieza de datos
desde el origen. Como resultado, los datos son integrados, coherentes,
actuales y detallados. La figura muestra una bodega de datos que no
es poblada de sus fuentes de forma directa, pero si a partir de datos
reconciliados.

La principal ventaja de la capa de reconciliacin de datos es que esta


crea un modelo de referencia de datos comn para una empresa en su
conjunto. De igual forma, se separan los problemas de extraccin de datos
de las fuentes y la integracin de datos para poblar la bodega de datos. En
algunos casos, la capa de reconciliacin es usada para llevar a cabo tareas
ms operativas, tales como la elaboracin de informes diarios que no
pueden ser adecuadamente preparados con las aplicaciones corporativas,
o generando los flujos de datos para alimentar procesos externos
peridicamente con el fin hacer integracin y limpieza. Sin embargo,
los datos conciliados conducen a una mayor redundancia de datos de
origen operativo. Tenga presente que se puede suponer que incluso las
arquitecturas de dos capas pueden tener una capa de reconciliacin que
no est especficamente materializada, pero si se puede presentar en una
forma virtual dado que se define como una vista que brinda coherencia de
los datos fuentes integrados.

1.5 Data Marts

Un data mart es un subconjunto o una agregacin de los datos almacenados


en un almacn de datos principal. Se incluye un conjunto de piezas de
informacin relativa a reas especficas de negocio, un departamento de
la empresa o categoras de usuarios.

Los data marts generados a partir de una bodega de datos primaria son
llamados frecuentemente dependientes. Pese a que los data marts no son
estrictamente necesarios, son muy tiles para los sistemas de bodegas de
datos en medianas y grandes empresas debido a que:

Son usados como bloques de construccin mientras se incrementa


el desarrollo de las bodegas de datos.

Exponen la informacin requerida por un grupo especfico de


usuarios para solucionar consultas especficas.

9
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Arquitectura de una Bodega de Datos

Pueden ofrecer un mejor rendimiento, ya que son ms pequeos


que las bodegas de datos primarias.

En ocasiones, principalmente por polticas y organizacin, debe


utilizar una arquitectura diferente en el que las fuentes se utilizan para
poblar los data marts. Si no hay una bodega de datos principal, esto
simplifica el proceso de diseo, pero conlleva el riesgo de inconsistencias
entre los data marts. Para evitar estos problemas, se puede crear
una bodega de datos principal y seguir teniendo los data marts
independientes. En comparacin con el estndar de la arquitectura de
dos capas expuesta en la figura 2, las funciones de los data marts y la
bodega de datos estn invertidas. En este caso la bodega de datos se
llena de a travs de los data marts y puede ser consultada directamente
para generar los patrones de acceso tan fcil como sea posible.

10
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
GLOSARIO

DATA MART: subconjunto o agregacin de los datos almacenados en un


almacn de datos principal.

DATA WAREHOUSE: Coleccin de informacin originada a partir de


distintas fuentes y definidas como lo expresa el autor Ralph Kimball como
Una copia de las transacciones de datos especficamente estructurada
para labores de consulta y anlisis.

ETL: Extraccin, transformacin y carga de datos.

MIDDLEWARE: Software que asiste a una aplicacin para interactuar


o comunicarse con otras aplicaciones, software, redes, hardware y/o
sistemas operativos.

11
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
BIBLIOGRAFA

Mateo Golfarelli; Stefano Rizzi(2009). Data Warehouse Design: Modern


Principles and Methodologies. McGraw-Hill.

Zorrilla, M. (2008). Data WareHouse y OLAP. Recuperado el 15 de


mayo de 2012, Universidad de Cantabria.

WEBGRAFA

Pgina tomada de Wikipedia (Wikipedia). Recuperado el 18 de


mayo de 2012, de Almacn de datos:

http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos

12
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
Control de documento
Construccin Objeto de Aprendizaje
Arquitectura de una Bodega de Datos
Desarrollador de contenido Fernelly Carvajal Silva
Experto temtico
Asesor pedaggico Rafael Neftal Lizcano Reyes
Produccin Multimedia Luis Fernando Botero Mendoza
Victor Hugo Tabares
Programadores Daniel Eduardo Martnez
Grateful Dead Montao Sierra
Lder expertos temticos Ana Yaqueline Chavarro Parra
Lder lnea de produccin Santiago Lozada Garcs

13
FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

También podría gustarte