Está en la página 1de 30

Data Warehouse (Almacenes de Datos)

Bases de Datos 1
Casales Cabrera Mara Evelia
Maestra en Ciencias e Ingeniera de la Computacin, 2009-1

Data Warehouse (Almacn de Datos)

Un Almacn de Datos (o Data Warehouse) es una gran coleccin de


datos que recoge informacin de mltiples sistemas fuentes u
operacionales dispersos, y cuya actividad se centra en la Toma de
Decisiones.
Una vez reunidos los datos de los sistemas fuentes se guardan
durante mucho tiempo, lo que permite el acceso a datos histricos;
as los Almacenes de Datos proporcionan al usuario una interfaz
consolidada nica para los datos, lo que hace ms fcil escribir las
consultas para la Toma de Decisiones.

Page 2

Diferencias entre Base de Datos y Almacn de


Datos
Base de Datos
Operacional

Almacn de Datos

Datos Operacionales

Datos del negocio para


Informacin
Orientado al sujeto
Actual + Histrico
Detallada + Resumida
Estable

Orientado a aplicacin
Actual
Detallada
Cambia
continuamente

Page 3

Caractersticas del Almacn de Datos


Organizado en torno a temas. La informacin se clasifica en base a los
aspectos que son de inters para la empresa.
Integrado. Es el aspecto ms importante. La integracin de datos consiste
en convenciones de nombres, codificaciones consistentes, medida
uniforme de variables, etc.
Dependiente del tiempo. Esta dependencia aparece de tres formas:
La informacin representa los datos sobre un horizonte largo de tiempo.
Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo
(da, semana, mes, etc.).
La informacin, una vez registrada correctamente, no puede ser actualizada.

No voltil. El Almacn de Datos slo permite cargar nuevos datos y acceder


a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Page 4

Data Warehousing
Data Warehousing es el proceso que facilita la creacin y
explotacin de un Almacn de Datos. Los Sistemas de Data
Warehousing incluyen funcionalidades como:
Integracin de bases de datos heterogneas (relacionales, documentales,
geogrficas, archivos, etc.)
Ejecucin de consultas complejas no predefinidas visualizando el resultado en
forma grfica y en diferentes niveles de agrupamiento y totalizacin de datos.
Agrupamiento y desagrupamiento de datos en forma interactiva.
Anlisis del problema en trminos de dimensiones.
Control de calidad de datos.

Page 5

Etapas de Diseo del Almacn de Datos


Origen (Source): Define los orgenes de datos del Almacn de Datos,
como los sistemas de Procesamiento de Transacciones en Lnea (OnLine Transaction Processing, OLTP), las fuentes de datos externas (datos
sindicados, datos censales), etc.
Integracin (Integration): Define el mapeo entre los orgenes de datos y
el propio Almacn de Datos.
Almacn de Datos (Data Warehouse): Define la estructura del Almacn
de Datos.
Adaptacin (Customization): Define el mapeo entre el Almacn de
Datos y las estructuras empleadas por el cliente.
Cliente (Client): Define las estructuras concretas que son empleadas por
los clientes para acceder al Almacn de Datos, como Data Marts o
aplicaciones
OLAP.
Page
6

Niveles por Etapa del Diseo del Almacn de Datos


Cada etapa se analiza desde tres niveles o perspectivas que se crean en el
siguiente orden:
Conceptual: Define el Almacn de Datos desde un punto de vista conceptual, es
decir, desde el mayor nivel de abstraccin y contiene nicamente los objetos y
relaciones ms importantes.
Lgico: Abarca aspectos lgicos del diseo del Almacn de Datos, como la
definicin de las tablas y claves, la definicin de los procesos ETL, etc.
Fsico: Define los aspectos fsicos del Almacn de Datos, como el
almacenamiento de las estructuras lgicas en diferentes discos o la configuracin
de los servidores de bases de datos que mantienen el almacn de datos.

Page 7

Diagramas de Formalizacin
Cada etapa o nivel necesita formalismos de modelado diferentes.
Una aproximacin es la siguiente, donde el diseador del Almacn
de Datos no necesita definir todos los diagramas que se especifican:

Page 8

Arquitectura de un Almacn de Datos

Page 9

Arquitectura de un Almacn de Datos

Page 10

Arquitectura de un DW Repositorio de Datos


El repositorio de datos operacionales es la fuente donde se
encuentran los datos primitivos, actuales e integrados, por lo tanto
es el encargado de suministrar datos al sistema, estos datos
operacionales pueden ser:
Mayoritariamente precedentes de sistemas mainframe.
Datos de estaciones de trabajo o servidores privados.
Sistemas externos como las bases de datos comerciales, de proveedores o
clientes, o incluso de Internet.
Datos departamentales almacenados en Sistemas Propietario.

Page 11

Arquitectura de un DW Gestor de Carga


Tambin conocido como Sistema ETL (Extraction,
Transformation, Load), es el encargado de realizar las
funciones de extraccin de las fuentes de datos
(transaccionales o externas), transformacin (limpieza,
consolidacin principalmente) y la carga del Almacn de
Datos, tambin hace el refresco del almacn (operacin
peridica que propaga los cambios de las fuentes
externas al almacn de datos).

Page 12

Arquitectura de un DW Gestor del Almacn de Datos

Realiza las operaciones relacionadas con la gestin de


los datos dentro del Almacn utilizando herramientas
especficas que realizan operaciones como la
transformacin de datos para la incorporacin de stos
en las tablas del Almacn de Datos, la creacin de
ndices y vistas de las tablas base, creacin de copias de
seguridad y archivado de datos, adems del anlisis de
los datos para garantizar la coherencia de los mismos.

Page 13

Arquitectura de un DW Tipos de Datos (1)

Datos Detallados. Son los que se obtienen directamente del


procesado de los datos, no se encuentran almacenados en
lnea, sino que se puede acceder a ellos con un nivel ms
bajo de detalle. Se almacenan en disco ocupando mucho
espacio, sin embargo as se facilita el acceso.

Page 14

Arquitectura de un DW Tipos de Datos (2)


Datos Poco Resumidos y Muy Resumidos. Contienen los
datos que el gestor del Almacn de Datos ha establecido
como resmenes predefinidos, con el propsito de acelerar
las consultas. Pueden verse modificados constantemente
con el fin de responder a las variaciones de las consultas.
Los datos poco resumidos corresponden al primer nivel de
agregacin de los datos detallados actualmente, o lo que es
lo mismo a las consultas que se realizan habitualmente,
siendo estos almacenados en disco. Mientras que los muy
resumidos corresponden con el nivel ms alto de agregacin,
o lo que es lo mismo a las consultas que se realizan muy a
menudo y que se deben obtener muy rpidamente.

Page 15

Arquitectura de un DW Tipos de Datos (3)


Datos de Archivo/ Copia de seguridad. Es el rea donde
se guardan los datos detallados y resumidos con el fin de
mantener un archivo y copias de seguridad de los datos.
Metadatos. Describen la estructura de los datos que se
contienen en el Almacn y pueden ser utilizados por los
gestores de carga del Almacn de Datos y de consultas.

Page 16

Arquitectura de un DW Sistema Gestor de Bases de


Datos (SGBD)
El principal problema que se encuentra al utilizar almacenes de datos
es el tamao del mismo, por tanto es de gran importancia una buena
eleccin de un SGBD que debe cumplir con requisitos tales como:
Una buena velocidad de carga
El Procesamiento de carga
La gestin de la calidad de los datos
La velocidad de las consultas
Escalabilidad en el nmero de usuarios
Administracin del almacn
Anlisis dimensional integrado
La funcionalidad avanzada de consultas
Page 17

Arquitectura de un DW Gestor de Consultas

Es el encargado en gestionar las operaciones asociadas a las


consultas que realizan los usuarios, dirigiendo las consultas a las
tablas apropiadas y planificar la ejecucin de las mismas.
La complejidad del gestor viene determinada por la funcionalidad de
la base de datos y las herramientas de acceso de los usuarios
finales.

Page 18

Arquitectura de un DW Herramientas de Acceso para


Usuarios (1)
El objetivo es proporcionar una herramienta de
acceso para los usuarios en la cual se puedan tomar
decisiones estratgicas. Por tanto la comunicacin
entre el Almacn de Datos y la herramienta ser
mediante consultas de tipo ad-hoc.

Page 19

Arquitectura de un DW Herramientas de Acceso


para Usuarios (2)
En el mercado podemos encontrar herramientas que pueden ser
clasificadas en los cinco grupos siguientes:
Herramientas de consulta y generacin de informes, soportan instrucciones
SQL, con la facilidad de que el usuario no tiene porque saber cmo es la
estructura de stas instrucciones ni de la estructura de la base de datos,
adems, se utilizan para generar informes peridicos de carcter operacional o
para soportar altos volmenes de tareas.
Herramientas de desarrollo de aplicaciones personalizadas utilizando
herramientas grficas de acceso a los datos en entornos cliente-servidor.
Sistemas de informacin ejecutiva, que dan soporte a todos los niveles de
gestin de una organizacin, proporcionando una visin de los datos que
contiene y un acceso a fuentes de datos externa.
Herramientas de Procesamiento analtico en lnea (OLAP), agiliza las
consultas de grandes cantidades de datos utilizando bases de datos
multidimensionales. Se utilizan en generacin de informes de ventas,
marketing, etc.
Page 20

Arquitectura de un Almacn de Datos

Page 21

Data Marts (Mercados de Datos)


Es un subconjunto de datos de un Almacn relativos a los requisitos
de un departamento o rea de negocio concretos. Este subconjunto
de datos puede funcionar de forma autnoma, o bien enlazado al
Almacn de Datos. El motivo por el cual se crean mercados de datos
es el crecimiento que tiene el Almacn y as facilitar su construccin
y utilizacin. Las caractersticas de los Mercados de Datos son:
Se centran en los requisitos de los usuarios asociados a un departamento o
rea de negocio concretos.
Como diferencia con los Almacenes de Datos, los mercados no contienen
datos operacionales detallados.
Son ms sencillos a la hora de utilizarlos y comprender sus datos, debido a que
la cantidad de informacin que contienen es mucho menor que en los
Almacenes de Datos.

Page 22

Flujo de Datos

Flujo de Entrada
Es el proceso de extraccin y carga de los sistemas de origen de datos al
almacn a travs del repositorio de datos, aunque es necesario reconstruir
los datos antes de introducirlos en el almacn, realizando la limpieza, la
reestructuracin para conseguir los requisitos del almacn y conseguir la
coherencia entre s y los ya existentes.
Page 23

Flujo de Datos

Flujo Ascendente
Es el proceso de resumen, empaquetamiento y distribucin con el fin de
aadir valor a los datos. Donde el resumen agrupa los datos con el fin de
hacerlos ms cmodos y tiles para el usuario final. El empaquetamiento
convierte los datos de detalle o resumen a otros formatos ms tiles. La
distribucin de los datos a los usuarios apropiados.
Page 24

Flujo de Datos

Flujo Descendente
Es el proceso de archivado y creacin de copias de seguridad de los datos,
donde el archivado es importante para el mantenimiento, efectividad y las
prestaciones del almacn, ya que los datos antiguos con menor valor son
transferidos a un archivo permanente. Otro de los fines es garantizar la
reconstruccin del almacn en el estado actual en caso de producirse una
prdida de datos o fallo.
Page 25

Flujo de Datos

Flujo de Salida
Es el proceso de disponibilidad de los datos a los usuarios finales a travs de
las herramientas. Es el flujo que ms influye en cuestin de obtener una
ventaja competitiva, o lo que es lo mismo obtener el mximo beneficio al
almacn mediante la actividad de Acceso, la solicitud del usuario en obtener
los datos intentando que la herramienta de consulta para acceder al origen
de datos sea la ms apropiada y efectiva. Y la actividad de Suministro que
intenta suministrar informacin a las estaciones de trabajo de los usuarios.
Page 26

Flujo de Datos

Metaflujo
Es el proceso de gestin de transferencia de los metadatos. Debido a los
constantes cambios producidos en el entorno de la organizacin, los
metadatos deben actualizarse continuamente para que reflejen estos
cambios.
Page 27

Uso del Data Warehouse

Uso de Bases de Datos


Operacionales

Uso de Data Warehouse

Muchos usuarios concurrentes

Pocos usuarios concurrentes

Consultas prefinidas y
actualizables

Consultas complejas, frecuentemente


no anticipadas

Cantidades pequeas de
datos detallados

Cantidades grandes de datos


detallados

Requerimientos de respuesta
inmediata

Requerimientos de respuesta no
crticos

Page 28

Ventajas del Uso de Data Warehouse

La inversin que realiza una organizacin para una correcta implantacin


de un sistema de Almacn de Datos conlleva un coste muy elevado, sin
embargo el retorno de la inversin es garantizado en gran medida.
Como consecuencia de la ventaja anterior se pueden conseguir una
ventaja competitiva debido a una buena toma de decisiones gracias al
Almacn de Datos implantado.
Mejoran la productividad de los responsables en la toma de decisiones de
la organizacin debido a que:
Los Almacenes de Datos hacen ms fcil el acceso a una gran variedad de
datos.
Se obtiene una base de datos clasificada por temas e histrica.
Integracin de informacin procedente de mltiples sistemas eternos.

Page 29

Desventajas del Uso de Data Warehouse


La subestimacin del tiempo requerido para extraer, limpiar y cargar los
datos en el Almacn.
Problemas con los sistemas de origen de los datos.
Los datos obtenidos no son suficientes.
Pueden suponer altos gastos, adems de los gastos de mantenimiento
que son muy elevados
Pueden quedarse obsoletos relativamente pronto si los usuarios
incrementan sus necesidades.
En Almacenes de Datos de considerable tamao puede que la
homogeneizacin de los datos disminuya su valor.
Debido a que estn estrechamente relacionadas con los sistemas
operativos se han de tener en cuenta cuales son las funcionalidades que
pueden aprovecharse. Como por ejemplo, la utilizacin de gran cantidad
de espacio en disco.
La construccin de un Almacn de Datos puede requerir de mucho
tiempo.
La integracin de las herramientas de Almacn de Datos, para conseguir
un beneficio en la organizacin, es muy compleja.
Page 30

También podría gustarte