Está en la página 1de 30

Data Warehouse (Almacenes de Datos)

Bases de Datos 1
Casales Cabrera María Evelia

Maestría en Ciencias e Ingeniería de la Computación, 2009-1


Data Warehouse (Almacén de Datos)

ƒ Un Almacén de Datos (o Data Warehouse) es una gran colección de


datos que recoge información de múltiples sistemas fuentes u
operacionales dispersos, y cuya actividad se centra en la “Toma de
Decisiones”.

ƒ Una vez reunidos los datos de los sistemas fuentes se guardan


durante mucho tiempo, lo que permite el acceso a datos históricos;
así los Almacenes de Datos proporcionan al usuario una interfaz
consolidada única para los datos, lo que hace más fácil escribir las
consultas para la Toma de Decisiones.

Page ƒ 2
Diferencias entre Base de Datos y Almacén de
Datos

Base de Datos Almacén de Datos


Operacional
Datos Operacionales Datos del negocio para
Información
Orientado a aplicación Orientado al sujeto
Actual Actual + Histórico
Detallada Detallada + Resumida
Cambia Estable
continuamente

Page ƒ 3
Características del Almacén de Datos

ƒ Organizado en torno a temas. La información se clasifica en base a los


aspectos que son de interés para la empresa.

ƒ Integrado. Es el aspecto más importante. La integración de datos consiste


en convenciones de nombres, codificaciones consistentes, medida
uniforme de variables, etc.

ƒ Dependiente del tiempo. Esta dependencia aparece de tres formas:


– La información representa los datos sobre un horizonte largo de tiempo.
– Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo
(día, semana, mes, etc.).
– La información, una vez registrada correctamente, no puede ser actualizada.

ƒ No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder


a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Page ƒ 4
Data Warehousing

ƒ Data Warehousing es el proceso que facilita la creación y


explotación de un Almacén de Datos. Los Sistemas de Data
Warehousing incluyen funcionalidades como:

¾ Integración de bases de datos heterogéneas (relacionales, documentales,


geográficas, archivos, etc.)
¾ Ejecución de consultas complejas no predefinidas visualizando el resultado en
forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.
¾ Agrupamiento y desagrupamiento de datos en forma interactiva.
¾ Análisis del problema en términos de dimensiones.
¾ Control de calidad de datos.

Page ƒ 5
Etapas de Diseño del Almacén de Datos
ƒ Origen (Source): Define los orígenes de datos del Almacén de Datos,
como los sistemas de Procesamiento de Transacciones en Línea (On-
Line Transaction Processing, OLTP), las fuentes de datos externas (datos
sindicados, datos censales), etc.

ƒ Integración (Integration): Define el mapeo entre los orígenes de datos y


el propio Almacén de Datos.

ƒ Almacén de Datos (Data Warehouse): Define la estructura del Almacén


de Datos.

ƒ Adaptación (Customization): Define el mapeo entre el Almacén de


Datos y las estructuras empleadas por el cliente.

ƒ Cliente (Client): Define las estructuras concretas que son empleadas por
los clientes para acceder al Almacén de Datos, como Data Marts o
aplicaciones
Page ƒ6 OLAP.
Niveles por Etapa del Diseño del Almacén de Datos

Cada etapa se analiza desde tres niveles o perspectivas que se crean en el


siguiente orden:

ƒ Conceptual: Define el Almacén de Datos desde un punto de vista conceptual, es


decir, desde el mayor nivel de abstracción y contiene únicamente los objetos y
relaciones más importantes.

ƒ Lógico: Abarca aspectos lógicos del diseño del Almacén de Datos, como la
definición de las tablas y claves, la definición de los procesos ETL, etc.

ƒ Físico: Define los aspectos físicos del Almacén de Datos, como el


almacenamiento de las estructuras lógicas en diferentes discos o la configuración
de los servidores de bases de datos que mantienen el almacén de datos.

Page ƒ 7
Diagramas de Formalización

ƒ Cada etapa o nivel necesita formalismos de modelado diferentes.


Una aproximación es la siguiente, donde el diseñador del Almacén
de Datos no necesita definir todos los diagramas que se especifican:

Page ƒ 8
Arquitectura de un Almacén de Datos

Page ƒ 9
Arquitectura de un Almacén de Datos

Page ƒ 10
Arquitectura de un DW – Repositorio de Datos

ƒ El repositorio de datos operacionales es la fuente donde se


encuentran los datos primitivos, actuales e integrados, por lo tanto
es el encargado de suministrar datos al sistema, estos datos
operacionales pueden ser:

¾ Mayoritariamente precedentes de sistemas mainframe.


¾ Datos de estaciones de trabajo o servidores privados.
¾ Sistemas externos como las bases de datos comerciales, de proveedores o
clientes, o incluso de Internet.
¾ Datos departamentales almacenados en Sistemas Propietario.

Page ƒ 11
Arquitectura de un DW – Gestor de Carga

ƒ También conocido como Sistema ETL (Extraction,


Transformation, Load), es el encargado de realizar las
funciones de extracción de las fuentes de datos
(transaccionales o externas), transformación (limpieza,
consolidación principalmente) y la carga del Almacén de
Datos, también hace el refresco del almacén (operación
periódica que propaga los cambios de las fuentes
externas al almacén de datos).

Page ƒ 12
Arquitectura de un DW – Gestor del Almacén de Datos

ƒ Realiza las operaciones relacionadas con la gestión de


los datos dentro del Almacén utilizando herramientas
específicas que realizan operaciones como la
transformación de datos para la incorporación de éstos
en las tablas del Almacén de Datos, la creación de
índices y vistas de las tablas base, creación de copias de
seguridad y archivado de datos, además del análisis de
los datos para garantizar la coherencia de los mismos.

Page ƒ 13
Arquitectura de un DW – Tipos de Datos (1)

ƒ Datos Detallados. Son los que se obtienen directamente del


procesado de los datos, no se encuentran almacenados en
línea, sino que se puede acceder a ellos con un nivel más
bajo de detalle. Se almacenan en disco ocupando mucho
espacio, sin embargo así se facilita el acceso.

Page ƒ 14
Arquitectura de un DW – Tipos de Datos (2)
ƒ Datos Poco Resumidos y Muy Resumidos. Contienen los
datos que el gestor del Almacén de Datos ha establecido
como resúmenes predefinidos, con el propósito de acelerar
las consultas. Pueden verse modificados constantemente
con el fin de responder a las variaciones de las consultas.
Los datos poco resumidos corresponden al primer nivel de
agregación de los datos detallados actualmente, o lo que es
lo mismo a las consultas que se realizan habitualmente,
siendo estos almacenados en disco. Mientras que los muy
resumidos corresponden con el nivel más alto de agregación,
o lo que es lo mismo a las consultas que se realizan muy a
menudo y que se deben obtener muy rápidamente.

Page ƒ 15
Arquitectura de un DW – Tipos de Datos (3)

ƒ Datos de Archivo/ Copia de seguridad. Es el área donde


se guardan los datos detallados y resumidos con el fin de
mantener un archivo y copias de seguridad de los datos.

ƒ Metadatos. Describen la estructura de los datos que se


contienen en el Almacén y pueden ser utilizados por los
gestores de carga del Almacén de Datos y de consultas.

Page ƒ 16
Arquitectura de un DW – Sistema Gestor de Bases de
Datos (SGBD)

El principal problema que se encuentra al utilizar almacenes de datos


es el tamaño del mismo, por tanto es de gran importancia una buena
elección de un SGBD que debe cumplir con requisitos tales como:
• Una buena velocidad de carga
• El Procesamiento de carga
• La gestión de la calidad de los datos
• La velocidad de las consultas
• Escalabilidad en el número de usuarios
• Administración del almacén
• Análisis dimensional integrado
• La funcionalidad avanzada de consultas

Page ƒ 17
Arquitectura de un DW – Gestor de Consultas

ƒ Es el encargado en gestionar las operaciones asociadas a las


consultas que realizan los usuarios, dirigiendo las consultas a las
tablas apropiadas y planificar la ejecución de las mismas.

ƒ La complejidad del gestor viene determinada por la funcionalidad de


la base de datos y las herramientas de acceso de los usuarios
finales.

Page ƒ 18
Arquitectura de un DW – Herramientas de Acceso para
Usuarios (1)
ƒ El objetivo es proporcionar una herramienta de
acceso para los usuarios en la cual se puedan tomar
decisiones estratégicas. Por tanto la comunicación
entre el Almacén de Datos y la herramienta será
mediante consultas de tipo ad-hoc.

Page ƒ 19
Arquitectura de un DW – Herramientas de Acceso
para Usuarios (2)

ƒ En el mercado podemos encontrar herramientas que pueden ser


clasificadas en los cinco grupos siguientes:
– Herramientas de consulta y generación de informes, soportan instrucciones
SQL, con la facilidad de que el usuario no tiene porque saber cómo es la
estructura de éstas instrucciones ni de la estructura de la base de datos,
además, se utilizan para generar informes periódicos de carácter operacional o
para soportar altos volúmenes de tareas.
– Herramientas de desarrollo de aplicaciones personalizadas utilizando
herramientas gráficas de acceso a los datos en entornos cliente-servidor.
– Sistemas de información ejecutiva, que dan soporte a todos los niveles de
gestión de una organización, proporcionando una visión de los datos que
contiene y un acceso a fuentes de datos externa.
– Herramientas de Procesamiento analítico en línea (OLAP), agiliza las
consultas de grandes cantidades de datos utilizando bases de datos
multidimensionales. Se utilizan en generación de informes de ventas,
marketing, etc.
Page ƒ 20
Arquitectura de un Almacén de Datos

Page ƒ 21
Data Marts (Mercados de Datos)

ƒ Es un subconjunto de datos de un Almacén relativos a los requisitos


de un departamento o área de negocio concretos. Este subconjunto
de datos puede funcionar de forma autónoma, o bien enlazado al
Almacén de Datos. El motivo por el cual se crean mercados de datos
es el crecimiento que tiene el Almacén y así facilitar su construcción
y utilización. Las características de los Mercados de Datos son:
– Se centran en los requisitos de los usuarios asociados a un departamento o
área de negocio concretos.
– Como diferencia con los Almacenes de Datos, los mercados no contienen
datos operacionales detallados.
– Son más sencillos a la hora de utilizarlos y comprender sus datos, debido a que
la cantidad de información que contienen es mucho menor que en los
Almacenes de Datos.

Page ƒ 22
Flujo de Datos

Flujo de Entrada
Es el proceso de extracción y carga de los sistemas de origen de datos al
almacén a través del repositorio de datos, aunque es necesario reconstruir
los datos antes de introducirlos en el almacén, realizando la limpieza, la
reestructuración para conseguir los requisitos del almacén y conseguir la
coherencia entre sí y los ya existentes.

Page ƒ 23
Flujo de Datos

Flujo Ascendente
Es el proceso de resumen, empaquetamiento y distribución con el fin de
añadir valor a los datos. Donde el resumen agrupa los datos con el fin de
hacerlos más cómodos y útiles para el usuario final. El empaquetamiento
convierte los datos de detalle o resumen a otros formatos más útiles. La
distribución de los datos a los usuarios apropiados.

Page ƒ 24
Flujo de Datos

Flujo Descendente
Es el proceso de archivado y creación de copias de seguridad de los datos,
donde el archivado es importante para el mantenimiento, efectividad y las
prestaciones del almacén, ya que los datos antiguos con menor valor son
transferidos a un archivo permanente. Otro de los fines es garantizar la
reconstrucción del almacén en el estado actual en caso de producirse una
pérdida de datos o fallo.
Page ƒ 25
Flujo de Datos

Flujo de Salida
Es el proceso de disponibilidad de los datos a los usuarios finales a través de
las herramientas. Es el flujo que más influye en cuestión de obtener una
ventaja competitiva, o lo que es lo mismo obtener el máximo beneficio al
almacén mediante la actividad de Acceso, la solicitud del usuario en obtener
los datos intentando que la herramienta de consulta para acceder al origen
de datos sea la más apropiada y efectiva. Y la actividad de Suministro que
intenta suministrar información a las estaciones de trabajo de los usuarios.
Page ƒ 26
Flujo de Datos

Metaflujo
Es el proceso de gestión de transferencia de los metadatos. Debido a los
constantes cambios producidos en el entorno de la organización, los
metadatos deben actualizarse continuamente para que reflejen estos
cambios.

Page ƒ 27
Uso del Data Warehouse

Uso de Bases de Datos Uso de Data Warehouse


Operacionales

Muchos usuarios concurrentes Pocos usuarios concurrentes


Consultas prefinidas y Consultas complejas, frecuentemente
actualizables no anticipadas
Cantidades pequeñas de Cantidades grandes de datos
datos detallados detallados
Requerimientos de respuesta Requerimientos de respuesta no
inmediata críticos

Page ƒ 28
Ventajas del Uso de Data Warehouse

ƒ La inversión que realiza una organización para una correcta implantación


de un sistema de Almacén de Datos conlleva un coste muy elevado, sin
embargo el retorno de la inversión es garantizado en gran medida.
ƒ Como consecuencia de la ventaja anterior se pueden conseguir una
ventaja competitiva debido a una buena toma de decisiones gracias al
Almacén de Datos implantado.
ƒ Mejoran la productividad de los responsables en la toma de decisiones de
la organización debido a que:
– Los Almacenes de Datos hacen más fácil el acceso a una gran variedad de
datos.
– Se obtiene una base de datos clasificada por temas e histórica.
– Integración de información procedente de múltiples sistemas eternos.

Page ƒ 29
Desventajas del Uso de Data Warehouse
ƒ La subestimación del tiempo requerido para extraer, limpiar y cargar los
datos en el Almacén.
ƒ Problemas con los sistemas de origen de los datos.
ƒ Los datos obtenidos no son suficientes.
ƒ Pueden suponer altos gastos, además de los gastos de mantenimiento
que son muy elevados
ƒ Pueden quedarse obsoletos relativamente pronto si los usuarios
incrementan sus necesidades.
ƒ En Almacenes de Datos de considerable tamaño puede que la
homogeneización de los datos disminuya su valor.
ƒ Debido a que están estrechamente relacionadas con los sistemas
operativos se han de tener en cuenta cuales son las funcionalidades que
pueden aprovecharse. Como por ejemplo, la utilización de gran cantidad
de espacio en disco.
ƒ La construcción de un Almacén de Datos puede requerir de mucho
tiempo.
ƒ La integración de las herramientas de Almacén de Datos, para conseguir
un beneficio en la organización, es muy compleja.
Page ƒ 30