Está en la página 1de 41

10.

Data Warehouse
Ing. Fabiola Nilda Perez Oliver
Fa_peol@yahoo.es
Nacimiento del concepto
Data Warehouse
• La complejidad y dinamismo de la “economía digital” han situado en un lugar predominante a los gestores,
desvelando las dificultades de acceso a la información de la empresa.
• La calidad y disponibilidad de la información se convierte en un objetivo primordial del negocio.
• Se apunta como primera solución crear una gran base de datos virtual para integrar los datos de las
aplicaciones existentes, una vez que hayan sido depurados y reconciliadas sus disparidades. Esto
posibilitará que los datos sean utilizados para la gestión.
• La solución pasa por separar el procesamiento en dos grandes categorías
• Proceso Operacional (OLTP).
• Procesamiento para el sistema de soporte de decisiones (OLAP/DSS/DM).
• Como consecuencia de lo anterior aparece el concepto de DATA WAREHOUSE
INTRODUCCIÓN

• EL AUMENTO ESPECTACULAR DEL VOLUMEN DE DATOS


HACE EVIDENTE LA NECESIDAD DE UNA INFRAESTRUCTURA
PARA LA LÓGICA DE INFORMACIÓN.
• SURGE COMO RESPUESTA A LA PROBLEMÁTICA DE
EXTRAER INFORMACIÓN SINTÉTICA A PARTIR DE DATOS
ATÓMICOS ALMACENADOS EN BD DE PRODUCCIÓN.
INTRODUCCIÓN
ALMACÉN DE DATOS(AD)
Motivación

Disponer de Sistemas de
Información de apoyo a la toma
de decisiones

Disponer de DB que permitan extraer conocimiento de la información


histórica almacenada en la organización.

objetivos

Análisis de la Previsiones de Diseño de estrategias


organización. evolución.
 Ejemplo INTRODUCCIÓN
Organización: Cadena de supermercados
Actividad objeto de análisis: ventas de productos
Objetivo: aumentar ventas con publicidad adecuada

Problema 1: Necesitamos sólo datos necesarios de la BD


Problema 2: Fuentes de datos diversas (BDs diferentes, ficheros de texto, ficheros XML...)
Problema 3: Fuentes de datos externas
Problema 4: Demasiados datos
Problema 5: Análisis en tiempo real
INTRODUCCIÓN

 CONCLUSIÓN:

LA BD NO BASTA!!!!
NECESITAMOS OTRA COSA

DATA WAREHOUSE
¿Qué es Data Warehouse?
• DW es un conjunto de tecnologías, NO ES UN PRODUCTO.

• Es una arquitectura que debe construirse de acuerdo a las necesidades y entorno específico
de los clientes, y debe construirse de manera iterativa, para consolidar y administrar datos
de varias fuentes con el propósito de conseguir en un periodo de tiempo aceptable:
• Ayudar a la toma de decisiones(DSS).
• Descubrir conocimiento(Data Mining->mineria de datos).
• Responder preguntas de negocio(OLAP->análisis de datos).
¿Qué es Data Warehouse?
ALMACEN DE DATOS(AD)

Bases de Datos diseñada para el objetivo de exploración distinto que al de


las BD`s de los sistemas operacionales

Sistema Operacional BD orientada al proceso

Sistema de almacén de BD orientada al análisis


datos(DW)
¿Qué es Data Warehouse?
ALMACEN DE DATOS(AD)

Colección de datos diseñada para dar apoyo a los procesos en


la toma de decisiones

características

Orientada hacia la información


relevante de la organización. Integrada Variable en el No volátil
tiempo
¿Qué es Data Warehouse?
• AD:Orientada hacia la Se diseña para consultar
información relevante en el eficientemente información relativa
tiempo. a las actividades (ventas, compras,
producción...)básicas de la
organización, no para soportar los
procesos que se realizan en ella,
gestión de pedidos, facturación,
etc...

CURSO
PAIS
VENTA

Información necesaria
GAMA
REUNIÓN
PRODUCTO

PROTOTIPO
¿Qué es Data Warehouse?
Integra datos recogidos de diferentes
• AD:Integrada sistemas operacionales de la
organización(y/o fuentes externas)

Fuente de Fuente de datos3


datos2

BD transacional2
Almacén de datos
Fuente
de
datos1
BD transacional1

HTML

Fuentes Fuentes
internas externas
¿Qué es Data Warehouse?

• AD:Variable en el Los datos son relativos a un periodo de


tiempo. tiempo y deben ser incrementados
periódicamente.

Los datos son almacenados como fotos (snapshots)


correspondientes a periodos de tiempo.

TiempoDatos
01/2003 Datos de Enero

02/2003 Datos de Febrero

03/2003 Datos de Marzo


¿Qué es Data Warehouse?
• AD:No volátil Los datos almacenados no son actualizados
,solo son incrementados

CARGA

BD operacionales Almacén de datos

INSERT
READ
READ
DELETE
UPDATE El periodo de tiempo cubierto por un AD varía
entre 2 y 10 años.
SISTEMAS DE INFORMACION

ESTATREGICO

TACTICO

TECNICO-OPERATIVO

INTERINSTUCIONAL
SISTEMAS DE INFORMACION
 ESTRATEGICO
Orientados a soportar la toma de decisiones, proporcionando un soporte básico.
Se caracterizan por que son sistemas si carga periódica de trabajo, su utilización
no es predecible.

 TACTICOS.
Diseñados para las actividades y manejo de la documentación, para consultas en
el sistema, proporcionar informes, facilitar la gestión independiente por parte
de los niveles intermedios de la organización.

 SISTEMAS TECNICO-OPERATIVOS.
Operaciones tradicionales de captura masiva de datos. Y servicios básicos de
tratamiento de datos (contabilidad, presupuestos, almacenes, personal etc).

 SISTEMAS INTERINSTITUCIONALES
Es el ultimo nivel de sistemas de información, son como consecuencia del
mercado global el cual obliga a implementar estructuras de comunicación entre
la organización y el mercado. (Internet).
CARACTERISTICAS

Los datos de un Warehouse difieren de los datos operacionales usados por las
aplicaciones de producción.

Base de datos Operacional Data Warehouse

 Datos operacionales.  Datos del negocio para


 Orientado a la aplicación. información.
 Actual.  Orientado al sujeto.
 Detallada  Actual + histórico.
 Cambia continuamente.  Detallada + resumida.
 Estable.
CARACTERISTICAS
 ORIENTADO A TEMAS.
La información esta basada en los aspectos que son de interés para la empresa.
en el ambiente operacional, una aplicación puede ser clientes, productos y
cuentas, la base de datos combina estos elementos en una estructura que
acomoda para las necesidades de la aplicación, en ambiente data warehouse, se
organiza alrededor de sujetos, como cliente, vendedor, producto y actividad.
La diferencia entre orientación a procesos y la orientación a temas, radica en
el contenido del data a escala, el data warehouse excluye la información que no
será usada por el proceso de toma de desiciones.

 INTEGRADA
Es el aspecto más importante del ambiente datawarehousing siempre esta
integrada.
La integración de datos se muestra de muchas maneras: en convenciones
de nombres consistentes, en la medida uniforme de las variables, atributos
físicos de los datos consistentes, fuentes múltiples y otros.
 DE TIEMPO VARIANTE.
Toda la información del data warehouse es requerida en algún momento.
 ESTABLE
La información es útil solo cuando es estable.
ESTRUCTURA

Altamente resumido

Ligeramente resumido

Detalle actual

Detalle histórico de los datos


ARQUITECTURA DE UN DATAWAREHOUSE
Nos sirve para comprender como se relacionan los componentes involucrados
en una estrategia de Datawarehouse.
INTERFAZ

ADMINISTRADOR DE CONSULTAS

DATAWAREHOUSE

INTEGRADOR

EXTRACTOR / MONITOR EXTRACTOR / MONITOR

FUENTE FUENTE
ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA
DATAWAREHOUSE
En la parte inferior de la figura se pueden ver las fuentes
conectadas a un extractor / monitor. El extractor es el responsable de
homogenizar la información. El monitor es el responsable de detectar
los cambios que puedan ser realizados en las fuentes y reportarlos al
integrador.
El integrador recibe los resultados de los extractores y después de
integrarlos, los carga al DW. Para poder cargar la información, se debe
diseñar una estructura, para almacenar los datos, el esquema
multidimensional del DW.
El administrador de consultas se encarga de organizar las consultas
y seleccionar los operadores para permitir su análisis. Para explicar la
actividad de un DW podemos identificar dos grandes fases:
construcción y explotación.
La fase de construcción se refiere al diseño e implementación de
herramientas encargados de llevar los datos de las fuentes al
repositorio. Tomando en cuenta que se debe integrar y homogenizar la
información previamente. Un proceso posterior pero asociad a esta mis
fase es el proceso de mantenimiento. Este se encarga de llevar los
datos nuevos al DW.
En la fase de explotación se lleva a cabo el análisis de los datos
almacenados dentro del DW a través de técnicas que facilitan y hacen mas
eficiente su consulta. Ya con el DW poblado lo ultimo es diseñar e implementar
una interfaz que le permita al usuario final interactuar con el repositorio,
brindándole todas las ventajas del análisis de la información.

MODELO MULTIDIMENSIONAL

El modelo multidimensional describe la organización de la


información en un DW. Define los conceptos para agregar hechos a lo
largo de muchos atributos, llamados dimensiones.

CONCEPTOS.

Dimensión.
Una dimensión representa una perspectiva de los datos. Las dimensiones son
usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle.
Podemos definir el concepto de dimensión como el grado de libertad de
movimiento en el espacio. Entenderemos esta libertad como el numero de
direcciones ortogonales diferentes que podamos tomar.
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la
dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y
continente.

Medida.
Una medida es un valor en un espacio multidimensional definido por
dimensiones ortogonales. La medida es un dato numérico que representa la
agregación de un conjunto de datos. Los datos son producidos como el resultado
del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de
medidas.
Snapshots: modelan entidades en un punto dado en el tiempo.
Eventos: modelan eventos del mundo real, con el grano mas fino.
Snapshots fijos acumulativos: modelan actividades en un punto dado en el
tiempo.
Dependiendo de sus propiedades podemos tener tres medidas:
Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por
ejemplo, “temperatura”, que puede estar dada por las dimensiones
estación, región y fecha.
Semi-aditivas, pueden no ser combinadas a lo largo de una o mas
dimensiones. Por ejemplo, “nomina” que puede estar dada por las
dimensiones empleados y tiempo, pero no producto.
No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por
ejemplo, “cantidad de producto”, que únicamente puede estar dada por la
dimensión producto.

Cubo.
Una instancia del modelo multidimensional, esquema multidimensional, es
conocida como Cubo o hipercubo de n dimensiones. Cuando la gente observa los
datos de un cubo de n dimensiones, es mas fácil interpretar la información que
contiene dicho cubo, así como las distintas operaciones que se le pueden
realizar.
Para ejemplificar consideramos la existencia de una aplicación que realiza la
venta de juguetes. Para organizar sus ventas se define el cubo formado por las
dimensiones producto, tiempo y región. La figura presenta el esquema
multidimensional de un DW para la venta de productos que organiza un conjunto
de medidas según las dimensiones REGION, TIEMPO y PRODUCTO.

ESQUEMA MULTIDIMENSIONAL
Cada dimensión tiene asociada una jerarquía de niveles que denota la
granularidad de observación de la medida con respecto a una dimensión. Por
ejemplo, la dimensión REGION se organiza por Ciudad-Estado-Región-País. Así se
puede observar la cantidad de muñecas vendidas el martes 26 en la tienda
ubicada en la ciudad de Puebla.
ESQUEMA DE REPRESENTACION
Un esquema multidimensional puede instrumentarse usando un esquema
relacional en estrella (Star Schema) o usando un esquema copo de nieve (Snow
Flake Schema). Un esquema de estrella esta formado por una tabla para cada
dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los
atributos es a una llave extranjera hacia cada tabla de dimensión como se puede
apreciar en la sig. figura.
Región
Producto
Id Ciudad Medida
Id Producto
Nombre Id Producto Descripción
Dirección Id Ciudad Marca
Región Grupo
Id Tiempo
Tiempo Familia
unid vendidas
Tipo
Id Tiempo Precio
ESQUEMA EN ESTRELLA
Fecha
En un esquema copo de nieve las tablas de dimensiones están normalizadas.
Esto evita redundancia en los datos. Este esquema representa mejor la
semántica de las dimensiones del ambiente de negocios, ya que tiene un acceso
mas directos a los datos.
Id Región
Región
Región
Medida Id Producto
Id Ciudad
Id Producto Descripción
Nombre
Id Ciudad Marca
Dirección Tipo
Id Tiempo Precio
unid vendidas
Id Tiempo
Tiempo día Producto Id Grupo
grupo
Id Tiempo
mes
Id Familia
Id Tiempo
familia
año
CONSTRUCCION Y MANTENIMIENTO DE UN DW
CONSTRUCCIÓN.
Para poder llevar a cabo la construcción del DW, se necesitan herramientas
de extracción de datos a partir de las fuentes externas. Estas herramientas
extraen y homogenizan los datos y se comunican con un integrados que integra
los datos con respecto al esquema del DW.
La figura siguiente presenta la arquitecta del mecanismo de construcción de
un DW que consiste en un conjunto de extractores asociados a las fuentes. Un
extractor con la fuente para extraer la información y la transforma a una
representación comprendida por un integrador. El extractor conoce el formato
de las fuentes, el formato de representación de datos del DW, el protocolo de
comunicación y la ubicación de ambos.

FUENTE EXTRACTOR /
MONITOR

EXTRACTOR / INTEGRADOR DATAWAREHOUSE


FUENTE MONITOR

FUENTE EXTRACTOR /
MONITOR
El integrador integra la información y calcula los valores agregados con
respecto al esquema del DW. Las tareas principales del integrador son: combinar
los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en
el DW.

MANTENIMIENTO.
El mantenimiento del DW o “refrescado” asegura contar con datos
actualizados. Existen dos formas de refrescar los datos:
La primera es llevar los datos al DW segundos después de que las fuentes
fueron actualizadas.
La segunda es acumulando y almacenando los datos ya integrados y
transformados, en un sitio intermedio para que de forma periódica pasar la
información al DW.
El refrescado se puede realizar de manera incremental o recalculando
todos los datos.
El refrescado de un DW esta considerado como un problema difícil debido a
las siguientes razones:

Primero, el volumen de datos almacenado en el DW es muy grande y crece


cada vez mas.
Segundo, el refrescado deber ser accesible a los diferentes cambios de
ejecución del DW.
Finalmente, el refrescado engloba transacciones que por lo regular
acceden a múltiples datos, lo que implicaría contar con cálculos que pueden
convertirse en complejos ya que producirían un alto nivel de agregación.

EXPLOTACIÓN DE UN DW

La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos


de consultas nos referimos a la manipulación, análisis y visualización de la
información que realiza el usuario sobre la información del DW. Para el análisis
de los datos almacenados en el QW se utiliza la tecnología OLAP (On Line
Analytical Proccesing). Esta tecnología cuenta con operadores tales como:
Slice´n dice roll-up y drill down.
Slice´n dice permite restringir los valores asociados a una o varias
dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de
niveles seleccionados del DW. En la sig. figura se observa un ejemplo en el que se
restringe el resultado para analizar solo las ventas de las cubetas y los
trapeadores en 2003 y 2002 en Monterrey y Puebla.
Roll up agrega medidas que van de un nivel Ni a un nivel mas general Nj de
una dimensión. Permite analizar la información a través de diferentes niveles de
granularidad de las dimensiones.
Drill down es la operación inversa. A partir de un nivel superior este
operador permitir bajar de nivel. En la sig. figura se observa un claro ejemplo de
cómo la dimensión tiempo cambia de nivel días a meses y viceversa.
CONSIDERACIONES ADICIONALES AL CONSTRUIR EL DW
Niveles de Esquematización:
 Altos: Indexados libremente Fácilmente Reestructurados.
 Bajos: Indexados moderadamente Difícilmente Reestructurado.

Partición de las Aplicaciones:


 Partición DBMS: Automáticamente.
 Partición de Aplicaciones; Solo los programadores conocen, y la responsabilidad de
administrar es de ellos.

Excepciones en el DW.
La Data Calculada Fuera del DW pero que es necesario para la corporación:
Ejemplo.
Rentas, gastos, ganancias, parámetros de construcciones de aviones, datos de
seguridad. Etc.
Este detalle en ocasiones debe ser guardado por razones Legales o Éticas.
Conocidos en DW como Datos permanentes.
• El medio debe ser seguro
• Deben poder ser restaurados
• Necesitan se indexados de manera especia.

• DBMS: Sistemas de Gestión de Base de Datos. (Data Base Management Systems)


ORGANIZACION DEL PROYECTO
1. Factores en la Planificación del DW. :
* Asociación entre Usuarios, Gestores y Grupos.
- Información que satisfaga los requerimientos de la empresa.
- Selección de Herramientas.

* Aplicación Piloto.
- Una prueba limitada para medir el beneficio de manera clara

* Prototipos .
- Verificar la necesidades del usuario durante el proceso de
implementación.

* Implementación Incremental.
- Reduce riesgos y controla el tamaño del proyecto para que sea manejable.

* Reportar y Publicar casos exitosos.


- Publicidad interna de cómo le ayuda a la gente que ya lo utiliza
2. Estrategias para el Desarrollo del DW. :
Desarrollar un estrategia apropiada a las necesidades de los usuarios.

* Primero.
- Acceso fácil al directorio de datos y gestión del proceso.
- Entrenamiento al usuario final.
- Uso de las Instalaciones del DW.

* Segundo.
- Construir una copia de los datos operacionales. Esto por si los datos existente son
de mala calidad.

* Tercero.
- Seleccionar el numero de usuarios.
- Construir prototipos para los usuarios final para poder experimentar o modificar
su es necesario.
- Cargar los datos de los sistemas existentes o de fuentes externas.
3. Estrategias para el Diseño del DW. :
* Los usuarios no conocen sus requerimientos, como los usuarios operacionales.

* Se requiere en ocasiones una Reingeniería de Proceso del Negocio.

* Estrategia de diseño de afuera hacia adentro (outside-in).

4. Estrategias para la Gestión de un Diseño del DW. :


* Esto solo es una buena inversión si los usuarios finales consiguen información vital y
rápida.

* Reconocer que el mantenimiento de la estructura del DW es critica.


DESARROLLO DE UN PROYECTO.
Almacenaje de un DW.
* Puede contener toda la infamación de la empresa desde su inicio, o tan limitado a un
gerente durante un año.

Virtual o Point to Point.


* Estos significa que los usuarios finales pueden acceder a bases operacionales
directamente, usando cualquier herramienta (red de acceso de datos).

DW Centrales
* Se seleccionan donde hay necesidades comunes de información y un gran numero de
usuarios.

DW Distribuidos
* Los componentes de deposito se distribuyen en un numero de bases de datos físicas
diferentes.

Tipo De Usuario
* Ejecutivos y gerentes
* “Power users” o “Buzo de Información”. Analistas financieros, Ingenieros,
* Usuarios de soporte. De oficinas, administrativos.
ELEMENTOS CLAVES PARA EL DESARROLLO.

* Esta integrado por un servidor de Hardware


* Los DBMS que conforman el dispositivo. (Sistemas de Gestión de Base de Batos.)

BLOQUES CLAVES DE CONSTRUCCIÓN.

1) Arquitectura total del deposito.


Estructura física de la base de datos de deposito.

a) DW Integrado o centralizado; Las bases de datos separados son todos integrados y


físicamente almacenados en la misma plataforma.

Financiero
Manufactura

Distribución
Comercio
Data
Mainframe Warehouse Servidor
Corporativo Local Usuario Final
b) Arquitectura Global; Los datos es consolidad lógicamente pero se almacena por
separado sin las bases de datos físicamente relacionadas, en el mismo lugar físico.

Financiero

Comercio

Corporativo Distribución
Data Warehouse

Manufactura

Usuario Final
c) Arquitectura por Niveles; Datos altamente resumidos en la 1er estación de trabajo del
usuario, con resúmenes mas detallaos en el 2do. servidor y mas detallada en el 3er
servidor.

Nivel 1 Nivel 2 Nivel 3

Financiero Financiero
Comercio Comercio

Distribución Distribución

Manufactura Manufactura

Estación de Trabajo
Corporativo Modelos Complementarios
de datos
Data Warehouse
BLOQUES CLAVES DE CONSTRUCCIÓN.
2) Arquitectura del servidor.
Estructura física de la base de datos de deposito.

a) De un solo Servidor; Fácil de administrar pero con limitaciones de potencia de


procesamiento y escalabilidad.

b) Multiprocesamiento Simétrico (SMP); Adición de procesadores que comparten la


memoria interna de los servidores y de los dispositivos de almacenaje del disco.

c) Procesamiento en Paralelo Masivo (MMP); Conjunto de procesadores con un enlace de


banda ancha y de alta velocidad. Cada modo es un servidor con su propio
procesador SMP y memoria interna.

d) Acceso de memoria no uniforme (NUMA); Se crea con una sola gran maquina SMP al
conectar múltiples nodos en uno solo, ventajas en la gestión y simplicidad de un
ambiente SMP.
BLOQUES CLAVES DE CONSTRUCCIÓN.

3) Sistema de Gestión de Base de Datos.


Los Relational Data Base Managment Systems (RDBMS); son muy flexibles cuando se
usan con una estructura de datos normalizada y tienen la capacidad para efectuar
consultas con un único objetivo concreto.

Los modelos super relacionados soportan extensiones para almacenar formatos,


operaciones y diagramas indexacion especializados.

Base Normalizada, las estructura de datos son No Redundantes y que representan las entidades
básicas.