Está en la página 1de 59

Asignatura: Almacenes de Datos

(DATA WAREHOUSES)

Profesor:
Daynier Ramiro García Prats
drgarcia@uci.cu
¿Qué sabemos de almacenes de
datos?

! orígenes

concepto

arquitectura básica

tendencias arquitectónicas

metodologías de desarrollo
Origen de los almacenes de datos
Surgen en los años 90.
Conocimiento

R Almacenes de
e patrones
f
i Minería de datos
n
a
Almacenes de
m
datos y
i
OLAP
n
Modelo
e
Relacional
n
t Estadísticas y SGBD
o reportes

Datos

1970 1980 1990 2000


Almacenes de datos o DWHs:
“Son un conjunto de datos
- orientados a un tema,
- integrados,
- de tiempo variante y
- no volátiles
usados en la estrategia de toma de
decisiones administrativas.”
Inmon, W. H. (2005)
Tipos de sistemas de información

Estratégico
ALMACENES DE DATOS
Táctico-toma
de decisiones

Transaccional-
operativo
Tendencias arquitectónicas

Se guían por una arquitectura básica:


Tendencias arquitectónicas

Además de guiarse por una arquitectura


básica responden al reconocimiento de
tecnologías y esquemas de almacena-
miento de acuerdo al diseño físico:
– ROLAP (Relacional)
– MOLAP (Multidimensional)
– HOLAP (Híbrido)
Metodologías de desarrollo

Metodología de Metodología de
Inmon Kimball

Metodología Data Warehouse


HEFESTO Engineering Process

Rapid Warehousing Metodología de Desarrollo


Methodology para DWH en DATEC
Tipos de metodologías de desarrollo
Metodologías de desarrollo
DW&BI
Análisis y BI
ETL
Diseño

•Requisitos de •Integración de las •Implementación


Información fuentes de datos de los cubos
•Modelo •Transformaciones •Generación de
Dimensional •Carga del almacén Reportes
•Script BD •Diccionario de
Datos

11
Tema # 2: Análisis y diseño de
almacenes de datos.

Conferencia # 2

Análisis y diseño para el


desarrollo de un almacén
de datos. Conceptos
generales
Objetivo:

- Caracterizar el proceso de análisis y


diseño de un almacén de datos,
tomando como principales resultados la
definición de requisitos de información,
el modelado dimensional y la
implementación del repositorio de datos.
Bibliografía

Inmon, W. H. (2005) Building the


Data Warehouse, 4th Edition. Wiley
Publishing, Inc.
Kimbal, R. (2004) The Data
Warehouse ETL. Toolkit. Wiley
Publishing, Inc.
Sumario

Análisis de un almacén de datos


Diseño de un almacén de datos
– Esquema conceptual
– Esquema lógico
– Esquema físico
Análisis
1. Se parte de un proceso de negocio.
2. Se definen las actividades
fundamentales a partir de las
funciones que realiza cada
subsistema funcional dentro de la
organización/empresa.

16
Subsistemas funcionales

Mercadotecnia

Recursos
Operaciones Información
humanos

Recursos
financieros

Administración
Análisis
3. Se determinan los requisitos de información
asociados a las variables e indicadores
manejados.
Indicadores
Valores numéricos.
Representan lo que se desea analizar concretamente.
Ejemplo: cantidad de trabajadores.
Perspectivas
Objetos mediante los cuales se quiere examinar los indicadores,
con el fin de responder a las preguntas planteadas
Ejemplos: categoría docente, sexo, rango edad, cargo, tiempo.
Procesos del Diseño de DWH

19
Diseño conceptual

• A partir de los requerimientos del usuario


se representan los objetos del negocio en
términos de hechos, dimensiones,
atributos de las dimensiones, cruces entre
dimensiones, niveles de las dimensiones y
medidas.

20
Diseño conceptual

• Hecho: Evento específico que constituye la


unidad fundamental de análisis de datos, para
la toma de decisiones. Ejemplos: ventas,
exportaciones, inversiones, etc.
• Dimensiones: Es una entidad de negocios
respecto de la cual se deben calcular las
métricas. Ejemplos: clientes, productos,
tiempo, etc.
21
Diseño conceptual

• Medidas: Valores cuantitativos que


almacenan las métricas del negocio. Están
representados por columnas numéricas en la
tabla de hechos. Estos datos provienen
directamente de los sistemas OLTP.

22
Diseño conceptual
EJEMPLO

Organización: Cadena de supermercados.

Actividad objeto de análisis: ventas de productos.

Información registrada sobre una venta: “del


producto “Tauritón 33cl” se han vendido al cliente
“José Perales” el día 7/7/2007, 5 unidades por un
importe de 103,19 cuc.”
Diseño conceptual

• El hecho “Ventas”, por sí solo, carece de


sentido. ¿Quiero ver las ventas por producto?
¿por tiempo? ¿por distribuidor? Cada uno de
estos criterios produce una dimensión.

24
Ejemplo

25
Diseño conceptual

• Dimensiones y medidas por requerimiento

26
Conclusiones Parciales
¿Qué se realiza en la etapa de anális
de un almacén de datos?
¿Cómo se realiza el diseño conceptual
de la etapa de diseño?
Diseño lógico
Definir nivel de granularidad: nivel de detalle
de los datos a almacenar y formas de
organización.

Mercados
de Datos
Diseño lógico
Las bases de datos multidimensionales
implican tres variantes posibles de
modelamiento, que permiten realizar
consultas de soporte de decisión:
Esquema en estrella (Star Scheme).
Esquema copo de nieve (Snowflake
Scheme).
Esquema constelación o copo de estrellas
(Starflake Scheme).
Esquema en Estrella

El esquema en estrella, consta de


una tabla de hechos central y de
varias tablas de dimensiones
relacionadas a esta, a través de sus
respectivas claves.

30
Esquema en Estrella

31
Ejemplo
Producto

Tiempo llave-producto
id-producto
llave-tiempo descripción
día-semana marca
semana tipo de empaque
trimestre Ventas
llave-tiempo
llave-producto
llave-almacén
unidades vendidas
importe
Cliente
llave-cliente
id-cliente
nombre
direccion
ciudad
Atributos en las dimensiones

• Los atributos describen características de las cosas.


• Son generalmente textuales o se comportan como
tal.
• Toman valores discretos.
• Aparecen en las columnas de los reportes de salida.
• Pueden formar jerarquías en las dimensiones:
(localización: dirección, ciudad, provincia)
Jerarquía en las dimensiones
Entre los atributos de una dimensión se
definen jerarquías
Producto

nro. producto categoría departamento

Cliente

ciudad región
Id_cliente
nombre

Tiempo
día mes trimestre año

semana
Dimensión TIEMPO
Atributos de la dimensión tiempo:
• fecha completa (en el formato del AD)
• día de la semana (lunes.. domingo)
• día del mes (1..31)
• semana del mes (1..5)
• día del año (1..365)
• semana del año (1..48)
• trimestre del año (1..4)
• mes del año (enero..diciembre)
• víspera de día festivo
• día festivo
Llaves

• Todas las tablas de dimensiones tienen una


llave primaria para identificar las filas de la
misma
• NO DEBEN usarse las llaves del sistema
operacional.
• Deben ser llaves sin significado.
Esquema Copo de Nieve

Este esquema representa una


extensión del modelo en estrella
cuando las dimensiones se organizan
en jerarquías de dimensiones.

37
Esquema Copo de Nieve

38
Snowflake (Copo de Nieve)
• Se dice que una dimensión está “snowflaked” cuando
los atributos de baja cardinalidad se llevan a tablas
separadas.
• Kimball no recomienda su utilización en almacenes
• A veces se usa para ahorrar espacio de
almacenamiento
• Hace las presentaciones más complejas
• Hace más lentas las aplicaciones de consulta.

Ventas Cliente Ciudad


… llave-cliente llave-ciudad
llave cliente … nombre
… direccion
llave-ciudad
Subdimensiones
En ocasiones conviene tener subdimensiones
cuando las mismas tienen un conjunto de atributos
que vale la pena aislar.
En apariencia es igual al copo de nieve, pero en
algunos casos se justifica, incluso por uso de
memoria.
Subdimensión
ventas cliente demográfica

llave cliente
llave demog
llave-cliente
… nombre
… cant habitantes
llave-demog
área
...
Esquema Constelación

Está compuesto por una serie de


esquemas en estrella está formado
por varias tablas de hechos las
cuales. Dichas tablas yacen en el
centro del modelo y están
relacionadas con sus respectivas
tablas de dimensiones.
41
Esquema Constelación

42
Constelación de hechos
Múltiples tablas de hechos comparten las mismas dimensiones.
Embarques
Tiempo
llave-tiempo llave-tiempo
día_semana llave-producto
semana Producto llave-tiendaorigen
trimestre llave-producto llave-tiendadestino
id-producto llave-transportista
Ventas unidades embarcadas
descripción
llave-tiempo marca precio_embarque
llave-producto tipo de empaque
llave-cliente
llave-tienda Transportista
Clientes unidades vendidas
llave-cliente precio llave-transportista
Tiendas id-transportista
id-cliente
llave-tienda nombre
nombre
id-tienda dirección
credito
nombre tipo
direccion
dirección
ciudad
ciudad
Dimensiones conformadas (compartidas)

• Es una dimensión que significa lo mismo para cada


posible tabla de hechos con la que se pueda unir
Ejemplos: tienda, producto, tiempo.
• Es responsabilidad del equipo diseñador establecer,
publicar y mantener las dimensiones conformadas
• Sin un uso estricto de dimensiones conformadas el
almacén nunca funcionará como un todo.
• Deben tener una clave no significativa para poder
permitir cambios en el futuro
• La creación de las mismas es tanto decisión técnica
como política
Dimensiones conformadas (II)
• Hacen posible:
– Una única tabla de dimensión se puede usar contra
múltiples tablas de hechos en el mismo espacio de
bases de datos
– Las interfaces de usuario y el contenido de los
datos son consistentes dondequiera que se use
– Hay una interpretación consistente de atributos
• Puede llevar mucho tiempo la identificación de las
mismas
• Se diseñan al nivel de granularidad más bajo que sea
posible
Dimensiones Degeneradas
• La mayoría de los diseños multidimensionales están
alrededor de un documento de control: nº de pedido,
factura, ticket, ...
• Generalmente son contenedores con más de un
producto
• Generalmente en estos casos el grano de la tabla es
el producto
• ¿Qué se hace con los números?
• Se ponen en las tablas de hechos y se consideran
una dimensión aunque no tiene tabla de dimensión
asociada.
Conclusiones Parciales

¿A qué se le llama nivel de granualidad?


¿Qué es el esquema en estrella?
¿Qué es el esquema en copo de nieve?
¿Qué es el esquema en constelación de
estrellas?
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.

48
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.
 • Los datos origen y sus
agregaciones están en una
estructura multidimensional.
 • Provee excelente
rendimiento y compresión de
datos.
 • Estructura optimizada para
maximizar las
 Consultas
49
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.

 •La información es
almacenada en una base
 de datos relacional.
 •Es más lenta que las otras
estrategias (MOLAP o
HOLAP).

50
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.

 Combina atributos de
MOLAP y ROLAP.

51
Características

52
Diseño Físico
Cubo: La idea fundamental del
modelo multidimensional es que los
datos de negocio pueden ser
representados como un tipo de cubo
de datos. En los cubos cada celda
contiene un valor y las aristas del
cubo definen dimensiones naturales
de análisis.
53
Diseño Físico
Los modelos de datos físicos son estructuras de datos
a bajo nivel implementadas dentro del manejador de
base de datos. Este diseño sí depende del SGBD. En
este caso, se implementan las tablas con sus
características, organización y estructuras de
almacenamiento interno.

54
Conclusiones

Fases para el desarrollo de un


almacén
Análisis
Diseño
ETL
BI

55
Conclusiones
En la etapa de análisis:
• Se parte de un proceso de negocio.
• Se definen las actividades
fundamentales a partir de las funciones
que realiza la organización/empresa.
• Se determinan los requisitos de
información asociados a las variables e
indicadores manejados.
Conclusiones

Descripción de los procesos

Procesos del Diseño


57
Trabajo independiente
1. Estudiar la conferencia.
2. Investigar sobre los siguientes
aspectos:
• Tipos de dimensiones.
• Tipos de hechos.
• Tipos de almacenes de datos.

Bibliografía.
Bernabeu Ricardo Dario, (2010) DATA WAREHOUSING:
Investigación y Sistematización de Conceptos.
58
Tema # 2: Análisis y diseño de
almacenes de datos.

Conferencia # 2

Análisis y diseño para el


desarrollo de un almacén
de datos. Conceptos
generales.

También podría gustarte