Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(DATA WAREHOUSES)
Profesor:
Daynier Ramiro García Prats
drgarcia@uci.cu
¿Qué sabemos de almacenes de
datos?
! orígenes
concepto
arquitectura básica
tendencias arquitectónicas
metodologías de desarrollo
Origen de los almacenes de datos
Surgen en los años 90.
Conocimiento
R Almacenes de
e patrones
f
i Minería de datos
n
a
Almacenes de
m
datos y
i
OLAP
n
Modelo
e
Relacional
n
t Estadísticas y SGBD
o reportes
Datos
Estratégico
ALMACENES DE DATOS
Táctico-toma
de decisiones
Transaccional-
operativo
Tendencias arquitectónicas
Metodología de Metodología de
Inmon Kimball
11
Tema # 2: Análisis y diseño de
almacenes de datos.
Conferencia # 2
16
Subsistemas funcionales
Mercadotecnia
Recursos
Operaciones Información
humanos
Recursos
financieros
Administración
Análisis
3. Se determinan los requisitos de información
asociados a las variables e indicadores
manejados.
Indicadores
Valores numéricos.
Representan lo que se desea analizar concretamente.
Ejemplo: cantidad de trabajadores.
Perspectivas
Objetos mediante los cuales se quiere examinar los indicadores,
con el fin de responder a las preguntas planteadas
Ejemplos: categoría docente, sexo, rango edad, cargo, tiempo.
Procesos del Diseño de DWH
19
Diseño conceptual
20
Diseño conceptual
22
Diseño conceptual
EJEMPLO
24
Ejemplo
25
Diseño conceptual
26
Conclusiones Parciales
¿Qué se realiza en la etapa de anális
de un almacén de datos?
¿Cómo se realiza el diseño conceptual
de la etapa de diseño?
Diseño lógico
Definir nivel de granularidad: nivel de detalle
de los datos a almacenar y formas de
organización.
Mercados
de Datos
Diseño lógico
Las bases de datos multidimensionales
implican tres variantes posibles de
modelamiento, que permiten realizar
consultas de soporte de decisión:
Esquema en estrella (Star Scheme).
Esquema copo de nieve (Snowflake
Scheme).
Esquema constelación o copo de estrellas
(Starflake Scheme).
Esquema en Estrella
30
Esquema en Estrella
31
Ejemplo
Producto
Tiempo llave-producto
id-producto
llave-tiempo descripción
día-semana marca
semana tipo de empaque
trimestre Ventas
llave-tiempo
llave-producto
llave-almacén
unidades vendidas
importe
Cliente
llave-cliente
id-cliente
nombre
direccion
ciudad
Atributos en las dimensiones
Cliente
ciudad región
Id_cliente
nombre
Tiempo
día mes trimestre año
semana
Dimensión TIEMPO
Atributos de la dimensión tiempo:
• fecha completa (en el formato del AD)
• día de la semana (lunes.. domingo)
• día del mes (1..31)
• semana del mes (1..5)
• día del año (1..365)
• semana del año (1..48)
• trimestre del año (1..4)
• mes del año (enero..diciembre)
• víspera de día festivo
• día festivo
Llaves
37
Esquema Copo de Nieve
38
Snowflake (Copo de Nieve)
• Se dice que una dimensión está “snowflaked” cuando
los atributos de baja cardinalidad se llevan a tablas
separadas.
• Kimball no recomienda su utilización en almacenes
• A veces se usa para ahorrar espacio de
almacenamiento
• Hace las presentaciones más complejas
• Hace más lentas las aplicaciones de consulta.
42
Constelación de hechos
Múltiples tablas de hechos comparten las mismas dimensiones.
Embarques
Tiempo
llave-tiempo llave-tiempo
día_semana llave-producto
semana Producto llave-tiendaorigen
trimestre llave-producto llave-tiendadestino
id-producto llave-transportista
Ventas unidades embarcadas
descripción
llave-tiempo marca precio_embarque
llave-producto tipo de empaque
llave-cliente
llave-tienda Transportista
Clientes unidades vendidas
llave-cliente precio llave-transportista
Tiendas id-transportista
id-cliente
llave-tienda nombre
nombre
id-tienda dirección
credito
nombre tipo
direccion
dirección
ciudad
ciudad
Dimensiones conformadas (compartidas)
48
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.
• Los datos origen y sus
agregaciones están en una
estructura multidimensional.
• Provee excelente
rendimiento y compresión de
datos.
• Estructura optimizada para
maximizar las
Consultas
49
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.
•La información es
almacenada en una base
de datos relacional.
•Es más lenta que las otras
estrategias (MOLAP o
HOLAP).
50
Diseño Físico
Modelar e implementar el repositorio
de datos haciendo uso de un SGBD.
Combina atributos de
MOLAP y ROLAP.
51
Características
52
Diseño Físico
Cubo: La idea fundamental del
modelo multidimensional es que los
datos de negocio pueden ser
representados como un tipo de cubo
de datos. En los cubos cada celda
contiene un valor y las aristas del
cubo definen dimensiones naturales
de análisis.
53
Diseño Físico
Los modelos de datos físicos son estructuras de datos
a bajo nivel implementadas dentro del manejador de
base de datos. Este diseño sí depende del SGBD. En
este caso, se implementan las tablas con sus
características, organización y estructuras de
almacenamiento interno.
54
Conclusiones
55
Conclusiones
En la etapa de análisis:
• Se parte de un proceso de negocio.
• Se definen las actividades
fundamentales a partir de las funciones
que realiza la organización/empresa.
• Se determinan los requisitos de
información asociados a las variables e
indicadores manejados.
Conclusiones
Bibliografía.
Bernabeu Ricardo Dario, (2010) DATA WAREHOUSING:
Investigación y Sistematización de Conceptos.
58
Tema # 2: Análisis y diseño de
almacenes de datos.
Conferencia # 2