Está en la página 1de 34

Data Warehousing

Básico con Pentaho

Tema: Análisis y diseño de Almacenes de


Datos

Ing. Rayko Emilio Torres Cruz


Especialista de Business Intelligence
Objetivo:

 Describir la etapa de análisis y


diseño para el desarrollo de un
Almacén de Datos a partir de sus
objetivos, principales elementos y
actividades que se realizan en esta
etapa.
Contenido:

 Principales conceptos.
 Enfoque para el levantamiento de
requisitos.
 Identificación de dimensiones,
hechos y medidas a partir de los
requisitos de información.
Conceptos de análisis

 Requisito de información: Se definen a través de las


necesidades de información que el cliente solicita.

 Caso de uso de información: Representan agrupaciones de los


requisitos de información.
Enfoques de análisis

 Datos: Se tienen en cuenta los datos presentes en el sistema


fuente para modelar el almacén de datos.

 Usuarios: Se tienen en cuenta las necesidades de los usuarios


finales de la solución.

 Híbrido: Se complementan los enfoques anteriores.


Enfoque híbrido
Identificar requisitos
1. Identificar áreas de análisis de interés.

2. Por cada área de análisis, identificar procesos de negocios o


conceptos que requieran ser analizados.

3. Por cada proceso de negocio o concepto, identificar elementos


o aspectos medibles de interés. Definir granularidad.

4. Identificar perspectivas o perfiles de análisis de los elementos


medibles identificados.
Identificar requisitos
Ejemplo de requisitos

 Obtener los ingresos de ventas por tienda y cliente asociado.

 Obtener los ingresos por cada producto en cada una de las


tiendas.

 Obtener la cantidad de productos vendidos por tipo de producto


y por cliente.
Comprobar disponibilidad
Producto
Cliente
Tienda
Tiempo
Venta
¿Se pueden
Cliente
satisfacer todos
nombre apellidos dirección provincia
los requisitos de
Producto
nombre clasificacion información?

Venta
id ingreso fk_producto fk_cliente fecha
Agrupar requisitos
Estructuración de perfiles
de análisis
Trazabilidad análisis-diseño
Conceptos de Diseño
 Dimensiones: Características de un concepto presente en el
negocio.

 Jerarquías: Representan una organización determinada dentro


de los atributos de una dimensión.

 Hechos: Variables de negocio sobre los que se va a totalizar,


promediar, y en general realizar operaciones de agregación que
conduzcan a conclusiones sobre la evolución del área o
departamento que se estudie.

 Medidas: Variables cualitativas que se almacenan en los hechos


y constituyen la base para la obtención de los indicadores que
reportan los análisis que respaldan la toma de decisiones.
Visión multidimensional
Visión multidimensional
Diseño

 Diseño conceptual: Define el Almacén de Datos desde un punto


de vista conceptual, es decir, desde el mayor nivel de abstracción
y contiene únicamente los objetos y relaciones más importantes.

 Diseño lógico: Abarca aspectos lógicos del diseño del Almacén


de Datos, como la definición de las tablas y claves, etc. Es
dependiente de la plataforma a desplegar el almacén de datos.

 Diseño físico: Define los aspectos físicos del Almacén de Datos,


como el almacenamiento de las estructuras lógicas en diferentes
discos o la configuración de los servidores de bases de datos que
mantienen el almacén de datos.
Diseño conceptual

Marca

Descripción Semana
Categoría
Departamento Mes
Nro_producto Día Trimestre
Tipo Año

importe
unidades
Almacén

Ciudad
Tipo
Región
Diseño lógico

Depende del tipo de servidor OLAP


 MOLAP (Multidimensional OLAP)
 Arrays multidimensionales

 ROLAP (Relational OLAP)


 Esquema estrella de R. Kimball
 Tablas relacionales para representar hechos y dimensiones
 Variantes esquema estrella.
 Constelaciones de hechos.
 Copos de nieve.
MOLAP
Sistemas MOLAP: disponen de estructuras de almacenamiento
específicas (arrays) y técnicas de compactación de datos que
favorecen el rendimiento del almacén.
ROLAP
Sistemas ROLAP:se implementan sobre tecnología relacional, pero
disponen de algunas facilidades para mejorar el
rendimiento (índices de mapas de bits, índices de JOIN).
Tipos de modelado para ROLAP

 Esquema en estrella: Formado por una tabla de hechos con una


única tabla para cada dimensión.

 Esquema en copos: Es una variante del esquema de estrella en


el que las tablas dimensionales de este último se organizan
jerárquicamente mediante su normalización.

 Constelación de hechos: Es un conjunto de tablas de hechos


que comparten algunas tablas de dimensiones.
Diseño lógico relacional estrella

Dim_Product Dim_Store
Product_id Store_id
Product_disc,... District_id,...

Sales Fact Table


Product_id
Tabla de hechos
Store_id Dimensiones
centrales Item_id desnormalizadas
Day_id
Sales_amount
Sales_units, ...
Dim_Time
Day_id Dim_Item
Month_id Item_id
Year_id,... Item_desc,...
Diseño lógico relacional
estrella
 Fácil de entender para los usuarios
 Llaves primarias representan una dimensión
 Ninguna columna de llaves son valores
 Hechos usualmente son altamente normalizados
 Las dimensiones están completamente
desnormalizadas
 Brinda respuesta rápida a las consultas (Se mejora el
rendimiento reduciendo los joins en las tablas)
Diseño lógico relacional copo de
nieve
Dim_Store
Dim_Product Dim_District
Store_id
Product_id District_id
Store_desc
Product_desc District_desc
District_id
Sales Fact Table
Item_id
Store_id
Product_id
Week_id
Sales_amount
Sales_units
Dim_Time Dim_Item Dim_Dept Dim_Mgr
Week_id Item_id Dept_id Dept_id
Period_id Item_desc Dept_desc Mgr_id
Year_id Dept_id Mgr_id Mgr_name
Diseño lógico relacional copo
de nieve

 De uso directo por algunas herramientas


 Más flexible al cambio
 Provee una carga más rápida de datos
 Puede volverse grande e inmanejable
 Degrada el rendimiento de la consulta
 Metadatos más complejos
Pais Provincia Municipio Localidad
Diseño lógico relacional
constelación de hechos
PK
tabla de
PK
dimensión
tabla de
dimensión FK FK
FK

tabla de FK FK
FK datos
dimensión
datos tabla de
dimensión tabla de
tabla de hechos A hechos B

ESQUEMA DE CONSTELACIÓN DE HECHOS


Dimensión Tiempo

Anual?
Trimestral?
Mensual?
Semanal?
Diario?

Otros atributos:
 Año Bisiesto
 Días festivos
Llaves primarias de las
dimensiones
 Todas las tablas de dimensiones tienen una llave primaria para
identificar las filas de la misma.

 NO DEBEN usarse las llaves del sistema operacional.

 Deben ser llaves sin significado para el negocio.


Diseño físico
 Organización física de los datos en la base de datos.

 Implementación de scripts requeridos para el despliegue y la


posterior carga de datos.

 Implementación de mecanismos de optimización.

 Definición de procesos de administración.


Ejercicio
El INEC, es el órgano rector de la estadística nacional y el
encargado de generar las estadísticas oficiales del Ecuador
para la toma de decisiones en la política pública. La
información recopilada proviene de diferentes fuentes, la
diferencia entre ellas está dada fundamentalmente en las
formas de captación, períodos de captura (mensual, trimestral,
semestral, anual), entre otras. Esta información es registrada en
modelos organizados por organismos y sus respectivos
centros informantes. Los modelos están compuestos por un
conjunto de indicadores ajustados a cada centro informante en
dependencia al trabajo que se realice en cada uno.
Ejercicio
Se definen como necesidades de los usuarios el análisis y
la difusión de los indicadores de Inmigración y extranjería,
tanto del año en curso como de años anteriores. El
propósito es analizar todo lo referente a la entrada al país de
visitantes, por cualquier motivo. Los datos se brindarán en
un período de tiempo variable: día, mensuales, trimestrales
o anuales.
Ejercicio
A continuación se presentan algunos pedidos de
información presentes en estos modelos:

 Calcular los principales emisores de visitantes al Ecuador


según motivo de viaje por mes.
 Calcular el arribo de visitantes por áreas geográficas
según el motivo de viaje, por mes.
 Obtener la serie de llegadas de visitantes por sexo,
ciudadanía, motivos de viaje, y país de embarque.

A partir de la información anterior:


 Identifique dimensiones, hechos, y medidas.
 Diseñe el modelo dimensional para darle solución a la
problemática presentada.
Data Warehousing
Básico con Pentaho

Tema: Análisis y diseño de Almacenes de


Datos

Ing. Rayko Emilio Torres Cruz


Especialista de Business Intelligence

También podría gustarte