Está en la página 1de 18

ELEARNING TOTAL Curso Business Intelligence – Unidad III

Business Intelligence

UNIDAD III: Data Warehouse y Modelo dimensional

Contacto: info@elearning-total.com
Web: www.elearning-total.com

1
ELEARNING TOTAL Curso Business Intelligence – Unidad III

1. Data Warehouse y Data mart - Definiciones

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización


mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse
de forma segura, fiable, fácil de recuperar y fácil de administrar.

Un data warehouse es un repositorio unificado para todos los datos que recogen los diversos
sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de
datos de diversas fuentes sobre todo para fines analíticos y de acceso.

El concepto de data warehouse se originó en 1988 con el trabajo de los investigadores de IBM, Barry
Devlin y Paul Murphy aunque el término data warehouse fue acuñado por William H. Inmon, el cual
es conocido como el padre de Data Warehousing. Inmon describió un data warehouse como una
colección de datos orientada a un tema específico, integrado, variante en el tiempo y no volátil, que
soporta el proceso de toma de decisiones.

Un Data mart es una base de datos departamental, especializada en el almacenamiento de los datos
de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para
analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho
departamento. Un datamart puede ser alimentado desde los datos de un data warehouse, o integrar
por sí mismo un compendio de distintas fuentes de información.

William H. Inmon estableció 4 características fundamentales de un DataWarehouse

• Orientados a un tema (<> A una transacción)


• Integrados
• Variables en el tiempo
• No volátiles

¿Por qué necesitamos un Data Warehouse?


Alguna ventajas tecnológicas y funcionales de tener un data warehouse corporativo

• Aliviar la carga de los servidores transaccionales que apoyan las transacciones de negocio de
la organización (ERP, CRM, WMS, etc)
• Acabar con datos sucios provenientes de sistemas diversos.
• Seguridad en el acceso a los datos corporativos y democratización del acceso a los datos
• Una única verdad
• Mejor relación con el cliente

Contacto: info@elearning-total.com
Web: www.elearning-total.com

2
ELEARNING TOTAL Curso Business Intelligence – Unidad III

¿Qué características comunes describen un Data Warehouse?

• En general, una plataforma de hardware aislada.


• Integra datos de diferentes fuentes u orígenes (Sistemas OLTP, archivos planos, información
externa, etc.)
• Sus datos se usan para la toma de decisiones
Los datawarehouses desnormalizan información
• Es una combinación de hardware, software especializado y datos.

2. Modelo Multidimensional - Tablas Fact y Dim (tablas de hechos y tablas dimensionales)

Un poco de historia…

En la historia de la inteligencia empresarial, la década de 1980 se conoce como una época en la que
los grandes volúmenes de datos vieron algunos cambios grandes.

Como dijimos recién, figuras como Bill Inmon ("El padre del almacenamiento de datos") y Ralph
Kimball lideraron el camino hacia la organización de datos en almacenes de datos que podrían
usarse para acceder y administrar datos en un solo lugar.

Sin embargo, estos almacenes de datos todavía tenían sus desafíos:

• Eran de naturaleza muy técnica.


• Requerían de personal de TI (muy costoso) dedicado específicamente a una plataforma de
inteligencia empresarial para ejecutar informes.
• El usuario final promedio no tenía ninguna esperanza de poder hacer uso de esta tecnología.

Además, las ejecuciones de los informes tomarían bastante tiempo. Esto hacía que fueran
irrelevantes para el momento en que terminaban su ejecución, dependiendo de la naturaleza de la
solicitud.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

3
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Aspecto de los primeros reportes dimensionales

Si bien la inteligencia de negocios había recorrido un largo camino desde simples papeles rellenos
en archivadores, todavía tenía un largo camino por recorrer.

Una base de datos multidimensional es un tipo de sistema de gestión de bases de datos, que se
puede clasificar como un procesamiento analítico en línea, o en inglés, On Line Analytical Process
(OLAP).
Estos cubos OLAP fueron los precursores de las modernas plataformas de análisis de datos en
tiempo real.
Los cubos OLAP permitieron a los usuarios comerciales consultar una base de datos de forma más
amigable que escribir una línea de comandos en una pantalla.

También fueron más rápidos que los silos de datos, debido al hecho de que solo analizan (leen) datos
y no se crean datos nuevos. Estos cubos OLAP comenzaron a usarse a fines de la década de 1990
después de que Microsoft desarrolló el lenguaje MDX para interactuar con ellos.

Los datos multidimensionales almacenados en estas bases de datos se aplican para las resoluciones
de Análisis e Informes que sirven como entrada principal para los procesos de toma de decisiones
empresariales.

Modelos multidimensionales

El modelo multidimensional:

• Permite ver los datos desde múltiples perspectivas


• Muestra medidas, dimensiones y sus interrelaciones
• Utiliza el vocabulario del usuario

Para la construcción de un modelo dimensional, debemos tener en cuenta un conjunto de técnicas y


conceptos a la hora de diseñar nuestros almacenes de datos. Una parte fundamental de estos, son
los tipos de tablas donde guardamos la información. Destacamos las tablas de hechos (aquello que
queremos medir o analizar) y las tablas de dimensiones (cómo lo queremos medir).

Contacto: info@elearning-total.com
Web: www.elearning-total.com

4
ELEARNING TOTAL Curso Business Intelligence – Unidad III

A diferencia de los sistemas transaccionales, que son soportados por bases de datos con
estructuras OLTP (On Line Transactional Process) y están preparados y optimizados para la escritura
rápida y concurrente de datos, los sistemas de Business Intelligence están soportados sobre bases
con estructura OLAP, cuya finalidad es la recuperación de datos de alta performance.
En la tabla de abajo describimos las principales diferencias entre ambas estructuras.

OLTP vs OLAP

En un modelo OLTP los datos se almacenarían de la siguiente manera:

Contacto: info@elearning-total.com
Web: www.elearning-total.com

5
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Mientras que, conceptualmente, en un sistema OLAP de 3 dimensiones sería algo como lo siguiente,
pudiendo “agregar o desagregar dimensiones”

Tablas de hechos y Dimensiones

Las Tablas de Hechos (del inglés Fact Tables) son:

• La tabla principal del modelo dimensional

• Contienen campos claves que se unen a las tablas de dimensión

• contiene métricas o también llamadas medidas y es aquello que queremos medir o analizar.
Generalmente son valores numéricos que se suelen agregar

• Evitan la redundancia de atributos por estas estos en las tablas de dimensiones

• Normalmente tienen muchos (millones) registros. Por ejemplo: ventas, compras,


movimientos de contabilidad

Contacto: info@elearning-total.com
Web: www.elearning-total.com

6
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Las tablas de dimensión (del inglés Dimension Table) son:

• Tablas simples desnormalizadas

• Se unen a las tablas de hechos a través de un campo clave

• Los atributos de la tabla de dimensión ofrecen información característica de las tablas de


hechos

• No hay límite de tablas de dimensión (en la mayoría de los productos de software)

• Las dimensiones pueden contener una o varias relaciones jerárquicas

• Normalmente tiene pocos (miles) registros

• Por ejemplo: clientes, productos, almacenes, proveedores, calendario…

El diagrama debajo muestra el concepto de un esquema OLAP, con su tabla de hechos y N


dimensiones

Esquema conceptual de una estructura OLAP

Contacto: info@elearning-total.com
Web: www.elearning-total.com

7
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Tablas de dimensiones (Tabla dim):

Y ahora, en el diagrama debajo podemos observar un caso práctico de ventas diarias con sus
respectivas dimensiones de análisis. Algunas con sus respectivas jerarquías.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

8
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Tipos de OLAP

Multidimensional OLAP (MOLAP)

Tanto los datos fuente como los datos agregados o pre calculados residen en el mismo formato
multidimensional. Optimiza las queries, pero requiere más espacio de disco y diferente software. El primer
punto está dejando ser un problema: el espacio de disco cada vez es más barato.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

9
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Relational OLAP (ROLAP)

Tanto los datos pre calculados y agregados como los datos fuente residen en la misma base de datos relacional.
Si el Data Warehouse es muy grande o se necesita rapidez por parte de los usuarios puede ser un problema.

Hybrid OLAP (HOLAP)

Es una combinación de los dos anteriores. Los datos agregados y pre calculados se almacenan en estructuras
multidimensionales y los de menor nivel de detalle en el relacional. Requiere un buen trabajo de análisis para
identificar cada tipo de dato.

Distintas tecnologías OLAP

Contacto: info@elearning-total.com
Web: www.elearning-total.com

10
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Modelo Estrella y Modelo Copo de Nieve

Los modelos estrella y copo de nieve son estructuras bajo las cuales se guía la creación de un Data
Warehouse.

Modelo Estrella

El modelo estrella es el más sencillo en estructura. Consta de una tabla central de "Hechos" y varias
"dimensiones", incluida una dimensión de "Tiempo" y “Unidades”. Lo característico de la arquitectura de
estrella es que sólo existe una tabla de dimensiones para cada dimensión.

Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, lo que significa que toda la
información relacionada con una dimensión debe estar en una sola tabla.

Ejemplo de modelo estrella.


Imagen tomada de Wikipedia.org

Contacto: info@elearning-total.com
Web: www.elearning-total.com

11
ELEARNING TOTAL Curso Business Intelligence – Unidad III

¿Debería usar un esquema estrella?

La simplicidad inherente de los esquemas en estrella los hace ideales para conjuntos de datos más
pequeños, como cuando crea un Data Mart que se enfoca solo en datos similares, agrupados para
que un grupo específico de personas pueda satisfacer sus necesidades de información. El uso de un
esquema en estrella para un Data Mart de este tipo permite un acceso rápido a los datos debido a la
desnormalización.

Sin embargo, el problema es que, cuando se usa como base para construir todo el Data Warehouse,
los requisitos de informes cambian frecuentemente. Cuando los requisitos cambien, también será
necesario cambiar el esquema estrella, porque esa estructura está diseñada para responder
preguntas comerciales solo desde perspectivas específicas y puntuales.

Si desea una perspectiva diferente, deberá agregar dimensiones al esquema estrella, y esto no es
posible en la mayoría de los casos, ya que requiere un rediseño completo del esquema a menos que
esté creando un Dataq Warehouse ágil donde pueda reconstruir rápidamente modelos y esquemas
de datos, o hacer un refactoring.

Sin embargo, si no está seguro de que un esquema en estrella solo tenga que cumplir con
determinado requisito de almacenamiento de datos, debería considerar explorar el esquema del
copo de nieve.

Modelo Copo de Nieve o Snowflake

El modelo copo de nieve es una variación o derivación del modelo estrella. En este modelo la tabla de hechos
deja de ser la única relacionada con otras tablas, ya que existen otras tablas que se relacionan con las
dimensiones y que no tienen relación directa con la tabla de hechos. El modelo fue concebido para facilitar el
mantenimiento de las dimensiones, sin embargo, esto hace que se vinculen más tablas a las secuencias SQL,
haciendo la extracción de datos más difícil, así como vuelve compleja la tarea de mantener el modelo.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

12
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Ejemplo de modelo copo de nieve.


Imagen tomada de Wikipedia.org

Cuando se crean varias tablas para una sola dimensión en el esquema, se involucra un cierto grado
de desnormalización. El lado positivo es que esto le permite reducir la redundancia y minimizar el
espacio en disco que es típico en un esquema en estrella con registros duplicados.

Pero, por otro lado, esto también significa que se necesitarán combinaciones más complejas para
responder consultas comerciales, lo que ralentizará el rendimiento de las consultas.

¿Debería usar un esquema snowflake?

Al igual que con el esquema de estrella, el esquema de copo de nieve también tiene su propio uso.
Si tiene un atributo en una dimensión cuyo valor es NULL para la mayoría de los registros de
dimensiones, sería aconsejable crear una tabla de dimensiones separada para este atributo,
transformándose así en el esquema de copo de nieve.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

13
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Otro caso de uso es cuando tiene atributos que forman parte de una jerarquía pero que
generalmente se consultan de forma independiente. La dimensión de tiempo en el esquema de
copo de nieve es un excelente ejemplo de esto. El día de la semana, el mes o el año son parte de
una jerarquía natural y podrían agruparse, pero su equipo de ventas generalmente querrá
centrarse en un determinado atributo a la vez. Tendría más sentido separar estos atributos, como
se muestra en el siguiente diagrama

Dimensión de tiempo en esquema snowflake

Pros y contras de los esquemas:

• Modelo en estrella:

Este esquema es simple y veloz para ser usado en análisis multidimensionales. Permite acceder tanto
a datos agregados como de detalle.

El diseño de esquemas en estrella permite implementar la funcionalidad de una base de datos


multidimensional utilizando una clásica base de datos relacional.

Es su simple desde el punto de vista del usuario final. Las consultas no son complicadas, ya que las
condiciones y los joins sólo involucran a la tabla de hechos y a las de dimensiones.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

14
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Son más simples de manejar que los modelos de copo de nieve.

Es la opción con mejor rendimiento y velocidad pues permite indexar las dimensiones de forma
individualizada sin que repercuta en el rendimiento de la base de datos en su conjunto.

• Modelo copo de nieve:

El único argumento a favor de los esquemas en copo de nieve es que al estar normalizadas las tablas
de dimensiones, se evita la redundancia de datos y con ello se ahorra espacio.

Se puede usar un esquema de copo de nieve en un Data Warehouse, aunque estos sean realmente
grandes y complejos, pero nunca en sistemas donde el tiempo de respuesta sea un factor crítico para
los usuarios.

PROPIEDAES ESTRELLA COPO DE NIEVE

TIPO DE DATA WAREHOUSE Complejos (N a N) Simples (1 a 1, 1 a N)

CUANDO USARLO Grandes tablas de Tablas de dimensión pequeñas


dimensiones
FACILIDAD DE USO Más fácil de entender y Queries más complejos y
queries mas sencillos difíciles de entender

PERFORMANCE DE Mayor velocidad de respuesta, Menor performance, mas


CONSULTAS menor # de cruces. cruces de datos y más Foreign
keys

FACILIDAD DE Más fácil de mantener y Más complejo de modificar y


MANTENIMIENTO / CAMBIOS modificar mantener. Hay que re hacer el
modelo

Operaciones de análisis en un modelo OLAP

Las acciones básicas para recuperar los datos requeridos en una base de datos multidimensional,
donde los datos se organizan en forma de cubos, son Roll-up, Drill-down, Slice & Dice.

Contacto: info@elearning-total.com
Web: www.elearning-total.com

15
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Drill Down

en la operación de Drill -down, los datos agregados o sumarizados se convierten en datos


altamente detallados. Se puede hacer:

• Bajando en la jerarquía conceptual


• Agregar una nueva dimensión

En el cubo de abajo, la operación de Drill-down se realiza desplazándose hacia abajo en la jerarquía


conceptual de la dimensión Tiempo (Trimestre -> Mes).

Roll-UP

Es justo lo contrario de la operación de Drill-down. Realiza la agregación en el cubo OLAP. Se puede


hacer por:

• Ascender en la jerarquía conceptual


• Reduciendo las dimensiones

En el cubo de abajo, la operación de agregación se realiza escalando en la jerarquía de la dimensión


de Ubicación (Ciudad -> País).

Contacto: info@elearning-total.com
Web: www.elearning-total.com

16
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Dice

Sencillamente Selecciona un subcubo del cubo OLAP, seleccionando dos o más dimensiones. En el
cubo de abajo, se selecciona un subcubo seleccionando las siguientes dimensiones con filtros:

Ubicación = "Delhi" o "Kolkata"

Tiempo = "Q1" o "Q2"

Artículo = "Auto" o "Bus"

Dice (Rebanar)

Selecciona una sola dimensión del cubo OLAP que da como resultado una nueva creación de
subcubos. En el cubo de abajo, Slice se realiza en la dimensión Tiempo = "Q1".

Contacto: info@elearning-total.com
Web: www.elearning-total.com

17
ELEARNING TOTAL Curso Business Intelligence – Unidad III

Resumen de peraciones sobre estructuras OLAP

Contacto: info@elearning-total.com
Web: www.elearning-total.com

18

También podría gustarte