Está en la página 1de 102

BUSINESS INTELLIGENCE

MAESTRÍA EN INGENIERÍA DE
SISTEMAS CON MENCIÓN EN
TECNOLOGÍAS DE LA
INFORMACIÓN

JOSÉ VÁSQUEZ PEREYRA


jvasquez@ascenda.pe
José Vásquez Pereyra jvasquez@ascenda.pe
Contenido Semana 02

01
Inteligencia de Negocios

José Vásquez Pereyra jvasquez@ascenda.pe


Datos Estructurados y NO Estructurados

José Vásquez Pereyra jvasquez@ascenda.pe


Sistemas de Informacion usados por BI

José Vásquez Pereyra jvasquez@ascenda.pe


José Vásquez Pereyra jvasquez@ascenda.pe
BUSINESS INTELLIGENCE

José Vásquez Pereyra jvasquez@ascenda.pe


Gestión de Conocimiento

José Vásquez Pereyra jvasquez@ascenda.pe


¿Porqué Inteligencia de Negocios?

• Ejecutivos • I nterrogantes
ü Requieren información ü¿Se ha cumplido cuota en
para toma de Decisiones. el trimestre pasado?
ü Herramientas Complejas ü ¿Cómo puedo reducir los
Estadísticas. costos en un 20%?
ü Análisis de Información ü ¿Cuál es el optimo Canal
ü Aplicaciones de consulta para el producto?
por Internet

José Vásquez Pereyra jvasquez@ascenda.pe


Factores Críticos de Éxito
• Relacionado Negocio • Arquitectura
Patrocinador Ejecutivo Datawarehouse enfocado en Data model
Incluya Data Externa
Líder de Negocio como conductor
Misión critica
• Relacionado Usuario • Requiere
Involucrar usuarios Implementación Incremental
Educar usuarios Implemente Administración de Cambios
• Project M anagement Modifique Sistema OLTP
Enfoque hacia Data Quality
Buen Plan para solución negocio
• Trabajo a seguir
Mantenga usuario informado
Metadata es crucial
Tenga en cuenta las expectativas del
usuario

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de BI

Entrega de Información
Sistemas
Cliente Portal
Fuente Reportes
Data Marts Empresariales

ERP Business Performance


Management
Herramientas de
BI Familiares y
poderosas

CRM
App. de 3ros
Reportes & Análisis

ETL
LOB
Empresarial
Data Dispositivos
Análisis de Datos
Warehouse Data Visualization
(OLAP, Data Project management
Mining)

Plataforma Análisis Reportes Business


Poderoso Empresariales
Integrada de BI Performance
CARRERA DE Management

José Vásquez Pereyra jvasquez@ascenda.pe


CONCLUSIONES

 Los sistemas de Información requieren análisis de


Datos eficientes y confiables, es por esta razón es
necesaria una estructura de los datos históricos
(Datawarehouse).
 Existen varios modelos multidimensionales que pueden
ser utilizados de acuerdo al negocio y facilidades
técnicas.
 Se requiere análisis multimensional, creación de
cubos.
 BI se apoya de los datos estructurados ERP, CRM,
etc

José Vásquez Pereyra jvasquez@ascenda.pe


¿Preguntas?

José Vásquez Pereyra jvasquez@ascenda.pe


Contenido Semana 02

02
DataWareHouse

José Vásquez Pereyra jvasquez@ascenda.pe


Introducción

 La información que se quiere investigar sobre


un cierto dominio de la organización se
encuentra en bases de datos y otras fuentes
muy diversas, tanto internas como externas.
 Muchas de estas fuentes son las que se utilizan
para el trabajo diario (bases de datos
operacionales).

José Vásquez Pereyra jvasquez@ascenda.pe


Introducción


Sobre estas mismas bases de datos de trabajo
ya se puede extraer conocimiento (visión
tradicional).

Uso de la base de datos transaccional para:
– Se mantiene el trabajo transaccional diario
de los sistemas de información originales
(OLTP, On-Line Transactional Processing).
– Se hace análisis de los datos en tiempo
real sobre la misma base de datos (OLAP,
On-Line Analytical Processing).

José Vásquez Pereyra jvasquez@ascenda.pe


Introducción



Problemas:
– Perturba el trabajo transaccional
diario de los sistemas de información
originales (“killer queries”). Se debe
hacer por la noche o en fines de
semana.
– La base de datos está diseñada para
el trabajo transaccional, no para el
análisis de los datos. Generalmente
no puede ser en tiempo real (era
AP pero no OLAP).

José Vásquez Pereyra jvasquez@ascenda.pe


Introducción


Se desea operar eficientemente con esos
datos...
– Costes de almacenamiento y conectividad
se han reducido en últimos años,

Parece razonable recoger los datos
(información histórica) en un sistema
separado y específico.
– Data warehouses (Almacenes o Bodegas
de Datos)
– Nace Data-Warehousing.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse

 Repositorio completo de datos de la


empresa, donde se almacenan datos
estratégicos, tácticos y operativos,
con el objeto de obtener información
estratégica y táctica.

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse


El almacén de datos es ahora el “sistema de
información central” en todo este proceso.

Un almacén de datos es una colección de
datos:
– orientada a un dominio
– integrada
– no volátil
– variante en el tiempo

Para ayudar en la toma de decisiones.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Almacenes de Datos (AD) (data warehouse)

Disponer de Sistemas de Información de apoyo a la


toma de decisiones*

Disponer de bases de datos que permitan extraer conocimiento


de la información histórica almacenada en la organización

Análisis de la Previsiones de Diseño de


Organización evolución estratégias

* DSS: Decision Support Systems


José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Almacenes de datos

Base de Datos diseñada con un objetivo de


explotación distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional BD orientada al
(OLTP) proceso

Sistema de Almacén de BD orientada al


Datos análisis
(DW)

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse
Almacenes de Datos
definición

Colección de datos diseñada para dar apoyo a


los procesos de toma de decisiones

características

orientada hacia integrada variable en no volátil


la información* el tiempo
relevante de la
organización

* subject oriented, not process oriented


José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Se diseña para consultar eficientemente
Orientado hacia la
información información relativa a las actividades
relevante de la (ventas, compras, producción, ...) básicas
organización de la organización, no para soportar los
procesos que se realizan en ella (gestión
de pedidos, facturación, etc).
Base de Datos
Transaccional

PAÍS GAMA
CURSO ... ...
...
VENTA Información
REUNION
... Necesaria
... PRODUCTO
PROTOTIPO ...
...

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse
Integra datos recogidos de diferentes
Integrado sistemas operacionales de la
organización (y/o fuentes externas).

Fuente de Datos 3
Fuente de Datos 1
Fuente de Datos 2

texto
HTML
Base de Datos Transaccional 1

Fuentes Externas

Fuentes Internas

Base de Datos Transaccional 2

Almacén de Datos

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse
Los datos son relativos a un periodo
Variable en de tiempo y deben ser incrementados
el tiempo periódicamente.
Los datos son almacenados como fotos (snapshots)
correspondientes a periodos de tiempo.

Tiempo Datos

01/2003 Datos de Enero

02/2003 Datos de Febrero

03/2003 Datos de Marzo

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse
Los datos almacenados no son
No volátil actualizados, sólo son incrementados.

Carga

Bases de datos operacionales Almacén de Datos

INSERT READ
READ
UPDATE
DELETE
El periodo de tiempo cubierto por un AD
varía entre 2 y 10 años.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Almacenes de Datos

ventajas para las


organizaciones

Rentabilidad de las Aumento de la Aumento de la


inversiones competitividad productividad de los
realizadas para su en el mercado técnicos de dirección
creación

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse
Almacenes de Datos

problemas

Privacidad de
los datos
Infravaloración del
Incremento continuo
esfuerzo necesario
de los requisitos de
para su diseño y
los usuarios
creación
Infravaloración de los recursos
necesarios para la captura,
transformación carga y
almacenamiento de los datos

José Vásquez Pereyra jvasquez@ascenda.pe


OLTP versus Data Warehouse
Sistema Operacional (OLTP) Almacén de datos (DW)
almacena datos actuales almacena datos históricos

almacena datos de detalle almacena datos de detalle

bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb)

los datos son dinámicos (actualizables) los datos son estáticos

los procesos (transacciones) son los procesos no son previsibles


repetitivos
el número de transacciones es elevado el número de transacciones es bajo o medio

tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas)

dedicado al procesamiento de dedicado al análisis de datos


transacciones
orientado a los procesos de la organización orientado a la información relevante

soporta decisiones diarias soporta decisiones estratégicas

sirve a muchos usuarios (administrativos) sirve a técnicos de dirección

José Vásquez Pereyra jvasquez@ascenda.pe


Momento de análisis

 Identifique un proceso core de su proyecto.


 Identifique el modelo relacional de base de datos de
ese proceso core.
 Identifique los indicadores (y fórmulas) del proceso
core.
 Identifique que tablas y campos serán necesarios
para la obtencio de los campos de las fórmulas de
los indicadores.

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse

 La Arquitectura de un data warehouse viene


determinada por su situación central como fuente
de información para las herramientas de análisis.
Fuentes Herramientas de
Internas consultas e
informes

Base de Datos
Transaccional
Herramientas
EIS

Almacén de Interfaz y
ETL Operadores
Datos
Fuente de
Datos 1 Herramientas
texto OLAP
Fuente de
Datos 3
HTML
Copiasde
Seguridad
Herramientas de
Fuente de
Fuentes Minería de Datos
Datos
Externas

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse
 Componentes:

 Sistema ETL (Extraction, Transformation, Load): realiza las


funciones de extracción de las fuentes de datos
(transaccionales o externas), transformación (limpieza,
consolidación, ...) y la carga del Data Warehouse, realizando:

 Extracción de los datos.


 Filtrado de los datos: limpieza, consolidación, etc.
 Carga inicial del almacén: ordenación, agregaciones, etc.
 Refresco del almacén: operación periódica que
propaga los cambios de las fuentes externas al
almacén de datos.

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse

 Componentes:

 Repositorio Propio de Datos: información


relevante, metadatos.
 Interfaces y Gestores de Consulta: permiten acceder a
los datos y sobre ellos se conectan herramientas más
sofisticadas (OLAP, EIS, minería de datos).
 Sistemas de Integridad y Seguridad: se encargan de un
mantenimiento global, copias de seguridad, ...

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse

 Organización (Externa) de los datos…

Las herramientas de explotación de los


almacenes de datos han adoptado un modelo
multidimensional de datos.

Se ofrece al usuario una visión multidimensional


de los datos que son objeto de análisis.

José Vásquez Pereyra jvasquez@ascenda.pe


Definiciones

 DIMENSIONES: Representan factores por lo que se analiza


un determinado área del negocio. Son pequeñas y
usualmente están desnormalizadas.

 HECHOS: Son el objeto de los análisis y están relacionados


con las dimensiones. Son tablas muy grandes y suelen estar
desnormalizadas. Se a menudo incluyen diferentes
agregaciones como máximo, mínimo, media, …

José Vásquez Pereyra jvasquez@ascenda.pe


Definiciones

José Vásquez Pereyra jvasquez@ascenda.pe


Definiciones

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse
EJEMPLO
Organización: Cadena de supermercados.

Actividad objeto de análisis: ventas de productos.

Información registrada sobre una venta: “del producto “Leche


Gloria” se han vendido en el almacén “Almacén nro.1” el día
17/10/2019, 5 unidades por un importe de 13,19 soles.”

Para hacer el análisis no interesa la venta individual


(ticket) realizada a un cliente sino las ventas diarias de
productos en los distintos almacenes de la cadena.

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse

Marca

Descripción
Semana
Categoría
Departamento Mes
Nro_producto Trimestre
Día
Tipo Año

importe
unidades

Almacén

Ciudad
Tipo

Región

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse
Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
Marca

Descripción Semana

Categoría

Departamento Mes
Día Trimestre
Nro_producto
Tipo Año

importe
unidades

Almacén

Ciudad

Almacén
Tipo
Actividad que es objeto de
análisis con los indicadores Región
que interesa analizar

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura de un Data Warehouse
 El almacén de datos puede estar formado por varios datamarts
y, opcionalmente, por tablas adicionales.

Subconjunto de un almacén de
Data mart datos, generalmente en forma de estrella o
copo de nieve.

 Se definen para satisfacer las necesidades de un departamento o


sección de la organización.
 Contiene menos información de detalle y más información
agregada.

José Vásquez Pereyra jvasquez@ascenda.pe


Data Mart

 Repositorio parcial de datos de la


empresa, donde se almacenan datos
tácticos y operativos, con el objeto de
obtener información táctica.

José Vásquez Pereyra jvasquez@ascenda.pe


Metodología para diseño de Datawarehouse

José Vásquez Pereyra jvasquez@ascenda.pe


Metodología para diseño de Datawarehouse
Recogida y análisis de
requisitos

Diseño conceptual

Diseño lógico específico

Diseño físico

Implementación

José Vásquez Pereyra jvasquez@ascenda.pe


OLTP
OLTP (On-Line Transaction Processing):

Define el comportamiento habitual de un entorno operacional


de gestión:

● Altas/Bajas/Modificaciones/Consultas
● Consultas rápidas y escuetas
● Poco volumen de información
● Transacciones rápidas
● Gran nivel de concurrencia

José Vásquez Pereyra jvasquez@ascenda.pe


OLAP
OLAP:

On-Line Analytical Processing: Define el comportamiento de


un sistema de análisis de datos y elaboración de
información:

● Sólo Consulta
● Consultas pesadas y no predecibles
● Gran volumen de información histórica
● Operaciones lentas

José Vásquez Pereyra jvasquez@ascenda.pe


OLAP
OLAP:

Datawarehouse de análisis

● Procesos de consolidación
● Cambio de tecnología de base de datos
● Sumarizan datos disgregados
● Transforman datos
● Consolidan datos de aplicaciones no integradas

José Vásquez Pereyra jvasquez@ascenda.pe


OLAP

● Consistencia de consolidación
● Comprobar la validez de los datos en el entorno
operacional
● Datos que no se usan
● Datos que no se mantienen
● Inconsistencia entre distintas aplicaciones dentro del
sistema
● Datos no igualmente mantenidos
● Codificaciones diferentes

José Vásquez Pereyra jvasquez@ascenda.pe


Arquitectura Data Warehouse
Mecanismos de consolidación

● Refresco de datos: Volcado completo de los datos


procedentes del sistema operacional
● Actualización de datos: Volcado incremental,
tomando como criterio la fecha de operación
● Propagación de datos: Creación de logs en el entorno
transaccional, los cuales se aplican en el entorno
analítico

José Vásquez Pereyra jvasquez@ascenda.pe


OLTP vs. OLAP

Característic OLTP OLAP


as
Tamaño BD GigaBytes Giga a TeraBytes

Origen Datos Interno Interno y Externo

Actualización On-Line Batch

Periodos Actual Histórico

Consultas Predecibles Ad Hoc

Actividad Operacional Analítica

José Vásquez Pereyra jvasquez@ascenda.pe


OLTP vs OLAP
Todas estas divergencias hacen que no sea posible la
convivencia en una única BD de los entornos OLAP y OLTP:

● Pérdida de rendimiento del entorno OLTP


● Falta de integración entre distintos aplicaciones OLTP
● Tecnologías de BD sin capacidad para soportar
aplicaciones OLAP
● Incorporación de datos externos difícilmente aplicable
a la BD OLTP
● Distribución de los datos no adecuada para análisis
OLAP

José Vásquez Pereyra jvasquez@ascenda.pe


Bases Datos OLAP
Tipos de BD

● BD Relacional
● BD Multidimensional
● BD Híbrida
● BD OLAP (BD Relacional con funcionalidad OLAP)

José Vásquez Pereyra jvasquez@ascenda.pe


Herramientas OLAP
 Las herramientas de OLAP presentan al usuario una
visión multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto de
análisis.
 El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema físico) del almacén de datos.
 La herramienta OLAP genera la correspondiente
consulta y la envía al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse y Data Minig


Los almacenes de datos no son
imprescindibles para hacer extracción de
conocimiento a partir de datos.
– se puede hacer minería de datos sobre un
simple fichero de datos.

José Vásquez Pereyra jvasquez@ascenda.pe


Data Warehouse y Data Minig


Las ventajas de organizar un almacén de
datos para realizar minería de datos se
amortizan sobradamente a medio y largo plazo
cuando:
– tenemos grandes volúmenes de datos, o
– éstos aumentan con el tiempo, o
– provienen de fuentes heterogéneas o
– se van a combinar de maneras arbitrarias y
no predefinidas.

José Vásquez Pereyra jvasquez@ascenda.pe


OLAP y Data Mining

● Las herramientas OLAP


– proporcionan facilidades para “manejar”
y “transformar” los datos.
– producen otros “datos” (más
agregados, combinados).
– ayudan a analizar los datos porque producen
diferentes vistas de los mismos.

José Vásquez Pereyra jvasquez@ascenda.pe


OLAP y Data Mining

● Las herramientas de Minería de Datos:


– son muy variadas: permiten “extraer”
patrones, modelos, descubrir relaciones,
regularidades, tendencias, etc.
– producen “reglas” o “patrones”
(“conocimiento”).

José Vásquez Pereyra jvasquez@ascenda.pe


Conclusiones


Los almacenes de datos y las técnicas
OLAP son las maneras más efectivas
y avanzadas para integrar,
transformar y combinar los datos
para facilitar al usuario o a otros
sistemas el análisis de la
información.

José Vásquez Pereyra jvasquez@ascenda.pe


Conclusiones


La tecnología OLAP generalmente se asocia
a los almacenes de datos, aunque:
– Podemos tener almacenes de datos sin OLAP y
viceversa.

Todos en la empresa son responsables, no el
consultor. Todos lo implementan y todos lo
aseguran.

José Vásquez Pereyra jvasquez@ascenda.pe


¿Preguntas?

José Vásquez Pereyra jvasquez@ascenda.pe


Contenido Semana 02

03
Construcción de un
DataWareHouse
José Vásquez Pereyra jvasquez@ascenda.pe
Contenido Informe
1. DEFINICION DEL PROBLEMA 8.GESTION DE COSTO
2. OBJETIVO GENERAL 8.1 Costos de Implementación
3. OBJETIVOS ESPECIFICOS 8.2 Viabilidad de la Propuesta
4. JUSTIFICACION DEL PROYECTO 9. GESTION DE LA CALIDAD
5. MARCO TEORICO 9.1 Calidad en tecnología usada
5.1.1 Antecedentes 9.2 Criterios de calidad de datos
5.1.2 Empresa 9.4 Criterios de calidad en Modelo de datos
5.1.3 Procesos y Cadena de Valor 9.5 Requerimientos de información
5.1.4 Organigrama 9.6 Requerimientos de desempeño
5.1.5 Sistemas actuales 10.DISEÑO DE MODELO DE DATOS
5.1.6 Software y herramientas BI 10.1 Métricas y dimensiones usadas
5.1.7 Criterios para las adquisiciones de software y 10.2 Modelo de estrella copo de nieve
hardware 11. IMPLEMENTACIÓN
6 METODOLOGÍA PARA LA PROPUESTA DE LA SOLUCIÓN 11.1 Orígenes y destino
DE BI 11.2 Proceso de Transformación
7. GESTIÓN DEL ALCANCE 11.3 Validación de transformación
7.1 Conversiones o transformaciones 11.4 Dashboard de indicadores.
7.2 Entregables que se construirán 11.5 Alineamiento de indicadores
7.3 Herramientas a utilizar 12 CONCLUSIONES
7.4 Indicadores
7.4 Definición del WBS

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

Recogida y análisis de
requisitos

Diseño conceptual

Diseño lógico específico

Diseño físico

Implementación

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos
Recogida y análisis de
requisitos Análisis

Diseño conceptual
Discernimiento de Requisitos de
las fuentes usuario (consultas
Diseño lógico necesarias del de análisis
sistema de necesarias, nivel de
información de la agregación, …)
organización (OLTP) y
Diseño físico
externas

Implementación
Diseño
Conceptual

p.ej. Entidad-Relación
José Vásquez Pereyra jvasquez@ascenda.pe
Diseño de un Almacén de Datos

Recogida y análisis de
requisitos Diseño
Lógico

Diseño conceptual

Modelado
Diseño lógico multidimensional (MR)

Diseño físico
Esquemas

Implementación
estrella

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

Recogida y análisis de Diseño


requisitos Físico

Diseño conceptual
Definición del
esquema ROLAP o
Diseño lógico
MOLAP

Diseño físico

Diseño del
Implementación ETL

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

Recogida y análisis de
requisitos
Implementación

Diseño conceptual

Carga del AD
Diseño lógico (ETL)

Diseño físico
Preparación de las
vistas de usuario
Implementación (herramienta OLAP)

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

 Detallemos más ahora el Diseño Lógico...

Recogida y análisis de La visión multidimensional seguida por


requisitos las herramientas de explotación de
almacenes de datos (OLAP) ha inspirado
los modelos y metodologías de diseño de
Diseño conceptual este tipo de sistemas.

Diseño lógico

Diseño físico En la literatura se habla de “Bases de Datos


Multidimensionales” y de “Diseño Multidimensional”

Implementación

José Vásquez Pereyra jvasquez@ascenda.pe


Modelamiento multidimensional


En un esquema multidimensional se representa
una actividad que es objeto de análisis (hecho)
y las dimensiones que caracterizan la actividad
(dimensiones).

La información relevante sobre el hecho
(actividad) se representa por un conjunto de
indicadores (medidas o atributos de hecho).

La información descriptiva de cada dimensión
se representa por un conjunto de atributos
(atributos de dimensión).
José Vásquez Pereyra jvasquez@ascenda.pe
Modelamiento multidimensional

 El modelado multidimensional se

puede aplicar utilizando distintos
modelos de datos (conceptuales o
lógicos).


La representación gráfica del
esquema multidimensional
dependerá del modelo de datos
utilizado (relacional, ER, UML, OO,
...).

José Vásquez Pereyra jvasquez@ascenda.pe


Diseño de un Almacén de Datos

El desarrollo de la tecnología de almacenes de


datos se ha caracterizado por:
- un temprano desarrollo industrial provocado por las
demandas de los usuarios.
-el uso de metodologías de diseño centradas
principalmente en los niveles lógico e interno. (la atención
se ha centrado en mejorar la eficiencia en la ejecución de consultas)

Metodología de diseño basada en el modelo


relacional: Modelo multidimensional de Kimball
No es muy congruente usar modelos para diseño conceptual….

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

● Paso 1. Elegir un “proceso” de la


organización para modelar.
 Paso 2. Decidir el gránulo (nivel de

detalle) de representación del
proceso.


Paso 3. Identificar las
dimensiones que caracterizan
● el proceso.

 Paso 4. Decidir la información a


almacenar sobre el proceso.
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos

Paso 1. Elegir un “proceso” de la organización



para modelar.
– Proceso: actividad de la organización
soportada por un OLTP del cual se puede
extraer información con el propósito de
construir el almacén de datos.

● Pedidos (de clientes)


● Compras (a suministradores)
● Facturación
● Envíos
● Ventas
● Inventario
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

● Ejemplo: Cadena de supermercados.


– Cadena de supermercados con 300 almacenes
en la que se expenden unos 30.000 productos
distintos.

● Actividad: Ventas.
– La actividad a modelar son las ventas de
productos en los almacenes de la cadena.

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos

Paso 2. Decidir el gránulo (nivel de detalle) de representación.


Gránulo: es el nivel de detalle al que se desea almacenar
información sobre la actividad a modelar.
El gránulo define el nivel atómico de datos en el almacén de
datos.
El gránulo determina el significado de las tuplas de la tabla de
hechos.
El gránulo determina las dimensiones básicas del esquema
• transacción en el OLTP
• información diaria
• información semanal
• información mensual. ....
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

tabla de
hechos
tabla tabla
Dimensión 1 id_dim1 Dimensión 3
id_dim2
id_dim3

tabla ...
Dimensión 2 id_dim n tabla
Dimensión n
....
(hechos)

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Ejemplo: Cadena de supermercados.


Gránulo: “se desea almacenar información sobre las ventas
diarias de cada producto en cada almacén de la cadena”.
Gránulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones básicas del esquema.

producto
día
almacén
ventas

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

• Gránulo inferior: no se almacena información a nivel de línea de


ticket porque no se puede identificar siempre al cliente de la
venta lo que permitiría hacer análisis del comportamiento (hábitos
de compra) del cliente.
• Gránulo superior: no se almacena información a nivel semanal o
mensual porque se perderían opciones de análisis interesantes:
ventas en días previos a vacaciones, ventas en fin de semana,
ventas en fin de mes, ....

En un almacén de datos se almacena información a un nivel de detalle


(gránulo) fino no porque se vaya a interrogar el almacén a ese nivel sino
porque ello permite clasificar y estudiar (analizar) la información desde
muchos puntos de vista.

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos
Pasos en elen el diseño
diseño del almacéndel
de almacén de datos:

producto
día
almacén
ventas

tabla de id_producto
la clave primaria(*) está
hechos id_fecha formada por los
identificadores de las
id_almacén dimensiones básicas.

.....
..... datos (medidas) sobre las
ventas diarias de un
...... producto en un almacén.

(*) pueden existir excepciones a esta regla general

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Paso 3. Identificar las dimensiones que caracterizan el proceso.


 Dimensiones: dimensiones que caracterizan la actividad al nivel
de detalle (gránulo) que se ha elegido.
Tiempo (dimensión temporal: ¿cuándo se produce la
actividad?)
Producto (dimensión ¿cuál es el objeto de la actividad?)
Almacén (dimensión geográfica: ¿dónde se produce la
actividad?)
Cliente (dimensión ¿quién es el destinatario de la actividad?)
 De cada dimensión se debe decidir los atributos (propiedades)
relevantes para el análisis de la actividad.
 Entre los atributos de una dimensión existen jerarquías
naturales que deben ser identificadas (día-mes-año)
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

tabla Dimensión 1
id_dim1
....

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Ejemplo: Cadena de supermercados.


tiempo
definición de dimensiones producto
gránulo básicas
establecimiento

Nota: En las aplicaciones reales el número de


dimensiones suele variar entre 3 y 15
dimensiones.

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos

Dimensión Tiempo:

 Dimensión presente en todo AD porque el AD contiene información


histórica sobre la organización.
 Aunque el lenguaje SQL ofrece funciones de tipo DATE, una
dimensión Tiempo permite representar otros atributos
temporales no calculables en SQL.
 Se puede calcular de antemano
 Atributos frecuentes:
–nro. de día, nro. de semana, nro. de año: valores absolutos del
calendario juliano que permiten hacer ciertos cálculos aritméticos.
–día de la semana (lunes, martes, miércoles,...): permite hacer
análisis sobre días de la semana concretos (ej. ventas en sábado,
ventas en lunes,..).
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos

 atributos frecuentes:
Dimensión Tiempo:
- día del mes (1..31): permite hacer comparaciones sobre el mismo día en
meses distintos (ventas el 1º de mes).
- marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el último día del mes o días de fin de semana en
distintos meses.
- trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto
en distintos años.
- marca de día festivo: permite hacer análisis sobre los días contiguos a un
día festivo.
- estación (primavera, verano..)
- evento especial: permite marcar días de eventos especiales (final de futbol,
elecciones...)
 jerarquía natural:
día - mes - trimestre -año
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos

Dimensión Producto:
 la dimensión Producto se define a partir del fichero maestro
de productos del sistema OLTP.
 las actualizaciones del fichero maestro de productos deben
reflejarse en la dimensión Producto (¿cómo?).
 la dimensión Producto debe contener el mayor número
posible de atributos descriptivos que permitan un análisis
flexible. Un número frecuente es de 50 atributos.
 atributos frecuentes: identificador (código estándar),
descripción, tamaño del envase, marca, categoría,
departamento, tipo de envase, producto dietético, peso,
unidades de peso, unidades por envase, fórmula, ...
 jerarquías: producto-categoría-departamento
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos

Dimensión Establecimiento (store) :


 la dimensión Almacén representa la información geográfica básica.
 esta dimensión suele ser creada explícitamente recopilando
información externa que sólo tiene sentido en el A.D y que no la
tiene en un OLTP (número de habitantes de la ciudad del
establecimiento, caracterización del tipo de población del distrito, ...)
 atributos frecuentes: identificador (código interno), nombre,
dirección, distrito, región, ciudad, país, director, teléfono, fax, tipo de
almacén, superficie, fecha de apertura, fecha de la última
remodelación, superficie para congelados, superficie para productos
frescos, datos de la población del distrito, zona de ventas, ...
 jerarquías:
– establecimiento - distrito - ciudad - región - país (jerarquía geográfica)
– establecimiento - zona_ventas - región_ventas (jerarquía de ventas)

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Tiempo Establecimiento Producto


id_fecha id_establec id_producto
día nro_establec nro_producto
semana nombre descripción
mes dirección marca
año distrito subcategoría
día_semana ciudad categoría
día_mes país departamento
trimestre tlfno peso
festivo fax unidades_peso
.... superficie tipo_envase
tipo_almacén dietético
... ...

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos
Tiempo
Establecimiento
id_fecha
id_establec
día
nro_establec
semana
nombre
Producto mes
dirección
id_producto año
distrito
nro_producto día_semana
ciudad
descripción día_mes
país
marca trimestre
tlfno
subcategoría festivo
fax
categoría .... Ventas
superficie
departamento id_fecha
tipo_almacén
peso id_producto
unidades_peso id_establec ...

tipo_envase ...
dietético ...
... ...

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos

Paso 4. Decidir la información a almacenar sobre el proceso.


Hechos: información (sobre la actividad) que se desea
almacenar en cada tupla de la tabla de hechos y que será
el objeto del análisis.
Precio
Unidades
Importe
Nota:....
algunos datos que en el OLTP coincidirían con valores
de atributos de dimensiones, en el almacén de datos pueden
representar hechos. (Ejemplo: el precio de venta de un
producto).

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Ejemplo: Cadena de supermercados.


Gránulo: “se desea almacenar información sobre
las ventas diarias de cada producto en cada
establecimiento de la cadena”.
– importe total de las ventas del producto en el día
– número total de unidades vendidas del producto en
el día
– número total de clientes distintos que han comprado
el producto en el día.

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de
Tiempo
Establecimiento
id_fecha
id_establec
día
nro_establec
semana
nombre
Producto mes
dirección
id_producto año
distrito
nro_producto día_semana
ciudad
descripción día_mes
marca país
trimestre
tlfno
subcategoría festivo
fax
categoría .... Ventas
superficie
departamento id_fecha
tipo_almacén
peso id_producto
unidades_peso id_establec ...

tipo_envase importe
dietético unidades

... nro_clientes

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Otras orientaciones de diseño:


usar claves sin significado.
evitar normalizar.
incluir la dimensión Tiempo.
dimensiones “que cambian”.
definición de agregados.

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Otras orientaciones de diseño:


uso de claves sin significado.
– en un almacén de datos debe evitarse el uso de las claves
del sistema operacional.
– las claves de las dimensiones deben ser generadas
artificialmente: claves de tipo entero (4 bytes) son suficiente
para dimensiones de cualquier tamaño (232 valores distintos).
– la dimensión TIEMPO debe tener también una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
 en el OLTP se puede decidir reutilizar valores de la clave no utilizados
actualmente.
 en el OLTP se puede decidir cambiar la codificación de las claves.
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

Otras Orientaciones de diseño:


evitar normalizar.
Si se define una tabla de dimensión para cada dimensión
identificada en el análisis, es frecuente que entre el conjunto
de atributos de la tabla aparezcan dependencias
funcionales que hacen que la tabla no esté en 3ª F.N.

Evitar normalizar:
 el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

Otras Orientaciones de diseño:


siempre introducir la dimensión Tiempo.

En un almacén de Datos muchas consultas son


restringidas y parametrizadas por criterios relativos a
periodos de tiempo (último mes, este año, ...).

José Vásquez Pereyra jvasquez@ascenda.pe


Pasos en el diseño del almacén de datos:

Otras orientaciones de diseño:


dimensiones “que cambian”.
Se considera relevante el caso en que, en el mundo real, para un valor
de una dimensión, cambia el valor de un atributo que es significativo
para el análisis sin cambiar el valor de su clave.
Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un
registro representa la información sobre el cliente “María García” cuyo estado civil
cambia el 15-01-1994 de soltera a casada. El estado civil del cliente es utilizado con
frecuencia en el análisis de la información.

Existen tres estrategias para el tratamiento de los cambios en las dimensiones:


Tipo 1: Realizar la modificación.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:

Otras orientaciones de diseño:


definición de agregados.
¡En un almacén de datos es usual
consultar información agregada!
El almacenamiento de datos agregados por distintos criterios
de agregación en la tabla de hechos mejora la eficiencia del AD.
Estrategias de almacenamiento de datos agregados:
 Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para
almacenar la información agregada (resp. la descripción de los niveles de
agregación).
 Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que
representan la información agregada (resp. los niveles de agregación).
José Vásquez Pereyra jvasquez@ascenda.pe
¿Preguntas?

José Vásquez Pereyra jvasquez@ascenda.pe


BUSINESS INTELLIGENCE

MAESTRÍA EN INGENIERÍA DE
SISTEMAS CON MENCIÓN EN
TECNOLOGÍAS DE LA
INFORMACIÓN

JOSÉ VÁSQUEZ PEREYRA


jvasquez@ascenda.pe

También podría gustarte