Está en la página 1de 22

Northwind

Data WareHouse

NOMBRES:
Adrián Contreras
Vicente Goldberg
Gustavo Herrera
CARRERA: Ingeniería en Informática
ASIGNATURA: Inteligencia de Negocios
PROFESOR: Alberto Marambio
FECHA: 8/11/2021
Northwind ....................................................................................................................................................... 1
Data WareHouse ............................................................................................................................................. 1
1 Introducción ............................................................................................................................................ 3
2 Descripción de la base de datos .............................................................................................................. 4
2.1 Modelo lógico de la base de datos .................................................................................................. 4
2.2 Descripción breve de los procesos de negocio que apoya.............................................................. 4
3 Proceso del diseño de Datamart ............................................................................................................. 5
3.1 Descripción de las consultas analíticas, según requerimientos capturados ................................... 5
3.2 Descripción de métricas (indicadores) ............................................................................................ 5
3.3 Descripción de puntos de vista del análisis (perspectivas) ............................................................. 6
3.4 Definición de la granularidad de análisis (consultas) y de almacenamiento. ................................. 7
3.5 Identificación de correspondencia de datos de la base de datos fuente. ...................................... 7
3.6 Modelo conceptual del Datamart ................................................................................................... 8
4 Descripción del proceso ETL .................................................................................................................. 10
4.1 Descripción general del proceso ETL para poblar las tablas de dimensiones. .............................. 10
4.2 Descripción general del proceso ETL para poblar las tablas de hechos. ....................................... 12
5 Evidencia de ejecución y resultado de las consultas analíticas requeridas .......................................... 13
5.1 Instrucciones SQL utilizadas .......................................................................................................... 13
5.2 Resultado de las consultas ............................................................................................................ 16
6 Conclusiones individuales ..................................................................................................................... 21
6.1 Vicente........................................................................................................................................... 21
6.2 Adrián ............................................................................................................................................ 21
6.3 Gustavo.......................................................................................................................................... 21
7 Bibliografía............................................................................................................................................. 21
8 Tabla de Control de trabajo Grupal ....................................................................................................... 22
1 Introducción
Sin lugar a duda hoy en día, es sabido que, dentro de un negocio, los análisis cualitativos o cuantitativos
que se puedan realizan en los distintos puntos de interés son de suma importancia a la hora de necesitar
realizar una o varias tomas de decisiones en una organización, de ahí la importancia de la inteligencia de
negocio para cualquier empresa, la dificultad existente a la hora de recopilar información, procesarla,
analizarla y presentarla de forma que sea fácil de entender, ha propiciado la aparición de herramientas
especializadas para la inteligencia empresarial.

Gracias al constante desarrollo de las tecnologías de la información y de la investigación misma, es que se


han podido desarrollar metodologías que permiten la construcción de los Data Warehouse y DataMart, y
en simples palabras es un sistema en donde se puede desarrollar un análisis exhaustivo con una cantidad
de datos e información considerable en función de las métricas que se definan y buscan analizar mediante
los KPI. Estos análisis permiten facilitar la toma de decisiones en puntos críticos de los procesos de negocio,
y a su vez observar fenómenos que pueden estar ocurriendo en el transcurso del tiempo con el objetivo de
usar aquella información operacional que se genera y así aprovechar todo el potencial que se puede
obtener de ella a través de consultas claves que permitan optimizar aspectos variados dentro de una
empresa, como lo puede ser dentro de la perspectiva financiera la venta de productos en un periodo de
tiempo determinado o saber qué servicios ofrece la empresa son los más solicitados durante el mes por los
clientes. Información de este estilo es lo que lleva a las empresas a poder realizar una toma de decisiones
más acertada, ya que posee un mayor conocimiento en detalle de lo que está ocurriendo dentro del
negocio, lo que a su vez les permite poder definir e implementar nuevas estrategias de negocio, mejoras
continuas y otros aspectos propios de los procesos considerados.

En el siguiente informe se dará a conocer el desarrollo de un Datamart para uno de los procesos de la
empresa Northwind, utilizando para ello el enfoque que le da la metodología Kimball. Este informe incluirá
el desarrollo del modelo conceptual del Datamart, indicando las métricas a analizar y la granularidad que
se utilizará. Además, se incluirá la descripción del modelo lógico del Datamart, el cual describe las diferentes
dimensiones del este y la clasificación de cada una, la descripción de las tablas de hecho y dimensión, el
tipo de esquema que se implementará dentro y la pauta de carga de datos. Por último, se explicará los
procesos ETL realizados, describiendo las transformaciones Kettle tanto de las tablas de dimensión como
de las tablas de hecho. Además de incluir los resultados y evidencia de las consultas de analítica que
responden a las métricas establecidas en los puntos anteriores.
2 Descripción de la base de datos
2.1 Modelo lógico de la base de datos

Ilustración 1: Modelo de la base de datos NorthWind.


Fuente: provista por el docente.

2.2 Descripción breve de los procesos de negocio que apoya.


La implementación de nuestra inteligencia de negocios apoya a los siguientes procesos de negocios:

• Financiera: Incrementar el volumen de ventas en un 10%


• Cliente: Aumentar la cantidad de compras mediante estrategias de marketing dirigidas a clientes
de distintos lugares geográficos.
• Procesos: buscar formas de disminuir los tiempos de entrega hacia nuestros clientes y de hacer
más eficiente los procesos de logística.
• Recursos: Mejorar la calidad productiva del personal, aumentando la cantidad de ventas de cada
uno en un 10%.
3 Proceso del diseño de Datamart

3.1 Descripción de las consultas analíticas, según requerimientos capturados

Respecto a las consultas analíticas estas se definieron con relación a la información transaccional que se
obtiene a partir de la base de datos operacional de NorthWind con la cual se está trabajando, de manera
de diseñar e implementar un modelo lógico de Datamart que se alineé con el enfoque de Kimball y guardé
directa relación con los requerimientos mismos de la empresa.

Ventas Totales por Zona geográfica: Consulta enfocada en visualizar la cantidad de ventas que se generan
provenientes del país y ciudad donde se realizó la compra.

Ingresos Brutos Histórico: Consulta analítica que se enfocará en determinar los ingresos brutos que se
generan a partir de las ventas realizadas por distintas zonas geográficas que realizan compras de productos.

Ingresos Brutos por empleado por fecha: Consulta que retornará los ingresos brutos totales que se hayan
generado por orden de venta por cada uno de los empleados de la empresa.

Tiempo promedio de entrega: Consulta dirigida a estimar la cantidad en días en que se demorará la entrega
de la orden realizada mediante las empresas de envió a los diferentes países.

3.2 Descripción de métricas (indicadores)


En este proyecto se centró en una sola métrica dado que se tiene una tabla de hechos consolidada, por lo
que ayudará a juntar información a los procesos de negocio nombrados en el punto 2.2 en este informe.

Indicadores Descripción
KPI (Métricas)
Unidades vendidas Este indicador permite saber la cantidad de
Ventas Totales mensualmente unidades vendidas que se generan en todo el
negocio

Ingresos brutos por Se obtendrá la utilidad bruta por las ventas


Margen bruto país y ciudad realizadas, clasificándolas por sector geográfico
de utilidad

Cantidad de N.º de clientes por Indicador que establece el volumen respecto a la


Clientes por país y ciudad cantidad de clientes por zona geográfica,
zona geográfica clasificándose por país y por ciudad
% Ventas de N.º de productos Índice que reflejará la cantidad de ventas por
productos por vendidos por país producto que se producen por país.
país
Cantidad de N.º Compras hechas
Indica la cantidad de ordenes promedio que se
ordenes por por clientes.
genera por cliente
cliente
Tiempo de Este indicador establecerá el tiempo promedio
Tiempo promedio en que demora la entrega del producto mediante
entrega
(en días) de entrega las compañías de logística, según zona
(logística) geográfica.
N.º ventas por Indicador que mostrará el rendimiento que se
Rendimiento de
empleado está obteniendo de los empleados según la
empleados cantidad de ventas que estén realizando
Nivel de Ganancias brutas
Indicador de donde se obtendrán las utilidades que se
rendimiento por orden, de
generen por empleado respecto de las ventas totales
económico por empleados que realice.
empleado

3.3 Descripción de puntos de vista del análisis (perspectivas)


Características de las dimensiones
Clave Primaria Atributos
Dimensión
Nombre Tipo Nombre Tipo Proveniencia
día Varchar
d_fecha id_fecha DateTime Orders
marca_tiempo TimeStamp
año Int
mes Varchar
nombre Varchar
d_producto id_producto Integer precio_unidad Decimal Products
cantidad_por_unidad Varchar
direccion Varchar
ciudad Varchar
Employees,
d_ubicacion id_ubicacion Integer region Varchar Orders, Suppliers,
codigo_postal Varchar Customers
pais Varchar
nombre Varchar
apellido Varchar
fecha_contratacion DateTime
d_empleado id_empleado Integer Employee
fecha_nacimiento DateTime
telefono Varchar
salario Float
nombre_compania Varchar
nombre_contacto Varchar
d_cliente id_cliente Integer Customers
teléfono Varchar
fax Varchar
nombre_compania Varchar
nombre_contacto Varchar
d_proveedor id_proveedor Integer telefono Varchar Suppliers
fax Varchar
homepage MediumText
d_oferta id_oferta Integer descuento Double Order Details
nombre_categoria Varchar
d_categoria id_categoria Integer Categories
descripcion MediumText

id_transportist nombre_empresa Varchar


d_transportista Integer Shippers
a telefono Varchar

3.4 Definición de la granularidad de análisis (consultas) y de almacenamiento.
La granularidad será diaria, porque nos permite registrar las ventas que se hacen y calcular la cantidad de
envíos que se pueden tener para ciertos días y además poder calcular mensualmente cuales fueron los días
con más o menos ventas y los días con más o menos envío de productos.
3.5 Identificación de correspondencia de datos de la base de datos fuente.
Las fuentes de datos que se utilizarán para la población del Datamart será la base de datos entregada por
la empresa NorthWind, la cual tiene toda la información del lado comercial de esta empresa.
3.6 Modelo conceptual del Datamart

Ilustración 2- Modelo lógico: Ventas.


Modelo lógico del Datamart

Ilustración 3- Modelo conceptual: Ventas.


4 Descripción del proceso ETL
4.1 Descripción general del proceso ETL para poblar las tablas de dimensiones.

• d_empleado

Para poblar la dimensión d_empleado, primero se toma los datos de la base de datos operacional de todos
los empleados en la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además,
se le genera un valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de
los datos para que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan
a la tabla y se guarda

• d_cliente

Para poblar la dimensión d_cliente, se toma los datos de la base de datos operacional de todos los clientes
de la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se le genera
un valor 0 al cliente lo que indicara que no existe, luego realizamos una transformación de los datos para
que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y
se guarda.

• d_categoria

Para poblar la dimensión d_categoria, se toma los datos de la base de datos operacional de la tabla
categoria y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se le genera un
valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de los datos para
que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y
se guarda.
• d_producto

Para poblar la dimensión d_producto, se toma los datos de la base de datos operacional de todos los
productos de la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se
le genera un valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de los
datos para que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a
la tabla y se guarda.

• d_ubicacion

Para la dimensión d_ubicacion, se tienen que conseguir datos de la base de datos operacional de distintas
tablas, para completar la información de las columnas de d_ubicacion, luego de juntar todos los datos se le
da una clave subrogada. Además, se le genera un valor 0 al empleado lo que indicara que no existe, luego
realizamos una transformación de los datos para que los campos coincidan con los campos de la tabla de
dimensión, una vez hecho se ingresan a la tabla y se guarda.

• d_fecha

Para la dimensión d_fecha se requirió información de 3 lugares diferentes de la base de datos operacional,
de las cuales una vez seleccionadas, se renombra sus columnas, juntan en una tabla, ordenan los datos, se
descartan las informaciones repetidas, se extrae el día de la semana y mes con la calculadora el cual
retornará un número que posteriormente se transformará en string el cual corresponderá al día y mes.
Estos datos son en calendario inglés, por lo que se contara como 1 el día domingo, 2 día lunes y así
sucesivamente hasta el sábado. Luego se agregan las claves subrogadas y se le genera un valor 0 al
empleado lo que indicara que no existe, luego realizamos una transformación de los datos para que los
campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y se guarda

4.2 Descripción general del proceso ETL para poblar las tablas de hechos.
1. h_ventas

Para el hecho h_ventas, se consiguen datos de la base de datos, y buscamos las claves subrogadas (id) de
todas las tablas dimensión que la conforma. En el caso de la oferta, como no existe en ningún valor, se le
genera una columna con la constante 0. Luego realizamos una transformación de los datos para filtrar las
columnas innecesarias y se guarda en el Datamart.
5 Evidencia de ejecución y resultado de las consultas analíticas
requeridas
5.1 Instrucciones SQL utilizadas
1. Ventas Totales por zona geográfica

2. ingresos y ventas por zona geográfica

3. Ingresos Brutos Totales Historicos


4. Ingresos Brutos por empleado por fecha.

5. Países más activos

6. Productos más vendidos:


7. Estado envíos
5.2 Resultado de las consultas
Los resultados entregados fueron muy grandes, algunos incluso pasaban los miles, por lo que solo
entregaremos una muestra de los resultados SQL para cada dimensión y hecho.

• ingreso y ventas por zona geográfica


• Ingresos Brutos Totales Históricos
• Ingresos Brutos por empleado y fecha:
• Países más activos
• productos más vendidos

• Estado de envíos
6 Conclusiones individuales
6.1 Vicente
Para comenzar, unos de los problemas principales que tuve, fue tener que reestudiar la materia de base de
datos, dado que se me olvidó la mayoría de ello y gracias a este trabajo me dio a conocer que se debe
practicar cada cierto tiempo toda materia que hayamos pasado para no olvidarla ya que no se sabrá cuando
se pedirá de nuevo.

Y con respecto general al informe, las herramientas que se usaron para completarla nos sirvieron para
poder desarrollar el datamart, el cual nos permitió poder observar y analizar un área específica de la
empresa en el cual se estaba trabajando, obteniendo como resultado información de relevancia que le
permitirá a la administración de la empresa poder realizar una mejor toma de decisiones.

6.2 Adrián
Respecto del trabajo realizado en relación al diseño e implementación de un Datawarehouse/Datamart
como puntapié inicial para lo que es el análisis exhaustivo de información y datos a partir de la recopilación
de esta misma en entornos operacionales de procesos de negocio sean cuales sean y según el contexto del
negocio mismo, es que hoy en día está jugando un rol muy importante en lo que a gestión empresarial se
trata debido principalmente a que las empresas se dotan de información altamente precisa y fidedigna de
cómo se está llevando a cabo el negocio, la cual es clave para ciertas toma de decisiones, planes estratégicos
para la empresa, estimaciones predictivas de eventos, entre otros, tan valiosa en la información que se
tiene, que se puede llegar a otro nivel muy superior cuando de inteligencia de negocio se trata. El proceso
para llevar a cabo un DW es complejo y requiere mucho tiempo, ya que entre más información que se
tenga, más se tendrá que analizar, y para lograrlo se debe tener en cuenta todas las variables claves que
permiten potenciar y optimizar a su vez el negocio, tomando ciertamente el enfoque de Inmon o Kimball
según se requiera y ateniendo al contexto y tamaño del proyecto que se tenga, en este informe se pudo
analizar en detalle la información, los datos operacionales de una empresa y ver de primera mano de qué
forma y como se trabaja gracias a las herramientas especializadas para ello, el obtener resultados de
consultas analíticas claves que permitan saber con certeza ciertos aspectos que se midan, ayudan
enormemente a tener una mejor vista de cómo está funcionando y como se está manejando una empresa
y a partir lograr el éxito.

6.3 Gustavo
A mí personalmente me sorprendió lo sencillo que es ocupar un software de ETL para mover grandes
cantidades de datos de una base de datos a otra. Kettle nos fue muy útil para nuestro trabajo, pero puede
servir para muchas cosas más que una inteligencia de negocios, como el migrar datos de una plantilla de
Excel a otros formatos (e incluso una DB), o migrar datos de una base de datos a otra.
Uno de los principales problemas que como grupo sufrimos, fue el tener que descargar y configurar una
base de datos. En mi caso, que fui quién hizo los procesos ETL, tuve problemas al correr el software de ETL
en Windows, y me vi obligado a ocupar Linux. Pero Linux a su vez me dio problemas con la base de datos,
ya que, al momento de instalar el servicio, los repositorios me instalaban MariaDB (por la preferencia de
los mantenedores de incluir las alternativas de código libre). Al final me las pude arreglar ocupando un
servicio llamado Docker, el que me permitió fácilmente instalar una máquina virtual de MySQL en mi
máquina y conectarla con el MySQL Workbench.

7 Bibliografía

‐ https://lms.inacap.cl/pluginfile.php/8311181/mod_resource/content/1/INEG_u2_Acceso_BD.pdf
‐ https://lms.inacap.cl/pluginfile.php/8310445/mod_resource/content/1/INEG_u2e_ETL.pdf
8 Tabla de Control de trabajo Grupal
Control de Trabajo Grupal
Evaluación Integrante Temas asignados % cumplimiento
• Modelo ER de Datamart
• Documentación del proceso ETL y
Vicente SQL.
6.2 95%
Goldberg • Definición granularidad
• Correspondencia de datos de BD
fuente
• Requisitos de hechos y dimensión
• Creación y ejecución del proceso
Gustavo ETL
6.5 98%
Herrera
• Correcciones a modelo ER del
Datamart
• Introducción
• Descripción consultas analíticas
Adrián
6.0 • Descripción de métricas (KPIs) 90%
Contreras
• Modelo conceptual

También podría gustarte