Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Data WareHouse
NOMBRES:
Adrián Contreras
Vicente Goldberg
Gustavo Herrera
CARRERA: Ingeniería en Informática
ASIGNATURA: Inteligencia de Negocios
PROFESOR: Alberto Marambio
FECHA: 8/11/2021
Northwind ....................................................................................................................................................... 1
Data WareHouse ............................................................................................................................................. 1
1 Introducción ............................................................................................................................................ 3
2 Descripción de la base de datos .............................................................................................................. 4
2.1 Modelo lógico de la base de datos .................................................................................................. 4
2.2 Descripción breve de los procesos de negocio que apoya.............................................................. 4
3 Proceso del diseño de Datamart ............................................................................................................. 5
3.1 Descripción de las consultas analíticas, según requerimientos capturados ................................... 5
3.2 Descripción de métricas (indicadores) ............................................................................................ 5
3.3 Descripción de puntos de vista del análisis (perspectivas) ............................................................. 6
3.4 Definición de la granularidad de análisis (consultas) y de almacenamiento. ................................. 7
3.5 Identificación de correspondencia de datos de la base de datos fuente. ...................................... 7
3.6 Modelo conceptual del Datamart ................................................................................................... 8
4 Descripción del proceso ETL .................................................................................................................. 10
4.1 Descripción general del proceso ETL para poblar las tablas de dimensiones. .............................. 10
4.2 Descripción general del proceso ETL para poblar las tablas de hechos. ....................................... 12
5 Evidencia de ejecución y resultado de las consultas analíticas requeridas .......................................... 13
5.1 Instrucciones SQL utilizadas .......................................................................................................... 13
5.2 Resultado de las consultas ............................................................................................................ 16
6 Conclusiones individuales ..................................................................................................................... 21
6.1 Vicente........................................................................................................................................... 21
6.2 Adrián ............................................................................................................................................ 21
6.3 Gustavo.......................................................................................................................................... 21
7 Bibliografía............................................................................................................................................. 21
8 Tabla de Control de trabajo Grupal ....................................................................................................... 22
1 Introducción
Sin lugar a duda hoy en día, es sabido que, dentro de un negocio, los análisis cualitativos o cuantitativos
que se puedan realizan en los distintos puntos de interés son de suma importancia a la hora de necesitar
realizar una o varias tomas de decisiones en una organización, de ahí la importancia de la inteligencia de
negocio para cualquier empresa, la dificultad existente a la hora de recopilar información, procesarla,
analizarla y presentarla de forma que sea fácil de entender, ha propiciado la aparición de herramientas
especializadas para la inteligencia empresarial.
En el siguiente informe se dará a conocer el desarrollo de un Datamart para uno de los procesos de la
empresa Northwind, utilizando para ello el enfoque que le da la metodología Kimball. Este informe incluirá
el desarrollo del modelo conceptual del Datamart, indicando las métricas a analizar y la granularidad que
se utilizará. Además, se incluirá la descripción del modelo lógico del Datamart, el cual describe las diferentes
dimensiones del este y la clasificación de cada una, la descripción de las tablas de hecho y dimensión, el
tipo de esquema que se implementará dentro y la pauta de carga de datos. Por último, se explicará los
procesos ETL realizados, describiendo las transformaciones Kettle tanto de las tablas de dimensión como
de las tablas de hecho. Además de incluir los resultados y evidencia de las consultas de analítica que
responden a las métricas establecidas en los puntos anteriores.
2 Descripción de la base de datos
2.1 Modelo lógico de la base de datos
Respecto a las consultas analíticas estas se definieron con relación a la información transaccional que se
obtiene a partir de la base de datos operacional de NorthWind con la cual se está trabajando, de manera
de diseñar e implementar un modelo lógico de Datamart que se alineé con el enfoque de Kimball y guardé
directa relación con los requerimientos mismos de la empresa.
Ventas Totales por Zona geográfica: Consulta enfocada en visualizar la cantidad de ventas que se generan
provenientes del país y ciudad donde se realizó la compra.
Ingresos Brutos Histórico: Consulta analítica que se enfocará en determinar los ingresos brutos que se
generan a partir de las ventas realizadas por distintas zonas geográficas que realizan compras de productos.
Ingresos Brutos por empleado por fecha: Consulta que retornará los ingresos brutos totales que se hayan
generado por orden de venta por cada uno de los empleados de la empresa.
Tiempo promedio de entrega: Consulta dirigida a estimar la cantidad en días en que se demorará la entrega
de la orden realizada mediante las empresas de envió a los diferentes países.
Indicadores Descripción
KPI (Métricas)
Unidades vendidas Este indicador permite saber la cantidad de
Ventas Totales mensualmente unidades vendidas que se generan en todo el
negocio
• d_empleado
Para poblar la dimensión d_empleado, primero se toma los datos de la base de datos operacional de todos
los empleados en la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además,
se le genera un valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de
los datos para que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan
a la tabla y se guarda
• d_cliente
Para poblar la dimensión d_cliente, se toma los datos de la base de datos operacional de todos los clientes
de la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se le genera
un valor 0 al cliente lo que indicara que no existe, luego realizamos una transformación de los datos para
que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y
se guarda.
• d_categoria
Para poblar la dimensión d_categoria, se toma los datos de la base de datos operacional de la tabla
categoria y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se le genera un
valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de los datos para
que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y
se guarda.
• d_producto
Para poblar la dimensión d_producto, se toma los datos de la base de datos operacional de todos los
productos de la tabla y se le agrega una clave subrogada para luego guardarlo en el Datamart. Además, se
le genera un valor 0 al empleado lo que indicara que no existe, luego realizamos una transformación de los
datos para que los campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a
la tabla y se guarda.
• d_ubicacion
Para la dimensión d_ubicacion, se tienen que conseguir datos de la base de datos operacional de distintas
tablas, para completar la información de las columnas de d_ubicacion, luego de juntar todos los datos se le
da una clave subrogada. Además, se le genera un valor 0 al empleado lo que indicara que no existe, luego
realizamos una transformación de los datos para que los campos coincidan con los campos de la tabla de
dimensión, una vez hecho se ingresan a la tabla y se guarda.
• d_fecha
Para la dimensión d_fecha se requirió información de 3 lugares diferentes de la base de datos operacional,
de las cuales una vez seleccionadas, se renombra sus columnas, juntan en una tabla, ordenan los datos, se
descartan las informaciones repetidas, se extrae el día de la semana y mes con la calculadora el cual
retornará un número que posteriormente se transformará en string el cual corresponderá al día y mes.
Estos datos son en calendario inglés, por lo que se contara como 1 el día domingo, 2 día lunes y así
sucesivamente hasta el sábado. Luego se agregan las claves subrogadas y se le genera un valor 0 al
empleado lo que indicara que no existe, luego realizamos una transformación de los datos para que los
campos coincidan con los campos de la tabla de dimensión, una vez hecho se ingresan a la tabla y se guarda
4.2 Descripción general del proceso ETL para poblar las tablas de hechos.
1. h_ventas
Para el hecho h_ventas, se consiguen datos de la base de datos, y buscamos las claves subrogadas (id) de
todas las tablas dimensión que la conforma. En el caso de la oferta, como no existe en ningún valor, se le
genera una columna con la constante 0. Luego realizamos una transformación de los datos para filtrar las
columnas innecesarias y se guarda en el Datamart.
5 Evidencia de ejecución y resultado de las consultas analíticas
requeridas
5.1 Instrucciones SQL utilizadas
1. Ventas Totales por zona geográfica
• Estado de envíos
6 Conclusiones individuales
6.1 Vicente
Para comenzar, unos de los problemas principales que tuve, fue tener que reestudiar la materia de base de
datos, dado que se me olvidó la mayoría de ello y gracias a este trabajo me dio a conocer que se debe
practicar cada cierto tiempo toda materia que hayamos pasado para no olvidarla ya que no se sabrá cuando
se pedirá de nuevo.
Y con respecto general al informe, las herramientas que se usaron para completarla nos sirvieron para
poder desarrollar el datamart, el cual nos permitió poder observar y analizar un área específica de la
empresa en el cual se estaba trabajando, obteniendo como resultado información de relevancia que le
permitirá a la administración de la empresa poder realizar una mejor toma de decisiones.
6.2 Adrián
Respecto del trabajo realizado en relación al diseño e implementación de un Datawarehouse/Datamart
como puntapié inicial para lo que es el análisis exhaustivo de información y datos a partir de la recopilación
de esta misma en entornos operacionales de procesos de negocio sean cuales sean y según el contexto del
negocio mismo, es que hoy en día está jugando un rol muy importante en lo que a gestión empresarial se
trata debido principalmente a que las empresas se dotan de información altamente precisa y fidedigna de
cómo se está llevando a cabo el negocio, la cual es clave para ciertas toma de decisiones, planes estratégicos
para la empresa, estimaciones predictivas de eventos, entre otros, tan valiosa en la información que se
tiene, que se puede llegar a otro nivel muy superior cuando de inteligencia de negocio se trata. El proceso
para llevar a cabo un DW es complejo y requiere mucho tiempo, ya que entre más información que se
tenga, más se tendrá que analizar, y para lograrlo se debe tener en cuenta todas las variables claves que
permiten potenciar y optimizar a su vez el negocio, tomando ciertamente el enfoque de Inmon o Kimball
según se requiera y ateniendo al contexto y tamaño del proyecto que se tenga, en este informe se pudo
analizar en detalle la información, los datos operacionales de una empresa y ver de primera mano de qué
forma y como se trabaja gracias a las herramientas especializadas para ello, el obtener resultados de
consultas analíticas claves que permitan saber con certeza ciertos aspectos que se midan, ayudan
enormemente a tener una mejor vista de cómo está funcionando y como se está manejando una empresa
y a partir lograr el éxito.
6.3 Gustavo
A mí personalmente me sorprendió lo sencillo que es ocupar un software de ETL para mover grandes
cantidades de datos de una base de datos a otra. Kettle nos fue muy útil para nuestro trabajo, pero puede
servir para muchas cosas más que una inteligencia de negocios, como el migrar datos de una plantilla de
Excel a otros formatos (e incluso una DB), o migrar datos de una base de datos a otra.
Uno de los principales problemas que como grupo sufrimos, fue el tener que descargar y configurar una
base de datos. En mi caso, que fui quién hizo los procesos ETL, tuve problemas al correr el software de ETL
en Windows, y me vi obligado a ocupar Linux. Pero Linux a su vez me dio problemas con la base de datos,
ya que, al momento de instalar el servicio, los repositorios me instalaban MariaDB (por la preferencia de
los mantenedores de incluir las alternativas de código libre). Al final me las pude arreglar ocupando un
servicio llamado Docker, el que me permitió fácilmente instalar una máquina virtual de MySQL en mi
máquina y conectarla con el MySQL Workbench.
7 Bibliografía
‐ https://lms.inacap.cl/pluginfile.php/8311181/mod_resource/content/1/INEG_u2_Acceso_BD.pdf
‐ https://lms.inacap.cl/pluginfile.php/8310445/mod_resource/content/1/INEG_u2e_ETL.pdf
8 Tabla de Control de trabajo Grupal
Control de Trabajo Grupal
Evaluación Integrante Temas asignados % cumplimiento
• Modelo ER de Datamart
• Documentación del proceso ETL y
Vicente SQL.
6.2 95%
Goldberg • Definición granularidad
• Correspondencia de datos de BD
fuente
• Requisitos de hechos y dimensión
• Creación y ejecución del proceso
Gustavo ETL
6.5 98%
Herrera
• Correcciones a modelo ER del
Datamart
• Introducción
• Descripción consultas analíticas
Adrián
6.0 • Descripción de métricas (KPIs) 90%
Contreras
• Modelo conceptual