Está en la página 1de 17

Extreme Bikes Datawarehouse.

(Artículo
Científico)

Universidad Fidélitas
Data where house
San Pedro

XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE


Abstract—. Para este proyecto se desea crear un Datawarehouse que
pueda almacenar esta información de una forma óptima para poder extraer
de ella variable información mediante el análisis de datos, con el
conocimiento obtenido en el curso de Datawarehouse se espera probar los
beneficios que puede traer a un negocio el correcto manejo y utilización de
la información de la que es dispone, mostrando cómo se puede ayudar a una
empresa a analizar sus datos para maximizar su potencial y tener un mejor
rendimiento dentro de un mercado que es cada vez más complicado por lo
mucho que innovan todas las empresas día a día.
Palabras claves—Data where house, Pentaho, Power BI, Excel, Csv, Datos.

I. INTRODUCCIÓN
Extreme Bikes cuenta con una gran cantidad de transacciones lo cual genera muchísimos
datos. Para este proyecto se desea crear un Datawarehouse que pueda almacenar esta
información de una forma óptima para poder extraer de ella variable información mediante
el análisis de datos, por lo tanto con el conocimiento obtenido en el curso de Datawarehouse
se espera probar los beneficios que puede traer a un negocio el correcto manejo y utilización
de la información de la que es dispone, mostrando cómo se puede ayudar a una empresa a
analizar sus datos para maximizar su potencial y tener un mejor rendimiento dentro de un
mercado que es cada vez más complicado por lo mucho que innovan todas las empresas día
a día.

II. FORMULACIÓN
A. Planteamiento del problema.
Con estas crisis de aumento a la gasolina ha motivado a muchos hacer uso de la bicicleta
como medio de transporte ya que es económicamente atractivo, pero a raíz de la
competitividad del mercado la empresa la empresa Extreme Bikes quien se dedica a exportar
bicicletas a diferentes partes del planeta, se ha visto afectada debido a la aparición de nuevos
competidores con precios muchos más baratos y de buena calidad, otros competidores con
volúmenes de ventas mayores, diferentes y más regiones a las que Extreme Bikes ofrece sus
productos e incluso más variedad de productos ofrecidos. Extreme Bikes es una empresa que
ha estado en este mercado durante los últimos 16 años y siempre se ha caracterizado por
ofrecer un servicio excepcional y con gran variedad a sus clientes, pero debido a la situación
mencionada anterior mente y detallada, ha experimentado ciertos problemas como la no
existencia de clientes en determinadas regiones y un gran registro de bicicletas menos barato
que ha generado la pérdida de clientes, es por esto y otras situaciones más que la empresa ha
decidido utilizar la tecnología de análisis de datos para estar por delante de la competencia
en cuanto a ventas a negocios mayoristas tales como supermercados, tiendas exclusivas y
moles, los cuales son los mayores clientes de Extreme Bikes, generando así la expansión de
las regiones a las cuales vende sus productos, mejorar los precios de sus productos e incluso
determinar si debe de realizar contrataciones de personal en caso de que se dé un aumento en
los volúmenes de ventas o debido a la posible expansión a nuevas regiones.

III. OBJETIVOS

Objetivo General

Construir un Datawarehouse capaz de permitir la creación de gráficos/reportes utilizando


información de distintas fuentes, poniendo en uso además lo aprendido durante el curso con
el fin de brindarle a Extreme Bikes herramientas de análisis de datos que le ayuden a
maximizar su potencial.
Objetivo Específicos:

1. Crear un modelo dimensional de estrella como base del proyecto en SQL Server.
2. Desarrollar el Datawarehouse mediante el uso de las herramientas vistas en clase
como lo es, Pentaho, con el fin de que esta se encargue de extraer y transformar los datos
provenientes de las diversas fuentes como Excel, Oracle y MS SQL.
3. Generar reportes de valor por medio de la herramienta Power BI.

Justificación y su importancia

Con investigación y estudio podemos ver el propósito de aplicar el análisis con Data
Warehouse, es brindar un servicio tecnológico con el fin de identificar posibles ramas a
mejorar en el negocio, las cuales puedan crear oportunidades que sean aprovechables para
la empresa así tomando decisiones que finalmente se traduzca en un incremento de ingresos
para la empresa Extreme Bikes, al tener mayor presencia de mercado y estar por delante de
sus mayores competidores y de la misma manera ayudar a la gerencia a determinar mejores
estrategias de negocio, por medio del uso de una herramienta como lo es un Data
Warehouse, esto debido a que Extreme Bikes, nunca han implementado este tipo de
herramientas, además, los datos que posee la empresa con respecto a sus clientes son muy
básicos, a tal punto que conocen muy poco quiénes son sus clientes principales, no han
añadido nuevas regiones a las que vender sus productos en 9 años, además, tienen muy
pocos datos para realizar un gran análisis dentro de los mercados. La importancia del
desarrollo de un proyecto de esta índole es que los miembros del equipo logren, aprender
más acerca de las herramientas actuales del análisis de datos como Power BI y la gran
cantidad de funcionalidades y oportunidades que esta novedosa herramienta ofrece y
además aplicar todo esto en función del desarrollo de un proyecto completo que genere
experiencia y un conocimiento más amplio en esta área del análisis de datos.

Alcances y Limitaciones
Se detallan a continuación los siguientes alcances y limitaciones del proyecto:
Alcances
Para lograr los objetivos planteados anteriormente, se hará uso de las aplicaciones que se
usen durante el curso, Pentaho y Power BI, para analizar los datos dentro del
datawarehouse y generar gráficos de valor en los cuales se tomen en cuenta únicamente:
1. Regiones donde se realizan ventas.
2. Ventas.
3. Compras.
4. Productos que distribuye la empresa.
5. Clientes.
No se incluyen dentro del alcance de este proyecto:
1. Recursos Humanos.
2. Contabilidad y finanzas.
3. Proveedores.
4. Gastos Generales de la empresa (pago de servicios públicos, mantenimiento de
equipos y de la empresa, impuestos, etc.).
5. Pago de salarios de planilla.
Para el desarrollo del proyecto se tomará únicamente como fuente de datos:
1. Archivos de Excel.
2. Bases de datos SQL.

Limitaciones
A continuación, se detallan las limitaciones presentes para el desarrollo de este
proyecto:

1. Uso de bases de datos Northwind y demás bases de datos en SQL Server, así como
archivos Excel.
2. Otra de las limitaciones que presenta el grupo es la diferente disposición de horarios
para reuniones entre los miembros del equipo.
3. Otra limitación corresponde al inconveniente al localizar una empresa real que
contara con lo adecuado para la realización del proyecto.
4. De igual manera al proyecto se le define un plazo máximo de 3 meses para su
desarrollo.
3. El conocimiento de las herramientas que serán utilizadas es limitado, debido a que
se conocieron en este mismo curso.

Levantamiento de Requerimientos

Supuestos del Proyecto:


· Se asume que se tiene conocimiento en bases de datos y datawarehouse.
· Se asume que ya se tienen las fuentes de datos establecidas para el proyecto.
· Se asume que los requerimientos ya están listos para el desarrollo del proyecto.

Requerimientos:

· Creación de la dimensión cliente, para poder guardar la información necesaria del


cliente como el nombre, los apellidos, el teléfono, el correo electrónico y la dirección para
poder hacer la compra.

· Creación de la dimensión de producto, para poder guardar la información de los


productos de la tienda con marca del producto, descripción, precio, modelo, línea y talla.
· Creación de la dimensión registro compra, para poder registrar la información
necesaria como id de la factura de la compra, el id de la tienda, el id de la persona usuaria,
total de artículos de compra.

· Creación de la dimensión detalle de venta, para poder detallar más la transacción de


la venta, la fecha, el nombre del producto, el precio unitario, el estado de la transacción
(crédito o de contado), la categoría del producto.

· Creación de la dimensión ubicación, para poder guardar la información


correspondiente a la tiendas y clientes, tales como dirección, país, estado, código postal, el
id del cliente.

Preguntas de Análisis (OLAP):

1. ¿En cuál número de tienda del estado de New South Wales hay más bicicletas en
inventario y cuál es la marca?

2. ¿Cuál es el nombre de la marca de bicicletas que en el 2017 tuvo más órdenes de


compra aprobadas y cuántas fueron?

3. Género que realizó mayor cantidad de compra de productos en Extreme bikes en los
últimos 3 años en el estado de Queensland, Australia.

4. ¿En cuál estado, donde se encuentran las sucursales de Extreme Bikes, se tiene la
mayor cantidad de clientes cuya profesión está relacionada al ejercicio y ciclismo?

5. ¿Cuál fue la línea de bicicletas y la marca que en el mes de agosto tuvo más ventas
en línea?
6. ¿Cuál es el estado en el que se encuentran la mayor cantidad de clientes que son
consumidores masivos y frecuentes?

7. ¿Cuál es el estado que muestra la mayor cantidad de clientes que no tienen carro y
de cual genero?

8. ¿Cuál es el método de pago preferido por los clientes de la tienda número 69 y cuál
es el monto pagado según método de pago?

9. ¿Cuál es el promedio de items totales comprados en efectivo, por los clientes, en la


tienda 71?

10. ¿Cuál es la tienda que ha recibido más órdenes, cuánta cantidad de productos ha
vendido en total esa tienda y cuál es el método de pago preferido por los clientes?

11. De acuerdo con la clase de bicicleta 'alta', ¿cuál marca ofrece más productos de este
tipo?

12. ¿Cuál fue la marca de bicicletas, que, en el mes de mayo, tuvo el precio más alto?

IV. DIAGRAMA DE DATOS


dim_DetalleVenta
transaction_id
product_id
customer_id
transaction_date
online_order
order_status
brand
product_line
product_class
product_size
list_price
standard_cost
product_first_sold_date

dim_productos
product_id
dim_ResgistroCompra
Brand H_Tienda
order_id
model ExtremeBike_id
shop_id
product_line client_id
user_id
product_class transaccion_id
order_amount
product_size orden_id
total_items
price ubicacion_id
payment_method
units_storage bike_id
created_at
state
shop_id

dim_Ubicacion dim_clientes
customer_id customer_id
address first_name
postcode last_name
state gender
country past_3_years_bike_related_purc...
property_valuation DOB
job_title
job_industry_category
wealth_segment
deceased_indicator
owns_car
tenure
address
postcode
state
country
property_valuation
Rank
Value

V. RIESGOS IDENTIFICADOS.
A. Identificación de Riesgos.

Categoría Riesgos Descripción


Perdida de personal clave Salida de personal necesario
para operar el sistema de
software.
Pérdidas en facturación por Si los servidores no están
Administrativos equipo clave que no esté en funcionando, la empresa no
operación puede cobrar las horas no
trabajadas.
Crecimiento del personal de Necesidad de comprar más
la empresa servidores por aumento en el
uso, con más personal
Fallas por falta de fluido No hay plantas eléctricas de
eléctrico emergencia

Pérdida de información de Fallas en el almacenamiento


los clientes de datos causada por un
Técnicos
componente dañado
Falta de mantenimiento Fallas por falta de ajustes y
preventivo de equipos limpieza de filtros

Riesgos de falla por fallas Los equipos llegaron a su


mecánicas vida útil y sus partes pueden
fallar
Mal dimensionamiento de las Compra de equipo no acorde
capacidades técnicas del a las necesidades del
equipo negocio
Ausencia de gestión experta Falta de capacitación y
(inexperiencia en la experiencia en las personas
tecnología) que van a usar los equipos y
Operativos el sistema de software
Falta de documentación Falta de documentación de
necesaria del proceso los equipos y de los
procesos necesarios de
gestión, operación e
instalación de los equipos
Accesos no autorizados al Vulnerabilidad del sistema
servidor

VI. DISEÑO DEL DATAWAREHOUSE.

A. Diseño de la Arquitectura
En el proyecto se implementa el tipo de arquitectura Bottom-Up, ya que, en este caso,
primero se separaron los datos y luego se cargaron al Data Warehouse, seguidamente se
utilizó la herramienta Power BI para poder realizar las visualizaciones de datos y así poder
responder a los requerimientos que se tenían. Las ventajas de utilizar y empezar con esta
arquitectura es que permite detectar la mayor cantidad de errores, además es más general
por lo tanto está menos documentado que el Top-Down.

B. Elección de la herramienta y justificación

Para el desarrollo del presente proyecto se hará uso de algunas aplicaciones que facilitarán
el importe de datos, generación de reportes y creación de bases de datos, cabe mencionar
que estás herramientas son las utilizadas en este curso a lo largo del cuatrimestre.
MS SQL Server: Se hará uso de la aplicación SQL Server para poder crear tanto las bases
de datos como los modelos que se vayan a desarrollar (Estrella, copo de nieve).
Pentaho: Se utilizará la herramienta Pentaho para realizar transformaciones y realizar
inserciones dentro de la base de datos.
Microsoft PowerBI: Se implementará esta aplicación para poder generar los gráficos de
valor de los cuales se ha mencionado durante el desarrollo de este proyecto. Esto será de
gran ayuda para poder visualizar de manera grafica los datos que se han extraído.

VII. DISEÑO DE CUBOS DE DATOS

A.
Tipos de reportes o consulta a mostrar y requerimiento/objetivo al cual responden

Objetivo 1: Crear un modelo dimensional de estrella como base del proyecto en


SQL Server.
Diseño de la Arquitectura

Objetivo 2: Desarrollar el Datawarehouse mediante el uso de las herramientas vistas en


clase como lo es, Pentaho, con el fin de que esta se encargue de extraer y transformar los
datos provenientes de las diversas fuentes como Excel, Oracle y MS SQL.
Objetivo 3: Generar reportes de valor por medio de la herramienta Power BI.

Con el objetivo de que el presente documento tenga un orden adecuado y no sea muy
extenso en la carpeta de entrega de dicho proyecto, se encuentran los “Reportes de Valor”
como un documento de tipo “pdf”

Conclusiones

Como conclusión de este proyecto en el uso de Data warehouse, aprendimos bien como
implementar Data warehouse y su significado en la aplicación para cualquier empresa, y
como en nuestro caso aplicarlo en tienda global en una línea interactivo enfocada en las
bicicletas, implica como objetivo mejorar la calidad de las bases de datos existentes y
apegarse a esta nueva estructura de manejo de información y dejar atrás las bases de datos
obsoletas, lentas y que ofrecían en ocasiones perdida información, los objetivos incluyen la
reducción de los costes de almacenamiento, una mayor velocidad de respuesta frente a las
consultas de los clientes, no permitiendo la redundancia de datos y solo mostrando
información que ha sido cargada en la base de datos así finalizando un gran trabajo en le
Data warehouse.

Recomendaciones

Al ser una tienda global esta estará cambiando su inventario por lo cual se recomienda tener
un mantenimiento constante para evitar problemas futuros al ingresar o quitar productos.
Otra recomendación seria incluir diferentes modelos de inventarios para que la tienda se
pueda adaptar a la variedad de productos y también poder brindar una mayor velocidad y
eficiencia al sistema
Se recomienda investigar en la web diferentes fuentes de información para utilizar en el
desarrollo del Datawarehouse, en especial, se recomienda el uso del sitio web
https://www.kaggle.com/ ya que en dicha página se encuentra gran cantidad de datasets con
una gran cantidad de información.
Se recomienda utilizar herramientas vistas en clase, ya que, de estas se tiene conocimiento
porque son con las que se trabaja durante el desarrollo de este y se llega a desarrollar cierta
familiaridad con estas.

Bibliografía.

Kaggle. (s.f.). Obtenido de https://www.kaggle.com/datasets


Microsoft. (2019, 11 enero). Get the sample SQL Server databases for ADO.NET code
samples - ADO.NET. Microsoft Docs.
https://docs.microsoft.com/en-us/dotnet/framework/data/adonet/sql/linq/downloading-
sample-databases

También podría gustarte