Está en la página 1de 11

TRABAJO FINAL

Programa formativo:
Máster en Big Data y Business Intelligence
Bloque:
5 El proceso ETL
Enviar a: areamarketing@eneb.es

Apellidos: Chavez Rico


Nombres: Judith
ID/Pasaporte/DNI/NIE/Otros:
Dirección: Av Aquiles Serdan 430
Provincia/Región: Ciudad de México
País: México
Teléfono: 5520830676
E-mail: judith_chavez_r@yahoo.com.mx
Fecha: 05/06/2020

Escuela de Negocios Europea de Barcelona


Página 6
Instrucciones del Trabajo Final

A continuación, se adjunta el trabajo final que debes realizar correctamente


para la obtención del título acreditativo del curso que estás realizando.
Recuerda que el equipo de tutores está a tu completa disposición para
cualquier duda que tengas a lo largo de su desarrollo. Recuerda que no se
realizan correcciones parciales del trabajo, solo se admite la versión
finalizada. Dicho envío se realizará en esta plantilla y las respuestas deberán ir
redactadas a continuación del enunciado.
La presentación de los casos prácticos deberá cumplir los siguientes requisitos:

 Letra Arial 12
 Márgenes de 2,5
 Interlineado de 1,5
 Todos los campos de la portada deben estar cumplimentados
 Tener una correcta paginación

Los casos entregados deben ser originales e individuales. Cualquier


similitud entre ejercicios de distintos alumnos, ejemplos y/o extractos de la Red
u otros documentos, conllevará la devolución inmediata de los ejercicios y la no
obtención de la titulación en el caso de reiteración. Recuerda que solo podrás
enviar hasta dos veces por asignatura el trabajo final, en caso de no superarse
en esos intentos, el alumno/a deberá abonar el precio correspondiente a los
créditos de la asignatura para poder volver a ser evaluado.

Los trabajos solo serán aceptados en formato de procesador de texto (Word,


docx, odt, etc.) o en pdf. En caso de presentar otro formato deberá ser
consultado con el asesor y si es necesario, proporcionar el software necesario
para su lectura.

Página 6
El archivo que se enviará con el trabajo deberá llevar el siguiente formato:

ddmmaa_Nombre del Bloque_Apellidos y Nombres.pdf


Ejemplo:
11052018_Estrategia Empresarial_Garcia Pinto Marina.pdf

La extensión del trabajo no podrá sobrepasar las 18 páginas, sin contar la


portada, bibliografía y anexos.

Criterios de Evaluación

El trabajo final se evaluará en función de las siguientes variables:

 Conocimientos adquiridos (25%): Se evaluarán los conocimientos


adquiridos a lo largo de la asignatura mediante el análisis de los
datos teóricos presentes a lo largo del trabajo presentado por el
alumno/a.

 Desarrollo del enunciado (25 %): Se evaluará la interpretación del


enunciado por parte del alumno/a y su desarrollo de manera
coherente y analítica.

 Resultado final (25%): Se evaluará el resultado final del enunciado,


si el total del redactado aporta una solución correcta a lo planteado
inicialmente y si el formato y presentación se enmarca dentro de los
parámetros establecidos.

 Valor añadido y bibliografía complementaria (25%): Se evaluarán


los aportes complementarios por parte del alumno/a para la
presentación y conclusión del trabajo final que den un valor añadido a
la presentación del enunciado: bibliografía complementaria, gráficos,
estudios independientes realizados por el alumno/a, fuentes
académicas externas, artículos de opinión, etc. Todas las fuentes,
tanto impresas como el material en línea, deberán ir anexadas al
trabajo siguiendo la normativa APA.

ENUNCIADO

Página 6
Hierros S.A. es una empresa familiar dedicada a la venta de productos de
ferretería y maquinaria ubicada en el barrio del Eixample en Barcelona.
La empresa lleva más de cien años en activo y dispone de una importante
cartera de clientes, tanto a nivel personal como profesional, cuyos datos
conforman una enorme base de datos con información realmente valiosa, pero
a la que no se le da un uso correcto. En relación con esta información, hay que
comentar que disponemos de datos de hace unos ochenta años,
aproximadamente. Por supuesto los datos de los primeros años se registraron
en formato papel, pero poco a poco fueron informatizándose.
El principal problema con todos los datos e informaciones de los clientes reside
en el hecho de que dichos datos no se encuentran unificados, es decir, cada
departamento cuenta con su propia base de datos y los valores utilizados no
coinciden, además de encontrarse datos registrados en castellano y otros en
catalán, y en términos económicos, algunos de ellos están expresados en
pesetas y otros en euros.
Comentar que todas las bases de datos están informatizadas en archivos
Excel, en los que nos encontramos con las siguientes categorías:
- Nombre y apellidos.
- Nombre de la empresa.
- DNI o CIF.
- Teléfono.
- Dirección.
- Email.
- Histórico de compras.
- Ticket medio.
- Tipos de productos que compra con más frecuencia y cantidades.
En breve Miguel, el hijo del actual propietario heredará el negocio y consciente
de la importancia que tiene para el desarrollo del negocio disponer de una
buena

base de datos que le permita conocer de primera mano cómo son sus clientes,
así como poder tomar decisiones estratégicas acertadas, acude a ti para que le
ayudes a ordenar y unificar los datos, así como a comprobar que los datos de

Página 6
que dispone son válidos y a eliminar aquellos que han perdido validez, como
pueden ser registros duplicados o disponer de informaciones de clientes que ya
han fallecido.
SE PIDE

Teniendo en cuenta lo aprendido durante el curso y el enunciado


presentado:

1. Valorando la situación de la actual base de datos de Hierros S.A.,


¿consideras bueno que se lleve a cabo un proceso de ETL? Justifica tu
respuesta considerando los beneficios que ello reportaría a la empresa de
Miguel. Además, será importante establecer los objetivos de la puesta en
marcha de este proceso.
La empresa se encuentra en una situación que hoy día muchas empresas, sin
importar el tamaño, tienen con sus bases, datos e información, debido a la
digitalización y al no seguimiento y unión de bases, al tener todo en repositorios
separados, o hasta en papel, se convierten en datos que la empresa y su
directiva no ven con relación y los consideran “separados” “aislados” sin
poderlos utilizar en beneficio de la operación, del negocio y la rentabilidad de la
operación.
Un proceso de ETL le ayudaría mucho a la empresa de Miguel ya que al tener
como finalidad integrar todos los datos de la empresa, para poder dar una
única visión de estos, facilitando los análisis y pronósticos de ellos dando
información verás, oportuna y real a la directiva de la empresa y así poder
tomar mejores decisiones que ayuden a la consecución del objetivo del negocio
y facilite la gestión de la operación.
El estado actual de los datos en la empresa es:
 Datos de la empresa en Bases disgregadas y aisladas
 Información de cada departamento en base aislada e independiente
 Datos no coincidentes en cada base
 Bases en catalán y castellano.
 Unidades monetarias utilizadas en las bases euros y pesetas, no
unificada

Página 6
 Datos no “limpios” ni homologados
 Datos de 80 años aproximadamente.
 Datos registrados en Excel.
 Se cuenta con datos del cliente (nombre, dirección, etc.,)
 Datos de su compra (tiket medio, frecuencia, productos que compra,
etc.,)

Los beneficios que el proyecto de ETL traería son:


 Datos limpios y homologados
 Datos unidos en un solo repositorio
 Análisis más fáciles ya que se contará con todos los datos juntos
 Se contará con la información de operación, ventas, compras,
inventarios, pagos, etc., junta para poder realizar cuadros de mando y
seguimiento para mejorar procesos, minimizar riesgos, poder tomar
decisiones que ayuden a anticiparse un poco en el mercado,
incrementar la calidad de productos y servicios.
 Monitorear operación para minimizar incidentes, incrementar
rentabilidad.
Los objetivos de este proyecto de ETL son:
 Limpiar los datos de las bases de datos que actualmente posee la
empres
 Homologar idioma en bases de datos
 Homologar unidad monetaria utilizada en las bases de datos
 Identificar y eliminar registros duplicados en las bases
 Unificar bases
Para este proyecto utilizaremos Pentaho Data Integration (PDI) que la
verdad es una solución de integración de datos, una de sus ventajas es que
es programada en java orientada por completo al usuario, tiene un enfoque
de metadatos.
Con esta herramienta los procesos ETL son encapsulados en metadatos, lo
que ayuda a que se ejecutan mediante el motor ETL, además nos da la
ventaja de cargar datos de varias fuentes de origen en un Data WareHouse

Página 6
para poder disponer de la información consolidada cuando lo necesitemos y
nos sea de ayuda tanto a nivel táctico, operativo y estratégico.

Elegimos esta herramienta porque:


 Tiene un entorno gráfico muy bueno que está orientado al desarrollo ágil
y rápido.
 Posee dos grandes áreas de trabajo y la de vista o diseño que facilita su
uso, trabajo y su visualización.
 Es multiplataforma.

Lo que nos facilitará el manejo y procesamiento de datos para llegar a nuestros


objetivos
2. Teniendo en cuenta la información que se tiene de la empresa recogida en
las bases de datos, ¿crees que sería interesante recoger otro tipo de
información?, ¿qué información añadirías? Justifica tu respuesta.
Sí,
 si tiene buzón de quejas o sugerencias de los clientes hacia la empresa,
esta información nos ayuda a identificar áreas de oportunidad para
mejorar tanto en el servicio que se le da al cliente como en las
sugerencias que hagan de productos o servicios a incluir en la oferta
comercial de la empresa.
 Información de inventarios, los productos por temporada, ésta
información cruzada con el tiket promedio, para ver qué es lo que más
se vende y que los inventarios no se queden vacíos cuando sea la
época de mayor venta
 Información de los inventarios identificar los productos que no se
venden, ver si no se venden porque no los exhiben, anuncian o porque
no son requeridos por los clientes.
 Hacer el cruce de tiket promedio con el cliente que compra, para
identificar qué cliente es el que compra más en cuestión de dinero, qué
es lo que más compra y cuándo, para para poder clasificar los clientes
(CRM) y poder darles promociones personalizadas a sus compras,
generar una estrategia de fidelización con un club de lealtad y tener

Página 6
mejor imagen como empresa ante ellos, tener mejor reputación, generar
fidelización.

Utilizaría Kettle (Pentaho Data Integrator) (PDI) que es una solución de


integración de datos.

 Tiene un entorno gráfico muy bueno que está orientado al desarrollo ágil
y rápido.
 Es que es programada en java orientada por completo al usuario.
 Con un enfoque de metadatos.
 Es open source.
 Posee dos grandes áreas de trabajo y la de vista o diseño que facilita su
uso, trabajo y su visualización.
 Es multiplataforma.
 Es muy versátil y útil ya que tiene varios conectores a bases de datos
(comerciales y propietarias)
 Nos da la ventaja de tener también conectores a ficheros planos, XML,
Excel u otros.
 Podemos extender su Arquitectura usando pluguins.
 Soporta procesos ETL en paralelo, uso de cluster y arquitecturas
servidor maestro-esclavo.

3. Describe las actividades que llevarías a cabo en cada fase del proceso de
ETL (limpieza, extracción, transformación y carga).
El uso de la herramienta PDI nos facilitará el manejo y procesamiento de datos.
Primero haríamos un Data Cleaning, es necesario por la situación actual de las
bases de datos de la empresa de Miguel realizar un proceso de limpieza de
datos de los registros erróneos o equívocos que las bases tengan, eso ayudará
a tener datos “limpios” y óptimos para poder extraer, para ello es necesario
realizar una auditoria con los siguientes pasos:
- Detección de datos incorrectos.
- Limpieza.
- Normalización.

Página 6
- Deduplicación.
- Integración.
Y de esta forma poder eliminar todos aquellos registros que después de la
auditoria resulten no son válidos.
Como manejamos diferentes tipos de datos es necesarios hacer una
integración de datos, en la que haremos aplicaciones, técnicas, productos y
tecnologías para poder tener una sola visión consistente de nuestros datos. Por
m edio del método de federacion de datos ya que nos permitirá acceder a los
distintos entornos origen de los datos que tiene la empresa, y crear una visión
del conjunto como si fuese una única base de datos integrada. y con un CDC
por TRIGGERS

Después haríamos para la fase de extracción de datos sería del tipo


Incremental extract o extracción incremental para extraer los datos, ya que esta
nos permite hacer un procesamiento por lotes únicamente lo que fue
modificado o agregado. También nos permite borrar filas duplicadas o con de
datos erróneos.

Seguido de la fase de transformación del tipo, considerando las reglas,


excepciones que la empresa tenga para con los datos.

y para la fase de carga sería con un tipo Rolling ya que permite el almacenaje
de la información resumida a diferentes niveles, que corresponden a diferentes
agrupaciones de la unidad de tiempo o distintos niveles jerárquicos en varias o
alguna de las dimensiones de la magnitud almacenada.
Y por último programar un Job por medio del entorno de desarrollo gráfico
(Spoon)

4. Tal y como se ha comentado en el enunciado, Hierros S.A. lleva más de cien


años en activo, hecho que implica que se disponga de una gran cantidad de
datos de la mayoría de sus clientes. Ello provoca que pueda haber datos con
valores erróneos, datos mal introducidos, datos duplicados, valores que no
coinciden, etc. Ello provocará que sea necesario llevar a cabo un proceso para

Página 6
establecer la calidad de los datos y detectar los errores. Señala aquí los
errores con los que puedes toparte en este proceso, teniendo en cuenta lo que
hemos expuesto en el enunciado. Propón también de qué manera podemos
solucionar dicho error. Es importante que justifiques tu elección.

Para la empresa Hierros S.A. es imprescindible realizar primero un Data


Cleaning, por la situación actual de las bases de datos de la empresa de Miguel
realizar un proceso de limpieza de datos de los registros erróneos o equívocos
que las bases tengan, eso ayudará a tener datos “limpios” y óptimos para poder
extraer, para ello es necesario realizar una auditoria con los siguientes pasos:
- Detección de datos incorrectos.
- Limpieza.
- Normalización.
- Deduplicación.
- Integración.
Y de esta forma poder eliminar todos aquellos registros que después de la
auditoria resulten no son válidos.
Obviamente no se eliminarán los datos sólo se guardarán como copia de
seguridad, previniendo que en algún momento futuro se llegarán a necesitar.
Entendiendo a un registro no válido como una información no válida con
campos nulos o incorrectos o que presentan datos aislados.
Después haremos la fase de normalización y homologación de lenguaje,
términos, unidades monetarias, etc., que nos ayudará para que todos los
valores que se refieran a un dato puedan tener información en un solo valor.
Identificar los datos duplicados, dejarlos en cuarentena hasta que sean
desestimados y eliminados según criterios determinados.
Después de la auditoria y de que hayamos identificado el problema haremos
una transformación, estadística y análisis de los datos. Para esta auditoría y
fase de limpieza usaremos la herramienta Pentaho Data Integration.

Página 6
Referencias

Material del módulo 5 Procesos ETL del programa Máster en Big Data y BI
https://br.escueladenegociosydireccion.com/business/marketing-ventas/analisis-de-
producto/
https://es.wikipedia.org/wiki/Extract,_transform_and_load https://blog.powerdata.es/el-
valor-de-la-gestion-de-datos/bid/312584/procesos-etl-definici-n-caracter-sticas-
beneficios-y-retos

Página 6

También podría gustarte