Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Programa formativo:
Máster en Big Data y Business Intelligence
Bloque:
5 El proceso ETL
Enviar a: areamarketing@eneb.es
Letra Arial 12
Márgenes de 2,5
Interlineado de 1,5
Todos los campos de la portada deben estar cumplimentados
Tener una correcta paginación
Página 6
El archivo que se enviará con el trabajo deberá llevar el siguiente formato:
Criterios de Evaluación
ENUNCIADO
Página 6
Hierros S.A. es una empresa familiar dedicada a la venta de productos de
ferretería y maquinaria ubicada en el barrio del Eixample en Barcelona.
La empresa lleva más de cien años en activo y dispone de una importante
cartera de clientes, tanto a nivel personal como profesional, cuyos datos
conforman una enorme base de datos con información realmente valiosa, pero
a la que no se le da un uso correcto. En relación con esta información, hay que
comentar que disponemos de datos de hace unos ochenta años,
aproximadamente. Por supuesto los datos de los primeros años se registraron
en formato papel, pero poco a poco fueron informatizándose.
El principal problema con todos los datos e informaciones de los clientes reside
en el hecho de que dichos datos no se encuentran unificados, es decir, cada
departamento cuenta con su propia base de datos y los valores utilizados no
coinciden, además de encontrarse datos registrados en castellano y otros en
catalán, y en términos económicos, algunos de ellos están expresados en
pesetas y otros en euros.
Comentar que todas las bases de datos están informatizadas en archivos
Excel, en los que nos encontramos con las siguientes categorías:
- Nombre y apellidos.
- Nombre de la empresa.
- DNI o CIF.
- Teléfono.
- Dirección.
- Email.
- Histórico de compras.
- Ticket medio.
- Tipos de productos que compra con más frecuencia y cantidades.
En breve Miguel, el hijo del actual propietario heredará el negocio y consciente
de la importancia que tiene para el desarrollo del negocio disponer de una
buena
base de datos que le permita conocer de primera mano cómo son sus clientes,
así como poder tomar decisiones estratégicas acertadas, acude a ti para que le
ayudes a ordenar y unificar los datos, así como a comprobar que los datos de
Página 6
que dispone son válidos y a eliminar aquellos que han perdido validez, como
pueden ser registros duplicados o disponer de informaciones de clientes que ya
han fallecido.
SE PIDE
Página 6
Datos no “limpios” ni homologados
Datos de 80 años aproximadamente.
Datos registrados en Excel.
Se cuenta con datos del cliente (nombre, dirección, etc.,)
Datos de su compra (tiket medio, frecuencia, productos que compra,
etc.,)
Página 6
para poder disponer de la información consolidada cuando lo necesitemos y
nos sea de ayuda tanto a nivel táctico, operativo y estratégico.
Página 6
mejor imagen como empresa ante ellos, tener mejor reputación, generar
fidelización.
Tiene un entorno gráfico muy bueno que está orientado al desarrollo ágil
y rápido.
Es que es programada en java orientada por completo al usuario.
Con un enfoque de metadatos.
Es open source.
Posee dos grandes áreas de trabajo y la de vista o diseño que facilita su
uso, trabajo y su visualización.
Es multiplataforma.
Es muy versátil y útil ya que tiene varios conectores a bases de datos
(comerciales y propietarias)
Nos da la ventaja de tener también conectores a ficheros planos, XML,
Excel u otros.
Podemos extender su Arquitectura usando pluguins.
Soporta procesos ETL en paralelo, uso de cluster y arquitecturas
servidor maestro-esclavo.
3. Describe las actividades que llevarías a cabo en cada fase del proceso de
ETL (limpieza, extracción, transformación y carga).
El uso de la herramienta PDI nos facilitará el manejo y procesamiento de datos.
Primero haríamos un Data Cleaning, es necesario por la situación actual de las
bases de datos de la empresa de Miguel realizar un proceso de limpieza de
datos de los registros erróneos o equívocos que las bases tengan, eso ayudará
a tener datos “limpios” y óptimos para poder extraer, para ello es necesario
realizar una auditoria con los siguientes pasos:
- Detección de datos incorrectos.
- Limpieza.
- Normalización.
Página 6
- Deduplicación.
- Integración.
Y de esta forma poder eliminar todos aquellos registros que después de la
auditoria resulten no son válidos.
Como manejamos diferentes tipos de datos es necesarios hacer una
integración de datos, en la que haremos aplicaciones, técnicas, productos y
tecnologías para poder tener una sola visión consistente de nuestros datos. Por
m edio del método de federacion de datos ya que nos permitirá acceder a los
distintos entornos origen de los datos que tiene la empresa, y crear una visión
del conjunto como si fuese una única base de datos integrada. y con un CDC
por TRIGGERS
y para la fase de carga sería con un tipo Rolling ya que permite el almacenaje
de la información resumida a diferentes niveles, que corresponden a diferentes
agrupaciones de la unidad de tiempo o distintos niveles jerárquicos en varias o
alguna de las dimensiones de la magnitud almacenada.
Y por último programar un Job por medio del entorno de desarrollo gráfico
(Spoon)
Página 6
establecer la calidad de los datos y detectar los errores. Señala aquí los
errores con los que puedes toparte en este proceso, teniendo en cuenta lo que
hemos expuesto en el enunciado. Propón también de qué manera podemos
solucionar dicho error. Es importante que justifiques tu elección.
Página 6
Referencias
Material del módulo 5 Procesos ETL del programa Máster en Big Data y BI
https://br.escueladenegociosydireccion.com/business/marketing-ventas/analisis-de-
producto/
https://es.wikipedia.org/wiki/Extract,_transform_and_load https://blog.powerdata.es/el-
valor-de-la-gestion-de-datos/bid/312584/procesos-etl-definici-n-caracter-sticas-
beneficios-y-retos
Página 6