Está en la página 1de 9

TRABAJO FINAL

Programa formativo:
• Máster en Big Data y Business Intelligence
Bloque:
5. EL PROCESO DE ETL
Enviar a: areamarketing@eneb.es

Apellidos: HURTADO TOVAR


Nombres: DIANA CAROLINA
ID/Pasaporte/DNI/NIE/Otros: 35254650
Dirección: TV 85 # 54-19
Provincia/Región: BOGOTA
País: COLOMBIA
Teléfono: 57-3508331421
E-mail: dhurtado2911@gmail.com
Fecha: 10/Abril/2020

Página 1
CONTENIDO

Hierros .................................................................................................................3

Importancia Implementar ETL......................................................................................5

Nuevos Datos ...........................................................................................................5

Actividades en cada proceso ETL...............................................................................6

Calidad Datos...............................................................................................................7

Bibliografía.............................................................................................................9

Página 2
ENUNCIADO

Hierros S.A. es una empresa familiar dedicada a la venta de productos de ferretería


y maquinaria ubicada en el barrio del Eixample en Barcelona.
La empresa lleva más de cien años en activo y dispone de una importante cartera de
clientes, tanto a nivel personal como profesional, cuyos datos conforman una
enorme base de datos con información realmente valiosa pero a la que no se le da
un uso correcto. En relación a esta información, comentar que disponemos de datos
de hace unos ochenta años, aproximadamente. Por supuesto los datos de los
primeros años se registraron en formato papel, pero poco a poco fueron
informatizándose.

El principal problema con todos los datos e informaciones de los clientes reside en el
hecho de que dichos datos no se encuentran unificados, es decir, cada
departamento cuenta con su propia base de datos y los valores utilizados no
coinciden, además de encontrarse datos registrados en castellano y otros en
catalán, y en términos económicos, algunos de ellos están expresados en pesetas y
otros en euros.
Comentar que todas las bases de datos están informatizadas en archivos Excel, en
los que nos encontramos con las siguientes categorías:
- Nombre y apellidos.
- Nombre de la empresa.
- DNI o CIF.
- Teléfono.
- Dirección.
- Email.
- Histórico de compras.
- Ticket medio.
- Tipos de productos que compra con más frecuencia y cantidades.

En breve Miguel, el hijo del actual propietario, heredará el negocio y consciente de la


importancia que tiene para el desarrollo del negocio disponer de una buena base de
datos que le permita conocer de primera mano cómo son sus clientes así como

Página 3
poder tomar decisiones estratégicas acertadas, acude a ti para que le ayudes a
ordenar y unificar los datos, así como a comprobar que los datos de que dispone son
válidos y a eliminar aquellos que han perdido validez, como pueden ser registros
duplicados o disponer de informaciones de clientes que ya han fallecido.

Página 4
Teniendo en cuenta lo aprendido durante el curso y el enunciado presentado:

1. Valorando la situación de la actual base de datos de Hierros S.A.,


¿consideras bueno que se lleve a cabo un proceso de ETL?

IMPORTANCIA IMPLEMENTACION DEL PROCESO ETL

Sería muy bueno para la empresa la implementación de un proceso de ETL, debido


a que las bases de datos con las que cuenta hoy en día no contienen la seguridad, y
confiabilidad con las cuales se pueda n obtener datos reales y confiables, debido a
que han sido varias las personas que las han trabajado y más aun porque cada área
trabaja una base de datos cuando lo aconsejable e es que sea una única para toda
la empresa.
El hecho de NO contar con una base única y consolidada es se puede presentar
duplicidad en la información, ejemplo un cliente se podrá duplicar en cada una
diferentes bases de datos, por esto es que se debe implementar este proceso. Las
ventajas y beneficios
• Asegurar la calidad de los datos
• Ayuda a la toma de decisiones estratégicas
• Crear un repositorio central estandarizado de todos los datos de la
organización.
• El proceso de ETL es muy útil y beneficioso para la organizacion por su
capacidad para integrar grandes bases de datos

2. Teniendo en cuenta la información que se tiene de la empresa recogida en las


bases de datos, ¿crees que sería interesante recoger otro tipo de
información?, ¿qué información añadirías? Justifica tu respuesta.

NUEVOS DATOS

SI sería necesario recoger la fecha compuesta del día/mes/año, valor Unitario del
producto, Idproducto, Tipo Moneda, pues con la que esta permite crear una
estrategia de marketing basándose en el análisis de los datos anteriores.

Página 5
3. Describe las actividades que llevarías a cabo en cada fase del proceso de
ETL (limpieza, extracción, transformación y carga).
ACTIVIDADES EN CADA FASE
Limpieza

Unificar la estructura de los nuevos archivos que se cargaran al Data warehouse


con cada una de las áreas, esto para futuros cargues.

Extracción
1. Crear una carpeta y en esta se crearán subcarpetas con el nombre de cada
área de trabajo que servirá como Source de los archivos Excel
1.1 En caso de tener archivos por años, los deberá se deberán renombrar
así: Areaaño
1.2 En caso de solo contener un archivo Areaañoactual
2. Se hará la carga inicial de los datos contenidos los archivos en un Data
warehouse (staging) los cuales se llevaran a tablas temporales identificadas
con el nombre de cada área ejemplo tmp_tesoreria cada tabla, estará creada
con la estructura actual de cada archivo, pero con la particularidad de que
todos los campos estarán en tipo Varchar.
3. Crear tareas que me identifiquen los siguientes errores y se enviaran a unas
tablas identificadas con el nombre de cada área Tmp_Error_Tesoreria con la
particularidad de que todos los campos estarán en tipo Varchar, los cuales se
le enviaran a la persona encargada del proyecto para que sean validados con
el dueño y productor de la información
4. Cuando ya se tenga la data sin ningún tipo de error se procederá a llevar cada
una de las tablas Tmp con los datos que serán necesarios para el análisis que
la empresa requiere y se almacenaran en una tablas sta_Nombretabla las
cuales servirán para cargar las tablas de Data warehouse final
5. Se creará una tarea para el cargue del archivo que contenga en su nombre el
año mes actual

Transformación

Página 6
La fase de transformación de los procesos de ETL aplica una serie de reglas de
negocio o funciones sobre los datos extraídos para convertirlos en datos que
serán cargados. Estas directrices pueden ser declarativas, pueden basarse en
excepciones o restricciones, pero, para potenciar su pragmatismo y eficacia, hay
que asegurarse de que sean:
• Declarativas
• Independientes
• Claras
• Inteligibles
• Con una finalidad útil para el negocio.

Carga

En esta fase, los datos procedentes de la fase anterior (fase de transformación)


son cargados en el sistema de destino. Dependiendo de los requerimientos de la
organización, este proceso puede abarcar una amplia variedad de acciones
diferentes.

4. Tal y como se ha comentado en el enunciado, Hierros S.A. lleva más de cien


años en activo, hecho que implica que se disponga de una gran cantidad de
datos de la mayoría de sus clientes. Ello provoca que pueda haber datos con
valores erróneos, datos mal introducidos, datos duplicados, valores que no
coinciden, etc. Ello provocará que sea necesario llevar a cabo un proceso
para establecer la calidad de los datos y detectar los errores. Señala aquí
los errores con los que puedes toparte en este proceso, teniendo en cuenta
lo que hemos expuesto en el enunciado. Propón también de qué manera
podemos solucionar dicho error. Es importante que justifiques tu elección.

CALIDAD EN DATOS
Tipo
Errores Tipo texto Numero/Moneda Tipo Fecha
VACIOS ND -1 19000101
NULL ND -1 19000101
#¡REF! ND -1 19000101
#¡DIV/0! ND -1 19000101

Página 7
#¡VALOR! ND -1 19000101
#¿NOMBRE? ND -1 19000101
#¡NULO! ND -1 19000101
Los caracteres
Los caracteres
El campo contiene especiales se Los caracteres especiales se
especiales se
caracteres remplazarán remplazarán por espacio en
remplazarán por
especiales por espacio en blanco
espacio en blanco
blanco
Se quitarán
Se quitarán espacios Se hará conversión a fecha
Desbordamiento espacios a la
a la derecha y a la manejando sentencias de
de Datos derecha y a la
izquierda conversión
izquierda

Página 8
BIBLIOGRAFIA
El proceso del ETL
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/400404/Rendimiento-y-
fiabilidad-en-los-procesos-ETL

Los Procesos de ETL


https://el-valor-de-la-gestion-de-datos/qu-son-los-procesos-etl

Página 9

También podría gustarte