Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Programa formativo:
• Máster en Big Data y Business Intelligence
Bloque:
5. EL PROCESO DE ETL
Enviar a: areamarketing@eneb.es
Página 1
CONTENIDO
Hierros .................................................................................................................3
Calidad Datos...............................................................................................................7
Bibliografía.............................................................................................................9
Página 2
ENUNCIADO
El principal problema con todos los datos e informaciones de los clientes reside en el
hecho de que dichos datos no se encuentran unificados, es decir, cada
departamento cuenta con su propia base de datos y los valores utilizados no
coinciden, además de encontrarse datos registrados en castellano y otros en
catalán, y en términos económicos, algunos de ellos están expresados en pesetas y
otros en euros.
Comentar que todas las bases de datos están informatizadas en archivos Excel, en
los que nos encontramos con las siguientes categorías:
- Nombre y apellidos.
- Nombre de la empresa.
- DNI o CIF.
- Teléfono.
- Dirección.
- Email.
- Histórico de compras.
- Ticket medio.
- Tipos de productos que compra con más frecuencia y cantidades.
Página 3
poder tomar decisiones estratégicas acertadas, acude a ti para que le ayudes a
ordenar y unificar los datos, así como a comprobar que los datos de que dispone son
válidos y a eliminar aquellos que han perdido validez, como pueden ser registros
duplicados o disponer de informaciones de clientes que ya han fallecido.
Página 4
Teniendo en cuenta lo aprendido durante el curso y el enunciado presentado:
NUEVOS DATOS
SI sería necesario recoger la fecha compuesta del día/mes/año, valor Unitario del
producto, Idproducto, Tipo Moneda, pues con la que esta permite crear una
estrategia de marketing basándose en el análisis de los datos anteriores.
Página 5
3. Describe las actividades que llevarías a cabo en cada fase del proceso de
ETL (limpieza, extracción, transformación y carga).
ACTIVIDADES EN CADA FASE
Limpieza
Extracción
1. Crear una carpeta y en esta se crearán subcarpetas con el nombre de cada
área de trabajo que servirá como Source de los archivos Excel
1.1 En caso de tener archivos por años, los deberá se deberán renombrar
así: Areaaño
1.2 En caso de solo contener un archivo Areaañoactual
2. Se hará la carga inicial de los datos contenidos los archivos en un Data
warehouse (staging) los cuales se llevaran a tablas temporales identificadas
con el nombre de cada área ejemplo tmp_tesoreria cada tabla, estará creada
con la estructura actual de cada archivo, pero con la particularidad de que
todos los campos estarán en tipo Varchar.
3. Crear tareas que me identifiquen los siguientes errores y se enviaran a unas
tablas identificadas con el nombre de cada área Tmp_Error_Tesoreria con la
particularidad de que todos los campos estarán en tipo Varchar, los cuales se
le enviaran a la persona encargada del proyecto para que sean validados con
el dueño y productor de la información
4. Cuando ya se tenga la data sin ningún tipo de error se procederá a llevar cada
una de las tablas Tmp con los datos que serán necesarios para el análisis que
la empresa requiere y se almacenaran en una tablas sta_Nombretabla las
cuales servirán para cargar las tablas de Data warehouse final
5. Se creará una tarea para el cargue del archivo que contenga en su nombre el
año mes actual
Transformación
Página 6
La fase de transformación de los procesos de ETL aplica una serie de reglas de
negocio o funciones sobre los datos extraídos para convertirlos en datos que
serán cargados. Estas directrices pueden ser declarativas, pueden basarse en
excepciones o restricciones, pero, para potenciar su pragmatismo y eficacia, hay
que asegurarse de que sean:
• Declarativas
• Independientes
• Claras
• Inteligibles
• Con una finalidad útil para el negocio.
Carga
CALIDAD EN DATOS
Tipo
Errores Tipo texto Numero/Moneda Tipo Fecha
VACIOS ND -1 19000101
NULL ND -1 19000101
#¡REF! ND -1 19000101
#¡DIV/0! ND -1 19000101
Página 7
#¡VALOR! ND -1 19000101
#¿NOMBRE? ND -1 19000101
#¡NULO! ND -1 19000101
Los caracteres
Los caracteres
El campo contiene especiales se Los caracteres especiales se
especiales se
caracteres remplazarán remplazarán por espacio en
remplazarán por
especiales por espacio en blanco
espacio en blanco
blanco
Se quitarán
Se quitarán espacios Se hará conversión a fecha
Desbordamiento espacios a la
a la derecha y a la manejando sentencias de
de Datos derecha y a la
izquierda conversión
izquierda
Página 8
BIBLIOGRAFIA
El proceso del ETL
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/400404/Rendimiento-y-
fiabilidad-en-los-procesos-ETL
Página 9