Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Laboratorio de:
Business Intelligence
Práctica No.: 05
Tema:
Integrantes
Deyvid Paucar
Objetivos:
Marco teórico:
ETL
ETL es un tipo de integración de datos que hace referencia a los tres pasos que son extraer,
transformar y cargar, los cuales se utilizan para mezclar datos de múltiples fuentes. Se utiliza a
menudo para construir un almacén de datos. [1]
Proceso ETL:
1. Los datos se toman de un sistema de origen
2. Se convierten en un formato en el que se puedan almacenar
3. Se almacenan en un data warehouse u otro sistema.
Características:
• ETL provee profundo contenido histórico para la empresa.
• ETL facilita a los usuarios de negocios analizar y generar reportes sobre datos
relevantes para sus iniciativas.
• ETL puede mejorar la productividad de los profesionales de los datos porque codifica y
reutiliza procesos que mueven datos sin requerir habilidades técnicas para escribir
código o scripts.
• ETL ha evolucionado para satisfacer requisitos de integración emergentes para cosas
como los datos transmitidos por streaming.
Job
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Herramienta Pentaho
Ventajas:
• Open Source.
• Multiplataforma.
• Fácil de instalar y configurar.
• Es una solución flexible que permite crear nuevas funcionalidades o módulos, que se
adaptan a las necesidades de la organización.
• Cuenta con un motor de Data mining y servidor OLAP.
• Enfocado Big Data y bases de datos no relacionales.
Desarrollo de la práctica:
Posteriormente, se ingresa los respectivos datos para crear una conexión con la base de datos
factura en PostgreSQL y si todo es correcto, entonces se tendrá una conexión satisfactoria como
se muestra en la ilustración 7 y se guardará dando clic en el botón OK.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Luego, en la tabla input se da clic sobre el botón Get SQL select statement y se mostrará la
ventana donde se puede elegir la tabla clientes de la base de datos factura como se muestra en
la ilustración 9.
Para poder observar que los datos se han cargado entonces se da clic en el botón Preview y
automáticamente se mostrará la ventana con los datos cargados como se muestra en la
ilustración 10; finalmente se guarda todo dando clic sobre el botón clic.
Posteriormente, en la opción “Target table” de la ventana Table output se puede crear una tabla
o seleccionar una existente de la base de datos datamart_ventas para añadir los datos
previamente transformados. En la ilustración 13 se puede observar cómo se elige la tabla
dimensión_cliente para guardar los datos de la tabla cliente transformados.
Ilustración 14. Resultados de la operación ETL sobre los datos de la tabla cliente.
Para la transformación se selecciona los campos y se cambian sus nombres para que sean
coincidentes con los campos de la tabla dimensión producto como se muestra en la ilustración
16.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Ilustración 17. Resultados de la operación ETL sobre los datos de la tabla producto.
Para realizar la tabla hechos ventas se va a aplicar varias transformaciones a los datos de la base
de datos facturas. En la ilustración 18 se muestra el procedimiento ETL para obtener la tabla
hechos ventas.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Primero, conectar las tablas inputs con la base de datos factura y extraer los datos de la tabla
detalle factura y cabecera factura. Además, extraer la fecha en un formato específico como se
puede observar en la ilustración 19.
Secuencialmente, conectar al datamart ventas y extraer los registros con su fecha de la tabla
dimensión tiempo como se puede observar en la ilustración 20.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Luego, mediante el uso de un join rows se combina las filas de la extracción de detalle factura
con las filas de la extracción de dimensión tiempo de acuerdo al campo fecha como se observa
en la ilustración 21.
Ahora se selecciona los datos que van a estar en la tabla hechos ventas y a la vez se las renombra
para que coincidan con las columnas de la tabla de salida como se observa en la ilustración 23.
Así mismo se remueve los valores que no se desean incluir en esta tabla.
Posteriormente, conectar la tabla de salida con el Data mart de ventas y seleccionar la tabla
hechos_ventas donde se van a guardar los valores previamente transformados. En la ilustración
24 se puede observar la conexión al Data mart ventas.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Ilustración 24. Conexión al Data mart ventas para crear la tabla hechos_ventas.
Para realizar la tabla Tiempo se va a aplicar varias transformaciones a los datos de la BD facturas.
En la ilustración # se muestra el procedimiento ETL para obtener la tabla hechos ventas.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
En la transformación filas únicas que llamamos filtras fechas duplicadas se eliminarán las fechas
duplicadas obtenidas de la consulta anterior.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Para la tabla del datamart dimension_tiempo requerimos de agregar valores a los campos anio,
mes y dia, estos valores necesitan obtenerse con la transformación para partir campos separar
fechas como se ve en la figura 29.
Para agregar valores al campo trimestre de la tabla dimension_tiempo del Data Mart es
necesario usar un elemento scripping que nos permite definir una función que permite dar con
el trimestre en función del campo mes obtenido anteriormente. La regla es: if(OR([mes]
="01";[mes] ="02"; [mes] ="03"; [mes]="04") ; 1; IF(OR([mes] ="05";[mes] ="06"; [mes] ="07";
[mes]="08"); 2; IF(OR([mes] ="09";[mes] ="10"; [mes] ="11"; [mes]="12");3; 0) ))
A todos los valores se les añade una constante hora indicando a qué momento del día se
ingresaron los datos al Data Mart para lo cual usamos una transformación add constant
Finalmente seleccionamos todos los campos que vamos a poner en nuestra tabla tiempo con la
transformación select values que están acorde al diseño del data mart ventas.
Finalmente configuramos nuestra tabla de salida con una conexión al data mart de ventas, a la
tabla dimension_tiempo.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA DE SISTEMAS INFORMÁTICOS Y DE COMPUTACIÓN
Debido a que todos los productos fueron agregados con la misma fecha se puede evidenciar que
solo hay una entrada en la tabla dimensión_tiempo en la ilustración 34.
Al tener desarrollado cada ETL como se mostró a lo largo de la práctica se desarrolla un job.
Como primer paso colocamos la opción “Start” y las transformaciones necesarias es este caso
son 4: Transformación cliente, transformación producto, transformación tiempo y
transformación hechos ventas. De manera secuencial, cada una de estas haciendo referencia a
su ETL, previamente desarrollados
Conclusiones y recomendaciones:
• El procedimiento ETL permite tomar los datos de una base de datos para transformarlos
en un conjunto de datos y que sean almacenados en un Data mart. Esta transformación
puede ser de cualquier tipo de acuerdo con las necesidades del usuario.
• ETL son procesos que organizan los flujos datos entre distintos sistemas en una
organización y aporta los métodos y herramientas necesarias para movilizar los datos
desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y
cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también
llamado “Gestión de los Datos” (Data Management).
• Se ha realizado de manera eficiente la practica , teniendo en cuenta lo aprendido en
clase lo cual nos ha ayudado para desarrollar esta practica con el uso de datamarts en
el laboratorio de esta materia
Bibliografía:
[2] “Primer contacto con el entorno de trabajo PENTAHO (Parte II) - CodigoBinario por
Jorge Grau.” https://www.codigo-binario.es/primer-contacto-con-el-entorno-de-
trabajo-pentaho-parte-ii/ (accessed Jun. 18, 2022).