Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 3. - Método Extract, Transform and Load, ETL
Tema 3. - Método Extract, Transform and Load, ETL
Negocios.
Elaborado por:
Dr. Abimael Antonio Pineda.
1
Temas Semana 3
3. Método extract, transform and load, ETL
3.1. Integración de las áreas empresariales
3.2. Técnicas de integración de datos
3.3. Diseño del pentaho data integration, PDI
Objetivos Semana 3
• Comprender la implementación del método ETL.
• Conocer la importancia de la integración de las áreas
empresariales.
• Aprender las técnicas de integración de datos.
• Conocer sobre el diseño del pentaho data integration
2
3. Método extract, transform and load, ETL
Extraer, transformar y cargar (ETL) es una canalización de datos utilizada para
recopilar datos de varias fuentes. Luego transforma los datos de acuerdo con las
reglas comerciales y carga los datos en un almacén de datos de destino. El trabajo
de transformación en ETL se lleva a cabo en un motor especializado y, a menudo,
implica el uso de tablas provisionales para almacenar temporalmente los datos a
medida que se transforman y, en última instancia, se cargan en su destino.
La transformación de datos que suele tener lugar implicar varias operaciones, como
filtrado, clasificación, agregación, unión de datos, limpieza de datos, deduplicación
y validación de datos.
A menudo, las tres fases de ETL se ejecutan en paralelo para ahorrar tiempo. Por
ejemplo, mientras se extraen los datos, un proceso de transformación podría estar
trabajando en los datos ya recibidos y prepararlos para la carga, y un proceso de
carga puede comenzar a trabajar en los datos preparados, en lugar de esperar a
que se complete todo el proceso de extracción.
Extraer, cargar y transformar (ELT) difiere de ETL únicamente en el lugar donde se lleva a
cabo la transformación. En la canalización de ELT, la transformación se produce en el
almacén de datos de destino. En lugar de utilizar un motor de transformación independiente,
las capacidades de procesamiento del almacén de datos de destino se utilizan para
transformar los datos. Esto simplifica la arquitectura al eliminar el motor de transformación
de la canalización. Otro beneficio de este enfoque es que escalar el almacén de datos de
destino también escalar el rendimiento de la canalización de ELT. Sin embargo, ELT solo
funciona bien cuando el sistema de destino es lo suficientemente potente como para
transformar los datos de manera eficiente.
3
Los casos de uso típicos para ELT se encuentran dentro del ámbito de los grandes
datos. Por ejemplo, podría empezar por extraer todos los datos de origen a archivos
sin formato en un almacenamiento escalable, como un sistema de archivos
distribuidos de Hadoop, un almacén de blobs de Azure o Azure Data Lake gen 2 (o
una combinación). Las tecnologías, como Spark, Hive o Polybase, se pueden usar
para consultar los datos de origen. El punto clave con ELT es que el almacén de
datos utilizado para realizar la transformación es el mismo almacén de datos donde
finalmente se consumen los datos. Este almacén de datos lee directamente desde
el almacenamiento escalable, en lugar de cargar los datos en su propio
almacenamiento propietario.Este enfoque omite el paso de copia de datos presente
en ETL, que a menudo puede ser una operación que requiere mucho tiempo para
grandes conjuntos de datos.
La fase final de la canalización de ELT suele ser transformar los datos de origen en
un formato final que sea más eficiente para los tipos de consultas que deben
4
admitirse. Por ejemplo, los datos pueden dividirse. Además, ELT podría usar
formatos de almacenamiento optimizados como Parquet, que almacena datos
orientados a filas en forma de columnas y proporciona una indexación optimizada.
Por otro lado, procesan los datos para que sean significativos con operaciones como
clasificar, unir, reformatear, filtrar, fusionar y agregar.
Por último, incluyen interfaces gráficas para obtener resultados más rápidos y fáciles
que los métodos tradicionales de mover datos a través de canales de datos
codificados a mano.
Las herramientas ETL rompen los silos de datos y facilitan que sus data scientist
accedan y analicen los datos, y los conviertan en inteligencia empresarial.
5
• El proceso ETL permite la comparación de datos de muestra entre el
sistema de origen y el de destino
• Ofrece un contexto histórico profundo para el negocio
• Las bases de datos transaccionales no pueden responder preguntas
complejas que sí pueden responderse con ETL
• ETL proporciona un método para mover los datos de varias fuentes a un
almacén de datos
• A medida que cambian las fuentes de datos, el almacén de datos
se actualizará automáticamente
• Un sistema ETL bien diseñado y documentado es esencial para el éxito de
un proyecto de almacenamiento de datos
6
este caso, la integración de datos ayudaría a consolidar los datos que llegan de
varias bases de datos departamentales y utilizarlos para informes y análisis.
Echemos un vistazo a estos enfoques de integración de datos uno por uno y veamos
cómo pueden ayudar a mejorar los procesos de inteligencia empresarial.
Consolidación de datos
Uno de los factores clave que diferencian la consolidación de datos de otras técnicas
de integración de datos es la latencia de datos. La latencia de datos se define como
la cantidad de tiempo que lleva recuperar datos de fuentes de datos para
transferirlos al almacén de datos. Cuanto más corto es el período de latencia, los
datos más recientes están disponibles en el almacén de datos para inteligencia y
análisis de negocios.
En términos generales, suele haber cierto nivel de latencia entre el momento en que
se producen las actualizaciones con los datos almacenados en los sistemas de
origen y el momento en que esas actualizaciones se reflejan en el almacén de datos
o la fuente de datos. Dependiendo de las tecnologías de integración de datos
utilizadas y las necesidades específicas del negocio, esta latencia puede ser de
7
unos segundos, horas o más. Sin embargo, con los avances en las tecnologías de
datos integrados, es posible consolidar datos y transferir cambios al destino casi en
tiempo real o en tiempo real.
Federación de datos
Propagación de datos
8
de datos y surgió la necesidad de tecnologías de integración de datos en tiempo
real, se introdujeron nuevos avances y tecnologías:
Durante la Proceso ETL, los datos se extraen de una base de datos, solución ERP,
aplicación en la nube o sistema de archivos y se transfieren a otra base de datos o
repositorio de datos. Las transformaciones realizadas en los datos varían según el
caso de uso específico de la gestión de datos. Sin embargo, las transformaciones
comunes que se realizan incluyen limpieza de datos, calidad de datos, agregación
de datos y reconciliación de datos.
9
tratar una variedad de fuentes de datos como si fueran una base de datos y
presentar los datos entrantes de nuevas formas.
A diferencia del lote ETL, EII puede manejar la integración de datos en tiempo real y
casos de uso de entrega muy fácilmente, lo que permite a los usuarios comerciales
consumir datos nuevos para el análisis de datos e informes.
Además de estas tres tecnologías clave de integración de datos, las empresas con
arquitecturas complejas de gestión de datos también hacen uso de la integración de
aplicaciones empresariales (EAI), Cambiar captura de datos (CDC), y otras
tecnologías basadas en eventos y en tiempo real para mantenerse al día con las
necesidades de datos de sus usuarios comerciales.
Este software de gestión avanzada de datos utiliza técnicas ETL (Extract, Transform
y Load) para analizar y extraer un gran volumen de datos con el objetivo de
transformar números ininteligibles para el ser humano en informes gráficos más
sencillos de entender, y que bien interpretados, se convierten en conocimiento muy
útil y valioso para las empresas, todo ello sin ingresar ni una sola línea de código.
Sus principales características son:
10
• Software multiplataforma.
• Diseño liviano.
• Fácil de usar.
• De código abierto.
• Usa tecnología estándar (Java, XML o JavaScript).
• Instalación y configuración muy sencilla.
• Flexible.
• Potente.
• Gran comunidad a su alrededor.
El software Pentaho Data Integration se utiliza
principalmente con el objetivo de mejorar la toma
de decisiones de una empresa. Anteriormente, las
decisiones se tomaban a partir de intuiciones,
datos poco exactos o tendencias que se pueden
ver a simple vista. Este tipo de decisiones podían
resultar erróneas fácilmente, ya que no se tenía
una certeza científica y/o estadística para determinar si realmente era una buena
decisión.
Con el paso de los años, la tecnología ha ido avanzando de tal forma que los datos
que recolectan diariamente las empresas a través de sus ERP o cualquier otro tipo
de programa de gestión, pueden ser analizados para extraer información realmente
útil para tomar decisiones. A esta técnica se le ha llamado Business Intelligence o
simplemente BI.
• Spoon: es la interfaz gráfica de usuario (GUI) que permite diseñar todo tipo
de soluciones de transformación de datos. Se utiliza para crear
transformaciones (flujos de datos elementales) y trabajos (secuencias de
ejecución de transformaciones y otros trabajos)
• Kitchen: ejecuta las transformaciones modeladas en Spoon.
• Pan: ejecuta los trabajos diseñados en Spoon.
• Carte: un sencillo servidor web utilizado para ejecutar y supervisar las tareas
de integración de datos.
El BI, el Big Data y el análisis de datos han cambiado la forma en la que se toman
las decisiones en el mundo de los negocios gracias a programas como el de
Pentaho Data Integration. Si necesitas mejorar tu modelo de negocio y tomar
decisiones más acertadas y que te reporten un mayor beneficio, PDI es sin duda
uno de los mejores programas para ello.
Referencias bibliográficas.
Fatima, N. (2022, 6 enero). Explicación de las técnicas y tecnologías de integración
https://www.astera.com/es/type/blog/data-integration-
techniques/#:%7E:text=Diferentes%20tecnolog%C3%ADas%20de%20integ
raci%C3%B3n%20de%20datos&text=ETL%20se%20utiliza%20principalme
nte%20para,durante%20la%20migraci%C3%B3n%20de%20datos.
12
Itop Academy. (2021, 16 noviembre). ¿Qué es Pentaho Data Integration (PDI) y
https://itop.academy/blog/item/que-es-pentaho-data-integration-pdi-y-para-
que-sirve.html
¿Qué es y para qué sirve Pentaho Data Integration? | Entel Comunidad Empresas.
(s. f.). ¿Qué es y para qué sirve Pentaho Data Integration? Recuperado 25
data-integration/
13
14
0980055598
15
Referencias bibliográficas.
Cárdenas, J. (2016). Las teorías de la organización: ¿Funcionan para explicar de
https://encolombia.com/economia/empresas/entornoempresarial/
https://economipedia.com/definiciones/grupos-de-
interes.html#:%7E:text=Los%20grupos%20de%20inter%C3%A9s%20son,s
e%20conocen%20como%20%C2%ABstakeholders%C2%BB.
16