Tema 3. - Método Extract, Transform and Load, ETL

Métodos para la Inteligencia de
Negocios.
Elaborado por:
Dr. Abimael Antonio Pineda.
1
Temas Semana 3
3. Método extract, transform and load, ETL
3.1. Integración de las áreas empresariales
3.2. Técnicas de integración de datos
3.3. Diseño del pentaho data integration, PDI
Objetivos Semana 3
• Comprender la implementación del método ETL.
• Conocer la importancia de la integración de las áreas
empresariales.
• Aprender las técnicas de integración de datos.
• Conocer sobre el diseño del pentaho data integration
2
3. Método extract, transform and load, ETL
Extraer, transformar y cargar (ETL) es una canalización de datos utilizada para
recopilar datos de varias fuentes. Luego transforma los datos de acuerdo con las
reglas comerciales y carga los datos en un almacén de datos de destino. El trabajo
de transformación en ETL se lleva a cabo en un motor especializado y, a menudo,
implica el uso de tablas provisionales para almacenar temporalmente los datos a
medida que se transforman y, en última instancia, se cargan en su destino.
La transformación de datos que suele tener lugar implicar varias operaciones, como
filtrado, clasificación, agregación, unión de datos, limpieza de datos, deduplicación
y validación de datos.
A menudo, las tres fases de ETL se ejecutan en paralelo para ahorrar tiempo. Por
ejemplo, mientras se extraen los datos, un proceso de transformación podría estar
trabajando en los datos ya recibidos y prepararlos para la carga, y un proceso de
carga puede comenzar a trabajar en los datos preparados, en lugar de esperar a
que se complete todo el proceso de extracción.
Extraer, cargar y transformar (ELT) difiere de ETL únicamente en el lugar donde se lleva a
cabo la transformación. En la canalización de ELT, la transformación se produce en el
almacén de datos de destino. En lugar de utilizar un motor de transformación independiente,
las capacidades de procesamiento del almacén de datos de destino se utilizan para
transformar los datos. Esto simplifica la arquitectura al eliminar el motor de transformación
de la canalización. Otro beneficio de este enfoque es que escalar el almacén de datos de
destino también escalar el rendimiento de la canalización de ELT. Sin embargo, ELT solo
funciona bien cuando el sistema de destino es lo suficientemente potente como para
transformar los datos de manera eficiente.
3
Los casos de uso típicos para ELT se encuentran dentro del ámbito de los grandes
datos. Por ejemplo, podría empezar por extraer todos los datos de origen a archivos
sin formato en un almacenamiento escalable, como un sistema de archivos
distribuidos de Hadoop, un almacén de blobs de Azure o Azure Data Lake gen 2 (o
una combinación). Las tecnologías, como Spark, Hive o Polybase, se pueden usar
para consultar los datos de origen. El punto clave con ELT es que el almacén de
datos utilizado para realizar la transformación es el mismo almacén de datos donde
finalmente se consumen los datos. Este almacén de datos lee directamente desde
el almacenamiento escalable, en lugar de cargar los datos en su propio
almacenamiento propietario.Este enfoque omite el paso de copia de datos presente
en ETL, que a menudo puede ser una operación que requiere mucho tiempo para
grandes conjuntos de datos.
En la práctica, el almacén de datos de destino es un almacén de datos que utiliza

un clúster de Hadoop (con Hive o Spark) o grupos dedicados de SQL en Azure
Synapse Analytics. En general, un esquema se superpone a los datos del archivo
sin formato en el momento de la consulta y se almacena como una tabla, lo que
permite consultar los datos como cualquier otra tabla en el almacén de datos. Estas
se conocen como tablas externas porque los datos no residen en el almacenamiento
administrado por el propio almacén de datos, sino en algún almacenamiento
escalable externo, como Azure Data Lake Store o Azure Blob Storage.
El almacén de datos solo administra el esquema de los datos y aplica el esquema

al leer. Por ejemplo, un clúster de Hadoop que usa Hive describiría una tabla de
Hive donde la fuente de datos es efectivamente una ruta a un conjunto de archivos
en HDFS. En Azure Synapse, PolyBase puede lograr el mismo resultado: crear una
tabla con los datos almacenados externamente a la propia base de datos. Una vez
que se cargan los datos de origen, los datos presentes en las tablas externas se
pueden procesar utilizando las capacidades del almacén de datos. En escenarios
de big data, esto significa que el almacén de datos debe ser capaz de
procesamiento paralelo masivo (MPP), que divide los datos en fragmentos más
pequeños y distribuye el procesamiento de los fragmentos en varios nodos en
paralelo.
La fase final de la canalización de ELT suele ser transformar los datos de origen en
un formato final que sea más eficiente para los tipos de consultas que deben
4
admitirse. Por ejemplo, los datos pueden dividirse. Además, ELT podría usar
formatos de almacenamiento optimizados como Parquet, que almacena datos
orientados a filas en forma de columnas y proporciona una indexación optimizada.
3.1. Integración de las áreas empresariales.

La importancia de la ETL en una organización es directamente proporcional a
cuánto esta depende del almacenamiento de datos. Las herramientas ETL
recopilan, leen y migran grandes volúmenes de datos sin procesar de múltiples
fuentes y en plataformas dispares.
Por otro lado, procesan los datos para que sean significativos con operaciones como
clasificar, unir, reformatear, filtrar, fusionar y agregar.
Por último, incluyen interfaces gráficas para obtener resultados más rápidos y fáciles
que los métodos tradicionales de mover datos a través de canales de datos
codificados a mano.
Las herramientas ETL rompen los silos de datos y facilitan que sus data scientist
accedan y analicen los datos, y los conviertan en inteligencia empresarial.
En resumen, las herramientas ETL son el primer paso esencial en el proceso de

almacenamiento de datos que permite tomar decisiones más informadas en menos
tiempo.
Los distintos beneficios que conlleva incorporar este proceso:
• ETL es un proceso predefinido para acceder y manipular datos de origen en

la base de datos de destino
• Ayuda a mejorar la productividad porque codifica y reutiliza sin necesidad
de conocimientos técnicos
• Ayuda a las empresas a analizar sus datos comerciales para tomar
decisiones importantes
5
• El proceso ETL permite la comparación de datos de muestra entre el
sistema de origen y el de destino
• Ofrece un contexto histórico profundo para el negocio
• Las bases de datos transaccionales no pueden responder preguntas
complejas que sí pueden responderse con ETL
• ETL proporciona un método para mover los datos de varias fuentes a un
almacén de datos
• A medida que cambian las fuentes de datos, el almacén de datos
se actualizará automáticamente
• Un sistema ETL bien diseñado y documentado es esencial para el éxito de
un proyecto de almacenamiento de datos
3.2. Técnicas de integración de datos.

Los problemas en la combinación de datos de múltiples fuentes dispares siempre
han permanecido, por lo que los científicos de la Universidad de Minnesota
diseñaron el primer sistema de integración de datos en 1991. Esta técnica de
integración de datos utilizó el enfoque ETL que extrae, transforma y carga datos de
diferentes fuentes en una vista unificada.
¿Qué es la integración de datos?
El proceso de consolidar datos de múltiples aplicaciones y crear una vista unificada

de activos de datos se conoce como integración de datos. A medida que las
empresas almacenan información en diferentes bases de datos, la integración de
datos se convierte en una estrategia importante a adoptar, ya que ayuda a los
usuarios comerciales a integrar datos de diferentes fuentes. Por ejemplo, una
empresa de comercio electrónico que desea extraer información del cliente de
múltiples flujos de datos o bases de datos, como marketing, ventas y finanzas. En
6
este caso, la integración de datos ayudaría a consolidar los datos que llegan de
varias bases de datos departamentales y utilizarlos para informes y análisis.
La integración de datos es un componente central de varios proyectos diferentes de

administración de datos de misión crítica, como la construcción de un almacén de
datos empresarial, la migración de datos de una o varias bases de datos a otra y la
sincronización de datos entre aplicaciones. Como resultado, existe una variedad de
aplicaciones, tecnologías y técnicas de integración de datos que utilizan las
empresas para integrar datos de distintas fuentes y crear una única versión de la
verdad. Ahora que comprende qué es el proceso de integración de datos,
profundicemos en las diferentes técnicas y tecnologías de integración de datos.
Tipos de técnicas de integración de datos
La necesidad de integración de datos surge cuando los datos provienen de diversas

fuentes internas y externas. Esto se logra mediante el uso de uno de los tres tipos
diferentes de técnicas de integración de datos, según la disparidad, la complejidad
y el volumen de las fuentes de datos involucradas.
Echemos un vistazo a estos enfoques de integración de datos uno por uno y veamos
cómo pueden ayudar a mejorar los procesos de inteligencia empresarial.
Consolidación de datos
Como su nombre indica, consolidación de datos es el

proceso de combinar datos de diferentes fuentes de datos
para crear un depósito o almacén de datos centralizado.
Este almacén de datos unificado se utiliza para diversos
fines, como informes y análisis de datos. Además, también
puede funcionar como fuente de datos para aplicaciones
posteriores.
Uno de los factores clave que diferencian la consolidación de datos de otras técnicas
de integración de datos es la latencia de datos. La latencia de datos se define como
la cantidad de tiempo que lleva recuperar datos de fuentes de datos para
transferirlos al almacén de datos. Cuanto más corto es el período de latencia, los
datos más recientes están disponibles en el almacén de datos para inteligencia y
análisis de negocios.
En términos generales, suele haber cierto nivel de latencia entre el momento en que
se producen las actualizaciones con los datos almacenados en los sistemas de
origen y el momento en que esas actualizaciones se reflejan en el almacén de datos
o la fuente de datos. Dependiendo de las tecnologías de integración de datos
utilizadas y las necesidades específicas del negocio, esta latencia puede ser de
7
unos segundos, horas o más. Sin embargo, con los avances en las tecnologías de
datos integrados, es posible consolidar datos y transferir cambios al destino casi en
tiempo real o en tiempo real.
Federación de datos
La federación de datos es una técnica de integración de datos que se utiliza para

consolidar datos y simplificar el acceso para usuarios consumidores y aplicaciones
de front-end. En la técnica de federación de datos, los datos distribuidos con
diferentes modelos de datos se integran en una base de datos virtual que presenta
un modelo de datos unificado.
No hay movimiento de datos físicos detrás de un base

de datos virtual federada. En cambio, la abstracción de
datos se realiza para crear una interfaz de usuario
uniforme para el acceso y la recuperación de datos.
Como resultado, cada vez que un usuario o una
aplicación consulta la base de datos virtual federada,
la consulta se descompone y se envía a la fuente de
datos subyacente relevante. En otras palabras, los datos se brindan bajo demanda
en la federación de datos, a diferencia de la integración de datos en tiempo real,
donde los datos se integran para construir un almacén de datos centralizado
separado.
Propagación de datos
La propagación de datos es otra técnica para la integración de datos en la que los

datos de un almacén de datos empresarial se transfieren a diferentes mercados de
datos después de las transformaciones necesarias. Dado que los datos continúan
actualizándose en el almacén de datos, los cambios se propagan a la despensa de
datos de origen de manera síncrona o asincrónica. Las dos tecnologías de
integración de datos comunes que se utilizan para la propagación de datos incluyen
la integración de aplicaciones empresariales (EAI) y la replicación de datos
empresariales (EDR). Estas tecnologías de integración de datos se analizan a
continuación.
Diferentes tecnologías de integración de datos
La tecnología de integración de datos ha evolucionado a un ritmo rápido durante la

última década. Inicialmente, Extract, Transform, Load (ETL) era la única tecnología
disponible utilizada para el proceso de integración de datos por lotes. Sin embargo,
a medida que las empresas continuaron agregando más fuentes a su ecosistema
8
de datos y surgió la necesidad de tecnologías de integración de datos en tiempo
real, se introdujeron nuevos avances y tecnologías:
A continuación, se muestra un resumen de las tecnologías de integración de datos

más populares que se utilizan en la actualidad:
Extraer, transformar, cargar (ETL)
Probablemente la tecnología de integración de datos más conocida, ETL o Extraer,

transformar, cargar es un proceso de integración de datos que implica la extracción
de datos de un sistema de origen y su carga en un destino de destino después de
la transformación.
ETL se utiliza principalmente para la consolidación de datos y se puede realizar en

lotes o casi en tiempo real mediante la captura de datos modificados (CDC). ETL
por lotes se utiliza principalmente para movimientos masivos de datos, como
durante la migración de datos. Por otro lado, CDC es una opción más adecuada
para transferir cambios o datos actualizados al destino objetivo.
Durante la Proceso ETL, los datos se extraen de una base de datos, solución ERP,
aplicación en la nube o sistema de archivos y se transfieren a otra base de datos o
repositorio de datos. Las transformaciones realizadas en los datos varían según el
caso de uso específico de la gestión de datos. Sin embargo, las transformaciones
comunes que se realizan incluyen limpieza de datos, calidad de datos, agregación
de datos y reconciliación de datos.
Integración de información empresarial (EII)
Enterprise Information Integration (EII) es una tecnología de integración de datos

que se utiliza para ofrecer conjuntos de datos seleccionados bajo demanda.
También considerada un tipo de tecnología de federación de datos, EII implica la
creación de una capa virtual o una vista empresarial de las fuentes de datos
subyacentes. Esta capa protege a las aplicaciones consumidoras y a los usuarios
comerciales de las complejidades de conectarse a sistemas de origen dispares que
tienen diferentes formatos, interfaces y semánticas. En otras palabras, EII es una
tecnología que permite tanto a los desarrolladores como a los usuarios comerciales
9
tratar una variedad de fuentes de datos como si fueran una base de datos y
presentar los datos entrantes de nuevas formas.
A diferencia del lote ETL, EII puede manejar la integración de datos en tiempo real y
casos de uso de entrega muy fácilmente, lo que permite a los usuarios comerciales
consumir datos nuevos para el análisis de datos e informes.
Replicación de datos empresariales (EDR)
Utilizado como técnica de propagación de datos, Enterprise Data Replication (EDR)

es un método de consolidación de datos en tiempo real que implica mover datos de
un sistema de almacenamiento a otro. En su forma más simple, EDR implica mover
un conjunto de datos de una base de datos a otra base de datos que tenga el mismo
esquema. Sin embargo, recientemente, el proceso se ha vuelto más complejo para
involucrar bases de datos de origen y destino dispares, con datos que se replican a
intervalos regulares, en tiempo real o esporádicamente, según las necesidades de
la empresa.
Mientras tanto EDR y ETL implican el movimiento masivo de datos, EDR es

diferente porque no implica ningún tipo de transformación o manipulación de datos.
Además de estas tres tecnologías clave de integración de datos, las empresas con
arquitecturas complejas de gestión de datos también hacen uso de la integración de
aplicaciones empresariales (EAI), Cambiar captura de datos (CDC), y otras
tecnologías basadas en eventos y en tiempo real para mantenerse al día con las
necesidades de datos de sus usuarios comerciales.
3.3. Diseño del pentaho data integration, PDI

Pentaho Data Integration (PDI), también conocido como Kettle, forma parte de la
suite multiplataforma de inteligencia empresarial Open Source Pentaho. Incluye
todo tipo de herramientas que están dirigidas principalmente a mejorar el proceso
de toma de decisiones empresariales: software de gestión de almacenes de datos,
herramientas de integración y análisis de datos, software para gestores
y herramientas de minería de datos.
Este software de gestión avanzada de datos utiliza técnicas ETL (Extract, Transform
y Load) para analizar y extraer un gran volumen de datos con el objetivo de
transformar números ininteligibles para el ser humano en informes gráficos más
sencillos de entender, y que bien interpretados, se convierten en conocimiento muy
útil y valioso para las empresas, todo ello sin ingresar ni una sola línea de código.
Sus principales características son:
10
• Software multiplataforma.
• Diseño liviano.
• Fácil de usar.
• De código abierto.
• Usa tecnología estándar (Java, XML o JavaScript).
• Instalación y configuración muy sencilla.
• Flexible.
• Potente.
• Gran comunidad a su alrededor.
El software Pentaho Data Integration se utiliza
principalmente con el objetivo de mejorar la toma
de decisiones de una empresa. Anteriormente, las
decisiones se tomaban a partir de intuiciones,
datos poco exactos o tendencias que se pueden
ver a simple vista. Este tipo de decisiones podían
resultar erróneas fácilmente, ya que no se tenía
una certeza científica y/o estadística para determinar si realmente era una buena
decisión.
Con el paso de los años, la tecnología ha ido avanzando de tal forma que los datos
que recolectan diariamente las empresas a través de sus ERP o cualquier otro tipo
de programa de gestión, pueden ser analizados para extraer información realmente
útil para tomar decisiones. A esta técnica se le ha llamado Business Intelligence o
simplemente BI.
Pentaho Data Integration es un software de código abierto que posee herramientas

de BI, que permiten convertir datos brutos en datos netos, descartando la
información poco útil y dejando aquella que sí nos puede servir en un formato más
limpio. Una vez tenemos los datos que necesitamos, podremos generar informes,
estadísticas y gráficos más fáciles de interpretar.
A partir de estos informes, los directivos pueden analizar datos obtenidos de su

propio negocio de una forma mucho más sencilla y rápida, lo que les permite tomar
decisiones basadas en números y hechos reales, dejando a un lado las intuiciones
y las corazonadas. Cuando las decisiones se basan en datos, los resultados
obtenidos suelen ser mucho más coherentes y beneficiosos para las empresas,
11
obteniendo así un mayor beneficio y una mayor rentabilidad de cada una de sus
acciones.
En Pentaho Data Integration podemos encontrar un variado número de

componentes que nos permiten aplicar técnicas ETL de una forma sencilla. Los
principales componentes de PDI son:
• Spoon: es la interfaz gráfica de usuario (GUI) que permite diseñar todo tipo
de soluciones de transformación de datos. Se utiliza para crear
transformaciones (flujos de datos elementales) y trabajos (secuencias de
ejecución de transformaciones y otros trabajos)
• Kitchen: ejecuta las transformaciones modeladas en Spoon.
• Pan: ejecuta los trabajos diseñados en Spoon.
• Carte: un sencillo servidor web utilizado para ejecutar y supervisar las tareas
de integración de datos.
El BI, el Big Data y el análisis de datos han cambiado la forma en la que se toman
las decisiones en el mundo de los negocios gracias a programas como el de
Pentaho Data Integration. Si necesitas mejorar tu modelo de negocio y tomar
decisiones más acertadas y que te reporten un mayor beneficio, PDI es sin duda
uno de los mejores programas para ello.
Si quieres conocer otras maneras de adaptar e innovar dentro de tu empresa, no

dudes en visitar los distintos tipos de innovación empresarial existentes.
Referencias bibliográficas.
Fatima, N. (2022, 6 enero). Explicación de las técnicas y tecnologías de integración
de datos | Astera Software. Astera. Recuperado 25 de enero de 2022, de
https://www.astera.com/es/type/blog/data-integration-
techniques/#:%7E:text=Diferentes%20tecnolog%C3%ADas%20de%20integ
raci%C3%B3n%20de%20datos&text=ETL%20se%20utiliza%20principalme
nte%20para,durante%20la%20migraci%C3%B3n%20de%20datos.
12
Itop Academy. (2021, 16 noviembre). ¿Qué es Pentaho Data Integration (PDI) y
para qué sirve? Recuperado 25 de enero de 2022, de
https://itop.academy/blog/item/que-es-pentaho-data-integration-pdi-y-para-
que-sirve.html
¿Qué es y para qué sirve Pentaho Data Integration? | Entel Comunidad Empresas.
(s. f.). ¿Qué es y para qué sirve Pentaho Data Integration? Recuperado 25
de enero de 2022, de https://ce.entel.cl/grandes-empresas/articulos/pentaho-
data-integration/
13
14
0980055598
15
Referencias bibliográficas.
Cárdenas, J. (2016). Las teorías de la organización: ¿Funcionan para explicar de
manera integral a las organizaciones? Revista Científica de FAREM-Estelí.
Medio ambiente, tecnología y desarrollo humano., 5, 94–106.
E. (2019, 30 julio). Entorno Empresarial. encolombia.com.
https://encolombia.com/economia/empresas/entornoempresarial/
Ucha, A. P. (2021, 27 enero). Grupos de interés – Stakeholders. Economipedia.
https://economipedia.com/definiciones/grupos-de-
interes.html#:%7E:text=Los%20grupos%20de%20inter%C3%A9s%20son,s
e%20conocen%20como%20%C2%ABstakeholders%C2%BB.
16

Tema 3. - Método Extract, Transform and Load, ETL

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 3. - Método Extract, Transform and Load, ETL

Cargado por

Copyright:

Formatos disponibles

Métodos para la Inteligencia de

En la práctica, el almacén de datos de destino es un almacén de datos que utiliza

El almacén de datos solo administra el esquema de los datos y aplica el esquema

3.1. Integración de las áreas empresariales.

En resumen, las herramientas ETL son el primer paso esencial en el proceso de

Los distintos beneficios que conlleva incorporar este proceso:

• ETL es un proceso predefinido para acceder y manipular datos de origen en

3.2. Técnicas de integración de datos.

¿Qué es la integración de datos?

El proceso de consolidar datos de múltiples aplicaciones y crear una vista unificada

La integración de datos es un componente central de varios proyectos diferentes de

Tipos de técnicas de integración de datos

La necesidad de integración de datos surge cuando los datos provienen de diversas

Como su nombre indica, consolidación de datos es el

La federación de datos es una técnica de integración de datos que se utiliza para

No hay movimiento de datos físicos detrás de un base

La propagación de datos es otra técnica para la integración de datos en la que los

Diferentes tecnologías de integración de datos

La tecnología de integración de datos ha evolucionado a un ritmo rápido durante la

A continuación, se muestra un resumen de las tecnologías de integración de datos

Extraer, transformar, cargar (ETL)

Probablemente la tecnología de integración de datos más conocida, ETL o Extraer,

ETL se utiliza principalmente para la consolidación de datos y se puede realizar en

Integración de información empresarial (EII)

Enterprise Information Integration (EII) es una tecnología de integración de datos

Replicación de datos empresariales (EDR)

Utilizado como técnica de propagación de datos, Enterprise Data Replication (EDR)

Mientras tanto EDR y ETL implican el movimiento masivo de datos, EDR es

3.3. Diseño del pentaho data integration, PDI

Pentaho Data Integration es un software de código abierto que posee herramientas

A partir de estos informes, los directivos pueden analizar datos obtenidos de su

En Pentaho Data Integration podemos encontrar un variado número de

Si quieres conocer otras maneras de adaptar e innovar dentro de tu empresa, no

de datos | Astera Software. Astera. Recuperado 25 de enero de 2022, de

para qué sirve? Recuperado 25 de enero de 2022, de

de enero de 2022, de https://ce.entel.cl/grandes-empresas/articulos/pentaho-

manera integral a las organizaciones? Revista Científica de FAREM-Estelí.

Medio ambiente, tecnología y desarrollo humano., 5, 94–106.

E. (2019, 30 julio). Entorno Empresarial. encolombia.com.

Ucha, A. P. (2021, 27 enero). Grupos de interés – Stakeholders. Economipedia.

También podría gustarte