Está en la página 1de 7

1) ¿Qué son los procesos ETL?

Los procesos ETL (extract, transform y load) son aquellos mediante los


cuales se extrae (extract)  información de uno o varios orígenes de datos.
Ésta se transforma (transform) para adaptarla a las necesidades del negocio y
posteriormente se carga (load) en un sitio compartido para su consulta por
todas las partes interesadas.[ CITATION MED18 \l 3082 ]

Una de las características más importantes del sistema ETL es que permite
integrar en un entorno homogéneo aquellos datos de orígenes heterogéneos.
Sin embargo, la configuración del flujo de trabajo tiene un cierto nivel de
complejidad y un proceso ETL mal diseñado puede causar problemas
operacionales de un coste muy elevado.

2) Fases de un proceso ETL

Un proceso de ETL suele comprender 3 fases.  Cada vez es más habitual


extraer datos de sus ubicaciones originales y luego cargarlos en un almacén de
datos diana o transformarlos después de cargarlos.

Fase 1: Extracción

El objetivo de un proceso ETL es producir datos limpios y accesibles que


puedan utilizarse para analíticas u operaciones comerciales. Los datos en bruto
deben extraerse de una variedad de fuentes [ CITATION con20 \l 3082 ]

Los datos provienen de distintos orígenes y fuentes: registros de sistema,


CRM, puntos de venta y dispositivos utilizados, entre otros. Es muy probable
que estas fuentes sean heterogéneas, por ello los datos deben ser
normalizados. También se deben compaginar en estructuras comunes aquellos
datos que contengan el mismo tipo de información, aunque provengan de
orígenes distintos.[ CITATION con20 \l 3082 ]

El objetivo de la fase de extracción es sintetizar toda la información en una o


varias estructuras comunes en las que se almacenen los datos
normalizados, dejándolos completamente homogeneizados, organizados y
listos para la fase de transformación.

Un ejemplo de extracción sería un fichero de datos de ventas agregados por


meses y departamentos, una fila por cada departamento y una columna por
cada mes, es decir, cada nuevo mes se añadiría una columna. [ CITATION
MED18 \l 3082 ]
Fase 2: Transformación

La fase de transformación de ETL es donde se produce la operación más


crítica. El resultado más destacado de la transformación pasa por aplicar las
normas necesarias del negocio a los datos para cumplir con los requisitos de
notificación.  [ CITATION cog19 \l 3082 ]

La transformación se efectúa mediante una serie de normas y reglamentos que


se esbozan. Estos son algunos de los estándares que garantizan la calidad de
datos y su accesibilidad durante esta fase: CITATION MED18 \l 3082

 Normalización: definir qué datos entrarán en juego, cómo se formatearán


y almacenarán, y otras consideraciones básicas que definirán las etapas
sucesivas.
 Eliminación de duplicados: notificar los duplicados a los administradores
de datos; excluyendo y/o eliminando los datos redundantes.
 Verificación: ejecutar comprobaciones automatizadas para cotejar
información similar, como tiempos de transacción o registros de acceso.
Las tareas de verificación permiten seguir cribando los datos no
utilizables y pueden alertar sobre anomalías en sus sistemas,
aplicaciones o datos.
 Clasificación: maximizar la eficiencia de los almacenes de datos
agrupando y clasificando elementos como los datos en bruto, audios,
archivos multimedia y otros objetos en categorías. Las normas de
transformación determinarán cómo se clasifica cada dato y dónde se
trasladará a continuación. A menudo el proceso de ETL se emplea para
crear tablas de agregación a efectos de informes resumidos. Para ello
debemos clasificar y, posteriormente, agregar.
 Las demás tareas las define usted y las configura para que se ejecuten
automáticamente.

Estas fases de transformación reducen lo que hasta ahora era un montaña de


material sin utilidad posible a un producto de datos que puede presentar en la
última fase del ETL: la fase de carga.

Fase 3: Carga

La última fase de un proceso de ETL típico es la carga de esos datos extraídos


y transformados a su nuevo destino. Existen dos vías habituales de cargar los
datos a un almacén de datos: la carga completa y la carga incremental.

La carga incremental es una tarea bastante frecuente en bases de datos.


Consiste en cargar exclusivamente los registros nuevos o modificados de la
base de datos.

CITATION MED18 \l 3082


[ CITATION con20 \l 3082 ]
3) Por qué son importantes los procesos ETL? CITATION MED18 \l 3082

Los procesos ETL son la principal fuente de información para la capa de


negocios de la empresa. A veces, la única. Estos procesos permiten que los
gerentes tengan un panorama claro, detallado y profundo de la gestión
empresarial. Y gracias a esta información, en una fase posterior de análisis, se
pueden detectar patrones y tendencias sobre las que tomar decisiones
estratégicas de alto impacto.

Sin embargo, los datos por sí solos no aportan valor alguno, pues éstos son
recogidos en un estado bruto, que no permiten ni lectura ni análisis por parte de
las personas. Para que los datos puedan ser valiosos, deben ser procesados y
transformados desde su estado bruto a un estado legible y práctico. Aquí es
donde entra en juego el proceso

Para que el historial de compras pueda brindar toda esta información de


manera clara y legible, el proceso ETL tiene que intervenir para obtener y
procesar los datos en bruto hasta adaptarlos a los formatos adecuados. Esto es
debido a que los datos no se almacenan en los sistemas de la organización tal
cual se muestran en el historial.

4) ¿Por qué es importante el uso de los ETL?

Los procesos ETL juegan un rol importante en relación con la integración de


datos inteligentes para la posterior toma de decisiones del Business
Intelligence (Inteligencia de Negocios), ya que se encarga de limpiar los datos
durante el proceso de extracción de carga de los datos en el data warehouse.
[ CITATION cog19 \l 3082 ] 

A continuación, se definen varios escenarios donde se refleja la importancia de


utilizar los ETL en el ámbito de las organizaciones.

 Los ETL y el almacenamiento de los datos

Almacenar datos siempre es un proceso complicado y costoso, ya que requiere


integrar, reorganizar y consolidar grandes volúmenes de datos que se
encuentran dentro de sistemas dispares con el objetivo de tener una única
fuente de datos para la inteligencia de negocios.

 Los ETL y la migración de datos

Una de las principales características de los ETL se encuentra en que permiten


trasladar datos de un lugar a otro, por lo que se convierten en una de las
herramientas clave a la hora de migrar datos entre sistemas. 

CITATION MED18 \l 3082


[ CITATION TAL \l 3082 ]
 Los ETL y la calidad de los datos

Dado que las organizaciones se valen de múltiples entradas de datos como


formularios de contacto, siempre es bueno tratar esos datos con la finalidad de
procesar aquellos que realmente aporten un valor.

¿Cuáles son las herramientas ETL más populares? CITATION TAL \l 3082

Las herramientas ETL son los instrumentos principales que nos permiten
construir un data warehouse o data mart.

Categorías de herramientas ETL

 Herramientas ETL Enterprise. Se trata de productos propietarios, con


muchas funcionalidades incluidas y soporte para conexión con una gran
cantidad de fuentes y suelen ser elegidas por grandes empresas ya que
el coste de adquisición es elevado.
 Herramientas ETL open source. Se trata de herramientas de código libre
y de uso gratuito, lo que permite una mayor accesibilidad para empresas
de tamaño reducido.
 Herramientas ETL personalizadas. Se trata de herramientas
desarrolladas a medida y de forma específica para una empresa o
proyecto en concreto. Requieren un grande esfuerzo inicial de
desarrollo, pero el resultado se ajusta mejor a los requerimientos.
 Herramientas ETL Cloud. La nube nos puede proporcionar todas sus
ventajas como una alta flexibilidad y el pago por uso a la hora de elegir
herramientas ETL que se ofrecen como servicio

Herramientas más pulares:

IBM: proporciona la suite de


soluciones InfoSphere, en la cual
destaca su herramienta DataStage.

CITATION TAL \l 3082


[ CITATION MED18 \l 3082 ]
Talend: conocido por su
software de integración de
código abierto gratuito Open
Studio y por su producto Talend
Data Integration.

SAP: ofrece la herramienta ETL Data Services


como parte de SAP BO (Business Objects)

SAS: proporciona una


solución de integración de
datos llamada Data
Management
Oracle: proporciona la
herramienta Oracle Data Integrator,
que permite gestionar procesos de
integración de datos en sistemas de
inteligencia de negocio.
BIBLIOGRAFÍA

cognodata. (7 de MAYO de 2019). cognodata. Obtenido de


https://www.cognodata.com/blog/procesos-etl/

conectasoftware. (8 de MAYO de 2020). conectasoftware. Obtenido de


https://conectasoftware.com/analytics/importancia-de-los-etl/#:~:text=Los%20procesos
%20ETL%20juegan%20un,datos%20en%20el%20data%20warehouse.

MEDIACLUB. (2018). MEDIAPRO. Obtenido de https://blog.mdcloud.es/herramientas-etl-


comparativa-y-principales-categorias/

TALEND. (2018). TALEND. Obtenido de https://www.talend.com/es/resources/what-is-etl/

También podría gustarte