Está en la página 1de 6

TECNOLOGÍAS Y HERRAMIENTAS UTILIZADAS PARA LOS PROCESOS DE ETL’S.

ETLS

El proceso ETL (extraer, transformar, cargar), es el encargado de la integración de datos, es decir


permite que los datos localizados en diversos repositorios, se unifiquen en un único espacio
(Datawarehouse).

Un buen diseño de este proceso, permitirá cumplir con los estándares de calidad, eficiencia y
fiabilidad, por otro lado un mal diseño, influirá directamente en Datawarehouse, y este a su vez en
las decisiones tomadas por los directivos, debido a la información errónea generada por el proceso
ETL.

Normalmente y comprobando diversas fuentes, el proceso ETL, se generaliza dividiéndolo en las


tres etapas mencionadas anteriormente, aunque realmente y en la práctica, se puede dividir en las
siguientes cinco etapas:

- Extracción
- Limpieza
- Transformación
- Integración
- Carga
- Extraer

Es la primera etapa de ETL, aquí es cuando se extraen los datos ubicados en los diferentes
repositorios de la empresas, normalmente nos encontramos con bases de datos relacionales o
ficheros planos, aunque también no relacionales y otros tipos de estructuras. En este paso los
datos son convertidos a un formato, quedando preparados para el proceso de transformación.

En esta fase, los datos deben de ser analizados, comprobando que cumplen con las
especificaciones en cuanto a formato son las requeridas, descartando los que no las cumplen.

Limpieza

El proceso de limpieza, se hace fundamental dentro de ETL. Normalmente las propias


herramientas ETL, cuenta con sus propios sistemas para limpiar los datos, aunque también existen
herramientas específicas a tal fin en el mercado.

El proceso de limpieza de datos nos ayudará a evitar errores que ensucian los datos, algunas de las
causas son las siguientes:

Valores por defecto

Ausencia de valor

Campos con distintas utilidades

Valores crípticos

Valores contradictorios

Uso inapropiado de los campos

Vulneración de las reglas de negocio

Reutilización de claves primarias, valores que ya se habían utilizado en el pasado.

Identificadores que no son únicos

Problemas de carga de antiguos sistemas o integración de sistemas

Selección por defecto, del primer valor de una lista.

El proceso de limpieza, puede ser dividido a su vez en cinco procesos, comentados anteriormente
cuando se hablaba de la limpieza de datos.

Depurar valores(Parsing): identificación de los elementos de la información de manera individual,


aislándolos en ficheros de destino.

Corrección: (Correcting): se corregirán los valores individuales de los atributos, con diferentes


logaritmos de corrección y fuentes de datos externas. Por ejemplo, se puede analizar el nombre
con el género de la persona, para de esta manera comprobar que a cada nombre se le está
asignado el género adecuado.

Estandarización (Standarizing): se aplicarán rutinas para que los valores tengan un formato


definido y consistente.
Relaciones (Matching): se buscarán relaciones de los valores con sus registros corrigiendo y
estandarizando. Este proceso esta basado en reglas de negocio, normalmente para evitar valores
duplicados.

Consolidación (Consolidating): los datos se consolidan juntándolos en una sóla representación.

Trasformar

Aquí se insertan reglas de negocio (Gobierno de datos) o funciones que preparan los datos para
ser cargados, algunas fuentes de datos sólo necesitaran pequeños cambios mientras que otras
pueden requerir alguna de las siguientes transformaciones:

Selección de ciertas columnas únicamente, descartando las que vayan a provocar fallos, contengan
datos nulos o que no sean de interés para el análisis.

Transformar campos, es decir asignar una regla que asigne a un campo concreto un valor
específico, perro=1.

Codificar valores.

Obtener valores calculados mediante algún tipo de formula matemática.

Calcular sumatorios de filas de campos, en el caso de que no interesen los datos aislados, sino que
se requieran de forma conjunta, esto simplificará el proceso.

Generación de campos clave en el destino.

Transponer o pivotar, es decir invertir filas por columnas o viceversa.

División de columnas en varias, esto normalmente se hace cuando los datos datos de dentro de la
columna son de gran interés, ya que realentizará el proceso.

Integración

Durante la fase de integración, se comprueba que la información que hemos carado, coincide con
la que teníamos en el sistema transaccional, además se debe comprobar que los valores de los
registros son iguales a los definidos en DataWarehouse.

Cargar

La fase de carga es la última de proceso, aquí es donde los datos transformados en el paso anterior
comienzan a cargarse en el Datawarehouse. No es raro, que este proceso se realice de forma
periódica, con lo que muchos de los datos serán sobrescritos sobre DataWarehouse. Cada vez que
se realiza una carga de datos sobre este repositorio central, son registrados, pudiéndose auditar
los mismos y teniendo siempre un histórico a lo largo del tiempo.

Existen dos formas básicas de desarrollar el proceso de carga:

Acumulación simple: este método agrupa una serie de transacciones a lo largo del tiempo,
transportándolas como una única a DataWarehouse, normalmente genera de forma automática
un sumatorio o media de todas éstas transportándolas como valores únicos.

Rolling: es utilizado cuando las necesidades del negocio, requieren de una mayor granularidad de
la información, haciéndose divisiones por niveles jerárquicos temporales… Un ejemplo, podría ser
cargar los datos teniendo en cuenta semanas, meses…

La fase de carga interactúa de forma directa con la base de datos de destino, por lo que cuando los
datos entran en ésta, los disparadores y restricciones establecidas, se accionarán proporcionando
datos de calidad, siempre teniendo en cuanta que éstos hayan sido diseñados correctamente.

Tipos de procesamiento en herramientas ETL

La aparición del el proceso de datos en paralelo o la computación en paralelo, ha supuesto un gran


avance para los procesos ETL, obteniéndose una mayor rapidez en estos. Se suelen encontrar tres
tipos de paralelismo dentro de los procesos ETL:

De datos: se divide un archivo en pequeños archivos para que de esta manera pueda ser
procesado en paralelo.

Pipeline(segmentación): permite el funcionamiento simultaneo de varios componentes dentro de


un mismo archivo. Por ejemplo se podría estar trabajando sobre la columna 1 de un archivo al
mismo tiempo que se está haciendo sobre la segunda y la tercera, dando mucha más rapidez al
proceso.

De componentes: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos


en el mismo puesto de trabajo.

Características de herramientas ETL

A continuación se van a mencionar cuáles son las características que una herramienta ETL, debería
tener.

Interface gráfico: donde se puedan visualizar las relaciones entre fuentes de datos,
transformaciones, procesos y tareas cuando se esta realizando la carga.

Gestión de metadata: que permita definir, documentar y gestionar la información durante el


proceso ETL

Extracción de la información: empleándose conectores como ODBC o SQL nativos de los distintos
motores de búsqueda o ficheros planos.

Transformación: se debería de contar con librerías de transformación para que transformara los
datos de origen en los de destino.

Carga: con adapatadores que permitieran insertar o modificar los datos de Datawarehouse.
Servicios de transporte: como FTP, para transportar los archivos de las diversas fuentes al lugar de
destino.

Administración y operación: que permita gestionar y monitorizar los trabajos de ETL.

Gestión de errores: las herramientas deben permitir la gestión de errores.

Algunas herramientas ETL

Sap Data integrator

Esta solución está desarrollada por la empresa tecnológica SAP. Cuenta con el proceso de
extracción, transformación y carga de información para diferentes aplicaciones bases de datos u
otras fuentes de información. Permite la extracción de archivos con datos estructurados y
desestructurados. Se caracteriza por su agilidad y la fiabilidad de la integración de la información.
Sus principales características son:

Accesibilidad e integración de datos procedentes de diversas fuentes.

Mueve los datos en lotes en tiempo real.

Permite su integración con SAP HANA, que cuenta con tecnología inmemory, lo que permite el
análisis de grandes volúmenes de datos en periodos cortos de tiempo.

Permite sacar el máximo rendimiento de Big Data, ya que puede acceder a datos desestructurados
procedentes de sistemas Hadoop.

Gran productividad con una sóla herramienta que cuenta con una interface intuitiva para la
integración de datos de calidad.

Cognos Decisionstream

Herramienta ETL de la empresa tecnológica IBM, permite la integración dentro de un sitema de


Inteligencia de negocio a través de la extracción, transformación y carga de datos en una base de
datos relacional.  Sus principales características son:

Organiza los datos por tema (ventas, finanzas…) y por categoría (producto, consumidor…)

Es multi-plataforma lo que permite procesar grandes volúmenes de datos in periodos cortos de


tiempo con una inversión mínima en hardware.

Cuenta con una interface gráfica y muy intuitiva, que permite hacer el prceso de transformación
de una manera rápida y sencilla.

Es flexible, lo que permite adaptarse a los cambios del negocio.

Es escalable, lo que también permite que se adapte a los requerimiento de negocio.

Microsoft integration service

Herramienta de Microsoft desarrollada para la transformación de datos y su integración. Entre sus


características se encuentran las siguientes:
Variado conjunto de tareas y transformaciones integradas

Herramientas para la creación de paquetes y el servicio de Integration Service, para ejecutar y


administrar los paquetes.

Herramientas gráficas que pueden utilizarse para desarrollar soluciones sin necesidad de recurrir
al código.

Se pueden programar tareas para la creación de paquetes,  personalizar tareas y otros objetos del
paquete.

Oracle Warehouse builder

Oracle Warehouse builder, es una herramienta desarrollada por Oracle, destaca por la calidad de
la información recuperada, su sistema de auditoria, su perfecta integración con modelos
relacionales y dimensionales y un completo sistema de gestión del ciclo de vida de los datos y
metadatos. Entre sus principales características destaca:

Acceso a grandes cantidades de datos: estabilizando conexiones trasparentes con bases de datos,
aplicaciones, archivos y repositorios de datos de la empresa.

Habilidad para clasificar, transformar y limpiar los datos. Cuenta con una amplia librería para la
transformación de datos de diferentes tipos como texto, números, fechas y otros. Antes de
cargarse los datos en el Datawarehouse, proporciona un servicio de evaluación de la calidad de los
datos.

Implementar diseños para diferentes aplicaciones: permite el diseño e implementación de


cualquier transformación de los datos tanto en bases de datos relacionales como bidimensionales.

Auditar: tras haber consolidado los datos de las diversas bases de datos en un único repositorio,
permite ver los cambios realizados.

Jaspersoft

Es una herramienta ETL, que permite la extracción, transformación y carga de datos procedentes
de diversas fuentes, dejándolos listos para su inserción en Datawarehouse o Data Mart y su
posterior análisis. Entres sus principales características destacar:

Un entrono de diseño gráfico, que permite el diseño en colaboración de los procesos ETL, con
herramientas drag-and-drop que facilita la estructuración de procesos. También cuenta con un
panel donde monitoriza la ejecución de los diversos procesos y sus cambios.

Cuenta con conectores para ERP y CRM como Salesfoce Sap Y SugarCRM y entornos Bigdata como
Hive para Hadoop y MogoDB.

También podría gustarte