Está en la página 1de 25

ETL

INTRODU C CIÓ N
* ETL, esencialmente, es el proceso que permite a las empresas manejar y
movilizar datos desde distintos tipos de fuentes, para transformarlos,
limpiarlos y cargarlos en otra base de datos.

El principal propósito de ETL es transportar la información de la empresa


desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio
(BI), este proceso consta de tres etapas:

*Extracción de datos
*Transformación de datos
*Carga de datos
F A S E S D E ETL
* FASE DE EXTRACCIÓN
La primera parte del proceso ETL consiste en extraer los datos desde el
sistema de origen.

Esta fase consta de tres pasos:


*

* se evalúan las necesidades


concretas de la organización.
*

* Antes de extraer los datos, se


identifica de qué tipo son y en qué
formato se encuentran los sistemas
fuente.
*

* En función de las necesidades


detectadas, se procede a la extracción
en sí de dichos datos.

*exigir siempre que esta tarea cause un


impacto mínimo en el sistema de
origen
* MODOS DE EXTRACCIÓN
Básicamente, existen tres modos distintos de extracción:
Update Notification o
Full Extract o extracción Incremental Extract o
notificación de
total extracción incremental
actualizaciones

• Esta modalidad • Se va procesando por • En este caso, solo se


consiste en extraer la lotes únicamente lo van extrayendo los
totalidad de datos. que fue modificado o datos a medida que se
agregado. produce una
actualización (por
ejemplo, un inserto).
*
*Cualquier organización, empresa o
compañía debe exigir que el proceso de
extracción de datos desde su fuente o
fuentes de origen cause el menor
impacto posible. Es decir, que no
suponga ningún problema a los
empleados que, diariamente, trabajan
con los datos y registros.
* LIMPIEZA
*Asegura la calidad de los datos que vamos a procesar.
*Evita la información no veraz o errónea.
*Ahorra costes de espacio en disco al eliminarse la información duplicada.
*Agiliza las consultas por la ausencia de datos repetidos o inservibles.
*Ayuda a tomar decisiones estratégicas correctas.

La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación:


Depurar los valores
Nombre Nombres Apellido Paterno Apellido Materno
Ana Leydi Linares Serrano Ana Leydi Linares Serrano

Corregir
Por ejemplo: comprueba una dirección y el código postal correspondiente.

Estandarizar
formatos definidos. Por ejemplo: trato de Sr., Sra.

Relacionar
eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares.

Consolidar
analiza e identifica relaciones entre registros relacionados y los junta en una sola
representación.
F A S E D E TRANSFORMACIÓN
Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.

Algunas transformaciones:
▪ Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas
con valores nulos no se carguen).

▪ Traducir códigos (Por ejemplo, si la fuente de origen almacena una “H” para
hombres y una “M” para mujeres, dar las instrucciones necesarias para que en
destino se guarde un “ 1” para hombres y un” 2” para mujeres).
▪ Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada
región).
▪ Dividir una columna en varias (por ejemplo, la columna “Nombre: García, Miguel”;
pasar a dos columnas “Nombre: Miguel” y “Apellido: García”)
¿Quién se encarga de realizar estas transformaciones?
Esta función corresponde al desarrollador o analista
del proceso ETL en cuestión. La definición de las
transformaciones a realizar se realiza en función de un
análisis previo y de la fase de limpieza.
FASE DE CARGA

En esta fase, los datos procedentes de la fase anterior(fase de


transformación) son dragados en el sistema e destino. Dependiendo de los
requerimientos de la organización, pueden ser de dos tipos:
✓ Acumulación simple
✓ Rolling
Acumulación simple Rolling
Consiste en realizar un resumen de todas las Este proceso sería el más recomendable en los casos
transacciones comprendidas en el período de tiempo en que se busque mantener varios niveles de
seleccionado y transportar el resultado como una única granularidad. Para ello se almacena información
transacción hacia el data warehouse, almacenando un resumida a distintos niveles, correspondientes a
valor calculado que consistirá típicamente en un distintas agrupaciones de la unidad de tiempo o
sumatorio o un promedio de la magnitud considerada. diferentes niveles jerárquicos.
CARACTERISTICAS Y V E N T A J A S
❖ Capacidad de entrega de datos.
❖ Capacidad de transformación de datos.
❖ Capacidad de Metadatos y Modelado de Datos.
❖ Adaptación a las diferentes plataformas hardware y sistema operativos existentes.

❖ Emplearlas para la integración con sistemas heredados.


EJEMPLO
*
Gracias a los procesos ETL es posible que cualquier organización:
• Mueva datos desde una o múltiples fuentes.
• Reformatee esos datos y los limpie, cuando sea necesario.
• Los cargue en otro lugar como una base de datos, un data mart o un data warehouse.
• Una vez alojados en destino, esos datos se analicen.
• O, cuando ya están cargados en su ubicación definitiva, se empleen en otro sistema
operacional, para apoyar un proceso de negocio.
Las herramientas ETL pueden ser útiles para multitud de propósitos, como por ejemplo:
*Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar
bases de datos operativas.
*Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de
aplicativos.
*Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro
entorno ERP y la web de ventas).
*Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados
en sistemas paralelos, ya sea para mantener históricos o para llevar a cabo procesos de
borrado en los sistemas originales.
*Interfaces de datos con sistemas externos: como el envío de información a clientes o
proveedores. También servirían para la recepción, proceso e integración de la
información recibida.
*Interfaces con sistemas Frontoffice: serían interfaces de subida/bajada con sistemas de
venta.
*Otros cometidos: como la actualización de usuarios a sistemas paralelos o la
preparación de procesos masivos (tipo mailings o newsletter).
*
Los procesos ETL pueden incluir:

*Sistemas legacy. Es decir, legados, heredados o antiguos.


*Sistemas nuevos. Basados en Windows, Linux y también en las redes sociales
modernas: Facebook, Twitter, Linkedin, etc.
*
A cualquier empresa u organización le beneficia poner en marcha un proceso ETL
para mover y transformar los datos que maneja por los siguientes motivos:
*Poder crear una Master Data Management
*Posibilita a los directivos tomar decisiones estratégicas
*Sirve para integrar sistemas.
*Poder tener una visión global de todos los datos consolidados en una data
warehouse.
*

La implantación de un sistema ETL bien definido supone todo un reto puesto que,
para que sea realmente efectivo, debe permitir integrar los sistemas legacy
(algunos ya muy obsoletos) con los más modernos. Además, el acceso a todos
estos sistemas se debe producir no solo en modo de lectura, sino también como
escritura.
Qué debe buscarse en una herramienta de ETL?
Las prestaciones que deberían buscarse en una herramienta de ETL son:
•Muchos conectores: son muchos los sistemas y aplicaciones
existentes en el mundo; cuantos más conectores preinstalados tenga su
herramienta de ETL, más tiempo se ahorrará su equipo.
•Código abierto: las arquitecturas de código abierto suelen ofrecer más
flexibilidad, contribuyendo a la vez a evitar la dependencia de un solo
proveedor.
•Portabilidad: es importante para la integración de datos y su ejecución
desde cualquier ubicación.
•Facilidad de uso: las herramientas de ETL deberían ser fáciles de
aprender y utilizar, para facilitar la visualización de sus canalizaciones de
datos.
*
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de
datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los
Datos” (Data Management).

También podría gustarte