Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODU C CIÓ N
* ETL, esencialmente, es el proceso que permite a las empresas manejar y
movilizar datos desde distintos tipos de fuentes, para transformarlos,
limpiarlos y cargarlos en otra base de datos.
*Extracción de datos
*Transformación de datos
*Carga de datos
F A S E S D E ETL
* FASE DE EXTRACCIÓN
La primera parte del proceso ETL consiste en extraer los datos desde el
sistema de origen.
Corregir
Por ejemplo: comprueba una dirección y el código postal correspondiente.
Estandarizar
formatos definidos. Por ejemplo: trato de Sr., Sra.
Relacionar
eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares.
Consolidar
analiza e identifica relaciones entre registros relacionados y los junta en una sola
representación.
F A S E D E TRANSFORMACIÓN
Aplica una serie de reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.
Algunas transformaciones:
▪ Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas
con valores nulos no se carguen).
▪ Traducir códigos (Por ejemplo, si la fuente de origen almacena una “H” para
hombres y una “M” para mujeres, dar las instrucciones necesarias para que en
destino se guarde un “ 1” para hombres y un” 2” para mujeres).
▪ Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada
región).
▪ Dividir una columna en varias (por ejemplo, la columna “Nombre: García, Miguel”;
pasar a dos columnas “Nombre: Miguel” y “Apellido: García”)
¿Quién se encarga de realizar estas transformaciones?
Esta función corresponde al desarrollador o analista
del proceso ETL en cuestión. La definición de las
transformaciones a realizar se realiza en función de un
análisis previo y de la fase de limpieza.
FASE DE CARGA
La implantación de un sistema ETL bien definido supone todo un reto puesto que,
para que sea realmente efectivo, debe permitir integrar los sistemas legacy
(algunos ya muy obsoletos) con los más modernos. Además, el acceso a todos
estos sistemas se debe producir no solo en modo de lectura, sino también como
escritura.
Qué debe buscarse en una herramienta de ETL?
Las prestaciones que deberían buscarse en una herramienta de ETL son:
•Muchos conectores: son muchos los sistemas y aplicaciones
existentes en el mundo; cuantos más conectores preinstalados tenga su
herramienta de ETL, más tiempo se ahorrará su equipo.
•Código abierto: las arquitecturas de código abierto suelen ofrecer más
flexibilidad, contribuyendo a la vez a evitar la dependencia de un solo
proveedor.
•Portabilidad: es importante para la integración de datos y su ejecución
desde cualquier ubicación.
•Facilidad de uso: las herramientas de ETL deberían ser fáciles de
aprender y utilizar, para facilitar la visualización de sus canalizaciones de
datos.
*
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de
datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los
Datos” (Data Management).