Está en la página 1de 5

¿Qué son los procesos ETL?

Los procesos ETL son una parte de la integración de datos, pero es un elemento
importante cuya función completa el resultado de todo el desarrollo de la cohesión de
aplicaciones y sistemas.

La palabra ETL corresponde a las siglas en inglés de:

• Extraer: extract.
• Transformar: transform.
• Y Cargar: load.

Fase de Extracción en los procesos ETL


los siguientes pasos:

● Extraer los datos desde los sistemas de origen.


● Analizar los datos extraídos obteniendo un chequeo.
● Interpretar este chequeo para verificar que los datos extraídos cumplen la pauta o
estructura que se esperaba. Si no fuese así, los datos deberían ser rechazados.
● Convertir los datos a un formato preparado para iniciar el proceso de transformación

Además, uno de las prevenciones más importantes que se deben tener en cuenta durante el
proceso de extracción sería el exigir siempre que esta tarea cause un impacto mínimo en
el sistema de origen.
Procesos ETL: fase de Transformación

La fase de transformación de los procesos de ETL aplica una serie de reglas de


negocio o funciones sobre los datos extraídos para convertirlos en datos que serán
cargados. hay que asegurarse de que sean:

● Declarativas.
● Independientes.
● Claras.
● Inteligibles.
● Con una finalidad útil para el negocio.

Proceso de Carga: la culminación de los procesos ETL


En esta fase, los datos procedentes de la fase anterior (fase de transformación) son cargados
en el sistema de destino. Dependiendo de los requerimientos de la organización, este
proceso puede abarcar una amplia variedad de acciones diferentes.

Existen dos formas básicas de desarrollar el proceso de carga:


● Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de
todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el
resultado como una única transacción hacia la data warehouse, almacenando un valor
calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.

● Rolling: este proceso sería el más recomendable en los casos en que se busque mantener
varios niveles de granularidad. Para ello se almacena información resumida a distintos
niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes
niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

Aplicaciones de los procesos ETL

Gracias a los procesos ETL es posible que cualquier organización:

• Mueva datos desde una o múltiples fuentes.


• Reformatee esos datos y los limpie, cuando sea necesario.
• Los cargue en otro lugar como una base de datos, un data mart o un data warehouse.
• Una vez alojados en destino, esos datos se analicen.
• O, cuando ya están cargados en su ubicación definitiva, se empleen en otro sistema
operacional, para apoyar un proceso de negocio.

• Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar
bases de datos operativas.
• Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de
aplicativos.
• Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro
entorno ERP y la web de ventas).
• Consolidación de datos: sistemas con grandes volúmenes de datos que son
consolidados en sistemas paralelos, ya sea para mantener históricos o para llevar a cabo
procesos de borrado en los sistemas originales.
• Interfases de datos con sistemas externos: como el envío de información a clientes o
proveedores. También servirían para la recepción, proceso e integración de la información
recibida.
• Interfases con sistemas Frontoffice: serían interfases de subida/bajada con sistemas de
venta.
• Otros cometidos: como la actualización de usuarios a sistemas paralelos o la
preparación de procesos masivos (tipo mailings o newsletter).
¿Qué son los ETL en SQL Server?
ETL es un tipo de integración de datos que hace referencia a los tres pasos (extraer,
transformar, cargar) que se utilizan para mezclar datos de múltiples fuentes. Se utiliza a
menudo para construir un almacén de datos.
¿Qué es SQL Server Integration Service?

SQL Server Integration Service (en adelante SSIS) es un componente que permite generar
procesos de migración de grandes cantidades de datos de diferentes orígenes llamados ETL.

Dispone de un entorno de desarrollo gráfico integrado en Visual Studio (para ello es


necesario instalar los Data Tools). SSIS dispone de procesos que realizan “cosas” como
ejecutar un Script SQL, leer datos de un fichero, leer datos de una tabla… y cada proceso se
uno con otro mediante flujos de trabajo pudiendo comunicar ambos procesos.

Los proyectos ETL de SSIS tienen sentido cuando se pueden ejecutar y automatizar sin la
necesidad de abrir el proyecto con Visual Studio, para ello, SSIS puede generar un paquete
que se podrá ejecutar desde el agente de programación SQL Server Agent o crear un
paquete ejecutable que y ejecutarlo desde línea de comandos.

SSIS es la evolución de los antiguos paquetes DTS y muchos DBA llaman a los nuevos
paquetes de SSIS paquetes DTSX ya que esta es su extensión.

Uno de los inconvenientes de SSIS es que los paquetes desarrollados con una versión actual
no se pueden ejecutar ni editar en versiones anteriores y paquetes diseñados con versiones
anteriores, por lo general, se pueden ejecutar en versiones de SQL Server posteriores pero
si el paquete falla en la ejecución, este debe editarse desde la versión correcta.

Pros y contras respecto a pentaho data integration

SQL Server Integration Service

Pros:

 IDE optimizado e integrado con las herramientas de Microsoft y Visual Studio


 Se puede tener varios paquetes ETL en una misma solución y por lo tanto mayor
control
 Optimizado para trabajar con SQL Server
 Puede ser un origen de datos para Reporting Service (SSRS)

Contra:

 Pocos orígenes de datos


 No tiene conexión por JDBC por lo que se excluye la conexión con muchos gestores
de bases de datos
 Acceso a API Rest es necesario usar un Script C# para hacer petición HTTP y el
objeto JSON que recibe no se puede parsear si no se instala una DDL externa
 No tiene un visor de datos para cada paso. Es necesario habilitar en el flujo la
opción de “Visualizar datos”.
 Solo funciona en Windows para la ejecución y para el desarrollo.

Pentaho Data Integration

Pros:

 Multitud de orígenes de datos


 Multitud de pasos para transformar y trabajar con el flujo de datos
 Funciona en cualquier sistema operativo que ejecute JAVA
 Cada paso tiene un visor de datos
 Se ejecuta con un comando por lo que no se necesita de una herramienta especial
 Para la automatización se puede crear una tarea programada en Windows o un
registro en el cron de linux

Contra:

 Necesita JAVA por lo que es más lento que SSIS


 No tiene el concepto de proyecto/solución. Se diseñan transformaciones y trabajos
independientes y después se orquestan en un JOB.

Instalación de SQL SERVER

https://www.microsoft.com/es-es/sql-server/sql-server-downloads

https://datamanagement.es/2020/04/06/instalacion-de-sql-server-integration-services-ssis/

Las conexiones OLE DB en ArcGIS Pro se utilizan para realizar conexiones de solo lectura
a bases de datos para acceder a fuentes de datos tabulares desde cualquier base de datos
para la que tenga el controlador.

La conectividad abierta de bases de datos (ODBC) es un protocolo que puede usar para
conectar una base de datos de Microsoft Access con un origen de datos externos, como
Microsoft SQL Server.

ADO.NET proporciona acceso coherente a orígenes de datos como SQL Server y XML, así
como a orígenes de datos expuestos mediante OLE DB y ODBC. Las aplicaciones de
consumidor que comparten datos pueden utilizar ADO.NET para conectar a estos orígenes
de datos y recuperar, controlar y actualizar los datos contenidos.
El Lenguaje de Consulta Estructurada (SQL) es un lenguaje gestor para el manejo de la
información en las bases de datos relacionales. Este tipo de lenguaje de programación
permite comunicarse con la base de datos y realizar operaciones de acceso y manipulación
de la información almacenada.

También podría gustarte