Está en la página 1de 5

“Herramientas para

procesos ETL”

Ing. Sistemas Computacionales (Virtual) ISIC-2010-224


Tratamiento de Datos (TBD1803VA)

Docente
M.T.C. Victor Manuel Arias Peregrino

Alumno
Kevin Eduardo Que Lázaro
Categorías de herramientas ETL
Hay distintas herramientas ETL en el mercado, cada una con sus características
concretas. Sin embargo, a la hora de elegir la herramienta adecuada para nuestra
empresa o proyecto, nos encontramos frente a cuatro distintas categorías
principales:

 Herramientas ETL Enterprise. Se trata de productos propietarios, con


muchas funcionalidades incluidas y soporte para conexión con una gran
cantidad de fuentes y suelen ser elegidas por grandes empresas ya que el
coste de adquisición es elevado.
 Herramientas ETL open source. Se trata de herramientas de código libre y
de uso gratuito, lo que permite una mayor accesibilidad para empresas de
tamaño reducido. Al ser productos con un enfoque general, es necesaria a
menudo una personalización para que se adapten a objetivos concretos, lo
que requiere consultoría especializada.
 Herramientas ETL personalizadas. Se trata de herramientas desarrolladas a
medida y de forma específica para una empresa o proyecto en concreto.
Requieren un grande esfuerzo inicial de desarrollo, pero el resultado se
ajusta mejor a los requerimientos.
 Herramientas ETL Cloud. La nube nos puede proporcionar todas sus
ventajas como una alta flexibilidad y el pago por uso a la hora de elegir
herramientas ETL que se ofrecen como servicio.

Comparativa de herramientas ETL


Si nos preguntamos cuáles herramientas ETL son mejores, quizás deberíamos
antes tener claro para qué nos sirven, ya que cada herramienta tiene sus puntos
fuertes que pueden hacer que encaje con nuestro proyecto (y presupuesto). A
continuación, vamos a ver las principales características según las cuales es
posible realizar una comparativa de herramientas ETL:

 El coste, que no se limita únicamente el coste de adquisición, sino que


también incluye el soporte, la formación y los costes de consultoría. Es
importante tener en cuenta el total de estos costes para decidir entre una
herramienta propietaria o de código libre.
 El riesgo de que el proyecto no tenga éxito, lo que incluye no cumplir con el
presupuesto, con el calendario o con los requerimientos o expectaciones de
los clientes.
 La facilidad de uso, lo que se mejora de forma sustancial si la herramienta
dispone de una interfaz gráfica amigable, lo que puede reducir también el
tiempo de aprendizaje.
 El soporte y la atención al cliente. En este sentido hay que tener en cuenta
si se ofrece en varios idiomas y países.
 Los requerimientos de despliegue de la herramienta, lo que incluye la
compatibilidad con las distintas plataformas y sistemas operativos, así como
los requisitos de sistema en cuanto a hardware.
 La velocidad, que depende en larga medida de la cantidad de datos que
hay que transferir a través de la red y de la capacidad de cálculo requerida
para las transformaciones.
 La calidad de datos, quizás la característica más importante de las
herramientas ETL ya que permite disponer de datos validados y limpios.
 Herramientas de control, que permiten identificar y solucionar los problemas
a lo largo de la fase de desarrollo y después.
 La conectividad con todo tipo de sistema, lo que nos puede permitir extraer
datos de todo tipo de aplicaciones heredadas, sean base de datos en Excel,
mainframes, ficheros planos, XML, etc.

Nombre Descripción URL


Es una plataforma de integración de datos
empresariales que funciona como unidad para
intercambio de datos, integración de datos en https://www.informatica.com/c
la nube, migración de datos, procesamiento o/products/data-
Informática
de eventos complejos, enmascaramiento de integration/powercenter.html
PowerCenter
datos, calidad de datos, replicación y
sincronización de datos, virtualización de Con licencia
datos, gestión de datos maestros, y
mensajería.
Utiliza las características de un framework en
paralelo de alto rendimiento y la notación
gráfica para integrar datos en múltiples
sistemas. Proporciona una potente plataforma
escalable para la integración fácil y flexible de
todo tipo de datos, incluidos big data en
reposo (basado en Hadoop) o en movimiento
(basado en secuencias), en plataformas https://www.ibm.com/us-
IBM distribuidas y mainframe. Gestiona la carga en/marketplace/datastage
Infosphere de trabajo y las reglas de negocio mediante la
DataStage optimización del hardware. Está disponible en
varias versiones, como Server Edition, Con licencia
Enterprise Edition y MVS Edition. Enterprise
Edition presenta arquitectura de
procesamiento paralela y trabajos paralelos.
La edición de servidor representa
principalmente los trabajos de servidor. La
Edición MVS relacionada con trabajos de
mainframe.
Oracle Data Es una aplicación de software basada en http://www.oracle.com/technet
Integrator ETL, que se utiliza para la transformación y work/middleware/data-
(ODI) fusión de datos o la integración de datos de integrator/overview/index.html
alto volumen, alto rendimiento, hasta
procesos basados en eventos y servicios de Con licencia
datos habilitados para SOA4 mediante el
agregado de paralelismo. El componente de
arquitectura importante de ODI es el
repositorio, que es la recopilación de todos los
metadatos y se accede mediante el modo
clienteservidor o el modo de cliente ligero.
Oracle Data Integrator también funciona en el
área de preparación y transformación como
soporte para otro software de Oracle.
Es un componente de la base de datos SQL
Server que realiza la integración de datos en
el entorno de Windows. La principal ventaja
https://docs.microsoft.com/en
Microsoft SQL de SSIS es que no es costoso. Sin embargo,
-us/sql/integrationservices/sql-
Server una desventaja significativa es que no
serverintegrationservices?
Integration funciona en un entorno que no sea Windows.
view=sql-server2017
Services SSIS se lanzó por primera vez con SQL
(SSIS) Server 2005. SQL Server2008, 2012 también
Con licencia
ha enriquecido el servicio de integración. En
junio de 2016, se lanzó una nueva versión de
SSIS.
Ofrece una plataforma ETL integrada. SAS es
uno de los líderes del mercado que combina
aplicaciones de almacenamiento de datos e
inteligencia para el proceso comercial
tradicional. Proporciona la facilidad de
extracción de datos multiproceso para
acelerar la transferencia de datos y las
operaciones relacionadas. SAS ayuda a
https://www.sas.com/en_us/s
reducir los datos duplicados o inexactos al
SAS ETL oftware/datamanagement.html
proporcionar una interfaz de arrastrar y soltar,
Studio
no necesaria de programación o SQL
Con licencia
(lenguaje de consulta estructurado) para
gestionar datos. SAS Data Integration Studio
permite a los usuarios crear y editar
rápidamente la integración de datos, capturar
y gestionar automáticamente metadatos
estandarizados desde cualquier fuente,
visualizar y comprender fácilmente los
metadatos empresariales.
SAP ha desarrollado un producto ETL con
https://www.sap.com/latiname
fuerte soporte para Hadoop5 , transmisión de
SAP Data rica/products/dataservices.html
datos y aprendizaje automático, que permite
Manager
integrar grandes cantidades de información
Con licencia
de forma sencilla.
Integración de datos utilizando un enfoque
http://community.pentaho.com/p
basado en metadatos. Utiliza un entorno
Pentaho Data rojects/data-integration/
gráfico intuitivo. No hace falta escribir líneas
Integration
de código para su utilización y dispone de
Con licencia y versión gratis
plugins.
Herramienta basada en Eclipse, para el https://es.talend.com/products
Talend Data proceso ETL que es uno de los procesos más /talend-open-studio/
Integration importantes en la integración de datos.
Con licencia y versión gratis
Es una poderosa herramienta para trabajar http://openrefine.org/
OpenRefine con datos desordenado, limpiándolos, y
transformándolos a un formato deseado. Versión gratis
Herramienta de lanzamiento de script ETL.
Utiliza sintaxis XML para sus scripts, los
cuales pueden integrarse con scripts escritos http://scriptella.javaforge.com/
Scriptella ETL
en SQL, JavaScrot, JEXL, Velocity, etc.
Project
Algunas de las fuentes de entrada que acepta Versión gratis
son LDAP, JDBC, XML, CSV, texto, entre
otros.
Se compone de varias herramientas
separadas con funcionalidades ETL. Están
desarrolladas en código Java y soporta la
conexión con diferentes tipos de bases de
http://www.together.at/download
datos (MSSQL, Oracle, DB2, QED, JDBC,
Together
MySQL,…) y acepta como entrada varios
Versión gratis
tipos de archivos (CSV, XML,…). Algunas
herramientas son: TDC – Together Document
Converter, TDT – Together Data Transformer,
TXE – Together XML Extractor.
Define un lenguaje XML para transformar
fuentes de datos basadas en registros en
Xineo XIL http://software.xineo.net/xil.jspx
archivos XML. Soporta JDBC y estructuras de
texto.
Es una herramienta muy gráfica que permite
varios tipos de transformaciones, así como
diversos tipos de entrada y salida de datos,
http://www.cloveretl.com/product
CloverETL como son los procedentes de las BBDD
s/community-edition
Community MySQL, PostgreSQL, SQLite, MSSQL,
Edition Oracle, Sysbase y Derby, archivos CSV, XML,
Versión gratis
etc. Cuenta con versiones de pago que
permiten muchas más opciones (clasificación,
clusters).
Usa interfaz gráfica de trabajo mediante la
cual se puede hacer el filtrado, la validación y
la planificación de los datos. Los conectores
incluyen MySQL, PostgreSQL, Oracle,
http://www.apatar.com/
MSSQL, Sybase, FTP, HTTP,
Apatar
SalesForce.com, SugarCRM, Compiere ERP,
Versión gratis
CRM Goldmine, XML, archivos planos,
WebDAV, Buzzsaw, LDAP, Amazon y Flickr.
No se requiere. Todos los metadatos se
guardan en archivos XML.
Herramienta basada en Eclipse, para el
http://community.jaspersoft.com/
proceso ETL que es uno de los procesos más
project/jaspersoft-etl
Jaspersoft ETL importantes en la integración de datos.
Incluye flujos y procesa diferentes tipos de
Versión gratis
archivos. Fácil de desplegar.
Transforma datos y los procesa. Puede leer y http://northconcepts.com/data-
escribir archivos de tipo CSV, Excel, JDBC, pipeline/
Data Pipeline
JSON.
Versión gratis
Está basado en java. Incluye gestión de Jobs
http://www.ketl.org/
KETL y alertas. Es capaz de gestionar varios hilos a
Versión gratis
la vez. Los Jobs están definidos en XML.

También podría gustarte