Está en la página 1de 24

Comparativa

Herramientas ETL
JORGE BUSTILLOS
2014

Tabla contenidos

Introduccin

Para que se utilizan


herramientas ETL?
Por qu utilizar herramientas
ETL?

Herramientas ETL

Comparacin

Tabla comparativa

Costo total de dominio

Riesgos

Facilidad de Uso

Pentaho Kettle

Soporte

Talend

Implementacin

Informatica PowerCenter

Velocidad

Inabplex Inaport

Calidad de la data

IBM Cognos Data Manager

Monitoreo

Oracle Warehouse Builder

Conectividad

Microsoft Integration Services

Introduccin
Para que se utilizan herramientas ETL?
Por qu utilizar herramientas ETL?

Para que se utilizan


herramientas ETL?

Extraer data de varias fuentes de informacin (Legacy


DB).

Enviar data a:

Un sistema optimizado de manejo de transacciones (nuevo


gestor BD).

Un sistema optimizado de reporte.

Un sistema de anlisis.

Sincronizar informacin de distintas bases de datos.

Depurado de informacin para remover errores

Cargar informacin a un Data Warehouse

Por qu utilizar herramientas


ETL?

Las herramientas ETL ahorran tiempo y dinero cuando


se tiene que desarrollar un Data Warehouse al reducir la
cantidad de Sistemas de Conversin personalizados a
desarrollar para migrar o concentrar al informacin.

Ahorra la dificultad para el DBA de conectar entre


distintas marcas y tecnologas de Bases de Datos entre
si.

Permite a las organizaciones mover datos desde mltiples


fuentes, reformatearlos y limpiarlos, y cargarlos en otra
base de datos, data mart, o data warehouse para analizar,
o en otro sistema operacional para apoyar un proceso de
negocio.

Herramientas ETL

Pentaho Kettle

IBM Cognos Data Manager

Talend

Oracle Warehouse Builder

Informatica PowerCenter

Inabplex Inaport

Microsoft Integration
Services

Pentaho Kettle

Se utiliza a travs de un acercamiento basado en meta


datos, y tiene posee una GUI para acelerar los procesos.

La compaa Pentaho empez operaciones en el ao


2001.

Tiene una comunidad activa de usuarios grande,


alrededor de 13,500 usuarios.

Funciona utilizando Java, presentando como ventaja el


ser una solucin multiplataforma.

Talend

Talend es una herramienta OpenSource para la


integracin de informacin.

Usa un enfoque hacia la generacin de cdigo para la


manipulacin de informacin y posee una GUI
implementada en Eclipse RC.

Lanz su primera versin en el ao 2006.

Genera cdigo en Java o Scripts en Pearl que pueden ser


implementados en servidores que lo soporten.

Cuenta con una gran variedad de testimonios por parte


de compaas importantes.

Informatica PowerCenter

Informatica tiene una muy buena suite empresarial de


integracin de datos.

Fue fundada en el ao de 1993.

Lder actual del sector Data Integration (Gartner


Dataquest).

Tiene alrededor de 2600 clientes, entre los cuales


figuran Bancos como Grupo BBVA, organizaciones
Gubernamentales, etc.

La compaa se enfoca meramente en soluciones para la


integracin de datos.

Inaplex Inaport

Fundado en Reino Unido desde el ao 2004 para


satisfacer la migracin de informacin hacia distintas
soluciones CRM y software contable como Sage y
Goldmine.

Microsoft Dynamics CRM

Sage CRM Solutions Family

SalesLogix

SageCRM

ACT! by Sage

GoldMine from FrontRange

GoldMine Corporate and Premium

IBM Cognos Data Manager

IBM Cognos Data Manager proporciona funciones


dimensionales de extraccin, transformacin y carga
(ETL) para conseguir una inteligencia empresarial de
alto rendimiento.

Se puede integrar con la GUI de IBM Data Manager


Designer para disear y crear prototipos

Se pueden ejecutar compilaciones y secuencias de


trabajos en sistemas remotos desde un sistema de
entorno de diseo de Data Manager.

Data Manager Engine se tiene que instalar en un sistema


UNIX o Linux.

ORACLE DATABASE 11G


ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION

La opcin empresarial ETL (Enterprise ETL Option) para


Warehouse Builder es una opcin que puede ser
adquirida con Oracle Warehouse Builder como parte de
la edicin empresarial del motor de base de datos.

Permite ejecutar cargas de datos usando mtodos


rpidos y eficientes tales como el Oracle Data Pump y
transportable tablespaces.

Permite prever el efecto que puedan tener los cambios


que se hagan en cualquier lugar de los metadatos del
sistema ETL

Es posible generar un modelo para configurar los


ambientes de desarrollo, pruebas y produccin a niveles
separados

Microsoft SQL Server Integration


Services

Puede extraer y transformar datos de diversos orgenes


como archivos de datos XML, archivos planos y orgenes
de datos relacionales y, despus, cargar los datos en
uno o varios destinos.

Se pueden realizar tareas de migracin fcilmente


usando tareas visuales.

Si se desea crear nueva funcionalidad, se pueden crear


scripts en c# o VB

Puede conseguir conectividad mediante CLI va DLLs


tipo ensamblador.

Comparacin

Tabla comparativa

Calidad de la data

Costo total de dominio

Monitoreo

Riesgos

Conectividad

Facilidad de Uso

Soporte

Implementacin

Velocidad

Tabla comparativa
TALEND
COSTO

RIESGO

FACILIDAD

SOPORTE

IMPLEMENTACIN

VELOCIDAD

CALIDAD DATA

MONITOREO

CONECTIVIDAD

KETTLE

POWERCENTER

INAPORT

DATA
MANAGER

ORACLE
WAREHOUSE

SERVER
INTEGRATION

Costo total de dominio

Significa el costo promedio de cierto producto. Desde


costo de orden, licencia, servicio, soporte,
entrenamiento, consultora y cualquier otro pago
adicional, que se tenga que realizar para el uso total.

Las herramientas OpenSource son naturalmente gratis


de utilizar, pero el soporte, entrenamiento y consultora
son los costos a considerar.

OpenSource

Propietario

Cdigo Propio

Riesgos

Siempre hay un riesgo cuando se habla de la


manipulacin de informacin almacenada.

Sin embargo tambin se tienen que considerar los


siguientes riesgos:

Exceder presupuestos.

Exceder tiempos.

Comprar licencias que no rediten su valor.

Falta capacitacin para uso de herramientas.

No cumplir con requerimientos o expectativas.

Facilidad de uso

Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC.

Kettle: Tiene la GUI ms fcil de utilizar dentro de las alternativas


OpenSource.

PowerCenter: Tiene una GUI fcil de utilizar, pero requeriere


entrenamiento para aprovecharla.

Inaport: Se conecta directamente al CRM de importacin.

IBM: Se puede integrar con la GUI de IBM Data Manager Designer


pero este es un mdulo aparte.

Oracle: Fcil cuando se trata de informacin almacenada en bases


de datos Oracle, debido a las herramientas Data Pump y
transportable tablespaces, pero no ofrece mucha compatibilidad a
otras BD.

Microsoft: Se pueden realizar tareas de migracin fcilmente


usando tareas visuales.

Soporte

Talend: Soporte de paga en estados unidos.

Kettle: Soporte en EEUU, Reino Unido y consultoras


asociadas.

PowerCenter: Soporte mundial va web y consultora.

Inaport: Soporte mundial va web y consultora.

IBM: Soporte mundial contratando en paquete.

Oracle: Va soporte local Oracle Latinoamrica.

Microsoft: Soporte va plataforma TechNet.

Implementacin
TALEND

KETTLE

POWERCENTER

INAPORT

DATA
MANAGER

ORACLE
WAREHOUSE

SERVER
INTEGRATION

PLATAFORMA

Cualquier
compatible
con Java o
Perl

Cualquiera
compatible
con Java.

SERVIDOR
WINDOWS,
HP-UX, IBMUX, REDHAT,
SOLARIS

WINDOWS

WINDOWS
SERVER,
SOLARIS,
HP-UX, IBMUX, REDHAT

ORACLE
LINUX,
REDHAT,
SUSE
ENTERPRISE

WINDOWS
SERVER

RAM

512 MB

512 MB

1GB

50MB

1GB

2GB

2GB

CPU

1 GHZ

1 GHZ

4 + CORES
2GHZ

1GHZ

2GHZ x 2
cores

Vara

2.2GHZ 2
CORES

EXTRA

Se puede
conectar a
Schedulers
para
automatizar
cargas

Puede
utilizar
Slave
Servers

REQUIERE
.NET

Parte de
Cognos
Business
Intelligence

Ms
informacin

Velocidad

Talend: Ms lento que Pentaho Kettle y requiere configuracin


especfica y manual, con conocimiento previo de la data a utilizar.

Kettle: Ms rpido que Talend, sin embargo al requerir de Java


Database Connector disminuye la velocidad de transacciones.

PowerCenter: Herramienta ms rpida gracias a PushDown, sin


embargo los cambios son en momento y no permite hacer Rollback
a un estado anterior.

Inaport: Utiliza una conexin directamente proporcional a la


velocidad del CRM.

IBM: Muy rpido cuando se trabaja con DB2 sin embargo la capa de
compatibilidad disminuye la velocidad de conexin con distintos
manejadores de base de datos.

Oracle: La velocidad es proporcional al servicio Oracle en el cual


este trabajando.

Microsoft: La velocidad es proporcional al servicio MSSQL en el cual


este trabajando.

Calidad de Data

Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias


SQL personalizables utilizando Java.

Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias


SQL personalizadas as como herramientas JavaScript y REGEX para
la depuracin de informacin.

PowerCenter: Ofrece DQ a travs de otro producto llamado


Informatica Data Quality.

Inaport: Debido a la restriccin del origen de informacin se pude


realizar tareas de DQ dentro de la misma.

IBM: Mediante Cognos Data Manager Packages se pueden incorporar


herramientas para DQ.

Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder


Data Profiling Features.

Microsoft: Requiere del software SQL Server Data Quality Services


para ofrecer herramientas DQ.

Monitoreo

Talend: Tiene herramientas practicas de monitoreo y


registro histrico.

Kettle: Tiene herramientas practicas de monitoreo y


registro histrico.

PowerCenter: Tiene herramientas practicas y extensivas de


monitoreo y registro histrico.

Inaport: Tiene herramientas practicas de monitoreo y


registro histrico.

IBM: Maneja registro de histricos.

Oracle: Tiene herramientas practicas y extensivas de


monitoreo y registro histrico.

Microsoft: Tiene herramientas practicas y extensivas de


monitoreo y registro histrico.

Conectividad

Talend: Varias bases de datos, archivos planos, xml, Excel,


servicios web, necesita JDBC para conexin.

Kettle: Varias bases de datos, archivos planos, xml, Excel,


servicios web.

PowerCenter: Varias bases de datos, archivos planos, xml,


Excel, servicios web puede exportar como servicio web.

Inaport: Cualquier conexin ODBC, MSSQL, OUTLOOK, ACT,


EXCEL.

IBM: Cualquier conexin ODBC, DB2, para importacin a


DB2, cubos de informacin T1MAP.

Oracle: Solamente compatible con bases de datos Oracle


mismas que la instalada en el DataWarehouse

Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET

También podría gustarte