Está en la página 1de 11

Juan David Tafur Rangel

z
Talend
z
¿Qué ES?

 Talend Open Studio es una herramienta gráfica basada en


Eclipse y es una solución de código abierto para la integración
de datos. Permite el desarrollo rápido y reduce los costes de
implementación por medio de un estudio de desarrollo gráfico
con conectores prediseñados conectados a todos los sistemas
de fuente y de destino, con asistencia para todo tipo de modelos
de integración de datos como la migración y la sincronización de
datos.
z
Ventajas

 La principal ventaja es que está hecho en Java, te permite usar Java y genera Java.

 Esto quiere decir que está desarrollado en Java, y por lo tanto dispone de un entorno
de desarrollo multi-plataforma. Además, puede usar Java como lenguaje de apoyo en
las tareas de transformación de datos, y se pueden crear nuevos componentes usando
esté lenguaje. Por último, todas las operaciones que hacemos de forma visual; Talend
las transforma en código Java, que compila y entrega en forma de un archivo .jar y un
script .sh o .bat; para poder ejecutarlo desde Linux, Windows o Mac.
z

La herramienta nos permite navegar por nuestros esquemas de tablas


en la base de datos y ademas realizar una serie de análisis como:

 Overview Analysis: analiza los esquemas de base de datos,


devolviendonos información sobre tablas, filas, número de
registros, indices, etc.

 Table Analysis: análisis sobre la definición de una tabla,


verificaciones de dependencias, etc.

 Column Analysis: analisis especifico sobre el contenido de un


campo. Para cada campo, se pueden seleccionar los indicadores
de análisis (tales como valores estadísticos, número de registros,
valores nulos, longitud mínima, longitud máxima, valores
duplicados, etc.). Además, podremos indicar patrones de validación
sobre los campos, para verificar que están correctamente definidos
(tanto con expresiones regulares como con patrones sql).
z
Componentes

 Talend te permite de forma visual conectar las fuentes de datos


con el sistema de destino, transformando los datos mediante
componentes ya creados en la aplicación.

 Reduciendo a lo básico los componentes de Talend, podemos


clasificarlos como: componentes de entrada, de salida, y de
transformación de datos.
z
Componentes de entrada y salida de datos

 Para un ETL es imprescindible disponer de una buena colección de


conexiones de datos que le permitan acceder a todo tipo de
sistemas. Talend cuenta con una gran cantidad de componentes, y
con una comunidad que trabaja añadiendo nuevas opciones.

 En cuanto a bases de datos, podemos encontrar desde las más


generales como: MySQL, SQL Server, Oracle, Postgre; a aquellas
con aplicaciones más especificas como Grenplum, ParAccel o
eXists.

 También disponemos de componentes para adquirir o volcar datos


utilizando ficheros de diferentes tipos: XML, Excel, delimitados (csv,
tsv, etc.), ficheros posicionales (ancho fijo), JSON; e incluso la
posibilidad de capturar las filas mediante expresiones regulares.
z
Componentes de transformación de datos

 Una vez tenemos la posibilidad de conectar los dos sistemas,


tenemos que realizar el trabajo propiamente dicho. Para esto,
disponemos de numerosos componentes que nos permiten
manipular los datos a nuestro antojo. Podemos hacer filtros,
conversiones de tipo, búsquedas por aproximación, uniones,
ordenar, hacer reemplazos. Y como no; disponemos de
componentes como el tJava o tJavaRow, que nos permiten
trabajar los datos programando nuestras funciones.
z
Otros componentes

 Alrededor de los componentes de manipulación de datos,


entrada y salida; tenemos otros tantos componentes para dotar
a la herramienta de funcionalidades de alto nivel. Podemos
manipular ficheros en el sistema de archivos, acceder a ficheros
mediante FTP y HTTP, enviar y recibir emails, hacer llamadas al
sistema operativo, ejecutar otros programas o jobs de Talend,
comprimir o descomprimir archivos, funciones criptográficas.
Una vez más la comunidad añade nuevas funciones; como un
componente para acceder a los datos de Google Analytics
mediante su API.
z
Versiones

 Talend Open Studio/Data integration.

 Talend Open Profiler/Talend Data Quality para calidad de datos.

 Talend MDM para gestión de datos maestros.


z
Uilizar Talend

Lo primero que debemos entender para empezar a usar el


programa es, que lo que en un sistema de programación es un flujo
de ejecución; en un ETL es un flujo de datos. Esto son: filas de
datos que serán procesadas una a una, realizando las
modificaciones que configuremos.
z

También podría gustarte