0% encontró este documento útil (0 votos)

246 vistas7 páginas

Guía ETL con Talend Open Studio

La herramienta Talend Open Studio for Big Data permite crear procesos ETL mediante la conexión de componentes para extraer, transformar y cargar datos. Los componentes incluyen fuentes de entrada como archivos y bases de datos, transformaciones de datos, y destinos de salida. Los procesos ETL se pueden ejecutar desde la herramienta o exportados como archivos .jar ejecutables.

Cargado por

carlos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

246 vistas7 páginas

Guía ETL con Talend Open Studio

Cargado por

carlos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

INTRODUCCIN ETL CON TALEND

OPEN STUDIO FOR BIG DATA

Un proceso ETL (Extraccin, transformacin y Carga) es aquel que permite la extraccin masiva de
datos de distintas fuentes, procesarlos, su transformacin y finalmente carga en un destino que pueden
ser ficheros, una base de datos u otros.

Por tanto en este tipo de procesos, la carga de trabajo mas costosa (en cpu y memoria) se realiza fuera del
origen de los datos, aliviando de carga a las fuentes.
En un proceso ETL terico, los datos se extraen en bruto de las fuentes; todo el procesamiento como
dar formatos a los campos, traducciones, generacin de datos (secuencias), agregacin de estos y
validacin y verificacin de la calidad del dato se podra hacer en la fase de transformacin. Con ello se
minimiza el impacto sobre las fuentes y los sistemas de destino de la informacin.

En la realidad, los procesos que podemos encontrar son de tipo mixto ETL con ELT .

La herramienta Talend Open Studio for Big Data est basada en el entorno de programacin java llamado
Eclipse.

Bloque 1: en este bloque se muestran los distintos jobs y elementos que contiene nuestro repositorio.

Bloque 2: en este bloque se muestran por pestaas los jobs que tengamos abiertos para editar.

Bloque 3: en este bloque se muestran las pestaas de variables de contexto del job, una pestaa de
configuracin para el componente que tengamos seleccionado dentro del job, una pestaa para hacer
ejecuciones del job y otras.

Bloque 4: en este bloque se muestra la lista de componentes que tenemos disponibles para agregar a
nuestros jobs; dichos componentes estn agrupados por categoras.

En un job tendremos principalmente componentes de tres tipos:

Componentes de entrada (Input): se puede obtener la informacin de fichero, una base de datos e
incluso internet.

Componentes de transformacin de datos.

Componentes de salida (Output): como para los de entrada, los componentes de salida pueden volcar la
informacin sobre ficheros, bases de datos u otros.
Existen otros tipos de componentes, como aquellos que permiten realizar operaciones de sistema
operativo o por FTP, pero principalmente se usarn componentes de los tres tipos anteriores.

Ejemplo: un flujo bsico

En este flujo que mostramos de ejemplo se tienen dos entradas: una de un fichero delimitado (un .csv) y
una consulta oracle. El componente tMap se encarga de hacer join complejos entre los datos y permite
varias salidas que generan flujos paralelos (se realizan procesamientos en paralelo, no como en un
procedimiento almacenado Oracle en el que el procesamiento es en serie). En uno de los flujos se hace un
filtro de filas segn una cierta condicin y en el otro se realiza una agregacin de datos y a continuacin
una sustitucion de caracteres. Finalmente se vuelca informacin de salida a un fichero posicional y a una
tabla Oracle.

Dentro de un job, como la herramienta est basada en Java se usan los tipos de campo de dicho lenguaje.

Componentes mas usados:

Vamos a continuacin a describir los componentes que se usan con mayor frecuencia (aunque hay
muchos otros, estos son los que he usado yo habitualmente):

Componentes de Input (entrada al flujo)

Componente

Descripcin

tFileInputDelimited

Permite la insercin de datos desde un fichero delimitado (tipo csv).

tOracleInput

tFileInputFullRow

Permite la insercin de datos desde una base de datos Oracle a travs

de una consulta.

Toma un fichero plano y vuelca cada fila del fichero en un nico

campo.

Componentes de Output (salida del flujo)

Componente

Descripcin

tFileOutputPositional

Permite el volcado de datos a un fichero posicional

tOracleOutput

Permite el volcado a una tabla de base de datos Oracle.

tFileOutputDelimited

Permite el volcado de datos a un fichero delimitado.

Permite el encolumnado de valores de una columna segn valores

tPivotToColumns

de otra. No es recomendable su uso pues existen otras maneras de

realizar esta tarea de manera mas ptima.

Los componentes de output tienen multitud de opciones que permiten por ejemplo:

Sobreescribir el fichero destino o continuar escribiendo tras la ltima lnea existente.

Incluir o no lnea o lineas de cabecera.

Comprimir fichero de salida.

Truncar la tabla destino o hacer borrados selectivos de los datos previos.

Estos componentes pueden ser usados como componentes intermedios en un flujo de manera que este
pueda continuar.

Componentes de procesamiento de datos

Componente

tFilterRow

Descripcin

Permite el filtrado de filas segn condiciones estticas. Se pueden

extraer tanto las filas filtradas como las rechazadas.

tConvertType

Permite convertir tipos de datos de las columnas y especificar formatos.

tFilterColumns

Permite filtrar columnas.

tJavaRow

Permite introducir lgica en cdigo java para el tratamiento de los datos.

tReplace

Permite hacer reemplazo de valores segn condiciones.

tSortRow

Permite ordenar las filas segn condiciones.

tSetGlobalVar

Permite establecer valores para variables globales a partir de datos de

entrada (implicitos) o especificados explcitamente.

Componente

tJoin

Descripcin

Permite realizar join sencillas de datos para dos entradas segn

condiciones. Devuelve tanto datos cruzados como rechazados.

Permite realizar join complejas y otras acciones sobre datos de mltiples

entradas. Asimismo permite tener mltiples salidas lo que nos
tMap

proporciona una manera de paralelizar flujos.

Es uno de los componentes mas potentes de la herramienta.

Permite ejecutar cdigo almacenado PL/SQL en bases de datos oracle

tOracleSP

(procedimientos y funciones). Este componente permite realizar flujos

mixtos ETL/ELT. Se puede usar como Input, Output y procesamiento.

tOracleCommit

tAggregateRow

Permite realizar commit para una conexin abierta que se est usando
por componentes oracle.
Permite el clculo de valores agregados (sumas, max, avg,..)
especificando una agrupacin (similar a group by en SQL).

Varios flujos dentro de un mismo job

La herramienta permite tener varios flujos de datos conectados ordenadamente que se van ejecutando
segn condiciones sobre los flujos o componentes ejecutados previamente.

El inicio de ejecucin de los flujos se configura a travs de triggers que enlazan los flujos o componentes:

Por ejemplo, podemos conectar dos flujos A y B para que B se ejecute si el flujo A ha finalizado
correctamente (On Subjob Ok).

Podemos conectar flujos padres-hijos con una relacin 1-N (1 padre, varios hijos), lo que nos permite
paralelizar flujos (ejecuciones simultneas).

Hay componentes como tPivotToColumns que obligan a finalizar un flujo para poder usar los datos
procesados. En este caso se puede crear otro flujo tomando el fichero de salida de tPivotToColumns como
fichero de entrada para continuar el procesamiento.

Todo flujo que no est conectado con otro del job se ejecutar al comienzo de la ejecucin del job.

Variables de contexto.
Se pueden especificar variables de contexto de igual manera a como se tratan en un proyecto java.

Estas variables se pueden incluir en un fichero de contexto java o bien cargarlas de ficheros de entrada
usando los componentes:

Componente

Descripcin

Carga valores de variables de contexto desde una entrada con los campos:

Key: nombre de la variable de contexto

Value: valor de la variable de contexto

tContextLoad

Se cargarn aquellas variables de contexto que estn creadas previamente.

tJavaRow

Usando este componente se pueden cargar los valores de variables de

contexto usando condiciones sobre los datos de entrada.

Como ejecutar Jobs

La herramienta Talend Open Studio for Big Data permite:

Ejecutar los jobs desde la herramienta de desarrollo.

Exportar el job, creandose un fichero java .jar junto con un .bat (y un .sh para linux) ejecutable que
permite ejecutar el job . De esta manera podemos ejecutar los jobs en cualquier ordenador (PC o no,
porque es java) siempre que se tenga la estructura de carpetas configurada en el job y haya acceso a los
ficheros y BD usadas.

Ejecucin desde la herramienta de desarrollo:

En el bloque3 (ver carptura de pantalla al principio del documento) hay una pestaa Run que permite la
ejecucin del job. Dicha ejecucin se puede hacer con Debug o no. En la misma ventana podemos ver las
trazas insertadas y el log de la ejecucin.

En una ejecucin desde la herramienta se muestran en la ventana del Bloque2 el nmero de filas
procesadas, el tiempo total de trabajo de cada componente, si el flujo ha terminado o est en espera, etc.

Si todo ha ido bien debe aparecer un mensaje final de [exit code=0]

Dentro del job podemos incluir trazas y aadir informacin a este log de ejecucin.

Asimismo se puede realizar un control de excepciones para capturar errores.

En los jobs que he creado he incluido el siguiente flujo para capturar posibles errores java:

También podría gustarte

Componentes Talend para SQL y más
Aún no hay calificaciones
Componentes Talend para SQL y más
3 páginas
Reporte de Ventas y Base de Datos SQL
Aún no hay calificaciones
Reporte de Ventas y Base de Datos SQL
12 páginas
Ejercicios Prácticos de Bases de Datos I
Aún no hay calificaciones
Ejercicios Prácticos de Bases de Datos I
3 páginas
Manual-Libro Sobre SSIS PDF
Aún no hay calificaciones
Manual-Libro Sobre SSIS PDF
8 páginas
Introducción al Álgebra Relacional
Aún no hay calificaciones
Introducción al Álgebra Relacional
19 páginas
Introducción a CouchDB y NoSQL
Aún no hay calificaciones
Introducción a CouchDB y NoSQL
16 páginas
Construcción de un Data Warehouse ETL
100% (2)
Construcción de un Data Warehouse ETL
15 páginas
XML Ejemplos
Aún no hay calificaciones
XML Ejemplos
16 páginas
Arquitectura y Mejores Prácticas en BI
Aún no hay calificaciones
Arquitectura y Mejores Prácticas en BI
27 páginas
Instalación y Configuración de Server AD
Aún no hay calificaciones
Instalación y Configuración de Server AD
46 páginas
Fundamentos de SQL en Oracle
Aún no hay calificaciones
Fundamentos de SQL en Oracle
26 páginas
Evaluación de Analítica Web en Empresas
0% (1)
Evaluación de Analítica Web en Empresas
7 páginas
Introducción a Pandas y DataFrames en Python
Aún no hay calificaciones
Introducción a Pandas y DataFrames en Python
15 páginas
Generacion de Paquetes SSIS Programaticamente Parte 1
Aún no hay calificaciones
Generacion de Paquetes SSIS Programaticamente Parte 1
9 páginas
Metodología WAE para Aplicaciones Web
Aún no hay calificaciones
Metodología WAE para Aplicaciones Web
5 páginas
Sentencias SQL para Bases de Datos
Aún no hay calificaciones
Sentencias SQL para Bases de Datos
12 páginas
Big Data La Disrupción Del Dato Vector ITC
Aún no hay calificaciones
Big Data La Disrupción Del Dato Vector ITC
54 páginas
Manual Avanzado de Programación
100% (1)
Manual Avanzado de Programación
98 páginas
Consultas SQL en Oracle Developer
Aún no hay calificaciones
Consultas SQL en Oracle Developer
13 páginas
SQLServer
Aún no hay calificaciones
SQLServer
26 páginas
Instalación de Oracle XE 11g y SQL Developer
Aún no hay calificaciones
Instalación de Oracle XE 11g y SQL Developer
41 páginas
Curso de SQL Avanzado y PLSQL Básico para Oracle 10g (10.2) ORACLE PDF
100% (1)
Curso de SQL Avanzado y PLSQL Básico para Oracle 10g (10.2) ORACLE PDF
45 páginas
Diapositivas OF IIS
Aún no hay calificaciones
Diapositivas OF IIS
790 páginas
Prueba Tecnica de Banco
Aún no hay calificaciones
Prueba Tecnica de Banco
6 páginas
Instalación y Configuración de Oracle DB
Aún no hay calificaciones
Instalación y Configuración de Oracle DB
8 páginas
Introducción: ¿Qué Es Vue - JS?
Aún no hay calificaciones
Introducción: ¿Qué Es Vue - JS?
77 páginas
Diseño de Base de Datos en MySQL
Aún no hay calificaciones
Diseño de Base de Datos en MySQL
6 páginas
Monografia Modelamiento de Base de Datos
Aún no hay calificaciones
Monografia Modelamiento de Base de Datos
75 páginas
Actividad 2 Bases de Datos
100% (1)
Actividad 2 Bases de Datos
9 páginas
SQL para Ciencia de Datos
Aún no hay calificaciones
SQL para Ciencia de Datos
3 páginas
Programación en PowerBuilder y SQL Server
Aún no hay calificaciones
Programación en PowerBuilder y SQL Server
70 páginas
Diccionario de Datos: Definición y Tipos
Aún no hay calificaciones
Diccionario de Datos: Definición y Tipos
41 páginas
Instalación y Configuración de Hadoop
Aún no hay calificaciones
Instalación y Configuración de Hadoop
9 páginas
Clases Java para Gestión de Clientes
Aún no hay calificaciones
Clases Java para Gestión de Clientes
32 páginas
Instalación de SQL Server y BI Tools
Aún no hay calificaciones
Instalación de SQL Server y BI Tools
25 páginas
Ventajas y Desventajas de Laravel
Aún no hay calificaciones
Ventajas y Desventajas de Laravel
11 páginas
Procedimientos PL/SQL para Gestión de Sueldos y Artículos
Aún no hay calificaciones
Procedimientos PL/SQL para Gestión de Sueldos y Artículos
14 páginas
Cursores en Transact-SQL: Guía Completa
100% (1)
Cursores en Transact-SQL: Guía Completa
28 páginas
Semana 13 - Anexo 4 Ejercicios Sentencias SQL y NoSQL
Aún no hay calificaciones
Semana 13 - Anexo 4 Ejercicios Sentencias SQL y NoSQL
5 páginas
Curso de Administración Oracle 11g
Aún no hay calificaciones
Curso de Administración Oracle 11g
6 páginas
Almacenamiento y gestión de usuarios en Oracle
100% (2)
Almacenamiento y gestión de usuarios en Oracle
4 páginas
Migraciones y Rutas en Laravel
Aún no hay calificaciones
Migraciones y Rutas en Laravel
14 páginas
Diagrama Entidad-Relación en Bases de Datos
Aún no hay calificaciones
Diagrama Entidad-Relación en Bases de Datos
16 páginas
Ejemplo Bases de Datos
Aún no hay calificaciones
Ejemplo Bases de Datos
15 páginas
Diseño de Bases de Datos Relacionales
Aún no hay calificaciones
Diseño de Bases de Datos Relacionales
9 páginas
Formulario Detalle en Java para Productos
Aún no hay calificaciones
Formulario Detalle en Java para Productos
12 páginas
Informe de Laboratorio 1 de Base de Datos Actualizado
100% (1)
Informe de Laboratorio 1 de Base de Datos Actualizado
17 páginas
Manual de QlikView para Análisis Policial
100% (1)
Manual de QlikView para Análisis Policial
52 páginas
Scala
Aún no hay calificaciones
Scala
4 páginas
Guía Completa sobre Bases de Datos
Aún no hay calificaciones
Guía Completa sobre Bases de Datos
8 páginas
Introducción a Apache Hive y su uso
Aún no hay calificaciones
Introducción a Apache Hive y su uso
19 páginas
Creación de Base de Datos en MySQL
100% (1)
Creación de Base de Datos en MySQL
15 páginas
Guía de Ejercicios de Normalización
Aún no hay calificaciones
Guía de Ejercicios de Normalización
6 páginas
Introducción al patrón MVC y tecnologías web
Aún no hay calificaciones
Introducción al patrón MVC y tecnologías web
49 páginas
Optimización SQL en Oracle: Guía Práctica
100% (4)
Optimización SQL en Oracle: Guía Práctica
6 páginas
Componentes Talend
Aún no hay calificaciones
Componentes Talend
4 páginas
Componentes de Procesamiento de Datos
Aún no hay calificaciones
Componentes de Procesamiento de Datos
6 páginas
Automatización de Metadatos en Talend
Aún no hay calificaciones
Automatización de Metadatos en Talend
18 páginas
Talend
Aún no hay calificaciones
Talend
11 páginas
Motor Balder: Extracción y Publicación de Datos
Aún no hay calificaciones
Motor Balder: Extracción y Publicación de Datos
31 páginas
Celebración de Vida y Gratitud
Aún no hay calificaciones
Celebración de Vida y Gratitud
1 página
Ajuste de mástil en laúd y guitarra barroca
Aún no hay calificaciones
Ajuste de mástil en laúd y guitarra barroca
2 páginas
Roseta para Reescalar
Aún no hay calificaciones
Roseta para Reescalar
2 páginas
Herramientas y Accesorios para Madera
Aún no hay calificaciones
Herramientas y Accesorios para Madera
38 páginas
Configuración de ASM y Redo Logs en Cinclus21
Aún no hay calificaciones
Configuración de ASM y Redo Logs en Cinclus21
1 página
Recuperación de Base de Datos: Guía Completa
Aún no hay calificaciones
Recuperación de Base de Datos: Guía Completa
7 páginas
Instalacion Oracle Fusion Middleware
Aún no hay calificaciones
Instalacion Oracle Fusion Middleware
36 páginas
Exportar/Importar Stats en Oracle
Aún no hay calificaciones
Exportar/Importar Stats en Oracle
4 páginas
Funcionamiento y aplicaciones del pirómetro
Aún no hay calificaciones
Funcionamiento y aplicaciones del pirómetro
17 páginas
Solicitud Licencia Funcionamiento PDF
Aún no hay calificaciones
Solicitud Licencia Funcionamiento PDF
2 páginas
Análisis Sismorresistente con SAP2000
Aún no hay calificaciones
Análisis Sismorresistente con SAP2000
65 páginas
Especificaciones D-Max CD 4x4 Diésel
Aún no hay calificaciones
Especificaciones D-Max CD 4x4 Diésel
6 páginas
Informe de Practicas Viii
100% (4)
Informe de Practicas Viii
16 páginas
Guia Rapida HM 3 PARA CENTRO DE SALUD
Aún no hay calificaciones
Guia Rapida HM 3 PARA CENTRO DE SALUD
21 páginas
2do Taller Erismar Esteva Ci 30.393.052
100% (1)
2do Taller Erismar Esteva Ci 30.393.052
2 páginas
Experimento Enfriamiento de Newton
Aún no hay calificaciones
Experimento Enfriamiento de Newton
19 páginas
Prueba Sexto Basico
100% (1)
Prueba Sexto Basico
4 páginas
Manual de Instalacion Teja Andina Eternit PDF
100% (1)
Manual de Instalacion Teja Andina Eternit PDF
10 páginas
Resumen Esperando A Superman J
Aún no hay calificaciones
Resumen Esperando A Superman J
4 páginas
Remesa ETT685 21 DIC
Aún no hay calificaciones
Remesa ETT685 21 DIC
2 páginas
Cuadro Comparativo 27072022
Aún no hay calificaciones
Cuadro Comparativo 27072022
6 páginas
Embriología Higado
100% (3)
Embriología Higado
2 páginas
Natalia Benavides Tarea1
Aún no hay calificaciones
Natalia Benavides Tarea1
7 páginas
Conceptos Clave de Cartografía y Geografía
Aún no hay calificaciones
Conceptos Clave de Cartografía y Geografía
4 páginas
Fender FUSE 2.0 Manual For Mustang G-DeC3 Passport EXP-1 Rev-G Spanish
Aún no hay calificaciones
Fender FUSE 2.0 Manual For Mustang G-DeC3 Passport EXP-1 Rev-G Spanish
14 páginas
Basta de Amores de M 310412 Downloadable 5244404
Aún no hay calificaciones
Basta de Amores de M 310412 Downloadable 5244404
137 páginas
Tultepec Estado de Mexico
Aún no hay calificaciones
Tultepec Estado de Mexico
38 páginas
Evaluación Global de Matemática
100% (1)
Evaluación Global de Matemática
7 páginas
Navegación y Configuración de IOS en Redes
Aún no hay calificaciones
Navegación y Configuración de IOS en Redes
8 páginas
Plantas de Gas en Bolivia: Clasificación y Detalles
0% (1)
Plantas de Gas en Bolivia: Clasificación y Detalles
12 páginas
Catálogo de Cubos de Rueda para Autos
Aún no hay calificaciones
Catálogo de Cubos de Rueda para Autos
6 páginas
La Resta
Aún no hay calificaciones
La Resta
19 páginas
Receta de Pan de Jamón Venezolano
100% (2)
Receta de Pan de Jamón Venezolano
4 páginas
SESIÓN CONOCIENDO POWERPOINT - Primero
Aún no hay calificaciones
SESIÓN CONOCIENDO POWERPOINT - Primero
7 páginas
Placas Vehiculares Ecuador - Fredy Criollo
Aún no hay calificaciones
Placas Vehiculares Ecuador - Fredy Criollo
8 páginas
Extracto Del Libro Introduccion A Los Procesos Quimicos - Regina Murphy
Aún no hay calificaciones
Extracto Del Libro Introduccion A Los Procesos Quimicos - Regina Murphy
7 páginas
Documento 6807644492810431
Aún no hay calificaciones
Documento 6807644492810431
1 página
Determinación de Sulfatos por Conductometría
Aún no hay calificaciones
Determinación de Sulfatos por Conductometría
6 páginas