Documento de Diseño y Desarrollo Etl Paq - STG - TBL - Ps - RSF - Lead

USO INTERNO
Diseño Proceso ETL Pág. 1

Validación Dominios 09/10/2018
Control de Versiones
Versión Fecha Adiciones / Modificaciones Preparado por

1.0 02/06/2023 Versión inicial Josman Alberto Ochoa
Guzmán (NTT Data)
Aprobado por
Fecha de
Nombre y Apellido Cargo y área aprobación
Banco de Occidente
USO INTERNO
Diseño Proceso ETL Pág. 2
Validación Dominios 09/10/2018
TABLA DE CONTENIDO
INTRODUCCIÓN.............................................................................................................................................3
DISEÑO TECNICO DE LA SOLUCION............................................................................................................ 4
1. DIAGRAMA DE FLUJO DE INFORMACIÓN.........................................................................................................4
2. DIAGRAMA DE PROCESOS DE LA SOLUCIÓN.....................................................................................................4
SIEBEL (AWS REDSHIFT)............................................................................................................................. 6
3. OBJETOS DE INFORMACIÓN DE FUENTES-AWS REDSHIFT..................................................................................6
3.1 Descripción de los Campos.............................................................................................................6
ESPECIFICACIONES DEL PROCESO DE INTEGRACIÓN CON AWS GLUE..........................................................6
4. CREACIÓN DEL JOB-AWS GLUE...................................................................................................................7
5. GOANYWHERE..........................................................................................................................................7
6. MONITOREO Y MANEJO DE ERRORES............................................................................................................7
ESPECIFICACIÓN DEL PROCESO DE INTEGRACIÓN DATASTAGE...................................................................7
7. SEQUENCE PRINCIPAL...........................................................................................................................8
7.1 SEQ_STG_TBL_PS_RSF_LEAD.........................................................................................................8
8. EXTRACCIÓN.........................................................................................................................................9
8.1 JOB_EXT_STG_TBL_PS_RSF_LEAD.................................................................................................9
9. TRANSFORMACIÓN...............................................................................................................................9
9.1 JOB_TRF_STG_TBL_PS_RSF_LEAD..................................................................................................9
10. CARGA............................................................................................................................................10
10.1 JOB_LOD_STG_TBL_PS_RSF_LEAD...............................................................................................10
OBJETOS DE INFORMACIÓN DESTINO...................................................................................................... 11
11. ORA_STG_TBL_PS_RSF_LEAD.........................................................................................................11
Banco de Occidente
INTRODUCCIÓN
Este documento tiene como objetivo describir y representar gráficamente el diseño de la

ETL que realiza la generación del archivo con nombre STG_TBL_PS_RSF_LEAD.csv
para obtener información del producto en relación con el contrato. Este archivo se
generará automáticamente de manera diaria, de lunes a viernes, a las 19:00 con el
nombre y estructura requeridos para su cargue y procesamiento.
DISEÑO TECNICO DE LA SOLUCION
La solución extrae la información de la réplica de Siebel que se encuentra disponible en
AWS Redshift, este servicio conectará con AWS Glue, quién realizará el procesamiento
de los datos para obtener un archivo CSV, para luego ser cargado a un S3. Finalmente,
S3 se integrará con el servicio de GoAnywhere para transferir el archivo de forma segura
a través de un protocolo FTP. Datastage toma el archivo, inicia el procesamiento de los
datos a través de los diferentes componentes que se requieran, con el objetivo de
cargarlo un destino final, base de datos ADMGENERAL, tabla STG_TBL_PS_RSF_LEAD.
1. Diagrama de Flujo de información
2. Diagrama de Procesos de la solución
PROCESO DE INTEGRACIÓN
Siebel (AWS Redshift)
S_CONTACT
S_PARTY
S_EMP_PER
Redshift S_CONTACT
_FNXM
S_CONTACT
_X
S_EMPLOYE
E_X
S3
ADM
SIEBEL (AWS REDSHIFT)
3. Objetos de Información de Fuentes-AWS Redshift
La información se extraerá de las siguientes tablas dispuestas en la réplica de Siebel en Redshift:

S_ASSET y S_ASSET_X.
3.1 Descripción de los Campos

Nombre Campo Columna Tabla Fuente Tipo Dato Tamaño Descripción
STR_DESCR50
STR_BUSINESS_UNIT
STR_LEAD_STATUS
NUM_EST_REVENUE
STR_LEAD_RATING
STR_LEAD_ID
STR_PERSON_ID
DTM_FECHA_REGISTRO
DTM_PERIODO
NUM_CASE_ID
STR_CUST_ID
NUM_BO_ID_PERSON
ESPECIFICACIONES DEL PROCESO DE INTEGRACIÓN CON

AWS GLUE
AWS Glue es un servicio de integración de datos escalable y sin servidor que facilita la detección,
preparación, movimiento e integración de datos de varios orígenes para el análisis, machine
learning y desarrollo de aplicaciones. AWS Glue proporciona todas las capacidades que se
necesitan para la integración de datos, de modo que puede obtener información y usarlos en
minutos en lugar de meses. Con AWS Glue no hay ninguna infraestructura que configurar ni
administrar.
4. Creación Del Job-AWS Glue
 Origen de los Datos: Para esta solución el origen de los datos se establecerá en
las tablas mencionadas anteriormente.
 Destino de los Datos: Para esta solución el destino de los datos es Amazon
Simple Storage Service. El archivo estará disponible en el bucket de S3 con URI
s3://dirección_del_bucket en formato CSV.
 Método de transformación (Transform SQL Query): Será vía SQL el cual toma
las fuentes de Redshift mencionadas anteriormente y se crean las relaciones entre
estas, para poder procesar la información de ellas como si fueran tablas de una
base de datos relacional, generando una única salida de datos en formato CSV. El
query usado en esta fase del Proceso puede ser consultado en el siguiente enlace
PAQ_STG_TBL_PS_RSF_LEAD.sql (Cuando este listo la Consulta AWS-
Pendiente)
 Schedule Job: Se programa el scheduler a las 19:00 de manera diaria de lunes a
viernes.
5. GoAnywhere
El archivo generado y que es almacenado en S3 se transfiere de manera segura para que sea
procesado por Datastage.
6. Monitoreo y Manejo de Errores
Se habilitarán los servicios de observación para el monitoreo y notificación en caso de incidentes

presentados en cada una de las etapas descritas anteriormente. Los logs serán administrados por
AWS Cloudwatch.
ESPECIFICACIÓN DEL PROCESO DE INTEGRACIÓN
DATASTAGE
DataStage es una herramienta de integración de datos líder en el sector que le ayuda a
diseñar, desarrollar y emprender tareas que mueven y transforman los datos. En esencia,
DataStage es compatible con patrones tanto de extracción, transformación y carga (ETL)
como de extracción, carga y transformación (ELT).
El proceso consta de varios tipos de Jobs, a continuación, se presenta el diseño a nivel

macro de los Jobs de extracción, transformación y cargue de los dominios definidos.
7. SEQUENCE PRINCIPAL
7.1 SEQ_STG_TBL_PS_RSF_LEAD
 PARAMETROS DE ENTRADA:
o VAP_NOMBRE_ARCHIVO: Nombre del archivo a tomar desde Go
AnyWhere que su valor será STG_TBL_PS_RSF_LEAD.csv.
 UVA: Contiene las variables de VAP_NOMBRE_ARCHIVO y
VAP_RUTA_ORIGEN_GAW.
 ECM_BORRA_ARCHIVO: Valida en la ruta de GAW si se encuentra el archivo
VAP_NOMBRE_ARCHIVO para eliminarlo con la siguiente regla (rm -f
#PSET_RUTAS.VAG_RUTA_ENTRADA##VAP_NOMBRE_ARCHIVO#).
 ECM_EXTRAE_ARCHIVO_GAW: Consulta en la ruta de GAW y extrae el archivo
VAP_NOMBRE_ARCHIVO y lo lleva al repositorio de DataStage conla siguiente
regla (cd #PSET_RUTAS.VAG_RUTA_ENTRADA# && lftp -c "set ftp:ssl-allow off;
set ftp:use-feat false;lftp
sftp://#$VAG_GAW_FTP_USER#:#$VAG_GAW_FTP_PASS#@#$VAG_GAW_FT
P_SERVER#; mget
#UVA.VAP_RUTA_ORIGEN_GAW##UVA.VAP_NOMBRE_ARCHIVO#").
8. EXTRACCIÓN
8.1 JOB_EXT_STG_TBL_PS_RSF_LEAD
 SF_ STG_TBL_PS_RSF_LEAD: Se realiza la extracción de información del

archivo STG_TBL_PS_RSF_LEAD.csv de los siguientes campos:
o STR_DESCR50
o STR_BUSINESS_UNIT
o STR_LEAD_STATUS
o NUM_EST_REVENUE
o STR_LEAD_RATING
o STR_LEAD_ID
o STR_PERSON_ID
o DTM_FECHA_REGISTRO
o DTM_PERIODO
o NUM_CASE_ID
o STR_CUST_ID
o NUM_BO_ID_PERSON
 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información

consultada.
9. TRANSFORMACIÓN
9.1 JOB_TRF_STG_TBL_PS_RSF_LEAD
 DS_STG_TBL_PS_RSF_LEAD: Este DataSet es tomado del job
JOB_EXT_STG_TBL_PS_RSF_LEAD correspondiente a la extracción del archivo.
 TRF_STG_TBL_PS_RSF_LEAD: En este Transformers se cambian los formatos
de los siguientes campos:
o STR_DESCR50: Se incluye el tamaño del campo a 50.

o STR_BUSINESS_UNIT: Se incluye el tamaño del campo a 5.
o STR_LEAD_STATUS: Se incluye el tamaño del campo a 2.
o NUM_EST_REVENUE: Se cambia el tipo de campo de varchar a
StringToDecimal(Ereplace(Ereplace(LNK_STG_TBL_PS_RSF_LEAD.NUM
_EST_REVENUE,char(13),''),char(12),''),"trunc_zero") y se define tamaño
del campo a 26,3.
o STR_LEAD_RATING: Se incluye el tamaño del campo a 2.
o STR_LEAD_ID: Se incluye el tamaño del campo a 15.
o STR_PERSON_ID: Se incluye el tamaño del campo a 15.
o NUM_CASE_ID: Se cambia el tipo de campo de varchar a
_CASE_ID,char(13),''),char(12),''),"trunc_zero") y se define tamaño del
campo a 15.
o STR_CUST_ID: Se incluye el tamaño del campo a 15.
o NUM_BO_ID_PERSON: Se cambia el tipo de campo de varchar a
_CASE_ID,char(13),''),char(12),''),"trunc_zero") y se define tamaño del
campo a 31.
Se adicionan los siguientes campos:
o DTM_FECHA_REGISTRO: Se define tipo de formato date CurrentDate()

con una longitud de 7.
o DTM_PERIODO: Se define tipo de formato date CurrentDate() con una
longitud de 7.
 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información del

procesamiento realizado.
10. CARGA
10.1 JOB_LOD_STG_TBL_PS_RSF_LEAD
 DS_TRF_STG_TBL_PS_RSF_LEAD: Este DataSet es tomado del job

JOB_TRF_STG_TBL_PS_RSF_LEAD de la transformación del archivo.
 ORA_STG_TBL_PS_RSF_LEAD: Se hace insert a la tabla
ADMGENERAL.STG_TBL_PS_RSF_LEAD de todos los registros que se
encuentran en el DataSet.
Objetos de información Destino

11. ORA_STG_TBL_PS_RSF_LEAD
ESPECIFICACIÓN DE LA TABLA: STG_TBL_PS_RSF_LEAD
Base de Batos: ADMSTAGEODI Esquema: ADMGENERAL Tipo: Salida
Descripción: Archivo de extracción de registros.
Atributo Tipo de dato Obligatorio Clave Descripción
STR_DESCR50 VARCHAR(50) NO
STR_BUSINESS_UNIT VARCHAR(5) NO
STR_LEAD_STATUS VARCHAR(2) NO
NUM_EST_REVENUE NUMERIC NO
STR_LEAD_RATING VARCHAR(2) NO
STR_LEAD_ID VARCHAR(15) NO
STR_PERSON_ID VARCHAR(15) NO
DTM_FECHA_REGISTRO DATE NO
DTM_PERIODO DATE NO
NO
NUM_CASE_ID NUMERIC
VARCHAR(15) NO
STR_CUST_ID
NO
NUM_BO_ID_PERSON NUMERIC
Filtros aplicados
NA
Homologaciones
NA
Observaciones
NA

Documento de Diseño y Desarrollo Etl Paq - STG - TBL - Ps - RSF - Lead

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Documento de Diseño y Desarrollo Etl Paq - STG - TBL - Ps - RSF - Lead

Cargado por

Copyright:

Formatos disponibles

USO INTERNO

Diseño Proceso ETL Pág. 1

Versión Fecha Adiciones / Modificaciones Preparado por

Este documento tiene como objetivo describir y representar gráficamente el diseño de la

1. Diagrama de Flujo de información

2. Diagrama de Procesos de la solución

Siebel (AWS Redshift)

SIEBEL (AWS REDSHIFT)

3. Objetos de Información de Fuentes-AWS Redshift

La información se extraerá de las siguientes tablas dispuestas en la réplica de Siebel en Redshift:

3.1 Descripción de los Campos

ESPECIFICACIONES DEL PROCESO DE INTEGRACIÓN CON

4. Creación Del Job-AWS Glue

6. Monitoreo y Manejo de Errores

Se habilitarán los servicios de observación para el monitoreo y notificación en caso de incidentes

El proceso consta de varios tipos de Jobs, a continuación, se presenta el diseño a nivel

 SF_ STG_TBL_PS_RSF_LEAD: Se realiza la extracción de información del

 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información

o STR_DESCR50: Se incluye el tamaño del campo a 50.

Se adicionan los siguientes campos:

o DTM_FECHA_REGISTRO: Se define tipo de formato date CurrentDate()

 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información del

 DS_TRF_STG_TBL_PS_RSF_LEAD: Este DataSet es tomado del job

Objetos de información Destino

También podría gustarte