Está en la página 1de 12

USO INTERNO

Diseño Proceso ETL Pág. 1


Validación Dominios 09/10/2018

Control de Versiones

Versión Fecha Adiciones / Modificaciones Preparado por


1.0 02/06/2023 Versión inicial Josman Alberto Ochoa
Guzmán (NTT Data)

Aprobado por

Fecha de
Nombre y Apellido Cargo y área aprobación

Banco de Occidente
USO INTERNO
Diseño Proceso ETL Pág. 2
Validación Dominios 09/10/2018

TABLA DE CONTENIDO

INTRODUCCIÓN.............................................................................................................................................3
DISEÑO TECNICO DE LA SOLUCION............................................................................................................ 4
1. DIAGRAMA DE FLUJO DE INFORMACIÓN.........................................................................................................4
2. DIAGRAMA DE PROCESOS DE LA SOLUCIÓN.....................................................................................................4
SIEBEL (AWS REDSHIFT)............................................................................................................................. 6
3. OBJETOS DE INFORMACIÓN DE FUENTES-AWS REDSHIFT..................................................................................6
3.1 Descripción de los Campos.............................................................................................................6
ESPECIFICACIONES DEL PROCESO DE INTEGRACIÓN CON AWS GLUE..........................................................6
4. CREACIÓN DEL JOB-AWS GLUE...................................................................................................................7
5. GOANYWHERE..........................................................................................................................................7
6. MONITOREO Y MANEJO DE ERRORES............................................................................................................7
ESPECIFICACIÓN DEL PROCESO DE INTEGRACIÓN DATASTAGE...................................................................7
7. SEQUENCE PRINCIPAL...........................................................................................................................8
7.1 SEQ_STG_TBL_PS_RSF_LEAD.........................................................................................................8
8. EXTRACCIÓN.........................................................................................................................................9
8.1 JOB_EXT_STG_TBL_PS_RSF_LEAD.................................................................................................9
9. TRANSFORMACIÓN...............................................................................................................................9
9.1 JOB_TRF_STG_TBL_PS_RSF_LEAD..................................................................................................9
10. CARGA............................................................................................................................................10
10.1 JOB_LOD_STG_TBL_PS_RSF_LEAD...............................................................................................10
OBJETOS DE INFORMACIÓN DESTINO...................................................................................................... 11
11. ORA_STG_TBL_PS_RSF_LEAD.........................................................................................................11

Banco de Occidente
INTRODUCCIÓN

Este documento tiene como objetivo describir y representar gráficamente el diseño de la


ETL que realiza la generación del archivo con nombre STG_TBL_PS_RSF_LEAD.csv
para obtener información del producto en relación con el contrato. Este archivo se
generará automáticamente de manera diaria, de lunes a viernes, a las 19:00 con el
nombre y estructura requeridos para su cargue y procesamiento.
DISEÑO TECNICO DE LA SOLUCION
La solución extrae la información de la réplica de Siebel que se encuentra disponible en
AWS Redshift, este servicio conectará con AWS Glue, quién realizará el procesamiento
de los datos para obtener un archivo CSV, para luego ser cargado a un S3. Finalmente,
S3 se integrará con el servicio de GoAnywhere para transferir el archivo de forma segura
a través de un protocolo FTP. Datastage toma el archivo, inicia el procesamiento de los
datos a través de los diferentes componentes que se requieran, con el objetivo de
cargarlo un destino final, base de datos ADMGENERAL, tabla STG_TBL_PS_RSF_LEAD.

1. Diagrama de Flujo de información

2. Diagrama de Procesos de la solución

PROCESO DE INTEGRACIÓN

Siebel (AWS Redshift)

S_CONTACT
S_PARTY
S_EMP_PER
Redshift S_CONTACT
_FNXM
S_CONTACT
_X
S_EMPLOYE
E_X
S3
ADM

SIEBEL (AWS REDSHIFT)

3. Objetos de Información de Fuentes-AWS Redshift

La información se extraerá de las siguientes tablas dispuestas en la réplica de Siebel en Redshift:


S_ASSET y S_ASSET_X.

3.1 Descripción de los Campos


Nombre Campo Columna Tabla Fuente Tipo Dato Tamaño Descripción

STR_DESCR50
STR_BUSINESS_UNIT

STR_LEAD_STATUS
NUM_EST_REVENUE

STR_LEAD_RATING
STR_LEAD_ID

STR_PERSON_ID
DTM_FECHA_REGISTRO

DTM_PERIODO
NUM_CASE_ID

STR_CUST_ID
NUM_BO_ID_PERSON

ESPECIFICACIONES DEL PROCESO DE INTEGRACIÓN CON


AWS GLUE
AWS Glue es un servicio de integración de datos escalable y sin servidor que facilita la detección,
preparación, movimiento e integración de datos de varios orígenes para el análisis, machine
learning y desarrollo de aplicaciones. AWS Glue proporciona todas las capacidades que se
necesitan para la integración de datos, de modo que puede obtener información y usarlos en
minutos en lugar de meses. Con AWS Glue no hay ninguna infraestructura que configurar ni
administrar.

4. Creación Del Job-AWS Glue

 Origen de los Datos: Para esta solución el origen de los datos se establecerá en
las tablas mencionadas anteriormente.
 Destino de los Datos: Para esta solución el destino de los datos es Amazon
Simple Storage Service. El archivo estará disponible en el bucket de S3 con URI
s3://dirección_del_bucket en formato CSV.
 Método de transformación (Transform SQL Query): Será vía SQL el cual toma
las fuentes de Redshift mencionadas anteriormente y se crean las relaciones entre
estas, para poder procesar la información de ellas como si fueran tablas de una
base de datos relacional, generando una única salida de datos en formato CSV. El
query usado en esta fase del Proceso puede ser consultado en el siguiente enlace
PAQ_STG_TBL_PS_RSF_LEAD.sql (Cuando este listo la Consulta AWS-
Pendiente)
 Schedule Job: Se programa el scheduler a las 19:00 de manera diaria de lunes a
viernes.

5. GoAnywhere

El archivo generado y que es almacenado en S3 se transfiere de manera segura para que sea
procesado por Datastage.

6. Monitoreo y Manejo de Errores

Se habilitarán los servicios de observación para el monitoreo y notificación en caso de incidentes


presentados en cada una de las etapas descritas anteriormente. Los logs serán administrados por
AWS Cloudwatch.
ESPECIFICACIÓN DEL PROCESO DE INTEGRACIÓN
DATASTAGE
DataStage es una herramienta de integración de datos líder en el sector que le ayuda a
diseñar, desarrollar y emprender tareas que mueven y transforman los datos. En esencia,
DataStage es compatible con patrones tanto de extracción, transformación y carga (ETL)
como de extracción, carga y transformación (ELT).

El proceso consta de varios tipos de Jobs, a continuación, se presenta el diseño a nivel


macro de los Jobs de extracción, transformación y cargue de los dominios definidos.

7. SEQUENCE PRINCIPAL

7.1 SEQ_STG_TBL_PS_RSF_LEAD
 PARAMETROS DE ENTRADA:
o VAP_NOMBRE_ARCHIVO: Nombre del archivo a tomar desde Go
AnyWhere que su valor será STG_TBL_PS_RSF_LEAD.csv.
 UVA: Contiene las variables de VAP_NOMBRE_ARCHIVO y
VAP_RUTA_ORIGEN_GAW.
 ECM_BORRA_ARCHIVO: Valida en la ruta de GAW si se encuentra el archivo
VAP_NOMBRE_ARCHIVO para eliminarlo con la siguiente regla (rm -f
#PSET_RUTAS.VAG_RUTA_ENTRADA##VAP_NOMBRE_ARCHIVO#).
 ECM_EXTRAE_ARCHIVO_GAW: Consulta en la ruta de GAW y extrae el archivo
VAP_NOMBRE_ARCHIVO y lo lleva al repositorio de DataStage conla siguiente
regla (cd #PSET_RUTAS.VAG_RUTA_ENTRADA# && lftp -c "set ftp:ssl-allow off;
set ftp:use-feat false;lftp
sftp://#$VAG_GAW_FTP_USER#:#$VAG_GAW_FTP_PASS#@#$VAG_GAW_FT
P_SERVER#; mget
#UVA.VAP_RUTA_ORIGEN_GAW##UVA.VAP_NOMBRE_ARCHIVO#").
8. EXTRACCIÓN

8.1 JOB_EXT_STG_TBL_PS_RSF_LEAD

 SF_ STG_TBL_PS_RSF_LEAD: Se realiza la extracción de información del


archivo STG_TBL_PS_RSF_LEAD.csv de los siguientes campos:

o STR_DESCR50
o STR_BUSINESS_UNIT
o STR_LEAD_STATUS
o NUM_EST_REVENUE
o STR_LEAD_RATING
o STR_LEAD_ID
o STR_PERSON_ID
o DTM_FECHA_REGISTRO
o DTM_PERIODO
o NUM_CASE_ID
o STR_CUST_ID
o NUM_BO_ID_PERSON

 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información


consultada.

9. TRANSFORMACIÓN

9.1 JOB_TRF_STG_TBL_PS_RSF_LEAD
 DS_STG_TBL_PS_RSF_LEAD: Este DataSet es tomado del job
JOB_EXT_STG_TBL_PS_RSF_LEAD correspondiente a la extracción del archivo.
 TRF_STG_TBL_PS_RSF_LEAD: En este Transformers se cambian los formatos
de los siguientes campos:

o STR_DESCR50: Se incluye el tamaño del campo a 50.


o STR_BUSINESS_UNIT: Se incluye el tamaño del campo a 5.
o STR_LEAD_STATUS: Se incluye el tamaño del campo a 2.
o NUM_EST_REVENUE: Se cambia el tipo de campo de varchar a
StringToDecimal(Ereplace(Ereplace(LNK_STG_TBL_PS_RSF_LEAD.NUM
_EST_REVENUE,char(13),''),char(12),''),"trunc_zero") y se define tamaño
del campo a 26,3.
o STR_LEAD_RATING: Se incluye el tamaño del campo a 2.
o STR_LEAD_ID: Se incluye el tamaño del campo a 15.
o STR_PERSON_ID: Se incluye el tamaño del campo a 15.
o NUM_CASE_ID: Se cambia el tipo de campo de varchar a
StringToDecimal(Ereplace(Ereplace(LNK_STG_TBL_PS_RSF_LEAD.NUM
_CASE_ID,char(13),''),char(12),''),"trunc_zero") y se define tamaño del
campo a 15.
o STR_CUST_ID: Se incluye el tamaño del campo a 15.
o NUM_BO_ID_PERSON: Se cambia el tipo de campo de varchar a
StringToDecimal(Ereplace(Ereplace(LNK_STG_TBL_PS_RSF_LEAD.NUM
_CASE_ID,char(13),''),char(12),''),"trunc_zero") y se define tamaño del
campo a 31.

Se adicionan los siguientes campos:

o DTM_FECHA_REGISTRO: Se define tipo de formato date CurrentDate()


con una longitud de 7.
o DTM_PERIODO: Se define tipo de formato date CurrentDate() con una
longitud de 7.

 DS_STG_TBL_PS_RSF_LEAD: Este DataSet almacenará toda la información del


procesamiento realizado.
10. CARGA

10.1 JOB_LOD_STG_TBL_PS_RSF_LEAD

 DS_TRF_STG_TBL_PS_RSF_LEAD: Este DataSet es tomado del job


JOB_TRF_STG_TBL_PS_RSF_LEAD de la transformación del archivo.
 ORA_STG_TBL_PS_RSF_LEAD: Se hace insert a la tabla
ADMGENERAL.STG_TBL_PS_RSF_LEAD de todos los registros que se
encuentran en el DataSet.

Objetos de información Destino


11. ORA_STG_TBL_PS_RSF_LEAD
ESPECIFICACIÓN DE LA TABLA: STG_TBL_PS_RSF_LEAD
Base de Batos: ADMSTAGEODI  Esquema: ADMGENERAL Tipo: Salida
Descripción: Archivo de extracción de registros.
Atributo Tipo de dato Obligatorio Clave Descripción

STR_DESCR50 VARCHAR(50) NO    
STR_BUSINESS_UNIT VARCHAR(5) NO    
STR_LEAD_STATUS VARCHAR(2) NO    
NUM_EST_REVENUE NUMERIC NO    
STR_LEAD_RATING VARCHAR(2) NO    
STR_LEAD_ID VARCHAR(15) NO    
STR_PERSON_ID VARCHAR(15) NO    
DTM_FECHA_REGISTRO DATE NO

DTM_PERIODO DATE NO
NO
NUM_CASE_ID NUMERIC
VARCHAR(15) NO
STR_CUST_ID
NO
NUM_BO_ID_PERSON NUMERIC
Filtros aplicados
NA
Homologaciones
NA
Observaciones
NA

También podría gustarte