Está en la página 1de 8

2014

Arquitectura y
Buenas Prcticas en
DataStage

Buenas Prcticas en la arquitectura de DataStage

Jimmy Alexander Avila Chigchon


Scotiabank Per
10/09/2014
Arquitectura y Buenas Prcticas en DataStage

Contenido
Historial de Revisiones ........................................................................................................................ 5
1. Alcance........................................................................................................................................ 6
2. Definicin de las Capas .............................................................................................................. 6
3. Procedimientos a Nivel DataStage e Integracin .................................................................... 7
3.1. Definicin de los proyectos ................................................................................................... 7
3.2. Estructura de los componentes en jobs Staging....................Error! Bookmark not defined.
3.3. Estructura de los componentes en Jobs de Integracin .......Error! Bookmark not defined.
3.4. Configuracin a nivel S.O.........................................................Error! Bookmark not defined.
3.5. Versionamiento y Logs de Revisiones....................................Error! Bookmark not defined.
3.6. Ejecucin de los Procesos de DataStage ................................Error! Bookmark not defined.
3.7. Scheduler de los Jobs Control M ..........................................Error! Bookmark not defined.
3.7.1. Inscripcin de jobs en control M ........................................Error! Bookmark not defined.
3.8. Backups ....................................................................................Error! Bookmark not defined.
3.9. Carga de Archivos Externos ....................................................Error! Bookmark not defined.
4. Explicacin de carga Staging.......................................................Error! Bookmark not defined.
4.1. Ciclo de Carga al Staging .........................................................Error! Bookmark not defined.
4.2. Carga Staging............................................................................Error! Bookmark not defined.
4.2.1. Tipos de Carga al Staging ....................................................Error! Bookmark not defined.
4.2.2. Extraccin de datos .............................................................Error! Bookmark not defined.
4.2.3. Manejo de Duplicados .........................................................Error! Bookmark not defined.
4.2.4. Validacin de Duplicados ....................................................Error! Bookmark not defined.
4.2.5. De-duplicacin .....................................................................Error! Bookmark not defined.
4.2.6. Proceso Diferencial ..............................................................Error! Bookmark not defined.
4.2.7. Proceso de Limpieza y carga Staging .................................Error! Bookmark not defined.
4.2.8. Eliminacin de DataSets al finalizar la ejecucin del proceso ....... Error! Bookmark not
defined.
4.2.9. Resumen Completo:.............................................................Error! Bookmark not defined.
5. Buenas prcticas de los proyectos staging e integracin (ODS, BDS) ... Error! Bookmark not
defined.

2
Arquitectura y Buenas Prcticas en DataStage

5.1. Almacenamiento de archivos y Datasets del Proyecto en Ruta propia .... Error! Bookmark
not defined.
5.2. Patrn de Ejecucin en Paralelismo .......................................Error! Bookmark not defined.
5.3. Patrn de Diseo de Jobs carga iterativa ...............................Error! Bookmark not defined.
5.4. Configuracin de Jobs Sequenciales ................................................................................... 24
5.5. Patrn de Diseo Jobs de reproceso .................................................................................. 28
5.6. Patrn de Diseo de Jobs control de errores ..................................................................... 28
5.7. Patrn de Diseo de Jobs donde se utilice Agregator ....................................................... 28
5.8. Regla de diseo de jobs, utilizacin de rutas de archivos definidas en variables del job
secuencial ......................................................................................................................................... 29
5.9. Table Definitions.................................................................................................................. 30
5.10. Pruebas en IST ................................................................................................................. 30
5.11. LOOKUP JOIN MERGE ................................................................................................. 30
5.12. NO MATCH JOIN ............................................................................................................... 34
5.13. Utilizacin del Shrdcontainer ......................................................................................... 35
5.14. Modalidad de Almacenamiento Configuracin del Buffer............................................ 35
5.15. Diseo de Jobs Multi instancia ........................................................................................ 24
5.16. Patrn de diseo utilizando stages de rutinas .............................................................. 38
5.17. Consideraciones adicionales para desarrollos en Datastage: ...................................... 39
5.17.1. Comentarios en los conectores DataStage ..................................................................... 39
5.17.2. Optimizar el uso de conexiones en DB2 Connector ...................................................... 39
5.17.3. Buenas prcticas en creacin de sentencias SQL .......................................................... 40
5.17.4. Uso de sentencias Delete en las secciones Uso, Before/After SQL .............................. 40
5.17.5. Uso de sentencias para otorgar permisos en Conectores Datastage ........................... 40
5.17.6. METADATA WORKBENCH REQUISITOS..................................................................... 41
5.17.7. PROCEDIMIENTOS DE ELIMINACIN ESPECIAL DE DATA ......................................... 42
5.17.7.1 MANEJO DE ELIMINACION DE DATA EN TABLAS GRANDES ...................................... 43
5.17.7.2 MANEJO DE ELIMINACION DE DATA EN TABLAS MEDIANAS .................................... 43
5.17.8. Validacin de configuracin de Parametersets ............................................................. 45
5.17.9. Uso de Metadata del Repositorio principal .......................................................................... 46

3
Arquitectura y Buenas Prcticas en DataStage

4
Arquitectura y Buenas Prcticas en DataStage

Historial de Revisiones

ITEM VERSIN FECHA AUTOR DESCRIPCIN


1 1.0 01/02/13 Carlos Candela Elaboracin de
Documento
2 1.0 10/11/14 Erika Gutierrez Formateado del
documento
3 1.0 24/11/14 Erika Gutierrez Actualizacindel
documento
4 3.2 28/10/2015 Ronald Ticona Se agrega
consideraciones
Metadata
Workbench,
Eliminacin de
data en Tablas
grandes.

5
Arquitectura y Buenas Prcticas en DataStage

1. Alcance

Los datos son un activo fundamental dentro de toda organizacin. Estos datos son generados por
diversas operaciones que se realizan dentro de los proceso de negocios. Estos procesos generan
una gran cantidad de informacin que son almacenados en diferentes repositorios fuente, siendo el
principal el BanTotal. Adems se cuenta con informacin de terceros, que son generados por los
proveedores que le brindan servicios al banco, e informacin no estructurada.

Ante la gran cantidad de datos, y los diversos repositorios, en distintas plataformas, con los que
cuenta el Banco, es necesario definir la Arquitectura de Integracin de Datos.

La Arquitectura de Integracin es el proceso que organiza el flujo de los datos entre diferentes
sistemas en una organizacin y aporta los mtodos y herramientas necesarias para mover datos
desde mltiples fuentes, reformatearlos, limpiarlos y cargarlos en un repositorio destino.

El objetivo del presente documento es definir la Arquitectura y buenas prcticas en DataStage, con
los que se trabajara los proyectos del Inteligencia de Negocios del Banco. As como los estndares
de construccin de Jobs, configuracin del DataStage, Capas de Servicio.

2. Definicin de las Capas


En el presente captulo, se explica las diversas capas de servicio, que se han definido para atender
los proyectos de Inteligencia de Negocio.

Las capas del servicio, son las que detallan a continuacin:

Datos Fuentes, es la capa donde ser considerada cualquier repositorio, tanto interno
como externo, que tenga informacin relevante para el anlisis del negocio.

Integracin de Datos, es la capa de donde reside el repositorio de staging y se efecta el


proceso integracin de fuentes, el cual se divide en dos partes: la carga al staging y la carga
al modelo warehouse.

La carga al staging consiste en extraer la informacin desde las fuentes de datos, siguiendo
un flujo de carga hacia el staging, donde se realiza procesos de estandarizacin y calidad de
datos.

La carga al modelo warehouse, incluye la integracin de fuentes de la diversas fuentes que


residen en el staging, hacia el modelo de negocios. Este proceso incluye validaciones con
respecto al negocio.

Repositorio de Datos, es considerada la capa donde reside el modelo warehouse, que est
en 3FN; y el ODS, repositorio donde se guardara informacin plana o consolidada,
necesarias para diversos procesos, o anlisis simple.

6
Arquitectura y Buenas Prcticas en DataStage

3. Procedimientos a Nivel DataStage e Integracin

3.1. Definicin de los proyectos


Los proyectos que se creen en DataStage, estn alineadas con la arquitectura de datos que se ha
propuesta, para ello se deben de implementar los proyectos en base a la definidas en el captulo
anterior.

Por lo tanto se tendr un proyecto en DataStage para la Integracin de Datos, donde


implementar los procesos de la carga al Staging y los de la carga al DataWarehouse. Por otro
lado, se tendr un proyecto por cada

Proyecto Data Stage


DM
(prodDMCredito)

Proyecto Data Stage Proyecto Data Stage


(proDIA)
DW DM
Fuente de (prodDMWhoSale)
-Carga Staging
Datos
-Carga al Warehouse

Proyecto Data Stage


DM
(prodDMCanales)

Staging

7
Arquitectura y Buenas Prcticas en DataStage

Autorizaciones:

También podría gustarte