Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arquitectura y
Buenas Prcticas en
DataStage
Contenido
Historial de Revisiones ........................................................................................................................ 5
1. Alcance........................................................................................................................................ 6
2. Definicin de las Capas .............................................................................................................. 6
3. Procedimientos a Nivel DataStage e Integracin .................................................................... 7
3.1. Definicin de los proyectos ................................................................................................... 7
3.2. Estructura de los componentes en jobs Staging....................Error! Bookmark not defined.
3.3. Estructura de los componentes en Jobs de Integracin .......Error! Bookmark not defined.
3.4. Configuracin a nivel S.O.........................................................Error! Bookmark not defined.
3.5. Versionamiento y Logs de Revisiones....................................Error! Bookmark not defined.
3.6. Ejecucin de los Procesos de DataStage ................................Error! Bookmark not defined.
3.7. Scheduler de los Jobs Control M ..........................................Error! Bookmark not defined.
3.7.1. Inscripcin de jobs en control M ........................................Error! Bookmark not defined.
3.8. Backups ....................................................................................Error! Bookmark not defined.
3.9. Carga de Archivos Externos ....................................................Error! Bookmark not defined.
4. Explicacin de carga Staging.......................................................Error! Bookmark not defined.
4.1. Ciclo de Carga al Staging .........................................................Error! Bookmark not defined.
4.2. Carga Staging............................................................................Error! Bookmark not defined.
4.2.1. Tipos de Carga al Staging ....................................................Error! Bookmark not defined.
4.2.2. Extraccin de datos .............................................................Error! Bookmark not defined.
4.2.3. Manejo de Duplicados .........................................................Error! Bookmark not defined.
4.2.4. Validacin de Duplicados ....................................................Error! Bookmark not defined.
4.2.5. De-duplicacin .....................................................................Error! Bookmark not defined.
4.2.6. Proceso Diferencial ..............................................................Error! Bookmark not defined.
4.2.7. Proceso de Limpieza y carga Staging .................................Error! Bookmark not defined.
4.2.8. Eliminacin de DataSets al finalizar la ejecucin del proceso ....... Error! Bookmark not
defined.
4.2.9. Resumen Completo:.............................................................Error! Bookmark not defined.
5. Buenas prcticas de los proyectos staging e integracin (ODS, BDS) ... Error! Bookmark not
defined.
2
Arquitectura y Buenas Prcticas en DataStage
5.1. Almacenamiento de archivos y Datasets del Proyecto en Ruta propia .... Error! Bookmark
not defined.
5.2. Patrn de Ejecucin en Paralelismo .......................................Error! Bookmark not defined.
5.3. Patrn de Diseo de Jobs carga iterativa ...............................Error! Bookmark not defined.
5.4. Configuracin de Jobs Sequenciales ................................................................................... 24
5.5. Patrn de Diseo Jobs de reproceso .................................................................................. 28
5.6. Patrn de Diseo de Jobs control de errores ..................................................................... 28
5.7. Patrn de Diseo de Jobs donde se utilice Agregator ....................................................... 28
5.8. Regla de diseo de jobs, utilizacin de rutas de archivos definidas en variables del job
secuencial ......................................................................................................................................... 29
5.9. Table Definitions.................................................................................................................. 30
5.10. Pruebas en IST ................................................................................................................. 30
5.11. LOOKUP JOIN MERGE ................................................................................................. 30
5.12. NO MATCH JOIN ............................................................................................................... 34
5.13. Utilizacin del Shrdcontainer ......................................................................................... 35
5.14. Modalidad de Almacenamiento Configuracin del Buffer............................................ 35
5.15. Diseo de Jobs Multi instancia ........................................................................................ 24
5.16. Patrn de diseo utilizando stages de rutinas .............................................................. 38
5.17. Consideraciones adicionales para desarrollos en Datastage: ...................................... 39
5.17.1. Comentarios en los conectores DataStage ..................................................................... 39
5.17.2. Optimizar el uso de conexiones en DB2 Connector ...................................................... 39
5.17.3. Buenas prcticas en creacin de sentencias SQL .......................................................... 40
5.17.4. Uso de sentencias Delete en las secciones Uso, Before/After SQL .............................. 40
5.17.5. Uso de sentencias para otorgar permisos en Conectores Datastage ........................... 40
5.17.6. METADATA WORKBENCH REQUISITOS..................................................................... 41
5.17.7. PROCEDIMIENTOS DE ELIMINACIN ESPECIAL DE DATA ......................................... 42
5.17.7.1 MANEJO DE ELIMINACION DE DATA EN TABLAS GRANDES ...................................... 43
5.17.7.2 MANEJO DE ELIMINACION DE DATA EN TABLAS MEDIANAS .................................... 43
5.17.8. Validacin de configuracin de Parametersets ............................................................. 45
5.17.9. Uso de Metadata del Repositorio principal .......................................................................... 46
3
Arquitectura y Buenas Prcticas en DataStage
4
Arquitectura y Buenas Prcticas en DataStage
Historial de Revisiones
5
Arquitectura y Buenas Prcticas en DataStage
1. Alcance
Los datos son un activo fundamental dentro de toda organizacin. Estos datos son generados por
diversas operaciones que se realizan dentro de los proceso de negocios. Estos procesos generan
una gran cantidad de informacin que son almacenados en diferentes repositorios fuente, siendo el
principal el BanTotal. Adems se cuenta con informacin de terceros, que son generados por los
proveedores que le brindan servicios al banco, e informacin no estructurada.
Ante la gran cantidad de datos, y los diversos repositorios, en distintas plataformas, con los que
cuenta el Banco, es necesario definir la Arquitectura de Integracin de Datos.
La Arquitectura de Integracin es el proceso que organiza el flujo de los datos entre diferentes
sistemas en una organizacin y aporta los mtodos y herramientas necesarias para mover datos
desde mltiples fuentes, reformatearlos, limpiarlos y cargarlos en un repositorio destino.
El objetivo del presente documento es definir la Arquitectura y buenas prcticas en DataStage, con
los que se trabajara los proyectos del Inteligencia de Negocios del Banco. As como los estndares
de construccin de Jobs, configuracin del DataStage, Capas de Servicio.
Datos Fuentes, es la capa donde ser considerada cualquier repositorio, tanto interno
como externo, que tenga informacin relevante para el anlisis del negocio.
La carga al staging consiste en extraer la informacin desde las fuentes de datos, siguiendo
un flujo de carga hacia el staging, donde se realiza procesos de estandarizacin y calidad de
datos.
Repositorio de Datos, es considerada la capa donde reside el modelo warehouse, que est
en 3FN; y el ODS, repositorio donde se guardara informacin plana o consolidada,
necesarias para diversos procesos, o anlisis simple.
6
Arquitectura y Buenas Prcticas en DataStage
Staging
7
Arquitectura y Buenas Prcticas en DataStage
Autorizaciones: