Está en la página 1de 10

What is IBM WebSphere DataStage

Trabajos de diseo para la extraccin, transformacin y carga


(ETL).

Herramienta ideal para proyectos de integracin de datos, como data warehouses, data marts y migraciones de
sistemas.

Importar , expotar, crear y Administrar los metadatos para su uso en los trabajos

Programe, ejecute y supervise trabajos, todo dentro de DataStage.

Administrar su desarrollo y ejecucin de DataStage


Ambientes.
Cree trabajos por lotes (de control).

What is IBM Information Server ?

Conjunto de aplicaciones, incluyendo DataStage


- Compartir un repositorio comn
DB2, de forma predeterminada.

Comparten un conjunto comn de servicios de aplicaciones y funcionalidad

Proporcionado por los componentes del servidor de metadatos alojados por un servidor de aplicaciones.
- IBM WebSphere Application Server.
Los servicios proporcionados incluyen:
- Seguridad
- Repositorio
- Registro e informes
- Gestin de metadatos.

Gestionado mediante clientes de consola web


- Consola de administracin.
- Consola de informes.
IBM Information Server

Un dominio de Information Server, que consta de lo siguiente:


MetaData Server, alojado por una aplicacin de IBM WebSphere
Instancia del servidor.
Uno o ms servidores DataStage.
Una instancia de DB2 UDB que contiene la base de datos del repositorio.
Los clientes de Information Server
- Consola de administracin.
- Consola de informes.
- Clientes DataStage (Administrador, Diseador, Director).
Aplicaciones adicionales de Information Server
- Analizador de informacin.
- Glosario de Negocios.
- Rational Data Architect.
- Director del servidor de informacin.
- Servidor de federacin.

IIS - Everything on One Machine (todo e una sla maquina).

El Sistema de Gestin Facility Management de ISS juega un papel importante en las operaciones
diarias y los procesos de gestin. La entrega de FM es ms compleja que la prestacin de servicios
individuales y por lo tanto requiere de procesos de gestin y sistemas de apoyo ms rgidos.
Para que ISS cumpla nuestra visin de liderar la industria y contar con una ventaja competitiva,
tenemos un sistema de apoyo en el lugar que facilita mejores prcticas nacionales e
internacionales.
Aqu tenemos un solo dominio con las aplicaciones alojadas en una sola mquina
Las estaciones de trabajo adicionales del cliente pueden conectar con esta mquina usando tcp / ip

IIS DataStage on Separate Machine (DATASTAGE en una maquina


separada).
Aqu el dominio se divide entre dos mquinas
- Data stage server.
- Metadata server and db2 repository.

IIS MetaData Server and DB2 on Separate Machine (MetaData


Server y DB2 en una mquina separada).

Aqu el dominio est dividido entre tres mquinas

- Datastage server
- Metadata server
- Db2 repository

Arquitectura de datastage.

Clientes:

- Administrator client
- Designer client
- Director client.

-----------------------------------------------------------
parallel engine ( motor paralelo).
server engine (motor servidor)

shared repository (repositorio compartido)


User and Group Management (Gestin de usuarios y
grupos)

Las autorizaciones de la suite se pueden proporcionar al usuario o grupos.


Las autorizaciones se proporcionan en forma de funciones
- Dos tipos de roles
Roles de Suite: Aplicar a la Suite.
Funciones del componente Suite: Aplicar a un producto especfico
Roles de Suite - Administrador
Realizar tareas de administracin de usuarios y grupos.
Incluir todos los privilegios de la funcin de usuario de Suite. - Usuario
Crear vistas de tareas programadas y de mensajes registrados
Crear y ejecutar informes

Suite : es un conjunto de aplicaciones y herramientas de software incluidas en un solo paquete.

Roles de componentes de la suite


- Etapa de Datos
Usuario de DataStage
Los permisos se asignan dentro de DataStage
Desarrollador, Gerente
Operador
Super operador
Produccin
Administrador de DataStage
- Permisos completos para trabajar en DataStage Administrator, Designer y Director.
- Y as sucesivamente, para todos los productos de la Suite.

Creating a DataStage User ID


Creacin de un ID de usuario de DataStage

Despuesde esto se asignan los roles segn se configure en el software.

Usuarios dados Administrador de DataStage o usuario de DataStage

Funciones del producto en la consola de administracin de


Automticamente recibir las credenciales de DataStage.

Los usuarios con funciones de administrador de DataStage deben asignarse a un usuario vlido en la
mquina del servidor de DataStage.

Este usuario de DataStage debe tener permiso de acceso a archivos para los archivos del motor / proyecto de
DataStage o derechos de administrador en el sistema operativo.

Los usuarios con funciones de usuario de DataStage deben asignarse a un usuario vlido en la mquina del
servidor DataStage y necesitan permisos adicionales de DataStage asignados (desarrollador u operador ...).
La definicin ms concreta de los metadatos es datos acerca de los datos y sirven para
suministrar informacin sobre los datos producidos. Losmetadatos consisten en informacin que
caracteriza datos, describen el contenido, calidad, condiciones, historia, disponibilidad y otras
caractersticas de los datos.

DataStage Administrator

Dapositiva 34.

Environment Scoping (evaluacin ambiental)

APT Las variables ambientales son importantes en DS EE


Valores predeterminados de entorno establecidos en la instalacin para todos los usuarios
- El administrador puede anular la configuracin del usuario, de los proyectos
- Diseador puede anular en "Propiedades del trabajo" por base de trabajo
- Director puede anular propiedades de trabajo de una ejecucin a la siguiente, sin recompilar. Muy
prctico para seleccionar en el nivel de base de ejecucin
paralelismo Informes
Depuracin

Designer (configuracin de editor)


Utilice el Diseador para
Crear / Editar / Revisar
Archivos de configuracin
Los archivos de configuracin se guardan en la ruta del directorio de DataStage Server

Parameters sets

Almacenar una coleccin de parmetros e n objeto con nomre

Uno o mas archivos pueden ser Nombrados especificadamente }

Un archivo de valores almacena valores para los parmetros especificados.


- Los valores se recogen en tiempo de ejecucin

Parmetros Los conjuntos se pueden agregar a los parmetros de trabajo especificados en


La ficha Parmetros en propierties de trabajo.

Designer Work Area (rea de trabajo del dseador)


Compuesta por

Toolbar (barra de herramientas)


Repositorio
Canvas
Palette (paleta )
Men.
Funciones del repositorio
Tipo
Etc).
Creacin hace).
ltima modificacin
Donde usado
(Por ejemplo, un trabajo que utiliza
Dependencias de objetos

Tipo de objeto (job, Definicin de tabla).

Rango de fechas (por ejemplo, hasta una semana


Rango de fechas.
Objetos que utilizan objetos especificados Especificacin de tabla
(Por ejemplo, una definicin de tabla que se hace referencia en un trabajo especificado).
Opciones
Sensibilidad de la caja.

---------------------------------------------------------------------------------------------

Crear un administrador y un usuario de DataStage


Administrar datastage

Dia 2

Tradicional proecsaminto por lote

Transformar(disco) ----- limpieza (disco)------ cargar(una parte en disco entra sale al


target) -------- (target)

Data Pipelining

Pipelining de datos
Los procesos de transformacin, limpieza y carga se ejecutan simultneamente en el mismo procesador
Los registros avanzan a travs del flujo

Data Partitioning (Particionamiento de datos)

Divide grandes datos en particiones

Ejecutar una particin en cada procesador

4 veces ms rpido en 4 procesadores -


100 veces ms rpido en 100 procesadores

Esto es exactamente como el paralelo


Bases de datos de trabajo!

Putting It All Together: Parallel Dataflow

Ponerlo todo junto: flujo de datos paralelo


Putting It All Together:
Parallel Dataflow with Repartioning

Poniendolo todo junto:


Flujo de datos paralelo con la reparacin

CUSTOM

CUSTOMER LAST NAME : NOMBRE DEL CLIENTE

CUSTOMERZIP CODE : CODIGO ZIP (POSTAL) DEL CLIENTE

NUMERO DE TARJETA DE CREDITO

TARGET (OBJETIVO): DATA WAREHOUSE.

TRES TIPOS DE PARALELISMO

Paralelismo explcito

Implcito PIPELINE "paralelismo"

Paralelismo implcito de particin de datos.


LOOKUP : BUSCAR
SAMPLE : MUESTRA
CONSTRAINT : RESTRICCION
SORT: ORDENAR.
Partitioning and Collecting Data
Particin y recoleccin de datos

Para distribuir filas entre nodos, Enterprise Edition emplea un


Mtodo por defecto efectivo. El usuario puede anular el valor predeterminado con una seleccin de mtodos
alternativos. ((Partitioning))

Lo mismo se aplica a los programas que requieren agrupar las filas

En una corriente secuencial. (Collecting)


El particionamiento rompe el conjunto de datos en segmentos ms pequeos, lo que Entonces ser
procesado independientemente por cada nodo. Cada nodo ejecuta, en paralelo con otros nodos, su
propia instanciacin de las etapas.

La recopilacin devuelve las particiones de datos a una secuencia secuencial.

Para obtener los mejores resultados de escalabilidad y rendimiento, evite los colectores

METODS ED PARTICIONAMIENTO

AUTO - Enterprise Edition decide (predeterminado).


SAME-El particionamiento existente no se altera.
ROUND ROBIN - Las filas se alternan entre las particiones.
ENTIRE - Cada particin obtiene el conjunto de datos completo.
RANDOM - Filas asignadas al azar a las particiones.
HASH - Las filas con los mismos valores de columna clave van a la misma particin.
RANGE - Similar al hash, pero la asignacin de particiones es Determinado por el usuario y las particiones se
ordenan
MODULUS - Asigna cada fila de un dataset de entrada a una Particin, segn lo determinado por
unaColumna de clave numrica en el conjunto de datos de entrada
DB2 - Usa el algoritmo de hashing interno de DB2.

Same Conserva "cuidadosamente Particionado ".Rpido. No mueve datos entre nodos.

Round robin :Las filas se distribuyen uniformemente

ENTIRE : Cada particin obtiene una copia completa de los datos


tablas de bsqueda , til para distribuir

ADVERTENCIA:
Aumenta el volumen de datos

HASH :
Las filas se distribuyen segn los valores En una o ms columnas de clave definidas por el usuario.
Las filas con valores idnticos en columnas clave terminan en el mismo
dividir.
Evita que las filas "coincidentes" (como las buscadas por el Remove Duplicados, Particiones Parte
crucial del lenguaje "hash & sort"!

Por qu Hash primero y Ordenar 2nd


Debido a que la etapa de clasificacin de EE
Opera en paralelo y clasifica los datos en cada particin, los resultados ordenados no seran tiles si
No fueron previamente hash-particionado por la clave de ordenacin

CUIDADOS HASH

Asegrese de que los campos de clave toman suficientes valores para distribuir
Datos a travs de las particiones disponibles.
(Es decir, "gnero" sera una mala eleccin de la clave ...)
Algunas claves pueden producir una distribucin sesgada.
No vuelva a repartirla accidentalmente.
No confunda la particin hash con los archivos hash del lado del servidor,
No se relacionan.

RANGE Los registros se distribuyen segn los valores


Uno o ms campos clave, utilizando un mapa de rangos

Un refinamiento caro de Hash, que requiere dos pases


Sobre datos

Una particin dada contendr slo filas con valores de clave


Dentro de un cierto rango

Debe ejecutar primero el escenario "Escriba el mapa del rango". Sin embargo, Una vez creado, el
mapa de la gama es reutilizable!

Advertencia! Si los datos entrantes se ordenan en clave, se produce un procesamiento secuencial

Tips for Optimal Parallel Processing

Elija un mtodo de particin que cree un gran nmero de Particiones


El mtodo de particin debe crear particiones de tamao aproximadamente uniforme

El mtodo de particin debe coincidir con la accin de la etapa.

Collector