Está en la página 1de 24

AA5-Ev1-VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

EDISSON GALÍNDEZ BERMÚDEZ


NOHORA ESTHER MALAGÓN SÁENZ
MIGUEL ÁNGEL RAMÍREZ SEVERICHE

SERVICIO NACIONAL DE APRENDIZAJE - SENA


CENTRO DE SERVICIOS Y GESTIÓN EMPRESARIAL
2019
AA5-Ev1-VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

EDISSON GALÍNDEZ BERMÚDEZ


NOHORA ESTHER MALAGÓN SÁENZ
MIGUEL ÁNGEL RAMÍREZ SEVERICHE

Presentado a:
Ing. DIANA MARÍA DE JESÚS RICO MESA

SERVICIO NACIONAL DE APRENDIZAJE - SENA


CENTRO DE SERVICIOS Y GESTIÓN EMPRESARIAL
2019
4

Contenido

pág.

Introducción ................................................................................................................................. 5
1. Objetivos.................................................................................................................................. 6
1.1 Objetivo general .................................................................................................................... 6
1.2 Objetivos específicos ............................................................................................................. 6
2. Qué es ETCL y cuál es su función .......................................................................................... 7
2.1 Concepto de ETL ................................................................................................................... 7
2.2 Funciones del ETL ................................................................................................................ 7
2.3 Comparación de las diferentes técnicas de migración de datos............................................. 8
2.4 Qué se debe tener en cuenta para la elección del software de ETL..................................... 10
2.5 Características proceso de migración .................................................................................. 11
2.6 Herramientas ETL ............................................................................................................... 13
2.6.1 Informática PowerCenter .................................................................................................. 15
2.6.2 IBM Cognos Data Manager .............................................................................................. 16
2.6.3 Oracle Data Integrator (ODI) ........................................................................................... 17
2.6.4 SQL Server Servicios de integración................................................................................ 19
2.7 Aplicación de uso libre ........................................................................................................ 19
Referencias bibliográficas ......................................................................................................... 23
5

Introducción

Las bases de datos en las organizaciones en la actualidad requieren que la tecnología que se
implemente este acorde a las necesidades del negocio. Por eso es necesario tener plataformas,
programas y aplicaciones que se articulen entre sí para poder gestionar de forma adecuada la
información que es un activo importante, lo que permite tener mayor seguridad en la
conservación de los datos y poder gestionar la base de datos adecuadamente en la organización
con el objetivo obtener eficacia y eficiencia permitiendo una mayor rapidez en sus procesos con
mayor agilidad en un mundo competitivo.
Lo que también se busca con estas nuevas tecnologías en poder aplicarlas en los planes y
estrategias para poder conservar los datos en caso de catástrofes ya seas por fenómenos naturales
o desatares humanos, este proceso es la migración de datos que en la actualidad en muy común
en las organizaciones y cada vez más utilizado aplicando diferentes métodos y procesos para
tomar estos datos alojados en una espacio centralizado de almacenamiento y trasladarlo a otro
con mayor eficacia y seguridad para la conservación de la información. Lo que se describe en
este documento a continuación son las diferentes técnicas de migración y herramientas ETCL.
6

1. Objetivos

1.1 Objetivo general


Validar las técnicas de migración y herramientas ETCL (extracción, transformación,
limpieza y carga de datos).

1.2 Objetivos específicos


- Identificar los requerimientos para la utilización de cada técnica de migración
- Mostrar las ventajas de la utilización de las técnicas o herramientas
- Mostrar las desventajas de la utilización de las técnicas o herramientas.
- Identificar los tiempos y facilidad de uso de cada técnica
- Describir al menos 2 herramientas ETCL
- Describir las herramientas de propietario y de software propietario
7

2. Qué es ETCL y cuál es su función

Las siglas en ingles Extract, Transform, Cleaning and Load) agrupa un conjunto de
concepciones, técnicas y subprocesos que se encargan de llevar a cabo las tareas relacionadas
con la obtención, depuración, manipulación y actualización del almacén de datos en función de
los requerimientos informacionales para ulteriormente derivarla información necesaria.
El proceso ETCL implementado está compuesto por tres paquetes principales que tienen a
cargo el procesamiento de las dimensiones, los hechos comerciales y los hechos contables. Estos
paquetes son ejecutados de forma periódica desde el paquete central, de modo que se actualice
el repositorio de datos a partir del estado resultante de la ejecución anterior.

2.1 Concepto de ETL


ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load).
Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para
analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas heredados
(aplicaciones antiguas existentes en las organizaciones que se han de integrar con los nuevos
aplicativos, por ejemplo, ERP´s. La tecnología utilizada en dichas aplicaciones puede hacer
difícil la integración con los nuevos programas).

2.2 Funciones del ETL


- Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado
en el descubrimiento de procesos no documentados, minimizando el margen de error y
permitiendo mayor flexibilidad.
- Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y
recursos humanos existentes.
- Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes, integrando
la extracción, transformación y carga para la construcción del Data Warehouse corporativo
y de los Data Marts.
- Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las
reglas de consolidación.
8

- Acceso a una gran variedad de fuentes de datos diferentes.


- Manejo de excepciones.
- Planificación, logs, interfaces a schedulers de terceros, que nos permitirán llevan una gestión
de la planificación de todos los procesos necesarios para la carga del DW.
- Interfaz independiente de hardware.
- Soporte en la explotación del Data Warehouse.

2.3 Comparación de las diferentes técnicas de migración de datos


Existen técnicas utilizadas en procesos de migración, los cuales consisten en hacer que dos
bases de datos sean equivalentes en el mismo tiempo.
Algunas de estas técnicas son:
Requerimientos técnicos
Técnica Ventajas Desventajas Facilidad para la limpieza
para su utilización
Sincronización de Para cada tabla que se debe Al estar en diferentes Una columna de identidad La limpieza de datos puede
bases de datos sincronizar debe contener una servidores se asegura que los que no es una columna con detectar y solucionar los
columna de clave principal datos estén disponibles si se una clave principal, no se problemas no resueltos
copia de datos y metadatos presentara algún fallo natural puede usar en las tablas que durante la integración.
destino mediante una o humano. deben sincronizarse.
herramienta tecnológica, en El tipo de datos datetime no
la cual se configuran los Al estar en multiplex se puede utilizar para una
sistemas de gestión de bases servidores los datos hace que clave principal.
de datos con bases de datos al ser consultados se Las tablas máximas en un
origen y destino congestionen grupo de sincronización son
parametrizando la ubicación de 500.
de particiones y método de Las columnas máximas que
seguridad una tabla puede tener en un
grupo de sincronización son
de 1000.
El intervalo mínimo de
sincronización es de por lo
menos 5 minutos.
La sincronización de datos
SQL no admite la
autenticación de Active
Directory de Azure.
Importación/Exp Tener en cuando las tablas de El formato CSV considera No siempre los formatos de La limpieza de datos puede
ortación Archivos la base de datos de destino uno de los formatos de exportación de información detectar y solucionar los
(CSV) o XML está configurada para exportación más sencillos bibliográfica responden a problemas no resueltos
formatos UTF-8 Unicode. Es que se hayan diseñado nunca. estos esquemas que la lógica durante la integración
necesario que los datos CSV permite representar impone. Es el caso del
tengan características de todos los datos en forma de formato ISO2709 (ormato
codificación para que puedan tabla, de forma que se adapta UNIMARC) ya que emplea
ser identificadas por completo a toda la delimitadores iniciales
correctamente y evitar una casuística de tipologías de diferentes a los delimitadores
transformación inadecuada bases de datos y finales. Por tanto en dicho
de los caracteres especiales. especificaciones de cada caso si bien se cumple lo
La migración de datos, campo, con independencia de propuesto en el presente
depende completamente de la su naturaleza, ya sea esquema, también es verdad,
manera en que representar la numérico, fecha, texto, etc. que está pensado para que la
información. La delimitación El formato CSV no requiere delimitación sea analizada de
de los datos y los campos de de un set de caracteres forma recursiva en función a
9

información son conceptos concretos, por lo que tiene las etiquetas que el PARSER
cruciales, de cara a facilitar la
una gran interoperabilidad en tenga definidas como
importación/exportación de diferentes aplicaciones. variables permitidas.
un catálogo bibliográfico de El formato XML es uno de
un sistema de gestión de los mejores para la
bibliotecas a otro, incluso exportación de la
para sistemas de gestión de información de un catálogo
archivos que utilicen otros bibliográfico. Destaca
modelos de descripción no fundamentalmente por ser
basados inicialmente en el completamente adaptable a
bibliográfico. cualquier esquema de datos
Los delimitadores como su por complejo que pueda
propio nombre indica, son resultar. De esta forma se
marcas que permiten puede definir por completo
identificar los segmentos de las características de cada
datos o contenidos de un uno de los campos de
determinado registro. descripción de un catálogo
automatizado según las
normas o reglas de
catalogación establecidas.
XML, al establecer etiquetas
de inicio y cierre de los
contenidos, permite definir
de forma muy sencilla el
nombre de los campos, sus
atributos y valores.
Sentencias de Los procesos se orientan al El DML se clasifica La limpieza de datos puede
lenguaje de uso de las sentencias DML, Lenguajes de consulta detectar y solucionar los
manipulación de para realizar el paso de datos procedimentales: En este tipo problemas no resueltos
datos (DML) de la base de datos de origen de lenguaje el usuario da durante la integración
a la base de datos destino, a instrucciones al sistema para
través de los entornos que realice una serie de
administrativos de los SMBD procedimientos u operaciones
en la base de datos para
calcular un resultado final.
Lenguajes de consulta no
procedimentales: El usuario
describe la información
deseada sin un procedimiento
específico para obtener esa
información.
Para un script en SQL se
pueden realizar los siguientes
procedimientos.
Copias de seguridad para la
creación de todos los
usuarios, grupos e inicio de
sesión y permisos.
Creación y actualización de
código para la
implementación de una base
de datos.
Creación de un entorno de
pruebas
Herramientas Se debe determinar entre Migración de datos de una El costo es muy alto en su La limpieza se realiza, si es
ETCL todas las fuentes de datos aplicación a otra implementación. posible, en cada fuente de
(extracción, posibles cual es la más Replicación de datos para datos de origen. Si no en la
transformación, adecuada para cada uno de copias de seguridad o análisis No es muy conocido, por este tarea de transformación. La
limpieza y carga los datos requeridos de redundancia motivo son muy pocos los limpieza se efectúa en los
de datos) La obtención de los datos Procesos operativos, como la usuarios que lo manejan. Es datos incompletos, atributos
tiene dos fases. La obtención migración de datos desde un muy compleja. sin valor, falta de atributos
de los datos para la imagen CRM a un ODS (almacén de interesantes para el contexto
10

inicial y la obtención de los datos operativos) para o el valor del atributo.


datos para la actualización. potenciar o enriquecer los En las herramientas ETL se
Su clasificación de los datos datos y luego devolverlos al cuenta con diferentes etapas
es: Datos de estructura, datos CRM para la limpieza
semiestructurados y datos no Depositar los datos en un Depurar los valores: Este
esctructurados. almacén de datos para proceso localiza e identifica
ingerir, clasificar y los elementos individuales de
transformarlos en business información en las fuentes de
intelligence datos y los aísla en los
Migración de aplicaciones de ficheros destino.
infraestructuras locales a Corregir: Este proceso
cloud, cloud híbrida o corrige los valores
multicloud individuales de los atributos
Sincronización de sistemas usando algoritmos de
clave corrección y fuentes de datos
externas.
Estandarizar: Este proceso
aplica rutinas de conversión
para transformar valores en
formatos definidos y
consistentes aplicando
procedimientos de
estandarización y definidos
por las reglas del negocio.
Relacionar: Este proceso
busca y relaciona los valores
de los registros,
corrigiéndolos y
estandarizándolos, basándose
en reglas de negocio para
eliminar duplicados.

2.4 Qué se debe tener en cuenta para la elección del software de ETL
Es necesario que al adquirir una herramienta para la migración de datos ETL la organización
deben realizar un diagnóstico con las características necesarias aunque esto sea para un proyecto
micro o macro, entre las cuales se debe tener en cuenta las siguientes.
- Debería poder leer y escribir a partir del abanico completo de fuentes de datos que necesite,
estén ubicadas en cloud o localmente.
- Debería poder realizar procesos de transformación de datos, como ordenar, filtrar y agregar.
- Debería contener capacidades de calidad y gobernanza de datos integrados, como
eliminación de duplicados, correspondencias y perfiles de datos.
- Debería incluir herramientas de colaboración. Con ello resultará más fácil reutilizar
elementos de desarrollo anteriores y los flujos de integración de datos resultantes pueden ser
más eficientes. Una única tarea puede alimentar varios destinos en lugar de tener una serie de
flujos de integración de datos haciendo prácticamente lo mismo sin parar.
11

- Con el cambio a los sistemas cloud, la capacidad de adaptarse a procesos CI/CD es una
necesidad.
- Su herramienta de ETL debería poder operar en cualquier entorno, en infraestructuras locales,
cloud o híbridas.
- Una herramienta de ETL debería poder adaptarse a nuevos proveedores sin problemas. Es
importante disponer de una herramienta de ETL que funcione en un entorno multicloud y sepa
adaptarse a nuevos proveedores y entornos de despliegue modificando simplemente algunos
componentes, pero conservando la lógica del negocio y de la transformación.
- Una herramienta de ETL debería funcionar correctamente con las últimas innovaciones y
adaptarse fácilmente a nuevas tecnologías. Las buenas herramientas de ETL podrán integrarse
con tecnologías serverless, Spark, Snowflake, machine learning, etc., y adaptarse rápidamente
a nuevas tecnologías que aún no conocemos.
- La escalabilidad es muy importante al elegir herramientas. Es tentador fijarse en un
proveedor de herramientas capaz sencillamente de manejar procesos simples: son baratos y
fáciles de usar. Sin embargo, no son aptas para redimensionarse; están destinadas a la escala que
la máquina soporte, así que tendrá que plantearse cuánta RAM o cuántas CPU puede que se vea
obligado a utilizar. Esto significa que, a medida que su empresa crezca, estará fijando un límite
artificial para el crecimiento de su operativa de analíticas, lo que en este entorno comercial
hipercompetitivo puede suponer una desventaja para usted. También cuesta más colaborar y
volver a utilizar elementos de un proyecto otro, lo que significa que muchas veces los proyectos
de ETL tendrán que empezar de cero, cosa que consume tiempo y recursos.
- La portabilidad es una capacidad importante de las herramientas de ETL, pero que muchas
veces se pasa por alto.

2.5 Características proceso de migración


Procedimientos ETCL (extracción, transformación, limpieza y carga)

Proceso de extracción
El proceso ETL consiste en extraer los datos desde el sistema de origen. Esta fase consta de
tres pasos:
- Análisis previo de las necesidades: normalmente, hay una primera etapa de análisis donde
12

se evalúan las necesidades concretas de la organización en cuanto a movimiento y


transformación de datos. Por lo general, no se comienza extrayendo toda la información, sino
que se empieza con el tratamiento de unos datos concretos según una necesidad puntual y luego
se realizan ampliaciones a medida que se van necesitando.
- Identificación de archivos: antes de extraer los datos, se identifica de qué tipo son y en qué
formato se encuentran los sistemas fuente. Por ejemplo, si se trata de bases de datos relacionales
o no relacionales, archivos planos, archivos complejos, archivos VSAM, WebServices,
MainFrame, archivos en Excel, etc. Lo habitual es que los datos de los sistemas de origen
provengan de formatos distintos, que tendrán que ser fusionados.
- Extracción de los datos: en función de las necesidades detectadas, se procede a la extracción
en sí de dichos datos.

Proceso de transformación
La fase de transformación de ETL es donde se produce la operación más crítica. El resultado
más destacado de la transformación pasa por aplicar las normas necesarias del negocio a los
datos para cumplir con los requisitos de notificación. La transformación modifica los datos en
bruto para que presenten los formatos de notificación correctos. Si los datos no se limpian,
resulta más complicado aplicar las normas comerciales de notificación.
La transformación se efectúa mediante una serie de normas y reglamentos que se esbozan.
Estos son algunos de los estándares que garantizan la calidad de datos y su accesibilidad durante
esta fase:
- Normalización: definir qué datos entrarán en juego, cómo se formatearán y almacenarán, y
otras consideraciones básicas que definirán las etapas sucesivas.
- Eliminación de duplicados: notificar los duplicados a los administradores de datos;
excluyendo y/o eliminando los datos redundantes.
- Verificación: ejecutar comprobaciones automatizadas para cotejar información similar, como
tiempos de transacción o registros de acceso. Las tareas de verificación permiten seguir cribando
los datos no utilizables y pueden alertar sobre anomalías en sus sistemas, aplicaciones o datos.
- Clasificación: maximizar la eficiencia de los almacenes de datos agrupando y clasificando
elementos como los datos en bruto, audios, archivos multimedia y otros objetos en categorías.
Las normas de transformación determinarán cómo se clasifica cada dato y dónde se trasladará a
13

continuación. A menudo el proceso de ETL se emplea para crear tablas de agregación a efectos
de informes resumidos. Para ello debemos clasificar y, posteriormente, agregar.
- Las demás tareas las define usted y las configura para que se ejecuten automáticamente.

Proceso de carga
Son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización,
este proceso puede abarcar una amplia variedad de acciones diferentes. Por ejemplo, en algunas
bases de datos será necesario sobreescribir la información antigua con nuevos datos mientras
que en otras, bastaría con resumir las transacciones y almacenar un promedio de la magnitud
considerada.
Los data warehouse mantienen un historial de los registros, de manera que es posible en todo
momento hacer una auditoría de los mismos. Esto permite disponer de un rastro de toda la
historia de un valor a lo largo del tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:
- Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de todas
las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado
como una única transacción hacia el data warehouse, almacenando un valor calculado que
consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. Es la forma
más sencilla y común de llevar a cabo el proceso de carga.
- Rolling: este proceso sería el más recomendable en los casos en que se busque mantener
varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos
en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios,
totales semanales, totales mensuales, etc.).

2.6 Herramientas ETL


En el mercado se encuentran diferentes herramientas ETL y cada una de ellas con
características específicas, y de igual manera esta se dividen por categorías como son:
- Herramientas ETL Enterprise: se trata de productos propietarios, con muchas
funcionalidades incluidas y soporte para conexión con una gran cantidad de fuentes y suelen ser
elegidas por grandes empresas ya que el coste de adquisición es elevado.
14

- Herramientas ETL open source: Se trata de herramientas de código libre y de uso gratuito,
lo que permite una mayor accesibilidad para empresas de tamaño reducido. Al ser productos
con un enfoque general, es necesaria a menudo una personalización para que se adapten a
objetivos concretos, lo que requiere consultoría especializada.
- Herramientas ETL personalizadas: se trata de herramientas desarrolladas a medida y de
forma específica para una empresa o proyecto en concreto. Requieren un grande esfuerzo inicial
de desarrollo, pero el resultado se ajusta mejor a los requerimientos.
- Herramientas ETL cloud: la nube nos puede proporcionar todas sus ventajas como una alta
flexibilidad y el pago por uso a la hora de elegir herramientas ETL que se ofrecen como servicio.
Dentro del mercado se encuentran varias herramientas entre las cuales están las siguientes:
- Ab Initio
- Benetl
- BITool – ETL Software
- CloverETL
- Cognos Decisionstream (IBM)
- IBM Cognos Data Manager
- Data Integrator (herramienta de Sap Business Objects)
- ETI*Extract (ahora llamada Eti Solution)
- IBM Websphere DataStage (antes Ascential DataStage)
- Microsoft Integration Services
- Oracle Warehouse Builder
- WebFocus-iWay DataMigrator Server
- Pervasive
- Informática PowerCenter
- Oracle Data Integrator (ODI)?
- Oxio Data Intelligence ETL full web
- SmartDB Workbench
- Sunopsis (Oracle)
- SAS Dataflux
- Sybase
- Syncsort: DMExpress.
15

- Opentext (antes Genio, Hummingbird).


Se hace el análisis de algunas herramientas más utilizadas en el proceso de migración de
datos y que son líderes en el mercado.

2.6.1 Informática PowerCenter


PowerCenter sigue las metodologías de desarrollo basadas en componentes al permitir
construir un flujo de datos desde una fuente al destino, utilizando diferentes componentes
(llamados transformaciones) y vinculándolos entre sí según sea necesario.
La herramienta Informática PowerCenter consta de 2 componentes que son:
- Componente del cliente
- Componente del servidor

Descripción general de la arquitectura de informática


El componente de cliente de Informática se compone de 5 componentes como son:
- Informatica Repository Manager: administra repositorios (como son las ventanas de
Navegador, principal y salida).
- Informatica PowerCenter Designer: cliente donde especifica cómo mover los datos entre
varias fuentes y destinos.
- Informatica Workflow Manager: es un conjunto ordenado de una o más sesiones y otras
tareas, diseñado para lograr un propósito operativo general.
16

- Informatica Workflow Monitor: se usa para monitorear la ejecución de flujos de trabajo y


tareas.
- Informatica Administrator Console: es la herramienta de administración para administrar el
dominio de Informática y la seguridad de Informática, realizando las siguientes tareas de
domino: Gestión de servicios de aplicaciones, Configuración de nodos, Gestión de objetos de
dominio, Visualización y edición de propiedades de objetos de dominio, Tareas administrativas
de seguridad, Visualización de eventos de registro.

Componentes del servidor de Informática PowerCenter


Los componentes del servidor PowerCenter se componen de los siguientes servicios:
- Servicio de repositorio: el servicio de repositorio gestiona el repositorio. Recupera, inserta y
actualiza metadatos en las tablas de la base de datos del repositorio.
- Servicio de integración: el servicio de integración ejecuta sesiones y flujos de trabajo.
- Servicio SAP BW: el servicio SAP BW busca solicitudes RFC de SAP BW e inicia flujos de
trabajo para extraer datos o cargar datos en el SAP BW.
- Centro de servicios web: el centro de servicios web recibe solicitudes de clientes de servicios
web y expone los flujos de trabajo de PowerCenter como servicios.

2.6.2 IBM Cognos Data Manager


Proporciona la suite de soluciones InfoSphere, en la cual destaca su herramienta DataStage.
Esta herramienta idónea para ejecutar cualquier operación de extracción, transformación y carga
de datos. Algunas de sus características más relevantes son:
- Soporta el análisis de alto rendimiento de datos relacionales mediante la creación de tablas
agregadas en múltiples niveles. Lo hace dentro y a través de las jerarquías en las tablas de
dimensiones.
- Ofrece soporte en distintos idiomas.
- Ayuda a construir rápidamente una plataforma global de integración de datos.
- Automatiza distintos procesos asociados a la creación y gestión de las tablas de dimensiones
del almacén, todo ello sin necesidad de codificación manual.
- Permite que diferentes desarrolladores puedan compartir información de componentes de
Cognos Data Manager.
17

Sus componentes principales son: DataStage Data Manager Engine, Data Manager Designer,
Data Movement Service y Data Manager Network Services.

Datastage
Datastage ofrece interesantes capacidades como:
- Implementa reglas de validación de datos.
- Es útil para procesar y transformar grandes cantidades de datos.
- Utiliza un enfoque de procesamiento paralelo escalable.
- Puede manejar transformaciones complejas y administrar múltiples procesos de integración.
- Puede conectarse a aplicaciones empresariales tanto como fuentes como destinos de datos.
- Usa metadatos para análisis y mantenimiento.
- Puede funcionar en batch, en tiempo real o como un servicio web.

Principales componentes de DataStage


En la estructura de DataStage pueden diferenciarse cuatro componentes principales:
- Gestor: se trata de la interfaz principal del repositorio de DataStage y es la que permite ver
y editar el contenido del repositorio. El DataStage Manager se utiliza para el almacenamiento y
la gestión de metadatos reutilizables.
- Administrador: se ocupa de todas las cuestiones relacionadas con la configuración, como la
de criterios de purga o la de usuarios de DataStage; así como de la creación y movimiento de
proyectos. Está dirigido a tareas administrativas.
- Diseñador: esta interfaz permite crear aplicaciones o trabajos de DataStage, que se
compilarán para crear ejecutables programados por el Director y puestos en marcha por el propio
servidor. El Diseñador de DataStage especifica el origen de datos, la transformación requerida
y el destino de los datos.
- Director: su misión es validar, programar, ejecutar y supervisar los trabajos del servidor de
DataStage, así como los trabajos que se hayan puesto en marcha en paralelo.

2.6.3 Oracle Data Integrator (ODI)


Es una plataforma de integración completa que cubre los requisitos de integración de datos.
Maneja alto volumen, provee lotes de alto desempeño a procesos dirigidos a eventos, a servicios
18

de integración basados en una arquitectura orientada a servicios y con la capacidad de procesar


eventos en tiempo real.

Oracle Data Integrator maneja múltiples necesidades empresariales referentes a la


integración de datos:
- Data Warehousing e inteligencia de negocios: tiene la capacidad de manejar grandes
volúmenes de datos con un desempeño óptimo para cargar Data Warehouse y Data Mart. Maneja
cargas incrementales, integridad de datos, reglas de negocio y consistencia
- Arquitectura orientada a servicios: provee la funcionalidad de invocar servicios externos
para propósitos de integración e implementar servicios de integración y transformación
integrados a una arquitectura orientada a servicios.
- Master Data Management: es una combinación de aplicaciones y tecnologías que
consolidan, limpian, mejora los datos maestros de la empresa y los sincroniza con aplicaciones,
procesos de negocio y herramientas analíticas como Oracle BIEE+. • Migración – Provee cargas
masivas eficientemente de datos históricos, incluyendo transformaciones complejas de sistemas
legacy a sistemas nuevos.

Capacidades funcionales
Funcionales Oracle Data integrator ofrece las siguientes capacidades funcionales:
19

- Data movement – Extraer datos y transferirlos de forma masiva


- Data syncronization - Capacidad de replicar y extraer los datos que sufrieron algún cambio
- Data quality – Limpieza de datos y a tono con las reglas de negocio
- Data management – Manejo de metadata y modelamiento de datos
- Data services - Plataforma para una implementación SOA para cubrir el gap entre los
procesos de negocio y la infraestructura de aplicaciones.

2.6.4 SQL Server Servicios de integración


Microsoft Integration Services es una plataforma para crear soluciones de integración y
transformación de datos a nivel empresarial. Use Integration Services para resolver problemas
comerciales complejos copiando o descargando archivos, cargando almacenes de datos,
limpiando y minando datos, y administrando objetos y datos de SQL Server.
Integration Services puede extraer y transformar datos de una amplia variedad de fuentes,
como archivos de datos XML, archivos planos y fuentes de datos relacionales, y luego cargar
los datos en uno o más destinos.
Integration Services incluye un amplio conjunto de tareas y transformaciones integradas,
herramientas gráficas para crear paquetes y la base de datos del Catálogo de Integration
Services, donde almacena, ejecuta y administra paquetes.
Puede usar las herramientas gráficas de Integration Services para crear soluciones sin escribir
una sola línea de código. También puede programar el extenso modelo de objetos de Integration
Services para crear paquetes mediante programación y codificar tareas personalizadas y otros
objetos de paquete.

2.7 Aplicación de uso libre


Las herramientas ETCL de uso libre se toma Bitool y Sql server 2008, esta última como la
herramienta que se está utilizando en la especializacion.

Bitool
Caracteristicas generales Interfaz
- Es una herramienta Independiente de la Base de Datos.
- Puede ser usada en múltiples tipos de proyectos informáticos.
- No necesita saber programar para realizar completos proyectos
de carga.
20

- Permite programar tareas complejas en procesos: Diarios,


Semanales, Mensuales, etc.
- Permite Recursividad entre proyectos, llamadas a procesos y
llamas a sistemas o aplicaciones externos de otros proveedores
(DTS, Oracle, Etc.) sin perder su capacidad de WorkFlow.
- Permite realizar complejos escenarios de WorkFlow con
intervención de los usuarios.
- Es 100% visual. amigable e intuitivo que reduce notablemente
la curva de aprendizaje.
- Emplea tecnología “Drag & Drop” para crear poderosos
proyectos de carga, no necesita introducir ninguna línea de
código.
- Permite conectarse a cualquier motor de Base de Datos sin
importar su ubicación (Internet, Red LAN, Red WAN, etc) ni
versión de la BD.
- Conserva la Inversión: Permite reutilizar clases y proyectos.
- Fácil Administración de Proyectos. BiTool Permite mantener
ordenado las carpetas de proyectos.
- Fácil conexión a Base de Datos. Permite conectarse a cualquier
motor de base de datos, entre los que también incluyen archivos
de texto y hojas de cálculo.
- Uso de Constantes Globales
- Manejo de Variables Locales
- Opciones de Notificación. BiTool cuenta con varios objetos de
conexión, siendo los más importantes: Notificación en pantalla y
Notificación por e-Mail.
- Permite Recursividad.
- Ejecuta varias tareas en simultáneo.

sql server standard 2008


Técnica Sincronización Base de datos: Se refiere al proceso de propagación de los cambios en los
datos y el esquema entre el publicador y los suscriptores después de haber aplicado la instantánea
inicial en el suscriptor. La sincronización puede producirse:
- De forma continua, lo que es típico de la replicación transaccional.
- A petición, lo que es típico de la replicación de mezcla.
- Según una programación, lo que es típico de la replicación de instantáneas.
Características generales
Requerimientos técnicos Ventajas Desventajas
- Requisitos de Software - Soporte de transacciones. - Utiliza mucho la memoria RAM
- SQL Server stander - Escalabilidad, estabilidad y para las instalaciones y
- .NET Framework 3.5 SP1 seguridad. utilización de software.
- SQL Server Native Client - Soporta procedimientos - No se puede utilizar como
- SQL Server Setup Support almacenados. practicas porque se prohíben
Files - Incluye también un potente muchas cosas, tiene restricciones
- .NET Framework 2.0 SP2 entorno gráfico de en lo particular.
(para SQL Server Express y administración, que permite - La relación, calidad y el precio
21

SQL Server 2008 R2 sobre el uso de comandos DDL y está muy debajo comparado con
Windows Server 2003 (64 DML gráficamente. oracle.
bits) IA64). - Permite trabajar en modo - Tiene muchos bloqueos a nivel de
- Microsoft Windows cliente-servidor, donde la página, un tamaño de página fijo
Installer 4.5 o superior información y datos se alojan y demasiado pequeño, una
- Internet Explorer 6 SP1 o en el servidor y las pésima implementación de los
superior. Es requerido por terminales o clientes de la red tipos de datos variables.
la consola SQL Server sólo acceden a la
Management Estudio, información.
Business Intelligence - Mirroring de Bases de Datos
Development Studio, - Operaciones de Indexación
Report Designer y ayuda Online
HTML. - Particionado de Datos
- Soporte para .NET
Framework
- Mejoras en Transact-SQL
- Gestor de Servicio SQL
- Servicios de Transformación
de Datos (DTS)
- Servicios de Reporting
- Soporte de Servicios de
Análisis en Cluste

Software propietario

PowerCenter
Es una plataforma de integración de datos que convierte los datos sin procesar en información útil para
los análisis. Permite escalabilidad para admitir grandes volúmenes de datos con orígenes diferentes,
migración de datos y Data Warehousing empresarial. Promueve la automatización, la reutilización y la
agilidad.
Caracteristicas Generales Costo
La herramienta Informática PowerCenter consta de 2
componentes. Que son:
- Componente del cliente consta de 5 componentes
* Informatica Repository
* Informatica PowerCenter Designer.
* Informatica Workflow Manager. Herramienta con mayores funcionalidades
* Informatica Workflow Monitor. y costo promedio de U$S 350.000 por
* Informatica Administrator Console. licencia.
- Componente del servidor consta de 5 servicios
* Servicio de repositorio.
* Servicio de integración.
* Servicio SAP BW.
* Centro de servicios web.
Colaboración entre negocio y TI: Se facilita al negocio el
autoservicio y se permite distribuir datos oportunos y fiables
22

al negocio.
Reutilización, automatización y facilidad de uso: Se facilita
el uso de transformaciones pre-integradas, libres de código
y de manera gráfica.
Escalabilidad, rendimiento e inactividad del sistema nula:
Da soporte para grid computing, procesamiento distribuido,
alta disponibilidad, balanceo de carga adaptable,
particionado dinámico y optimización pushdow.
Supervisión operacional y de gobierno: Permite el control de
la producción mediante codificación con alertas para evitar
un costoso control de daños posterior.
Datos en tiempo real para las aplicaciones y el análisis:
Ofrece datos precisos para conseguir una eficacia operativa,
análisis de nueva generación y aplicaciones centradas en el
cliente.
Creación de prototipos, validación y perfilado rápidos:
Permite crear prototipos de manera rápida y validar los
resultados de manera ágil e iterativa.
Conectividad universal: Integración de datos desde todo tipo
de fuentes origen mediante conectores de alto rendimiento.
Pruebas de validación de datos automatizadas: Auditoría y
validación de datos repetible y automatizada en los entornos
de desarrollo, pruebas y producción.
Transformación avanzada de datos: Permite análisis
exhaustivo de datos en formatos XML, JSON, PDF,
Microsoft Office y el Internet de las Cosas.
23

Referencias bibliográficas

ARSON Group. (s.f.). Bitool - Data Integrator. Recuperado el 28 de agosto de 2019, de


http://www.arsongroup.com/web/productos/bitool/
Blázquez, M. (2014). Automatización de unidades de información. Recuperado el 22 de agosto
de 2019, de http://ccdoc-automatizacion.blogspot.com/2014/03/la-migracion-de-datos-
exportacion-e.html
Carisio, E. (s.f.a). Datastage: qué es, cómo funciona y cómo puede ayudar a tu empresa.
Recuperado el 24 de agosto de 2019, de https://blog.mdcloud.es/datastage-que-es-como-
funciona-y-como-puede-ayudar-a-tu-empresa/
Carisio, E. (s.f.b). Herramientas ETL: comparativa y principales categorías. Recuperado el 21
de agosto de 2019, de https://blog.mdcloud.es/herramientas-etl-comparativa-y-principales-
categorias/
DataPrix. (2010). Herramientas ETL. ¿Que son, para que valen? Productos más conocidos.
ETL´s Open Source. Recuperado el 25 de agosto de 2019, de
https://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-valen-
productos-mas-conocidos-etl-s-open-sour
Durán, A. G. (2017) ¿Qué es Pentaho Data Integraton (PDI)? Recuperado el 25 de agosto de
2019, de https://openwebinars.net/blog/que-es-pentaho-data-integraton-pdi/
Logicalis. (2014). Cognos Data manager: características y ventajas. Recuperado el 19 de
agosto de 2019, de https://blog.es.logicalis.com/analytics/tm1-cognos-data-manager-
caracteristicas-y-ventajas
Microsoft Docs. (2018). SQL Server Integration Services. Recuperado el 25 de agosto de 2019,
de https://docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-
services?view=sql-server-2017
Neel. (2019). Informatica tutorial: understanding informatica ‘inside out’. Recuperado el 19 de
agosto de 2019, de https://www.edureka.co/blog/informatica-tutorial
Oracle. (2009). Oracle Data Integrator. Recuperado el 21 de agosto de 2019, de
https://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/317498_esa.pdf
Pearlman, S. (2019). Herramientas de ETL: evaluación de herramientas para un ETL cloud.
Recuperado el 24 de agosto de 2019, de https://es.talend.com/resources/etl-tools/
24

PowerData. (2013). Procesos ETL: transformación ¿en qué consiste? Recuperado el 28 de


agosto de 2019, de https://blog.powerdata.es/el-valor-de-la-gestion-de-
datos/bid/312589/procesos-etl-transformaci-n-en-qu-consiste
PowerData. (2017) ¿Qué es datastage y cómo puede ayudar a tu empresa? Recuperado el 19
de agosto de 2019, de https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/que-es-
datastage-y-como-puede-ayudar-a-tu-empresa
Ramos Ortega, D. M. (s.f.). Microsoft SQL Server. Recuperado el 28 de agosto de 2019, de
https://www.monografias.com/trabajos73/microsoft-sql-server/microsoft-sql-server2.shtml
Recuperado el 21 de agosto de 2019, de https://www.redalyc.org/pdf/1814/181439409001.pdf
Torres Sánchez, M., Espinosa Cervantes, Y., Simón Cuevas, A., García Hernández, L. y Simón
Cuevas, A. J. (2015, enero-abril). Modelación tabular: una alternativa sugerente para el
análisis de los datos. Ciencias de la Información, 46(1), 3-10.
Valero, M. (2016). Introducción a PowerCenter. Recuperado el 24 de agosto de 2019, de
https://blog.bi-geek.com/power-center/
Zivkovic, M. (2019) ¿Qué es la sincronización de los datos SQL? Recuperado el 25 de agosto
de 2019, de https://www.sqlshack.com/es/que-es-la-sincronizacion-de-los-datos-sql/

También podría gustarte