Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL
AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL
AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL
Presentado a:
Ing. DIANA MARÍA DE JESÚS RICO MESA
Contenido
pág.
Introducción ................................................................................................................................. 5
1. Objetivos.................................................................................................................................. 6
1.1 Objetivo general .................................................................................................................... 6
1.2 Objetivos específicos ............................................................................................................. 6
2. Qué es ETCL y cuál es su función .......................................................................................... 7
2.1 Concepto de ETL ................................................................................................................... 7
2.2 Funciones del ETL ................................................................................................................ 7
2.3 Comparación de las diferentes técnicas de migración de datos............................................. 8
2.4 Qué se debe tener en cuenta para la elección del software de ETL..................................... 10
2.5 Características proceso de migración .................................................................................. 11
2.6 Herramientas ETL ............................................................................................................... 13
2.6.1 Informática PowerCenter .................................................................................................. 15
2.6.2 IBM Cognos Data Manager .............................................................................................. 16
2.6.3 Oracle Data Integrator (ODI) ........................................................................................... 17
2.6.4 SQL Server Servicios de integración................................................................................ 19
2.7 Aplicación de uso libre ........................................................................................................ 19
Referencias bibliográficas ......................................................................................................... 23
5
Introducción
Las bases de datos en las organizaciones en la actualidad requieren que la tecnología que se
implemente este acorde a las necesidades del negocio. Por eso es necesario tener plataformas,
programas y aplicaciones que se articulen entre sí para poder gestionar de forma adecuada la
información que es un activo importante, lo que permite tener mayor seguridad en la
conservación de los datos y poder gestionar la base de datos adecuadamente en la organización
con el objetivo obtener eficacia y eficiencia permitiendo una mayor rapidez en sus procesos con
mayor agilidad en un mundo competitivo.
Lo que también se busca con estas nuevas tecnologías en poder aplicarlas en los planes y
estrategias para poder conservar los datos en caso de catástrofes ya seas por fenómenos naturales
o desatares humanos, este proceso es la migración de datos que en la actualidad en muy común
en las organizaciones y cada vez más utilizado aplicando diferentes métodos y procesos para
tomar estos datos alojados en una espacio centralizado de almacenamiento y trasladarlo a otro
con mayor eficacia y seguridad para la conservación de la información. Lo que se describe en
este documento a continuación son las diferentes técnicas de migración y herramientas ETCL.
6
1. Objetivos
Las siglas en ingles Extract, Transform, Cleaning and Load) agrupa un conjunto de
concepciones, técnicas y subprocesos que se encargan de llevar a cabo las tareas relacionadas
con la obtención, depuración, manipulación y actualización del almacén de datos en función de
los requerimientos informacionales para ulteriormente derivarla información necesaria.
El proceso ETCL implementado está compuesto por tres paquetes principales que tienen a
cargo el procesamiento de las dimensiones, los hechos comerciales y los hechos contables. Estos
paquetes son ejecutados de forma periódica desde el paquete central, de modo que se actualice
el repositorio de datos a partir del estado resultante de la ejecución anterior.
información son conceptos concretos, por lo que tiene las etiquetas que el PARSER
cruciales, de cara a facilitar la
una gran interoperabilidad en tenga definidas como
importación/exportación de diferentes aplicaciones. variables permitidas.
un catálogo bibliográfico de El formato XML es uno de
un sistema de gestión de los mejores para la
bibliotecas a otro, incluso exportación de la
para sistemas de gestión de información de un catálogo
archivos que utilicen otros bibliográfico. Destaca
modelos de descripción no fundamentalmente por ser
basados inicialmente en el completamente adaptable a
bibliográfico. cualquier esquema de datos
Los delimitadores como su por complejo que pueda
propio nombre indica, son resultar. De esta forma se
marcas que permiten puede definir por completo
identificar los segmentos de las características de cada
datos o contenidos de un uno de los campos de
determinado registro. descripción de un catálogo
automatizado según las
normas o reglas de
catalogación establecidas.
XML, al establecer etiquetas
de inicio y cierre de los
contenidos, permite definir
de forma muy sencilla el
nombre de los campos, sus
atributos y valores.
Sentencias de Los procesos se orientan al El DML se clasifica La limpieza de datos puede
lenguaje de uso de las sentencias DML, Lenguajes de consulta detectar y solucionar los
manipulación de para realizar el paso de datos procedimentales: En este tipo problemas no resueltos
datos (DML) de la base de datos de origen de lenguaje el usuario da durante la integración
a la base de datos destino, a instrucciones al sistema para
través de los entornos que realice una serie de
administrativos de los SMBD procedimientos u operaciones
en la base de datos para
calcular un resultado final.
Lenguajes de consulta no
procedimentales: El usuario
describe la información
deseada sin un procedimiento
específico para obtener esa
información.
Para un script en SQL se
pueden realizar los siguientes
procedimientos.
Copias de seguridad para la
creación de todos los
usuarios, grupos e inicio de
sesión y permisos.
Creación y actualización de
código para la
implementación de una base
de datos.
Creación de un entorno de
pruebas
Herramientas Se debe determinar entre Migración de datos de una El costo es muy alto en su La limpieza se realiza, si es
ETCL todas las fuentes de datos aplicación a otra implementación. posible, en cada fuente de
(extracción, posibles cual es la más Replicación de datos para datos de origen. Si no en la
transformación, adecuada para cada uno de copias de seguridad o análisis No es muy conocido, por este tarea de transformación. La
limpieza y carga los datos requeridos de redundancia motivo son muy pocos los limpieza se efectúa en los
de datos) La obtención de los datos Procesos operativos, como la usuarios que lo manejan. Es datos incompletos, atributos
tiene dos fases. La obtención migración de datos desde un muy compleja. sin valor, falta de atributos
de los datos para la imagen CRM a un ODS (almacén de interesantes para el contexto
10
2.4 Qué se debe tener en cuenta para la elección del software de ETL
Es necesario que al adquirir una herramienta para la migración de datos ETL la organización
deben realizar un diagnóstico con las características necesarias aunque esto sea para un proyecto
micro o macro, entre las cuales se debe tener en cuenta las siguientes.
- Debería poder leer y escribir a partir del abanico completo de fuentes de datos que necesite,
estén ubicadas en cloud o localmente.
- Debería poder realizar procesos de transformación de datos, como ordenar, filtrar y agregar.
- Debería contener capacidades de calidad y gobernanza de datos integrados, como
eliminación de duplicados, correspondencias y perfiles de datos.
- Debería incluir herramientas de colaboración. Con ello resultará más fácil reutilizar
elementos de desarrollo anteriores y los flujos de integración de datos resultantes pueden ser
más eficientes. Una única tarea puede alimentar varios destinos en lugar de tener una serie de
flujos de integración de datos haciendo prácticamente lo mismo sin parar.
11
- Con el cambio a los sistemas cloud, la capacidad de adaptarse a procesos CI/CD es una
necesidad.
- Su herramienta de ETL debería poder operar en cualquier entorno, en infraestructuras locales,
cloud o híbridas.
- Una herramienta de ETL debería poder adaptarse a nuevos proveedores sin problemas. Es
importante disponer de una herramienta de ETL que funcione en un entorno multicloud y sepa
adaptarse a nuevos proveedores y entornos de despliegue modificando simplemente algunos
componentes, pero conservando la lógica del negocio y de la transformación.
- Una herramienta de ETL debería funcionar correctamente con las últimas innovaciones y
adaptarse fácilmente a nuevas tecnologías. Las buenas herramientas de ETL podrán integrarse
con tecnologías serverless, Spark, Snowflake, machine learning, etc., y adaptarse rápidamente
a nuevas tecnologías que aún no conocemos.
- La escalabilidad es muy importante al elegir herramientas. Es tentador fijarse en un
proveedor de herramientas capaz sencillamente de manejar procesos simples: son baratos y
fáciles de usar. Sin embargo, no son aptas para redimensionarse; están destinadas a la escala que
la máquina soporte, así que tendrá que plantearse cuánta RAM o cuántas CPU puede que se vea
obligado a utilizar. Esto significa que, a medida que su empresa crezca, estará fijando un límite
artificial para el crecimiento de su operativa de analíticas, lo que en este entorno comercial
hipercompetitivo puede suponer una desventaja para usted. También cuesta más colaborar y
volver a utilizar elementos de un proyecto otro, lo que significa que muchas veces los proyectos
de ETL tendrán que empezar de cero, cosa que consume tiempo y recursos.
- La portabilidad es una capacidad importante de las herramientas de ETL, pero que muchas
veces se pasa por alto.
Proceso de extracción
El proceso ETL consiste en extraer los datos desde el sistema de origen. Esta fase consta de
tres pasos:
- Análisis previo de las necesidades: normalmente, hay una primera etapa de análisis donde
12
Proceso de transformación
La fase de transformación de ETL es donde se produce la operación más crítica. El resultado
más destacado de la transformación pasa por aplicar las normas necesarias del negocio a los
datos para cumplir con los requisitos de notificación. La transformación modifica los datos en
bruto para que presenten los formatos de notificación correctos. Si los datos no se limpian,
resulta más complicado aplicar las normas comerciales de notificación.
La transformación se efectúa mediante una serie de normas y reglamentos que se esbozan.
Estos son algunos de los estándares que garantizan la calidad de datos y su accesibilidad durante
esta fase:
- Normalización: definir qué datos entrarán en juego, cómo se formatearán y almacenarán, y
otras consideraciones básicas que definirán las etapas sucesivas.
- Eliminación de duplicados: notificar los duplicados a los administradores de datos;
excluyendo y/o eliminando los datos redundantes.
- Verificación: ejecutar comprobaciones automatizadas para cotejar información similar, como
tiempos de transacción o registros de acceso. Las tareas de verificación permiten seguir cribando
los datos no utilizables y pueden alertar sobre anomalías en sus sistemas, aplicaciones o datos.
- Clasificación: maximizar la eficiencia de los almacenes de datos agrupando y clasificando
elementos como los datos en bruto, audios, archivos multimedia y otros objetos en categorías.
Las normas de transformación determinarán cómo se clasifica cada dato y dónde se trasladará a
13
continuación. A menudo el proceso de ETL se emplea para crear tablas de agregación a efectos
de informes resumidos. Para ello debemos clasificar y, posteriormente, agregar.
- Las demás tareas las define usted y las configura para que se ejecuten automáticamente.
Proceso de carga
Son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización,
este proceso puede abarcar una amplia variedad de acciones diferentes. Por ejemplo, en algunas
bases de datos será necesario sobreescribir la información antigua con nuevos datos mientras
que en otras, bastaría con resumir las transacciones y almacenar un promedio de la magnitud
considerada.
Los data warehouse mantienen un historial de los registros, de manera que es posible en todo
momento hacer una auditoría de los mismos. Esto permite disponer de un rastro de toda la
historia de un valor a lo largo del tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:
- Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de todas
las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado
como una única transacción hacia el data warehouse, almacenando un valor calculado que
consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. Es la forma
más sencilla y común de llevar a cabo el proceso de carga.
- Rolling: este proceso sería el más recomendable en los casos en que se busque mantener
varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos
en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios,
totales semanales, totales mensuales, etc.).
- Herramientas ETL open source: Se trata de herramientas de código libre y de uso gratuito,
lo que permite una mayor accesibilidad para empresas de tamaño reducido. Al ser productos
con un enfoque general, es necesaria a menudo una personalización para que se adapten a
objetivos concretos, lo que requiere consultoría especializada.
- Herramientas ETL personalizadas: se trata de herramientas desarrolladas a medida y de
forma específica para una empresa o proyecto en concreto. Requieren un grande esfuerzo inicial
de desarrollo, pero el resultado se ajusta mejor a los requerimientos.
- Herramientas ETL cloud: la nube nos puede proporcionar todas sus ventajas como una alta
flexibilidad y el pago por uso a la hora de elegir herramientas ETL que se ofrecen como servicio.
Dentro del mercado se encuentran varias herramientas entre las cuales están las siguientes:
- Ab Initio
- Benetl
- BITool – ETL Software
- CloverETL
- Cognos Decisionstream (IBM)
- IBM Cognos Data Manager
- Data Integrator (herramienta de Sap Business Objects)
- ETI*Extract (ahora llamada Eti Solution)
- IBM Websphere DataStage (antes Ascential DataStage)
- Microsoft Integration Services
- Oracle Warehouse Builder
- WebFocus-iWay DataMigrator Server
- Pervasive
- Informática PowerCenter
- Oracle Data Integrator (ODI)?
- Oxio Data Intelligence ETL full web
- SmartDB Workbench
- Sunopsis (Oracle)
- SAS Dataflux
- Sybase
- Syncsort: DMExpress.
15
Sus componentes principales son: DataStage Data Manager Engine, Data Manager Designer,
Data Movement Service y Data Manager Network Services.
Datastage
Datastage ofrece interesantes capacidades como:
- Implementa reglas de validación de datos.
- Es útil para procesar y transformar grandes cantidades de datos.
- Utiliza un enfoque de procesamiento paralelo escalable.
- Puede manejar transformaciones complejas y administrar múltiples procesos de integración.
- Puede conectarse a aplicaciones empresariales tanto como fuentes como destinos de datos.
- Usa metadatos para análisis y mantenimiento.
- Puede funcionar en batch, en tiempo real o como un servicio web.
Capacidades funcionales
Funcionales Oracle Data integrator ofrece las siguientes capacidades funcionales:
19
Bitool
Caracteristicas generales Interfaz
- Es una herramienta Independiente de la Base de Datos.
- Puede ser usada en múltiples tipos de proyectos informáticos.
- No necesita saber programar para realizar completos proyectos
de carga.
20
SQL Server 2008 R2 sobre el uso de comandos DDL y está muy debajo comparado con
Windows Server 2003 (64 DML gráficamente. oracle.
bits) IA64). - Permite trabajar en modo - Tiene muchos bloqueos a nivel de
- Microsoft Windows cliente-servidor, donde la página, un tamaño de página fijo
Installer 4.5 o superior información y datos se alojan y demasiado pequeño, una
- Internet Explorer 6 SP1 o en el servidor y las pésima implementación de los
superior. Es requerido por terminales o clientes de la red tipos de datos variables.
la consola SQL Server sólo acceden a la
Management Estudio, información.
Business Intelligence - Mirroring de Bases de Datos
Development Studio, - Operaciones de Indexación
Report Designer y ayuda Online
HTML. - Particionado de Datos
- Soporte para .NET
Framework
- Mejoras en Transact-SQL
- Gestor de Servicio SQL
- Servicios de Transformación
de Datos (DTS)
- Servicios de Reporting
- Soporte de Servicios de
Análisis en Cluste
Software propietario
PowerCenter
Es una plataforma de integración de datos que convierte los datos sin procesar en información útil para
los análisis. Permite escalabilidad para admitir grandes volúmenes de datos con orígenes diferentes,
migración de datos y Data Warehousing empresarial. Promueve la automatización, la reutilización y la
agilidad.
Caracteristicas Generales Costo
La herramienta Informática PowerCenter consta de 2
componentes. Que son:
- Componente del cliente consta de 5 componentes
* Informatica Repository
* Informatica PowerCenter Designer.
* Informatica Workflow Manager. Herramienta con mayores funcionalidades
* Informatica Workflow Monitor. y costo promedio de U$S 350.000 por
* Informatica Administrator Console. licencia.
- Componente del servidor consta de 5 servicios
* Servicio de repositorio.
* Servicio de integración.
* Servicio SAP BW.
* Centro de servicios web.
Colaboración entre negocio y TI: Se facilita al negocio el
autoservicio y se permite distribuir datos oportunos y fiables
22
al negocio.
Reutilización, automatización y facilidad de uso: Se facilita
el uso de transformaciones pre-integradas, libres de código
y de manera gráfica.
Escalabilidad, rendimiento e inactividad del sistema nula:
Da soporte para grid computing, procesamiento distribuido,
alta disponibilidad, balanceo de carga adaptable,
particionado dinámico y optimización pushdow.
Supervisión operacional y de gobierno: Permite el control de
la producción mediante codificación con alertas para evitar
un costoso control de daños posterior.
Datos en tiempo real para las aplicaciones y el análisis:
Ofrece datos precisos para conseguir una eficacia operativa,
análisis de nueva generación y aplicaciones centradas en el
cliente.
Creación de prototipos, validación y perfilado rápidos:
Permite crear prototipos de manera rápida y validar los
resultados de manera ágil e iterativa.
Conectividad universal: Integración de datos desde todo tipo
de fuentes origen mediante conectores de alto rendimiento.
Pruebas de validación de datos automatizadas: Auditoría y
validación de datos repetible y automatizada en los entornos
de desarrollo, pruebas y producción.
Transformación avanzada de datos: Permite análisis
exhaustivo de datos en formatos XML, JSON, PDF,
Microsoft Office y el Internet de las Cosas.
23
Referencias bibliográficas