Documentos de Académico
Documentos de Profesional
Documentos de Cultura
migración y herramientas
ETCL
AA05 – EV1
ii
OBJETIVOS
Objetivo general
Consolidar los conceptos relacionados con las herramientas ETCL utilizadas para los procesos
de generación de copias de seguridad, restauración y recuperación de bases de datos a través
de la consulta proactiva en diferentes fuentes de información.
Objetivos específicos
3
1. MIGRACIÓN DE DATOS
4
• Definición de objetivos, alcance, estrategias, requerimientos, riesgos, plan de
contingencia, condiciones actuales y resultados esperados.
• Factibilidad economica.
• Viabilidad técnica.
• Identificación de la situación actual: tamaño y tipo de datos, equipos y recursos que
componen el sistema, etc.
• Lista de chequeo de requerimientos.
Planeación • Cronograma de actividades a ejecutar.
• Matriz de responsabilidad.
5
1.1.2 Mejores prácticas para un proyecto de migración de datos2
A la hora de llevar a cabo una migración de datos siempre resulta de utilidad el seguir unas
recomendaciones en forma de mejores prácticas, que puede ser interesante tener en cuenta
durante el proceso: proporciona la capacidad de extraer los datos de los sistemas de producción
y utilizarlos para las actividades relacionadas con procesos de calidad de datos (limpieza,
armonización y enriquecimiento). Contener la información aquí, permite ver los datos reales de
producción sin afectar a la operación de los sistemas actuales.
Repositorio
Disponer de un área intermedia con una estructura igual a la del origen para realizar la carga
de los datos de producción y poder llevar a cabo las tres fases que implica el proceso de calidad
de datos (limpieza, armonización y enriquecimiento). Este repositorio proporciona la capacidad
de extraer los datos de los sistemas de producción y clasificarlos, estando en continuo contacto
con los datos reales de producción, pero sin afectar a la operación de los sistemas actuales.
Diseño modular
6
Hace referencia a la necesaria definición de estándares para el desarrollo de múltiples procesos
simples, en vez de uno único más complejo y de mayores dimensiones. Actuar de este modo
mejora el desarrollo, aumenta la eficiencia en las pruebas y facilita el mantenimiento,
procurando mayor agilidad y simplicidad en el desarrollo, así como unos menores costos, junto
con un incremento en la eficacia general del proceso de migración de datos.
Reutilización
Implica reutilizar las asignaciones / estrategias / procesos / scripts / documentos de prueba
siempre y cuando sea posible, en procesos de extracción, transformación y/o carga; para
optimizar el tiempo de proceso y armonizar resultados.
7
2. TÉCNICAS MIGRACIÓN DE DATOS3
8
Otro formato útil para la migración de datos es el “.XML” (eXtensible Marckup Language), que
utiliza un metalenguaje extensible de etiquetas las cuales sirven como estándar para
intercambio de información estructurada entre distintas plataformas.
El enfoque de este documento será precisamente los procedimientos ETCL para la migración
de datos. A continuación se amplia el detalle
9
Descubrimiento/análisis de datos
Consiste en evaluar y comprender los datos existentes y, en particular, los que son requeridos
por el nuevo sistema. Para determinar la calidad de los datos orígenes hay que detectar si
existen datos erróneos, si un mismo concepto se encuentra definido con distintos términos o si
faltan datos, ya que todo ello evidenciaría una falta de calidad. Para poder extraer conclusiones
se debe realizar un perfilado de los datos, analizando cada uno en particular, así como sus
interrelaciones. En esta fase es fundamental:
▪ Trabajar sobre el total de datos a migrar.
▪ Obtener la guía experta del propietario del dato.
▪ Terminar el proceso con una validación al final de la migración.
Calidad de datos
La calidad no está necesariamente adscripta a los procesos de migración de datos, ya que
puede darse en otros momentos. Por ejemplo, una instancia de limpieza para asegurar la
consistencia de los datos; o para cubrir distintas necesidades organizacionales, como la
búsqueda de la integridad de los datos con fines de elevar los estándares de seguridad
10
existentes. Con el proceso de calidad de datos se busca homogeneizar, tras evaluar la
corrección de los mismos, para alcanzar los niveles deseados.
Las fases de la etapa de calidad de datos Dentro de un proyecto de migración, llegar a la fase
de calidad de datos supone armonizar, normalizar y enriquecer los mismos. Este proceso
iterativo puede pasar por varios ciclos y conlleva distintas actividades que se resumen en:
▪ Limpieza de datos: es el momento en que se corrigen los datos que se consideran
incorrectos o inconsistentes. El input de este proceso es el perfilado realizado en la etapa
de análisis.
▪ Homologación: implica la unificación de criterios, necesaria porque un datos en un origen
puede ser correcto pero no estar manejado de la misma forma en diferentes lugares.
Requiere de la unificación de códigos, descripciones, etc.
▪ Enriquecimiento: se lleva a cabo al complementar y perfeccionar los datos maestros, si
les faltase completitud. Un ejemplo práctico sería agregar los códigos postales a las
direcciones en la base de datos de clientes, si se notificará dicha carencia.
11
▪ Haber culminado la fase de calidad con garantías: ya que es sobre sus resultados sobre
los que se sustentan las etapas posteriores, incluida ésta.
Mapeo y carga
La fase de mapeo y carga es la culminación del proceso de migración de datos. Es en este
momento cuando los resultados se hacen evidentes y se descubre si se alcanzó el nivel de
calidad esperado, si se consiguió esa ausencia de errores tan necesaria, si se cumplieron los
plazos previstos para llevar a cabo el proyecto, si el nuevo sistema funciona a pleno rendimiento
o si, por el contrario, la operación ha sido un fracaso.
Cuando los datos han sido reconocidos, analizados, comprendidos, limpiados, homologados,
enriquecidos, adecuados y se han realizado las pruebas correspondientes en los repositorios
dispuestos a tal efecto, es el momento de proceder a la carga. En líneas generales, y más allá
de la dicotomía existente entre ELT y ETL, éste es el procedimiento habitual.
El nuevo sistema cuya infraestructura ya es conocida por el desarrollador, espera que los datos
vayan llegando, de forma directa o por etapas, procedentes de uno o varios módulos,
dependiendo de la metodología que se ha decidido emplear para llevar a cabo la migración de
datos.
Si la planificación es correcta, se observan las reglas de negocio y se trabajan los datos de
forma exhaustiva, esta etapa no entraña ninguna dificultad, ni demasiado tiempo. Cuando no
es así, si llegados a este punto, las cosas no suceden de esta forma, entonces ser necesario ir
volviendo hacia atrás en todos los pasos dados hasta encontrar el origen de las discordancias
que requiere de soluciones.
12
3. TIPOS DE MIGRACIÓN DE DATOS
Al planear una migración de datos debe considerarse la estrategia más adecuada de acuerdo
con las necesidades de la organización. La elección puede realizarse dependiendo de los
requisitos del proyecto y las ventanas de procesamiento disponibles. Existen dos enfoques
principales de migración: migraciones big bang y migraciones incrementales.
Migraciones en paralelo4
Esta estrategia se basa en validar por un tiempo estipulado los resultados que tiene el nuevo
sistema comparado con el anterior, corriendo en forma paralela los dos sistemas.
Es usado en ambientes donde se requiere garantizar el funcionamiento del nuevo sistema en
un entorno real, antes de desactivar el viejo sistema.
Una desventaja es el costo de tener dos sistemas en funcionamiento, con personal para manejar
e ingresar datos a los dos sistemas y el uso de los recursos de hardware que se consumen.
Migraciones incrementales
En este caso, en lugar de intentar completar todo el evento en una ventana de tiempo breve, la
migración implica tener ejecutándose los sistemas antiguo y nuevo en paralelo y migrar los
datos en fases.
13
Este método proporciona un tiempo de inactividad cero como lo requieren las aplicaciones de
misión crítica que operan 24/7. Este enfoque agrega cierta complejidad al diseño, ya que debe
ser posible rastrear qué datos se han migrado y qué datos no, para redireccionar las peticiones
cuando los sistemas operan en paralelo.
14
4. HERRAMIENTAS ETCL
4.1. Categorías
Hay distintas herramientas ETL en el mercado, cada una con sus características concretas. Sin
embargo, a la hora de elegir la herramienta adecuada para nuestra empresa o proyecto, nos
encontramos frente a cuatro distintas categorías principales:
15
▪ Habilidades para monitorizar, gestionar y controlar los procesos de integración de datos:
en lo relativo a gestión de errores, recolección
▪ de estadísticas de ejecución, controles de seguridad, etc.
▪ Capacidades SOA
▪ Capacidades de diseño y entorno de desarrollo: como soporte para test,
representaciones gráficas, modelos y flujos de datos y flujos de datos, etc.
▪ Cualidades de arquitectura e integración referidas al grado de interoperabilidad,
compactación y consistencia de los diferentes componentes que la formen.
IBM
Proporciona la suite de soluciones InfoSphere, en la cual destaca su herramienta DataStage.
▪ Características generales
Funciones de interfaz de usuario enriquecidas para ayudar a simplificar el proceso de diseño,
respaldadas por una gestión de metadatos sofisticada
Componentes de transformación, incluido un amplio conjunto de objetos prediseñados que
actúan sobre los datos para satisfacer requisitos de integración de datos simples y complejos
Objetos de conectividad, incluido el acceso nativo a la industria común bases de datos y
aplicaciones
Flexibilidad en tiempo de ejecución con un motor paralelo de alto rendimiento que proporciona
una escalabilidad casi ilimitada tanto en lotes como en tiempo real • Gestión sencilla del entorno
operativo, incluidos análisis creados para comprender e investigar • Administración de clase
empresarial mediante funciones intuitivas y sólidas para instalación, mantenimiento y
configuración
16
Más detalle en: https://cdn2.hubspot.net/hubfs/2383378/Cornerstone-Resources/PDF/IBM-
InfoSphere-DataStage-Data-Sheet.pdf
▪ Requerimientos técnicos
InfoSphere See: 8 GB 4
Information • InfoSphere
Server node Information
Server V11.7
detailed system
requirements
• InfoSphere
Information
Server V11.7.1
detailed system
requirements
• IBM Watson
Knowledge
Catalog
detailed system
requirements
17
Single-node Red Hat Enterprise 64 GB 16 300 GB for persistent
microservices Linux v7.3 and above volume storage
tier with Watson
Knowledge
Catalog (version
11.7.1)
18
Oracle
Proporciona la herramienta Oracle Data Integrator, que permite gestionar procesos de
integración de datos en sistemas de inteligencia de negocio.
▪ Características generales
Integración inmediata con bases de datos, Hadoop, ERP, CRM, sistemas B2B, archivos planos,
XML, JSON, LDAP, JDBC, ODBC
Marco de módulo de conocimiento para extensibilidad
Potente transformación de datos para bases de datos heterogéneas e infraestructuras de Big
Data
ETL enriquecido para bases de datos Oracle, incluido Oracle Exadata , con soporte de carga
de cubos y dimensiones complejas
Se integra con Oracle GoldenGate para almacenamiento de datos en tiempo real Linaje de
datos impulsados por metadatos y análisis de impacto con Oracle Enterprise Metadata
Management
Se integra con Oracle Enterprise Data Quality para perfiles avanzados, necesidades de
limpieza, emparejamiento y gobernanza de datos
Soporte de big data nativo
Desempeño líder Productividad mejorada
Flexibilidad Bajo costo total de propiedad
Heterogeneidad expandida a fuentes y objetivos de Big Data
Reduce los costos de hardware a través de una mejor utilización e integración de datos de alto
rendimiento
Unifica la integración basada en datos, basada en eventos y basada en servicios en una sola
solución
Reduce el costo total de propiedad y maximizando la productividad del diseñado
Abierto, 100% Java, SOA, basado en estándares Admite fuentes, objetivos y aplicaciones
heterogéneos
19
▪ Requerimientos técnicos
Plataformas soportadas: Linux x86-64, Oracle Solaris on SPARC (64-bit), Oracle Solaris on x86-
64 (64-bit), IBM AIX on POWER Systems (64-bit), HP-UX Itanium 11.31
Hardware: Mínimo 10GB.
Software:
Se debe instalar la versión 12.1 del almacén de datos de Oracle Communications Data Model.
Base de datos Oracle, incluidas las opciones especificadas en "Requisitos de la base de datos
Oracle".
Oracle Business Intelligence Suite Enterprise Edition 11.1.1.7 o posterior. Consulte "Oracle
Business Intelligence Suite Enterprise Edition". Esto es opcional para instalar componentes de
complementos de Oracle Communications Data Model, pero es necesario para ver y utilizar los
informes asociados.
La versión del instalador de las herramientas cliente para desarrolladores de Oracle Business
Intelligence es 11.1.1.7.0 o posterior. Consulte "Oracle Business Intelligence Suite Enterprise
Edition".
Oracle Data Integrator Enterprise Edition 11g (11.1.1.5.0 o posterior). Consulte "Oracle Data
Integrator Enterprise Edition". Esto es opcional para instalar la instalación de complementos del
modelo de datos de comunicaciones de Oracle, pero es necesario cuando se ejecutan los
adaptadores de aplicaciones.
Oracle GoldenGate 11g (11.1.1.1 o posterior) Consulte "Oracle GoldenGate" (opcional para el
Adaptador BRM y para el Adaptador NCC, dependiendo de si está utilizando alimentación en
tiempo real)
Mayor información en: https://docs.oracle.com/cd/E64694_01/CDMAI/require.htm#CDMAI115
Microsoft Azure
Proporciona la herramienta Data Factory que opera totalmente en la nube.
▪ Características generales
No se necesita programación ni mantenimiento para crear canalizaciones de ETL y ELT híbrido
en el entorno visual de Data Factory.
Herramienta de integración de datos en la nube sin servidor totalmente administrada y muy
rentable que se escala a petición
20
Medidas de seguridad de Azure para conectarse a aplicaciones en el entorno local, en la nube
y de software como servicio sin preocupaciones
SSIS Integration Runtime para rehospedar fácilmente los paquetes SSIS locales en la nube con
las herramientas de SSIS que ya conoce
Mapping Data Flows: Desarrolle lógica de transformación de datos gráfica a escala sin
necesidad de escribir código con Mapping Data Flow.
Plantillas predefinidas: Use la creciente biblioteca de plantillas para realizar tareas comunes,
como la creación de canalizaciones, la copia de datos de una base de datos, la ejecución de
paquetes SSIS en Azure y ETL.
Desencadenadores: Automatice las ejecuciones de canalizaciones mediante la creación y
programación de desencadenadores. Data Factory admite tres tipos de desencadenadores:
basados en una programación, en una ventana de saltos de tamaño constante o en eventos.
Wrangling Data Flows: Explore sus datos a escala sin escribir código. Use Wrangling Data
Flows, que ahora está en versión preliminar pública, para preparar datos a escala sin necesidad
de escribir código.
21