Documentos de Académico
Documentos de Profesional
Documentos de Cultura
profesionales de TI y datos
para lograr más cosas con
todos sus datos
Guía para migrar los procesos existentes a Azure Synapse Analytics
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Introducción
Muchas empresas actuales han tenido por mucho tiempo almacenes de datos de análisis en sus centros de
datos para apoyar la toma de decisiones en diferentes partes de su negocio. En especial los departamentos
de ventas, marketing y finanzas son usuarios intensivos de estos sistemas que producen informes y paneles
estándar. También emplean a analistas de negocios para realizar consultas y análisis ad hoc sobre los datos
en los marts de datos diseñados para el análisis multidimensional mediante herramientas de inteligencia
empresarial (BI) de autoservicio.
Sin embargo, si bien los almacenes de datos admiten algunos aspectos clave de la toma de decisiones,
el cambio a las tecnologías digitales en los últimos años ha observado que ocurren cambios en torno al
almacén de datos que tienen un gran impacto en los sistemas de análisis tradicionales. Esto incluye sistemas
de procesamiento de transacciones de origen (como sistemas de CRM, HR y ERP) que se migran a la nube.
A menudo, esto se realiza para consolidar sistemas similares, para escalar y para permitir el acceso de
autoservicio móvil a los sistemas de procesamiento de transacciones por parte de los clientes (por ejemplo,
la banca móvil), los socios, los proveedores y los empleados. Debido a esto, los almacenes de datos ahora
necesitan capturar datos de aplicaciones de SaaS en la nube. Además, han surgido nuevos datos que las
empresas ahora capturan, como las secuencias de clic en línea, los datos de redes sociales, los datos de
sensores de Internet de las Cosas (IoT), los datos de gobierno abierto, los datos meteorológicos, o los datos
de imagen, audio y video. Sin embargo, es muy poca la cantidad de este tipo de datos que ha llegado a los
almacenes de datos. De hecho, a menudo estos se procesan y analizan por separado a escala en la nube,
mientras que los científicos de datos los usan para crear análisis predictivos y prescriptivos de machine learning.
Además, con tantas nuevas tecnologías de datos y análisis que ahora aparecen primero en la nube, la atracción
de migrar cargas de trabajo de análisis a la nube para aprovechar rápidamente estas tecnologías es cada vez
más convincente. En este contexto, no es de sorprender que muchas empresas estén considerando migrar
sus almacenes de datos a la nube como parte de un ejercicio de modernización del almacén de datos.
Hoy en día, muchas organizaciones están migrando sus soluciones de almacén de datos heredado a Azure
Synapse Analytics para obtener los beneficios de una plataforma de análisis de extremo a extremo que
proporciona alta disponibilidad, seguridad, velocidad, escalabilidad, ahorro de costos y rendimiento líder
en la industria para cargas de trabajo de almacenamiento de datos empresariales.
A medida que las tecnologías evolucionan, los beneficios de tener una solución de almacén de datos basada
en la nube superan con creces a sus contrapartes locales. Azure Synapse no solo proporciona un rendimiento
líder en la industria para ejecutar cargas de trabajo de almacenamiento de datos empresariales en la nube, es
una plataforma de análisis de extremo a extremo que lleva la ingesta de datos, el almacenamiento de datos y
el análisis de macrodatos en un solo servicio. Con su escalabilidad y arquitectura independiente de informática
y almacenamiento, Azure Synapse se puede escalar al instante de formas que no son posibles con sistemas
heredados como Teradata, Netezza o Exadata.
Hay varios beneficios empresariales relacionados con por qué debe considerar la migración a Azure Synapse
para ayudarlo a reducir el costo total de propiedad, mejorar el precio/rendimiento y aprovechar un ecosistema
enriquecido de tecnologías de datos y análisis adicionales que pueden ayudarlo a modernizar su almacén de
datos y también acortar el tiempo de amortización.
1
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Esta guía proporciona metodología de alto nivel para planificar, preparar y ejecutar la migración exitosa de
un sistema de almacén de datos heredado existente a Azure Synapse Analytics. Esta guía no pretende ser un
manual completo paso a paso para la migración, sino más bien una descripción general práctica para ayudar
con la planificación de la migración y el alcance de los proyectos.
El apéndice al final de esta guía identifica algunos de los problemas comunes de migración y las posibles
soluciones.
2
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
El público previsto de esta guía son los arquitectos de almacenes de datos, arquitectos de soluciones, CTO y
administradores de proyectos que necesitan un enfoque claramente definido para migrar un almacén de datos
local existente a Azure Synapse Analytics.
Conclusión
3
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Los clientes que han migrado a Azure Synapse ya están gozando de muchos de sus beneficios, incluidos los
siguientes:
Rendimiento
Azure Synapse Analytics ofrece el mejor rendimiento de la base de datos relacional mediante técnicas
como el Procesamiento paralelo masivo (MPP) y el almacenamiento en caché automático in-memory.
Los resultados de esto se pueden observar en referencias independientes como la de GigaOm (referencia:
https://gigaom.com/report/data-warehouse-cloud-benchmark/). Este informe compara Azure Synapse con
otras ofertas populares de almacén de datos en la nube.
Velocidad
El almacenamiento de datos es un proceso intensivo. Implica la ingesta de datos, transformación de datos,
limpieza de datos, agregación de datos, integración de datos y producción de visualización e informes de
datos. Los muchos procesos implicados en la migración de datos desde las fuentes originales a un almacén
de datos son complejos e interdependientes. Un solo cuello de botella puede ralentizar toda la canalización
y un aumento inesperado en el volumen de datos amplifica la necesidad de velocidad. Cuando la puntualidad
de los datos es importante, Azure Synapse Analytics satisface la demanda de procesamiento rápido.
Infraestructura administrada
Al eliminar la sobrecarga de la administración y las operaciones del centro de datos para el almacén de datos se
permite a las empresas reasignar recursos valiosos a donde se produce el valor y centrarse en usar el almacén
de datos para ofrecer la mejor información y conocimientos. Esto disminuye el costo de propiedad total general
y permite un mejor control de los costos sobre los gastos operativos.
4
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Escalabilidad
El volumen de datos en un almacén de datos suele crecer a medida que pasa el tiempo y se recopila el historial.
Azure Synapse Analytics puede escalar para que coincida con este crecimiento al agregar gradualmente
recursos a medida que aumentan los datos y las cargas de trabajo.
Ahorro de costos
La ejecución de un centro de datos heredado local es costosa (costos de servidores y hardware, redes, espacio
físico, electricidad, aire acondicionado y personal). Estos gastos se pueden minimizar sustancialmente con Azure
Synapse Analytics.
Azure Synapse Analytics le ofrece una verdadera escalabilidad de la nube de pago por uso sin necesidad de una
reconfiguración complicada a medida que aumentan sus datos o cargas de trabajo.
Reúna todas las habilidades existentes en su negocio para lograr más cosas con sus datos. Con los motores
Apache Spark y SQL profundamente integrados en Azure Synapse, los profesionales de datos que prefieren SQL
familiar pueden colaborar sin problemas con aquellos que prefieren Spark, y viceversa.
Por ejemplo, quienes prefieren o están familiarizados con SQL pueden consultar las tablas de Spark con el
lenguaje T-SQL. Además, los ingenieros de datos o científicos de datos que prefieren lenguajes como Python,
Scala, SparkSQL o C# pueden transformar datos, entrenar modelos y crear pruebas de concepto en el mismo
servicio que aloja canalizaciones de datos, lagos de datos y almacenes de datos.
Lleve a la disolución de los silos de datos al siguiente nivel con Azure Synapse Link, una implementación de
procesamiento transaccional/analítico híbrido (HTAP) nativa de la nube que ahora está disponible en versión
preliminar pública. Esta tecnología elimina los obstáculos entre los servicios de base de datos de Azure y Azure
Synapse, lo que permite a los clientes obtener información de sus datos transaccionales en vivo almacenados
en sus bases de datos operativas con un solo clic, sin administrar el movimiento de datos o colocar una carga
en sus sistemas operativos.
5
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Preparación Migración
Defina el alcance de lo que se migrará Empiece poco a poco y con cosas sencillas
Cree un inventario de datos y procesos Automatice donde sea posible
para la migración Aproveche las herramientas y características
Defina los cambios en el modelo de datos integradas de Azure para reducir el esfuerzo
(si los hay) de migración
Defina el mecanismo de extracción de datos Migre los metadatos para tablas y vistas
de origen Migre los datos históricos que se mantendrán
Identifique las herramientas y los servicios Migre o refactorice los procedimientos
pertinentes de Azure (y de terceros) que se almacenados y los procesos empresariales
utilizarán
Migre o refactorice los procesos de carga
Capacite al personal en las primeras etapas incremental ETL/ELT
de la nueva plataforma
Configure la plataforma de destino de Azure
Después de la migración
Supervise y documente todas las etapas del proceso
Use la experiencia adquirida para crear una plantilla para futuras migraciones
Vuelva a diseñar el modelo de datos si es necesario (con el rendimiento y la escalabilidad de la
plataforma nueva)
Pruebe las aplicaciones y herramientas de consulta
Configure y optimice el rendimiento de las consultas
Para comenzar su planificación de la migración, realice una evaluación de su almacén de datos existente
para determinar qué estrategia de migración funciona mejor para su situación. Existen dos tipos de estrategias
migración que debe considerar:
Estrategia "lift-and-shift"
Para la estrategia "lift-and-shift", el modelo de datos existente se migra sin cambios a la nueva plataforma
Azure Synapse Analytics. Esto es para minimizar el riesgo y el tiempo necesarios para la migración, al reducir
el alcance de los cambios al mínimo.
6
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
"Lift-and-shift" es una buena estrategia para entornos de almacén de datos heredado, como Netezza, donde:
Estrategia de rediseño
En escenarios donde el almacén de datos heredado ha evolucionado con el tiempo, puede que sea esencial
volver a diseñar para mantener los niveles de rendimiento óptimos o admitir nuevos tipos de datos. Esto podría
incluir un cambio del modelo de datos subyacente.
Para minimizar el riesgo, se recomienda migrar primero mediante la estrategia "lift-and-shift" y, a continuación,
modernizar gradualmente el modelo de datos del almacén de datos en Azure Synapse Analytics mediante la
estrategia de rediseño. Un cambio completo en el modelo de datos aumentará los riesgos porque afectará el
origen de los trabajos de ETL del almacén de datos y los marts de datos secundarios.
En la sección anterior, presentamos las dos estrategias de migración. Como procedimiento recomendado,
durante el paso de evaluación inicial, reconozca cualquier posibilidad de simplificar el almacén de datos
existente y documéntelas. El objetivo es reducir la complejidad de su sistema de almacén de datos heredado
existente antes de la migración para facilitar este proceso.
Estas son algunas recomendaciones sobre cómo reducir la complejidad de su almacén de datos
heredado existente:
Antes de migrar su almacén de datos heredado, considere convertir sus marts de datos físicos actuales en
marts de datos virtuales. Mediante el uso de marts de datos virtuales, puede eliminar los almacenes de datos
físicos y trabajos de ETL para los marts de datos sin perder ninguna funcionalidad antes de la migración. El
objetivo de esto es reducir el número de almacenes de datos para migrar, reducir copias de datos, reducir el
costo total de propiedad y mejorar la agilidad. Para lograrlo, deberá cambiar de marts de datos físicos a marts
de datos virtuales antes de migrar su almacén de datos. Puede considerar esto como un paso de
modernización del almacén de datos antes de la migración.
7
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
A continuación, planifique cómo migrará el esquema de su almacén de datos heredado existente. La migración
de esquema implica la migración de las tablas de almacenamiento provisional, el almacén de datos heredado
y el esquema de mart de datos dependiente existentes.
Para ayudarlo a comprender la magnitud y el alcance de la migración de su esquema, le recomendamos que
cree un inventario de su almacén de datos heredado y del mart de datos existentes.
Esta es una lista de verificación que le ayudará a recopilar la información necesaria:
Recuento de filas
Tamaño del almacenamiento provisional, almacén de datos y mart de datos
o Tablas e índices
Proporciones de compresión de datos
Configuración de hardware actual
Tablas (incluidas las particiones)
o Identificar las tablas de dimensiones pequeñas
Tipos de datos
Vistas
Índices
Dependencias de objetos
Uso de objetos
Funciones
o Tanto las funciones listas para usar como las UDF
Procedimientos almacenados
Requisitos de escalabilidad
Proyecciones de crecimiento
8
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Figura 4: Migre todos los marts de datos a la vez, luego el almacén de datos
9
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Al elegir su opción, recuerde que el objetivo es lograr un diseño de base de datos física que iguale o supere
a su sistema de almacén de datos heredado actual en términos de rendimiento y, preferiblemente, a un
costo menor.
Para resumir, estas son algunas de las recomendaciones para la migración del esquema:
10
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Una vez que se haya determinado el alcance de la migración del esquema, estaremos listos para tomar
decisiones sobre cómo migrar los datos históricos.
11
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
En la tabla siguiente se describen las cuatro opciones de migración de datos, así como sus pros y contras.
12
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Existe una serie de opciones disponibles para migrar sus procesos de ETL existentes a Azure Synapse Analytics.
En la siguiente tabla se describen algunas de las opciones de migración de ETL en función de cómo se crearon
los trabajos de ETL existentes.
¿Cómo se crearon los Opciones de migración Por qué migrar y qué buscar
trabajos de ETL existentes?
Código y scripts de Planifique volver El código no proporciona linaje
3GL personalizados a desarrollarlos con de metadatos
Azure Data Factory Difícil de mantener si los autores
ya no están
Si las tablas de almacenamiento
provisional están en el almacén de
datos heredado y SQL se utiliza
para transformar los datos,
entonces resuelva las diferencias
con T-SQL
Procedimientos almacenados Planifique volver a Es probable que existan diferencias
que se ejecutan en el DBMS desarrollarlos con importantes entre el almacén de
del almacén de datos Azure Data Factory datos heredado y Azure Synapse
heredado Sin linaje de metadatos
13
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Figura 10: Redesarrollo de procesos de ETL escalables con Azure Data Factory
La migración de consultas, informes de BI, paneles y otras visualizaciones de su almacén de datos heredado
a Azure Synapse Analytics sería sencilla si el sistema heredado usara SQL estándar.
Sin embargo, muchas veces, este no es el caso. En esta situación, se debe adoptar una estrategia diferente:
14
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Considere la virtualización de los datos para proteger las herramientas y aplicaciones de BI ante los cambios
estructurales que podrían producirse en el almacén de datos y/o el modelo de datos del mart de datos
durante la migración
Azure incluye muchas características y funciones como estándar que tradicionalmente tendrían que crearse de
forma personalizada en los productos de almacén de datos heredado. Azure Synapse admite el cifrado de datos
en reposo y en movimiento como estándar:
Datos en reposo
El cifrado de datos transparente (TDE) se puede habilitar para cifrar y descifrar de manera dinámica los
datos, los registros y las copias de seguridad asociadas de Azure Synapse.
Azure Data Storage también puede cifrar automáticamente los datos que no son de la base de datos.
Datos en movimiento
Todas las conexiones a Azure Synapse Analytics se cifran de forma predeterminada, utilizando protocolos
estándar de la industria como TLS y SSH
Además, el enmascaramiento dinámico de datos (DDM) se puede utilizar para ofuscar los datos de determinadas
clases de usuarios en función de las reglas de enmascaramiento de datos.
Como procedimiento recomendado, si su almacén de datos heredado contiene una jerarquía compleja de
permisos, usuarios y roles, considere el uso de técnicas de automatización en su proceso de migración. Puede
utilizar los metadatos existentes de su sistema heredado para generar el SQL necesario para migrar usuarios,
grupos y privilegios en Azure Synapse Analytics.
15
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
AzCopy
Se copian los datos a Azure a través de Internet
Azure Databox
Volúmenes grandes (decenas de TB a cientos de TB)
16
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
API de SqlBulkCopy
Esta es una API equivalente de la funcionalidad de BCP
Permite la implementación de procesos de carga mediante programación
(referencia: https://docs.microsoft.com/dotnet/api/system.data.sqlclient.sqlbulkcopy)
Conclusión
Los proyectos de migración de datos exitosos comienzan con un plan bien diseñado. Un plan eficaz explica
los muchos componentes que deben tenerse en cuenta, prestando especial atención a la arquitectura y la
preparación de los datos.
Azure Synapse Analytics es un servicio de análisis basado en la nube, ilimitado, con un tiempo de obtención
de información sin igual, que acelera la entrega de BI, IA y aplicaciones inteligentes a las empresas. Con la
migración de su almacén de datos heredado a Azure Synapse Analytics obtendrá muchos beneficios, que
incluyen rendimiento, velocidad, mejor seguridad y cumplimiento, elasticidad, infraestructura administrada,
escalabilidad y ahorro de costos.
17
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Esta guía le ha proporcionado la metodología de alto nivel necesaria para prepararse y ejecutar la migración de
un sistema Netezza existente a Azure Synapse Analytics.
Hemos cubierto el proceso de migración de 3 pasos y las estrategias de migración, hemos aprendido a reducir
la complejidad de su almacén de datos heredado existente antes de la migración y cómo migrar el esquema,
los datos históricos, los procesos de ETL y las visualizaciones existentes a Azure Synapse Analytics. También
analizamos las consideraciones y herramientas de seguridad que lo ayudarán a tener éxito en la migración a
Azure Synapse Analytics.
Después de haber migrado a Azure Synapse, podrá explorar tecnologías de Microsoft adicionales en el
ecosistema de análisis enriquecido de Azure para modernizar su almacén de datos.
Descargue las áreas de almacenamiento provisional y el procesamiento de ELT en Azure Data Lake y Azure
Data Factory
Cree productos de datos de confianza una vez en un formato de modelo de datos común y consúmalos en
todas partes, no solo en su almacén de datos
Permita el desarrollo colaborativo de las canalizaciones de preparación de datos por parte del negocio y de
TI mediante la asignación de ADF y la organización de flujos de datos
Cree canalizaciones de análisis en ADF para analizar los datos en lotes y en tiempo real
Cree e implemente modelos de machine learning para agregar información adicional a lo que ya conoce
Integre su almacén de datos con datos de transmisión en vivo
Simplifique el acceso a los datos y la información en varios almacenes de datos de análisis de Azure
mediante la creación de un almacén de datos lógico con PolyBase
Le deseamos lo mejor en su proceso de migración.
18
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
19
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
Apéndice A:
Problemas de migración comunes y soluciones
Durante el proceso de migración, es posible que encuentre ciertos problemas que debe solucionar. En esta
sección, destacaremos algunos de los problemas comunes y le proporcionaremos las soluciones que puede
implementar.
20
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
En las secciones siguientes, abarcaremos íntegramente cómo resolver otras incompatibilidades comunes de
SQL durante la migración desde el almacén de datos heredado a Azure Synapse Analytics.
Vistas
En el sistema heredado, identifique las vistas de las tablas del catálogo y los scripts de DDL
Las vistas con extensiones o funciones de SQL exclusivas tendrán que reescribirse
Azure Synapse Analytics también admite vistas materializadas, las que mantendrá y actualizará
automáticamente
Valores NULL
Los valores NULL se pueden manejar de manera diferente en las bases de datos de SQL heredadas
o Por ejemplo, en Oracle, una cadena vacía equivale a un valor NULL
Algunos DBMS tienen funciones de SQL exclusivas para el manejo de valores NULL
o Por ejemplo, NVL en Oracle
Genere consultas de SQL para probar los valores NULL
Pruebe informes que incluyan columnas que aceptan valores NULL
21
Cómo migrar su dispositivo heredado a Azure Synapse Analytics
22