Está en la página 1de 23

Empodere a los

profesionales de TI y datos
para lograr más cosas con
todos sus datos
Guía para migrar los procesos existentes a Azure Synapse Analytics
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Introducción
Muchas empresas actuales han tenido por mucho tiempo almacenes de datos de análisis en sus centros de
datos para apoyar la toma de decisiones en diferentes partes de su negocio. En especial los departamentos
de ventas, marketing y finanzas son usuarios intensivos de estos sistemas que producen informes y paneles
estándar. También emplean a analistas de negocios para realizar consultas y análisis ad hoc sobre los datos
en los marts de datos diseñados para el análisis multidimensional mediante herramientas de inteligencia
empresarial (BI) de autoservicio.
Sin embargo, si bien los almacenes de datos admiten algunos aspectos clave de la toma de decisiones,
el cambio a las tecnologías digitales en los últimos años ha observado que ocurren cambios en torno al
almacén de datos que tienen un gran impacto en los sistemas de análisis tradicionales. Esto incluye sistemas
de procesamiento de transacciones de origen (como sistemas de CRM, HR y ERP) que se migran a la nube.
A menudo, esto se realiza para consolidar sistemas similares, para escalar y para permitir el acceso de
autoservicio móvil a los sistemas de procesamiento de transacciones por parte de los clientes (por ejemplo,
la banca móvil), los socios, los proveedores y los empleados. Debido a esto, los almacenes de datos ahora
necesitan capturar datos de aplicaciones de SaaS en la nube. Además, han surgido nuevos datos que las
empresas ahora capturan, como las secuencias de clic en línea, los datos de redes sociales, los datos de
sensores de Internet de las Cosas (IoT), los datos de gobierno abierto, los datos meteorológicos, o los datos
de imagen, audio y video. Sin embargo, es muy poca la cantidad de este tipo de datos que ha llegado a los
almacenes de datos. De hecho, a menudo estos se procesan y analizan por separado a escala en la nube,
mientras que los científicos de datos los usan para crear análisis predictivos y prescriptivos de machine learning.
Además, con tantas nuevas tecnologías de datos y análisis que ahora aparecen primero en la nube, la atracción
de migrar cargas de trabajo de análisis a la nube para aprovechar rápidamente estas tecnologías es cada vez
más convincente. En este contexto, no es de sorprender que muchas empresas estén considerando migrar
sus almacenes de datos a la nube como parte de un ejercicio de modernización del almacén de datos.
Hoy en día, muchas organizaciones están migrando sus soluciones de almacén de datos heredado a Azure
Synapse Analytics para obtener los beneficios de una plataforma de análisis de extremo a extremo que
proporciona alta disponibilidad, seguridad, velocidad, escalabilidad, ahorro de costos y rendimiento líder
en la industria para cargas de trabajo de almacenamiento de datos empresariales.
A medida que las tecnologías evolucionan, los beneficios de tener una solución de almacén de datos basada
en la nube superan con creces a sus contrapartes locales. Azure Synapse no solo proporciona un rendimiento
líder en la industria para ejecutar cargas de trabajo de almacenamiento de datos empresariales en la nube, es
una plataforma de análisis de extremo a extremo que lleva la ingesta de datos, el almacenamiento de datos y
el análisis de macrodatos en un solo servicio. Con su escalabilidad y arquitectura independiente de informática
y almacenamiento, Azure Synapse se puede escalar al instante de formas que no son posibles con sistemas
heredados como Teradata, Netezza o Exadata.
Hay varios beneficios empresariales relacionados con por qué debe considerar la migración a Azure Synapse
para ayudarlo a reducir el costo total de propiedad, mejorar el precio/rendimiento y aprovechar un ecosistema
enriquecido de tecnologías de datos y análisis adicionales que pueden ayudarlo a modernizar su almacén de
datos y también acortar el tiempo de amortización.

Los beneficios empresariales incluyen:


 Menores costos de mantenimiento e implementación: pague solo por lo que usa
 No hay infraestructura que administrar, por lo que puede centrarse en la información competitiva
 Pague las herramientas de datos y análisis solo cuando sea necesario, haciendo una pausa en su consumo
cuando no estén en uso
 Reducción en el tiempo de desarrollo del proyecto de análisis e innovación incrementada

1
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

 Capacidad para escalar de forma independiente el almacenamiento desde la ejecución


 Almacenamiento de bajo costo para los datos de almacenamiento provisional y producción
 Evite las costosas actualizaciones a medida que aumentan los volúmenes de datos y el procesamiento
de ELT utiliza la capacidad
 Reduzca los costos de almacenamiento a medida que aumentan sus volúmenes de datos
 Mayores niveles de seguridad y continuidad del negocio
 Tiempo acelerado para obtener información con una plataforma de análisis que integra de forma nativa
los motores Apache Spark y SQL
 Arquitectura a prueba del futuro que incorpora fácilmente las innovaciones más recientes
Más allá de los beneficios empresariales de ejecutar su almacén de datos empresariales en la nube con
Azure Synapse, todos los profesionales de datos ahora pueden usar una experiencia unificada para tareas de
preparación de datos, administración de datos, almacenamiento de datos, macrodatos e IA. Con dos formas de
analizar datos a través de cargas de trabajo aprovisionadas o a través del modelo de consumo sin servidor que
ofrece funcionalidad de pago por consulta, los clientes pueden elegir la opción más rentable para cada caso de
uso. Además, cuando se trata de datos, la seguridad y la privacidad son de suma importancia y respaldan la
información descubierta mediante el análisis. La seguridad y privacidad avanzadas están integradas en la
estructura de Azure Synapse, como el cifrado de datos permanente. Para un control de acceso minucioso, las
empresas pueden ayudar a garantizar que los datos se mantengan seguros y privados mediante la seguridad
de nivel de columna y la seguridad de nivel de fila nativa, así como del enmascaramiento dinámico de datos
para proteger automáticamente los datos confidenciales en tiempo real.

Esta guía proporciona metodología de alto nivel para planificar, preparar y ejecutar la migración exitosa de
un sistema de almacén de datos heredado existente a Azure Synapse Analytics. Esta guía no pretende ser un
manual completo paso a paso para la migración, sino más bien una descripción general práctica para ayudar
con la planificación de la migración y el alcance de los proyectos.

El apéndice al final de esta guía identifica algunos de los problemas comunes de migración y las posibles
soluciones.

2
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

El público previsto de esta guía son los arquitectos de almacenes de datos, arquitectos de soluciones, CTO y
administradores de proyectos que necesitan un enfoque claramente definido para migrar un almacén de datos
local existente a Azure Synapse Analytics.

Por qué migrar

Proceso de migración del almacén de datos


Proceso de migración de 3 pasos (preparación, migración, después de la migración)
Dos tipos de migración ("lift-and-shift", rediseño)
Reduzca la complejidad antes de la migración
Migración del esquema existente
Migración de datos históricos
Migración de ETL existente
Migración de BI/consultas

Consideraciones sobre seguridad y herramientas

Conclusión

3
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

¿Por qué debería migrar su almacén de datos


heredado a Azure Synapse Analytics?
Al migrar a Azure Synapse Analytics, las empresas con sistemas de almacén de datos heredado pueden
aprovechar las innovaciones más recientes en tecnologías de nube y delegar tareas como el mantenimiento
de la infraestructura y la actualización de la plataforma a Azure.

Los clientes que han migrado a Azure Synapse ya están gozando de muchos de sus beneficios, incluidos los
siguientes:

Rendimiento
Azure Synapse Analytics ofrece el mejor rendimiento de la base de datos relacional mediante técnicas
como el Procesamiento paralelo masivo (MPP) y el almacenamiento en caché automático in-memory.
Los resultados de esto se pueden observar en referencias independientes como la de GigaOm (referencia:
https://gigaom.com/report/data-warehouse-cloud-benchmark/). Este informe compara Azure Synapse con
otras ofertas populares de almacén de datos en la nube.

Velocidad
El almacenamiento de datos es un proceso intensivo. Implica la ingesta de datos, transformación de datos,
limpieza de datos, agregación de datos, integración de datos y producción de visualización e informes de
datos. Los muchos procesos implicados en la migración de datos desde las fuentes originales a un almacén
de datos son complejos e interdependientes. Un solo cuello de botella puede ralentizar toda la canalización
y un aumento inesperado en el volumen de datos amplifica la necesidad de velocidad. Cuando la puntualidad
de los datos es importante, Azure Synapse Analytics satisface la demanda de procesamiento rápido.

Seguridad y cumplimiento mejorados


Azure es una plataforma en la nube disponible en todo el mundo, de alta escalabilidad y segura. Azure Synapse
Analytics, que reside dentro del ecosistema de Azure, hereda toda la calidad antes mencionada.

Elasticidad y eficiencia de costos


En un almacén de datos, las demandas de procesamiento de la carga de trabajo pueden fluctuar. A veces,
estas fluctuaciones pueden variar drásticamente entre picos y valles. Por ejemplo, pueden producirse picos
repentinos en el volumen de datos de ventas durante las temporada navideña. La elasticidad de la nube
permite que Azure Synapse aumente y disminuya rápidamente su capacidad de acuerdo con la demanda sin
ningún impacto en la disponibilidad, estabilidad, rendimiento y seguridad de la infraestructura. Lo mejor de
todo es que solo paga por su uso real.

Infraestructura administrada
Al eliminar la sobrecarga de la administración y las operaciones del centro de datos para el almacén de datos se
permite a las empresas reasignar recursos valiosos a donde se produce el valor y centrarse en usar el almacén
de datos para ofrecer la mejor información y conocimientos. Esto disminuye el costo de propiedad total general
y permite un mejor control de los costos sobre los gastos operativos.

4
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Escalabilidad
El volumen de datos en un almacén de datos suele crecer a medida que pasa el tiempo y se recopila el historial.
Azure Synapse Analytics puede escalar para que coincida con este crecimiento al agregar gradualmente
recursos a medida que aumentan los datos y las cargas de trabajo.

Ahorro de costos
La ejecución de un centro de datos heredado local es costosa (costos de servidores y hardware, redes, espacio
físico, electricidad, aire acondicionado y personal). Estos gastos se pueden minimizar sustancialmente con Azure
Synapse Analytics.

Azure Synapse Analytics le ofrece una verdadera escalabilidad de la nube de pago por uso sin necesidad de una
reconfiguración complicada a medida que aumentan sus datos o cargas de trabajo.

Maximice las habilidades

Reúna todas las habilidades existentes en su negocio para lograr más cosas con sus datos. Con los motores
Apache Spark y SQL profundamente integrados en Azure Synapse, los profesionales de datos que prefieren SQL
familiar pueden colaborar sin problemas con aquellos que prefieren Spark, y viceversa.

Por ejemplo, quienes prefieren o están familiarizados con SQL pueden consultar las tablas de Spark con el
lenguaje T-SQL. Además, los ingenieros de datos o científicos de datos que prefieren lenguajes como Python,
Scala, SparkSQL o C# pueden transformar datos, entrenar modelos y crear pruebas de concepto en el mismo
servicio que aloja canalizaciones de datos, lagos de datos y almacenes de datos.

Data lake al almacén de datos


Administre, proteja y analice todos los tipos de datos. Azure Synapse puede consultar datos estructurados o
semiestructurados con recursos de almacenamiento de datos, además de ejecutar rápidamente una consulta
sin servidor sobre datos no estructurados desde su data lake. Permita que sus profesionales de datos creen
soluciones de análisis de extremo a extremo sin tener que unir una cantidad enorme de servicios.

Lleve a la disolución de los silos de datos al siguiente nivel con Azure Synapse Link, una implementación de
procesamiento transaccional/analítico híbrido (HTAP) nativa de la nube que ahora está disponible en versión
preliminar pública. Esta tecnología elimina los obstáculos entre los servicios de base de datos de Azure y Azure
Synapse, lo que permite a los clientes obtener información de sus datos transaccionales en vivo almacenados
en sus bases de datos operativas con un solo clic, sin administrar el movimiento de datos o colocar una carga
en sus sistemas operativos.

Proceso de migración del almacén de datos


Un proyecto de migración de datos exitoso comienza con un plan bien diseñado. Un plan eficaz explica
los muchos componentes que deben tenerse en cuenta, prestando especial atención a la arquitectura
y la preparación de los datos. A continuación se encuentra el plan del proceso de migración de 3 pasos.

5
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

El proceso de migración de 3 pasos

Preparación Migración
 Defina el alcance de lo que se migrará  Empiece poco a poco y con cosas sencillas
 Cree un inventario de datos y procesos  Automatice donde sea posible
para la migración  Aproveche las herramientas y características
 Defina los cambios en el modelo de datos integradas de Azure para reducir el esfuerzo
(si los hay) de migración
 Defina el mecanismo de extracción de datos  Migre los metadatos para tablas y vistas
de origen  Migre los datos históricos que se mantendrán
 Identifique las herramientas y los servicios  Migre o refactorice los procedimientos
pertinentes de Azure (y de terceros) que se almacenados y los procesos empresariales
utilizarán
 Migre o refactorice los procesos de carga
 Capacite al personal en las primeras etapas incremental ETL/ELT
de la nueva plataforma
 Configure la plataforma de destino de Azure

Después de la migración
 Supervise y documente todas las etapas del proceso
 Use la experiencia adquirida para crear una plantilla para futuras migraciones
 Vuelva a diseñar el modelo de datos si es necesario (con el rendimiento y la escalabilidad de la
plataforma nueva)
 Pruebe las aplicaciones y herramientas de consulta
 Configure y optimice el rendimiento de las consultas

Dos tipos de estrategias de migración

Para comenzar su planificación de la migración, realice una evaluación de su almacén de datos existente
para determinar qué estrategia de migración funciona mejor para su situación. Existen dos tipos de estrategias
migración que debe considerar:

Estrategia "lift-and-shift"
Para la estrategia "lift-and-shift", el modelo de datos existente se migra sin cambios a la nueva plataforma
Azure Synapse Analytics. Esto es para minimizar el riesgo y el tiempo necesarios para la migración, al reducir
el alcance de los cambios al mínimo.

6
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

"Lift-and-shift" es una buena estrategia para entornos de almacén de datos heredado, como Netezza, donde:

 se migrará un solo mart de datos, o


 los datos ya están en un esquema de estrella o copo de nieve bien diseñado, o
 hay presiones inmediatas en términos de tiempo y costos para migrar a un entorno de nube moderno

Estrategia de rediseño
En escenarios donde el almacén de datos heredado ha evolucionado con el tiempo, puede que sea esencial
volver a diseñar para mantener los niveles de rendimiento óptimos o admitir nuevos tipos de datos. Esto podría
incluir un cambio del modelo de datos subyacente.
Para minimizar el riesgo, se recomienda migrar primero mediante la estrategia "lift-and-shift" y, a continuación,
modernizar gradualmente el modelo de datos del almacén de datos en Azure Synapse Analytics mediante la
estrategia de rediseño. Un cambio completo en el modelo de datos aumentará los riesgos porque afectará el
origen de los trabajos de ETL del almacén de datos y los marts de datos secundarios.

Reducción de la complejidad de su almacén de datos


heredado existente antes de migrar

En la sección anterior, presentamos las dos estrategias de migración. Como procedimiento recomendado,
durante el paso de evaluación inicial, reconozca cualquier posibilidad de simplificar el almacén de datos
existente y documéntelas. El objetivo es reducir la complejidad de su sistema de almacén de datos heredado
existente antes de la migración para facilitar este proceso.
Estas son algunas recomendaciones sobre cómo reducir la complejidad de su almacén de datos
heredado existente:

Elimine y archive las tablas que no se utilicen antes de migrar


 Evite la migración de datos que ya no se usan

Convierta marts de datos físicos en marts de datos virtuales


 Minimice las cosas que debe migrar
 Reduzca el costo total de propiedad
 Mejore la agilidad
En la siguiente sección, analizaremos con más detalle por qué debe considerar la conversión de un mart de
datos físico en un mart de datos virtual.

Conversión de marts de datos físicos en marts de datos virtuales

Antes de migrar su almacén de datos heredado, considere convertir sus marts de datos físicos actuales en
marts de datos virtuales. Mediante el uso de marts de datos virtuales, puede eliminar los almacenes de datos
físicos y trabajos de ETL para los marts de datos sin perder ninguna funcionalidad antes de la migración. El
objetivo de esto es reducir el número de almacenes de datos para migrar, reducir copias de datos, reducir el
costo total de propiedad y mejorar la agilidad. Para lograrlo, deberá cambiar de marts de datos físicos a marts
de datos virtuales antes de migrar su almacén de datos. Puede considerar esto como un paso de
modernización del almacén de datos antes de la migración.

7
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Desventajas de los marts de datos físicos


 Varias copias de los mismos datos
 Mayor costo total de propiedad
 Difíciles de cambiar, ya que los trabajos de ETL se ven afectados

Ventajas de los marts de datos virtuales


 Se simplifica la arquitectura de almacén de datos
 No es necesario almacenar copias de los datos
 Más agilidad
 Menor costo total de propiedad
 Se utiliza la optimización push-down para aprovechar el poder de Azure Synapse Analytics
 Fácil de cambiar
 Es fácil ocultar los datos confidenciales

Migración del esquema de almacén de datos existente a


Azure Synapse Analytics

A continuación, planifique cómo migrará el esquema de su almacén de datos heredado existente. La migración
de esquema implica la migración de las tablas de almacenamiento provisional, el almacén de datos heredado
y el esquema de mart de datos dependiente existentes.
Para ayudarlo a comprender la magnitud y el alcance de la migración de su esquema, le recomendamos que
cree un inventario de su almacén de datos heredado y del mart de datos existentes.
Esta es una lista de verificación que le ayudará a recopilar la información necesaria:

 Recuento de filas
 Tamaño del almacenamiento provisional, almacén de datos y mart de datos
o Tablas e índices
 Proporciones de compresión de datos
 Configuración de hardware actual
 Tablas (incluidas las particiones)
o Identificar las tablas de dimensiones pequeñas
 Tipos de datos
 Vistas
 Índices
 Dependencias de objetos
 Uso de objetos
 Funciones
o Tanto las funciones listas para usar como las UDF
 Procedimientos almacenados
 Requisitos de escalabilidad
 Proyecciones de crecimiento

8
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

 Requisitos de carga de trabajo


o usuarios simultáneos
Con su inventario completado, ahora puede tomar decisiones sobre el ámbito del esquema que desea migrar.
En esencia, hay cuatro opciones para el alcance de la migración del esquema de almacén de datos heredado.

1. Migre un mart de datos a la vez

Figura 3: Migre un mart de datos a la vez

2. Migre todos los marts de datos a la vez, luego el almacén de datos

Figura 4: Migre todos los marts de datos a la vez, luego el almacén de datos

9
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

3. Migre el almacén de datos y el área de almacenamiento provisional

Figura 5: Migre el almacén de datos y el área de almacenamiento provisional

4. Migre todo de una vez

Figura 6: Migre todo de una vez

Al elegir su opción, recuerde que el objetivo es lograr un diseño de base de datos física que iguale o supere
a su sistema de almacén de datos heredado actual en términos de rendimiento y, preferiblemente, a un
costo menor.

Para resumir, estas son algunas de las recomendaciones para la migración del esquema:

 Evite la migración de objetos o procesos innecesarios


 Considere el uso de marts de datos virtuales para reducir o eliminar el número de marts de datos físicos
 Automatice siempre que sea posible
 Utilice metadatos de las tablas del catálogo del sistema en el sistema de almacén de datos heredado para
generar DDL para Azure Synapse Analytics
 Realice los cambios en el modelo de datos o las optimizaciones de asignación de datos que sean
necesarios en Azure Synapse Analytics

10
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Migración de datos históricos y procesos de ETL desde su


almacén de datos heredado a Azure Synapse Analytics

Una vez que se haya determinado el alcance de la migración del esquema, estaremos listos para tomar
decisiones sobre cómo migrar los datos históricos.

Los pasos para migrar datos históricos son los siguientes:

1. Cree tablas de destino en Azure Synapse Analytics


2. Migre los datos históricos existentes
3. Migre las funciones y los procedimientos almacenados requeridos
4. Migre la carga incremental (ETL/ELT) de almacenamiento provisional y los procesos para los datos
entrantes
5. Aplique cualquier opción de ajuste de rendimiento necesaria

11
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

En la tabla siguiente se describen las cuatro opciones de migración de datos, así como sus pros y contras.

Opción de migración Pros Contras


de datos
Migrar primero los datos  La migración de datos de un mart  Hasta que se complete la
del mart de datos, de datos a la vez es un enfoque migración, algunos datos existirán
seguidos de los datos de bajo riesgo incremental en entornos locales y en Azure
del almacén de datos  La migración posterior de ETL se  Para el procesamiento de ETL
limita solo a los datos de los marts desde el almacén de datos a los
de datos dependientes migrados marts de datos sería necesario
cerrar el firewall y cambiarse
a Azure Synapse de destino
Migrar primero los datos  Se migran todos los datos  Dejar los marts de datos
del almacén de datos, históricos del almacén de datos dependientes en entornos locales
seguidos de los marts no es lo ideal, ya que las ETL
de datos tendrían que revertir el fluir
los datos al centro de datos
 No hay una oportunidad real para
la migración de datos incremental
Migrar el almacén de  Todos los datos se migran de una  Riesgo potencialmente mayor
datos y los marts de sola vez  Significa que lo más probable es
datos juntos que las ETL también tengan que
migrarse juntas
Convertir marts físicos en  No hay almacenes de datos de  Si las vistas anidadas no son
marts virtuales y migrar marts de datos para migrar capaces de admitir marts de datos
solo el almacén de datos  No hay ETL del almacén de datos virtuales, es probable que se
a marts para migrar necesite software de virtualización
 Solo se migrarán los datos del de datos de terceros en Azure
almacén de datos  Todos los marts tendrían que
 Menos copias de datos convertirse antes de que se
migren los datos del almacén
 Sin pérdida de funcionalidad
de datos
 Menor costo total de propiedad
 Los marts virtuales y el almacén
 Más agilidad de datos para las asignaciones
 Arquitectura de datos general de marts virtuales tendrán
más sencilla que portarse al servidor de
 Puede ser posible con vistas en virtualización de datos en Azure
Azure Synapse y redirigirse a Azure Synapse

12
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Migración de procesos de ETL existentes a Azure Synapse Analytics

Existe una serie de opciones disponibles para migrar sus procesos de ETL existentes a Azure Synapse Analytics.
En la siguiente tabla se describen algunas de las opciones de migración de ETL en función de cómo se crearon
los trabajos de ETL existentes.

¿Cómo se crearon los Opciones de migración Por qué migrar y qué buscar
trabajos de ETL existentes?
Código y scripts de  Planifique volver  El código no proporciona linaje
3GL personalizados a desarrollarlos con de metadatos
Azure Data Factory  Difícil de mantener si los autores
ya no están
 Si las tablas de almacenamiento
provisional están en el almacén de
datos heredado y SQL se utiliza
para transformar los datos,
entonces resuelva las diferencias
con T-SQL
Procedimientos almacenados  Planifique volver a  Es probable que existan diferencias
que se ejecutan en el DBMS desarrollarlos con importantes entre el almacén de
del almacén de datos Azure Data Factory datos heredado y Azure Synapse
heredado  Sin linaje de metadatos

Herramienta de ETL gráfica  Siga usando su herramienta  Se evita el redesarrollo


(por ejemplo, Informatica, de ETL existente y cambie el  Se minimiza el riesgo y la
Talend, etc.) destino a Azure Synapse migración es más rápida
 Posiblemente migre a una
versión de Azure de su
herramienta de ETL existente
y porte los metadatos para
ejecutar los trabajos de ELT
en Azure, asegurándose de
habilitar el acceso a orígenes
de datos locales
 Controle la ejecución de los
servicios de ETL con Azure
Data Factory
Software de automatización  Siga usando su herramienta  Se evita el redesarrollo
del almacén de datos de ETL existente, cambie el  Se minimiza el riesgo y la
destino y el almacenamiento migración es más rápida
provisional a Azure Synapse

Redesarrollo de procesos de ETL escalables con Azure Data Factory


Otra opción para manejar los procesos de ETL heredados existentes es mediante el redesarrollo de estos con
Azure Data Factory (ADF). ADF es un servicio de integración de datos de Azure para crear flujos de trabajo
basados en datos (conocidos como canalizaciones) para organizar y automatizar la migración y transformación
de datos. Puede utilizar ADF para crear y programar canalizaciones para la ingesta de datos de diferentes
almacenes de datos. ADF puede procesar y transformar los datos mediante el uso de servicios informáticos,
como Spark, Azure Machine Learning, Azure HDInsight, Hadoop y Azure Data Lake Analytics.

13
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Figura 10: Redesarrollo de procesos de ETL escalables con Azure Data Factory

Recomendaciones para migrar consultas, informes de BI,


paneles y otras visualizaciones

La migración de consultas, informes de BI, paneles y otras visualizaciones de su almacén de datos heredado
a Azure Synapse Analytics sería sencilla si el sistema heredado usara SQL estándar.

Sin embargo, muchas veces, este no es el caso. En esta situación, se debe adoptar una estrategia diferente:

 Identifique los informes de prioridad alta que se migrarán primero.


 Use las estadísticas de uso para identificar qué informes no se usan nunca.
 Evite la migración de cualquier cosa que ya no se use.
 Una vez que haya elaborado la lista de informes que migrará, sus prioridades y los informes no utilizados
que se deben omitir, confirme esta lista con las partes interesadas.
 Para los informes que está migrando, identifique las incompatibilidades en las etapas tempranas para
evaluar el esfuerzo de migración
 Algunas de las incompatibilidades podrían deberse a tipos de datos no admitidos. Consulte el Apéndice A:
Problemas de migración comunes y soluciones.

14
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

 Considere la virtualización de los datos para proteger las herramientas y aplicaciones de BI ante los cambios
estructurales que podrían producirse en el almacén de datos y/o el modelo de datos del mart de datos
durante la migración

Consideraciones sobre seguridad y herramientas


La protección y seguridad de sus activos de datos son primordiales en cualquier sistema de almacén de datos.
Al planificar un proyecto de migración de almacén de datos, también se deben tener en cuenta la seguridad, la
administración de acceso de los usuarios, las copias de seguridad y las restauraciones. Por ejemplo, el cifrado de
datos puede ser obligatorio para las regulaciones de la industria y el gobierno, como HIPAA, PCI y FedRAMP, así
como en industrias no reguladas.

Azure incluye muchas características y funciones como estándar que tradicionalmente tendrían que crearse de
forma personalizada en los productos de almacén de datos heredado. Azure Synapse admite el cifrado de datos
en reposo y en movimiento como estándar:

Datos en reposo
 El cifrado de datos transparente (TDE) se puede habilitar para cifrar y descifrar de manera dinámica los
datos, los registros y las copias de seguridad asociadas de Azure Synapse.
 Azure Data Storage también puede cifrar automáticamente los datos que no son de la base de datos.

Datos en movimiento
 Todas las conexiones a Azure Synapse Analytics se cifran de forma predeterminada, utilizando protocolos
estándar de la industria como TLS y SSH
Además, el enmascaramiento dinámico de datos (DDM) se puede utilizar para ofuscar los datos de determinadas
clases de usuarios en función de las reglas de enmascaramiento de datos.

Como procedimiento recomendado, si su almacén de datos heredado contiene una jerarquía compleja de
permisos, usuarios y roles, considere el uso de técnicas de automatización en su proceso de migración. Puede
utilizar los metadatos existentes de su sistema heredado para generar el SQL necesario para migrar usuarios,
grupos y privilegios en Azure Synapse Analytics.

Herramientas que le ayudarán a migrar a Azure Synapse Analytics


Ahora que hemos cubierto la planificación, preparación e información general del proceso de migración,
echemos un vistazo a las herramientas que puede usar para migrar su almacén de datos heredado a Azure
Synapse Analytics. Las herramientas que analizaremos son:

 Azure Data Factory (ADF)


 Utilidad de migración del almacén de datos de Azure
 Servicios de Microsoft para la transferencia de datos físicos
 Servicios de Microsoft para la ingesta de datos

15
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Azure Data Factory (ADF)


 ADF es un servicio de integración de datos híbrido, de pago por uso y completamente administrado
para el procesamiento de ETL a escala en la nube
 Procesa y analiza los datos en la memoria y en paralelo para escalar y maximizar el rendimiento
 Cree canalizaciones de migración de almacenes de datos que organicen y automaticen la migración de
datos, la transformación de datos y la carga de datos en Azure Synapse Analytics
 También se puede utilizar para modernizar su almacén de datos mediante la ingesta de datos en Azure
Data Lake, el procesamiento y el análisis de datos a escala y la carga en un almacén de datos
 Admite interfaces de usuario basadas en roles para la asignación de flujos de datos para profesionales de
TI y la organización de datos de autoservicio para usuarios empresariales
 Puede conectarse a varios almacenes de datos que abarcan aplicaciones de centro de datos, nubes y SaaS
 Más de 90 conectores disponibles, integrados de forma nativa y sin mantenimiento (referencia:
https://azure.microsoft.com/services/data-factory/)
 Combine la organización y asignación de flujos de datos en la misma canalización para preparar los datos
a escala
 La orquestación de ADF puede controlar la migración del almacén de datos a Azure Synapse Analytics
 Puede ejecutar paquetes de ETL de SSIS desde Azure Data Factory

Utilidad de migración del almacén de datos de Azure


 Migre los datos desde un almacén de datos local basado en SQL Server a Azure Synapse.
 Utiliza un enfoque similar a un asistente para realizar una migración "lift-and-shift" de esquema y datos
desde un almacén de datos local basado en SQL Server.
 Puede seleccionar la base de datos local que contiene las tablas que desea exportar a Azure Synapse.
Después selecciona las tablas que desea migrar y migra el esquema.
 Genera automáticamente el código T-SQL necesario para crear una base de datos y tablas vacías
equivalentes en Azure Synapse. Una vez que proporcione los detalles de conexión a Azure Synapse, puede
ejecutar la extensión T-SQL generada para migrar el esquema.
 Después de la creación del esquema, puede usar la utilidad para migrar los datos. Esto exporta los datos de
su almacén de datos local basado en SQL Server y genera comandos de BCP (programa de copia masiva)
para cargar esos datos en Azure Synapse.

Servicios de Microsoft para la transferencia de datos físicos


Azure ExpressRoute
 Conexión privada entre Azure y los centros de datos del cliente
 Los datos no pasan por Internet

AzCopy
 Se copian los datos a Azure a través de Internet

Azure Databox
 Volúmenes grandes (decenas de TB a cientos de TB)

16
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Servicios de Microsoft para la ingesta de datos


PolyBase (método recomendado)
 Proporciona la carga de datos masivos más rápida y escalable en Azure Synapse Analytics
 Utiliza la carga paralela para ofrecer el rendimiento más rápido
 Puede leer desde archivos planos en Azure Blob Storage o desde orígenes de datos externos a través
de conectores
 Estrechamente integrado con Azure Data Factory
 CREATE TABLE AS o INSERT … SELECT
 Defina la tabla de almacenamiento provisional como tipo HEAP para una carga rápida
 Admite filas de hasta 1 MB de longitud

BCP (programa de copia masiva)


 Admite filas de más de 1 MB de longitud
 Desarrollado originalmente para versiones anteriores de Microsoft SQL Server
 Se puede utilizar para importar y exportar datos de cualquier entorno de SQL Server, incluido Azure
Synapse Analytics
 (referencia: https://docs.microsoft.com/sql/tools/bcp-utility)

API de SqlBulkCopy
 Esta es una API equivalente de la funcionalidad de BCP
 Permite la implementación de procesos de carga mediante programación
 (referencia: https://docs.microsoft.com/dotnet/api/system.data.sqlclient.sqlbulkcopy)

INSERT e INSERT … SELECT


 Azure Synapse Analytics admite SQL estándar
 Cargue filas individuales o resultados de instrucciones SELECT en las tablas del almacén de datos
 INSERT … SELECT se puede utilizar dentro de PolyBase para insertar datos de forma masiva a partir
de datos extraídos a través de orígenes de datos externos en las tablas del almacén de datos

Conclusión
Los proyectos de migración de datos exitosos comienzan con un plan bien diseñado. Un plan eficaz explica
los muchos componentes que deben tenerse en cuenta, prestando especial atención a la arquitectura y la
preparación de los datos.

Azure Synapse Analytics es un servicio de análisis basado en la nube, ilimitado, con un tiempo de obtención
de información sin igual, que acelera la entrega de BI, IA y aplicaciones inteligentes a las empresas. Con la
migración de su almacén de datos heredado a Azure Synapse Analytics obtendrá muchos beneficios, que
incluyen rendimiento, velocidad, mejor seguridad y cumplimiento, elasticidad, infraestructura administrada,
escalabilidad y ahorro de costos.

17
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Esta guía le ha proporcionado la metodología de alto nivel necesaria para prepararse y ejecutar la migración de
un sistema Netezza existente a Azure Synapse Analytics.

Hemos cubierto el proceso de migración de 3 pasos y las estrategias de migración, hemos aprendido a reducir
la complejidad de su almacén de datos heredado existente antes de la migración y cómo migrar el esquema,
los datos históricos, los procesos de ETL y las visualizaciones existentes a Azure Synapse Analytics. También
analizamos las consideraciones y herramientas de seguridad que lo ayudarán a tener éxito en la migración a
Azure Synapse Analytics.

Después de haber migrado a Azure Synapse, podrá explorar tecnologías de Microsoft adicionales en el
ecosistema de análisis enriquecido de Azure para modernizar su almacén de datos.

Aquí hay algunas ideas para considerar:

 Descargue las áreas de almacenamiento provisional y el procesamiento de ELT en Azure Data Lake y Azure
Data Factory
 Cree productos de datos de confianza una vez en un formato de modelo de datos común y consúmalos en
todas partes, no solo en su almacén de datos
 Permita el desarrollo colaborativo de las canalizaciones de preparación de datos por parte del negocio y de
TI mediante la asignación de ADF y la organización de flujos de datos
 Cree canalizaciones de análisis en ADF para analizar los datos en lotes y en tiempo real
 Cree e implemente modelos de machine learning para agregar información adicional a lo que ya conoce
 Integre su almacén de datos con datos de transmisión en vivo
 Simplifique el acceso a los datos y la información en varios almacenes de datos de análisis de Azure
mediante la creación de un almacén de datos lógico con PolyBase
Le deseamos lo mejor en su proceso de migración.

Para obtener más información:

 Regístrese para obtener una cuenta gratuita de Azure


 Conéctese con un especialista en ventas de Azure para saber sobre los precios, los procedimientos
recomendados de análisis, la configuración de una prueba de concepto y mucho más.
 Descubra por qué los clientes eligen Azure para sus análisis.

18
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Empiece hoy mismo

Comience con una cuenta de prueba gratuita de Azure hoy mismo:


https://azure.microsoft.com/free/synapse-analytics/

Descargue el kit de herramientas para comenzar:


https://azure.microsoft.com/resources/azure-synapse-analytics-toolkit/

Obtenga más información con la documentación de Azure Synapse:


https://docs.microsoft.com/azure/synapse-analytics/sql-data-warehouse/

19
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Apéndice A:
Problemas de migración comunes y soluciones
Durante el proceso de migración, es posible que encuentre ciertos problemas que debe solucionar. En esta
sección, destacaremos algunos de los problemas comunes y le proporcionaremos las soluciones que puede
implementar.

Problema n.° 1: tipos de datos no admitidos y soluciones


En la tabla siguiente se muestran los tipos de datos de los sistemas de almacén de datos heredado que no son
compatibles, así como la solución adecuada para Azure Synapse Analytics.

Tipo de datos no admitido Solución para Azure Synapse Analytics


geometry varbinary
geography varbinary
hierarchyid nvarchar(4000)
image varbinary
texto varchar
ntext nvarchar
sql_variant Divida la columna en varias columnas fuertemente tipadas.
table Conviértalo en tablas temporales.
timestamp Rehaga el código para usar datetime2 y la función
CURRENT_TIMESTAMP.
xml varchar
user-defined type Vuelva a convertir al tipo de datos nativo cuando sea posible

Problema n.° 2: diferencias de restricción de integridad


Preste mucha atención a las diferencias de restricción de integridad entre su almacén de datos heredado o mart
de datos y Azure Synapse Analytics. En el siguiente diagrama, el lado izquierdo representa el antiguo sistema de
almacén de datos heredado y, en el lado derecho, se encuentra el nuevo entorno de Azure Synapse Analytics.

20
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Figura 7: Diferencias de restricción de integridad

En las secciones siguientes, abarcaremos íntegramente cómo resolver otras incompatibilidades comunes de
SQL durante la migración desde el almacén de datos heredado a Azure Synapse Analytics.

Incompatibilidades comunes de SQL y soluciones


Diferencias de lenguaje de definición de datos (DDL) de SQL y soluciones
Tipos de tablas exclusivas
 En el sistema heredado, identifique cualquier uso de los tipos de tablas exclusivas
 Solución: migre a tablas estándar dentro de Azure Synapse Analytics
 Para time series, index o partition en la columna fecha/hora
 Se deberá agregar un filtro adicional a las consultas temporales pertinentes

Vistas
 En el sistema heredado, identifique las vistas de las tablas del catálogo y los scripts de DDL
 Las vistas con extensiones o funciones de SQL exclusivas tendrán que reescribirse
 Azure Synapse Analytics también admite vistas materializadas, las que mantendrá y actualizará
automáticamente

Valores NULL
 Los valores NULL se pueden manejar de manera diferente en las bases de datos de SQL heredadas
o Por ejemplo, en Oracle, una cadena vacía equivale a un valor NULL
 Algunos DBMS tienen funciones de SQL exclusivas para el manejo de valores NULL
o Por ejemplo, NVL en Oracle
 Genere consultas de SQL para probar los valores NULL
 Pruebe informes que incluyan columnas que aceptan valores NULL

21
Cómo migrar su dispositivo heredado a Azure Synapse Analytics

Diferencias de SQL ampliadas y soluciones


Extensión de SQL Descripción Cómo migrar
Funciones definidas por Pueden contener código arbitrario Use CREATE FUNCTION y vuelva
el usuario Pueden codificarse en varios lenguajes a codificar en T-SQL
(por ejemplo, Lua, Java)
Se pueden llamar dentro de una
instrucción SELECT de SQL de la
misma manera que se utilizan las
funciones integradas como SUM()
y AVG()
Procedimientos Pueden contener una o más Vuelva a codificar en T-SQL
almacenados instrucciones de SQL, así como lógica Algunas herramientas pueden ayudar
de procedimiento en torno a esas con la migración
instrucciones de SQL Por ejemplo, Datometry, WhereScape
Se implementan en un lenguaje
estándar (por ejemplo, Lua) o en un
lenguaje exclusivo (por ejemplo,
Oracle PL/SQL)
Desencadenadores No son compatibles con Se puede lograr una funcionalidad
Azure Synapse equivalente mediante el uso de otras
partes del ecosistema de Azure. Por
ejemplo, para datos de entrada
transmitidos, Azure Stream Analytics
Análisis en la base No son compatibles con Ejecute análisis avanzados, como
de datos Azure Synapse modelos de machine learning a escala,
para usar Azure Databricks
Como alternativa, migre a Azure SQL
Database y use la función PREDICT
Tipo de datos No son compatibles con Almacene datos geoespaciales como
geoespaciales Azure Synapse latitud/longitud y formatos populares,
como WKT (texto conocido) y WKB
(binario conocido) en las columnas
VARCHAR o VARBINARY y tenga acceso
directo mediante herramientas de
cliente geoespacial

22

También podría gustarte