0% encontró este documento útil (0 votos)
140 vistas43 páginas

Simplifique su data mart y BI en 5 pasos

Este documento describe cinco pasos para migrar datos marts y cargas de trabajo OLAP de SQL Server local a Azure Synapse Analytics. Primero, recomienda usar Azure Purview para analizar y comprender los datos en SQL Server local antes de comenzar la migración. Luego, detalla los componentes de Azure Synapse como grupo de SQL, grupo de Spark y almacenamiento en Azure para diferentes tipos de cargas de trabajo. Finalmente, los cinco pasos incluyen exploración de datos sin servidor, almacenamiento de datos, integración de datos, optimización de cargas de trabajo y

Cargado por

Campus Biblico
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
140 vistas43 páginas

Simplifique su data mart y BI en 5 pasos

Este documento describe cinco pasos para migrar datos marts y cargas de trabajo OLAP de SQL Server local a Azure Synapse Analytics. Primero, recomienda usar Azure Purview para analizar y comprender los datos en SQL Server local antes de comenzar la migración. Luego, detalla los componentes de Azure Synapse como grupo de SQL, grupo de Spark y almacenamiento en Azure para diferentes tipos de cargas de trabajo. Finalmente, los cinco pasos incluyen exploración de datos sin servidor, almacenamiento de datos, integración de datos, optimización de cargas de trabajo y

Cargado por

Campus Biblico
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Serie de eBooks

Cinco pasos para


simplificar su solución
de data mart y BI
Cinco pasos para simplificar su solución de data mart y BI 2

Cinco pasos para


simplificar su solución
de data mart y BI

3/ 9/ 39 /
Introducción Paso 2: Almacenamiento Integración de los análisis y la
de datos gobernanza de datos

4/
17 / 40 /
Antes de comenzar: gobierne
y comprenda los datos en su Paso 3: Integración de datos Recursos adicionales
SQL Server local

28 / 43 /
6/
Paso 4: Optimización de las Empiece hoy mismo
Introducción a su primer cargas de trabajo del almacén
proyecto de Azure Synapse de datos para el BI y la
elaboración de informes

8/
34 /
Paso 1: Exploración del lago
de datos sin servidor y análisis Paso 5: Machine learning a
de streaming escala de la nube para análisis
Cinco pasos para simplificar su solución de data mart y BI 3

Introducción
Este libro contempla los pasos básicos para migrar sus datos marts de SQL locales y cargas
de trabajo OLAP a Azure Synapse Analytics. Aprenderá cómo incorporar la gobernanza y la
administración de datos utilizando Azure Purview como parte clave de su viaje de modernización
de SQL local. Azure Purview le permite analizar, clasificar y comprender los datos de su
servidor SQL local para ayudarle a preparar y elaborar estrategias para la migración a la
nube. A continuación, conocerá las ventajas de utilizar Azure Synapse Analytics, que abarcará
la integración de datos, la exploración del lago de datos, el almacenamiento de datos y el
machine learning a escala de la nube para los análisis. Tras la migración, aprenderá cómo buscar,
interactuar y analizar con facilidad los activos de datos analizados desde Azure Synapse Studio.

En este libro, abordaremos los siguientes temas que le ayudarán a modernizar su solución
de data mart y BI:

• Antes de comenzar: gobierne y comprenda los datos en su SQL Server local


• Introducción a su primer proyecto de Azure Synapse
• Paso 1: Exploración del lago de datos sin servidor y análisis de streaming
• Paso 2: Almacenamiento de datos
• Paso 3: Integración de datos
• Paso 4: Optimización de las cargas de trabajo del almacén de datos para el BI y la elaboración
de informes
• Paso 5: Machine learning a escala de la nube para análisis
• Integración de los análisis y la gobernanza de datos
• Recursos adicionales

Todos los temas cuentan con vínculos de referencia para profundizar en cualquier tema.
Por lo tanto, empecemos a trabajar en la modernización de sus data marts.
Cinco pasos para simplificar su solución de data mart y BI 4

Antes de comenzar: gobierne y


comprenda los datos en su SQL
Server local
Antes de llevar a cabo un proyecto de migración, es importante tener un conocimiento global de
los datos que ha capturado y almacenado en sus SQL Server locales. Esto le ayudará a planificar y
elaborar una estrategia para migrar de forma más eficaz las diferentes cargas de trabajo y flujos
de datos. La administración y la gobernanza de los datos tienen que ser un primer paso clave en
su viaje de migración, y Azure Purview puede ayudar a analizar su SQL Server para ofrecer una
comprensión completa de su patrimonio de datos. Azure Purview es un servicio unificado de
gobernanza de datos que le ayuda a administrar y gobernar sus datos locales, multinube y de
software como servicio (SaaS). Puede crear con facilidad un mapa integral y actualizado de su
panorama de datos con la detección automatizada de datos, la clasificación de datos confidenciales
y el linaje de datos de extremo a extremo.

Arquitectura y componentes
Azure Purview está diseñado para abordar los numerosos desafíos de administración y detección
de datos para los consumidores y productores de datos, y para los administradores de seguridad.
El producto ayuda a las empresas a obtener el máximo valor de sus activos de información existentes.

Analizar automáticamente los metadatos

Azure Purview Data Map entrega las bases para la detección y la gobernanza de datos eficaz.
Purview Data Map es un servicio PaaS nativo de la nube que captura los metadatos de los datos
empresariales presentes en los sistemas de análisis y operativos, tanto locales como en la nube.
Purview Data Map se mantiene actualizado automáticamente con un sistema automatizado de
análisis y clasificación incorporado. Los usuarios empresariales pueden configurar y utilizar Purview
Data Map a través de una interfaz de usuario intuitiva y los desarrolladores pueden interactuar
mediante programación con Data Map utilizando las API open source de Apache Atlas 2.0.

Para obtener más información sobre cómo analizar y clasificar automáticamente los datos de su
servidor SQL utilizando Azure Purview, consulte el siguiente vínculo: Registrar y analizar un servidor
SQL local: Azure Purview | Microsoft Docs
Cinco pasos para simplificar su solución de data mart y BI 5

Explorar y buscar datos

Con el catálogo de datos de Azure Purview, tanto los usuarios empresariales como los técnicos
pueden descubrir rápida y fácilmente los datos pertinentes mediante la búsqueda o la exploración.
Puede buscar con filtros basados en varios objetivos como términos del glosario, clasificaciones,
etiquetas de confiabilidad y más. Para navegar, deberá hacer clic en el mosaico de exploración
de activos en la página de inicio del catálogo, navegar hasta la pestaña de tipo de fuente, hacer
clic en SQL Server y dirigirse a la tabla sobre la que esté interesado en obtener más información.
También puede buscar sus tablas de SQL Server por colección.

Puede consultar los siguientes vínculos para obtener más información sobre cómo buscar
y explorar datos en el catálogo de datos de Azure Purview:
• Cómo buscar en el catálogo de datos de Azure Purview
• Cómo explorar el catálogo de datos de Azure Purview

Realizar seguimiento del linaje de datos

Los consumidores y productores de datos también pueden realizar seguimiento visual del linaje
de los activos de datos, empezando por los sistemas operativos locales, pasando por el
movimiento, la transformación y el enriquecimiento con varios sistemas de almacenamiento y
procesamiento de datos en la nube, hasta el consumo en un sistema de análisis como Power BI.
Cuando se utiliza Azure Data Factory para trasladar y transformar sus datos, el linaje relacionado
con su SQL Server puede capturarse de manera automática y salir a la superficie en Azure Purview.

Para obtener más información sobre cómo puede vincular una instancia de Azure Data Factory
a su cuenta de Azure Purview, consulte el siguiente vínculo: Conectarse a Azure Data Factory:
Azure Purview | Microsoft Docs

Adquirir conocimientos sobre los datos

Con Azure Purview Data Insights, los directores de datos y de seguridad pueden obtener una vista
panorámica de toda su información relacionada con SQL Server en torno a los activos, los análisis,
el glosario, la clasificación y las etiquetas.

Para obtener más información sobre cómo utilizar Azure Purview para adquirir conocimientos
sobre los datos, consulte el siguiente vínculo: Comprender los informes de conocimientos en
Azure Purview: Azure Purview | Microsoft Docs
Cinco pasos para simplificar su solución de data mart y BI 6

Introducción a su primer proyecto


de Azure Synapse
Azure Synapse es un servicio en la nube ilimitado que le permite unir el almacén de datos de su
empresa, la integración de datos y el análisis de macrodatos a escala. Permite consultar los datos
utilizando diferentes motores de cálculo y diferentes lenguajes.

Arquitectura y componentes
Azure Synapse es una plataforma de análisis unificada que combina la integración de datos, el
almacenamiento de datos de carácter empresarial y el análisis de macrodatos. Le da la libertad de
analizar datos en sus propios términos, usando opciones dedicadas o sin servidor, a escala. Azure
Synapse combina los mundos divididos de los datos con una experiencia unificada para ingerir,
explorar, preparar, transformar, administrar y servir datos para cumplir con las necesidades
inmediatas de inteligencia empresarial y machine learning. A continuación, se muestra una lista
de todos los componentes que vamos a cubrir en este libro junto con el tipo de carga de trabajo
asociado:

• Grupo de SQL
• Grupo de Spark
• Azure Storage
• Capacidades de ingesta de datos para Azure Synapse
• Power BI
• Synapse Studio
Cinco pasos para simplificar su solución de data mart y BI 7

En la figura 1, puede ver cómo se unen todos los componentes en Azure Synapse:

Figura 1: Componentes de Azure Synapse


Cinco pasos para simplificar su solución de data mart y BI 8

Paso 1: Exploración del lago de datos


sin servidor y análisis de streaming
En esta sección, aprenderá sobre el nuevo grupo de SQL sin servidor para el análisis ad-hoc y la
exploración del lago de datos.

El grupo de SQL sin servidor en Azure Synapse permite a los usuarios explorar y consultar sus
datos en el lago de datos utilizando una sintaxis T-SQL familiar sin trasladar los datos a un
almacén de datos relacional. Puede llevar a cabo transformaciones de datos sencillas y escalables
en el lago de datos para generar conocimientos significativos. Estos datos pueden cargarse en un
grupo de SQL dedicado para cargas de trabajo de almacenamiento de datos y también pueden
alimentar a Power BI.

Si viene de un entorno de SQL Server, sabrá que los datos tienen que copiarse del lago de
datos a las bases de datos relacionales si necesita obtener alguna información o realizar alguna
transformación en sus datos. Sin embargo, en el caso de un grupo de SQL sin servidor, es posible
que no sea necesario trasladar los datos para explorarlos. A continuación, se presentan algunas
ventajas que podrían ser casos prácticos interesantes para un grupo de SQL sin servidor:

• Explore rápidamente los datos en varios formatos (Parquet, CSV, JSON) en su lago de datos
directamente, para obtener información de ellos.
• Cree un almacén de datos lógico sin reubicar los datos en ningún lugar de su lago de datos.
• Genere informes de Power BI utilizando directamente sus datos en un lago de datos.
• Transforme fácilmente sus datos mediante T-SQL e ingréselos en un almacén de datos
relacional.

Para obtener más información sobre los beneficios de los grupos de SQL sin servidor, consulte el
siguiente vínculo: Grupo de SQL sin servidor en Azure Synapse Analytics.
Cinco pasos para simplificar su solución de data mart y BI 9

Paso 2: Almacenamiento de datos


Un grupo de SQL se usa para almacenar datos relacionales para ejecutar análisis a escala
masiva en la nube. Utiliza un formato de almacenamiento en columnas para reducir los costos
de almacenamiento de datos y mejorar el rendimiento de las consultas. En un grupo de SQL
dedicado, la informática se mantiene separada del almacenamiento para que pueda escalar su
motor de procesamiento según las necesidades, independientemente de sus datos en el sistema.

Un grupo de SQL aprovecha un motor de procesamiento inmensamente paralelo (MPP) para


distribuir el procesamiento informático de sus datos en varios nodos de ejecución. Todos estos
nodos de ejecución reciben sus instrucciones de un nodo de control, como puede verse en la
figura 2:

Figura 2: Arquitectura para un grupo de SQL dedicado en Azure Synapse


Cinco pasos para simplificar su solución de data mart y BI 10

Los datos del usuario se almacenan en Azure Storage, al que pueden acceder los nodos de
ejecución. Se usa un servicio interno, también conocido como servicio de movimiento
de datos (DMS), para trasladar los datos entre los nodos para ejecutar las consultas de los
usuarios en paralelo.

Para obtener más información sobre esta arquitectura, consulte el siguiente vínculo: Arquitectura
del grupo de SQL dedicado (anteriormente SQL DW) en Azure Synapse Analytics.

Puede pasar por tres etapas diferentes para migrar sus data marts de SQL locales a un grupo
de SQL:

• Migración de metadatos con Azure Synapse Pathway


• Diseño de tablas y cambios en el código
• Migración de datos a Azure Synapse mediante capacidades de integración de datos

En esta sección, aprenderemos sobre la migración de metadatos y los cambios en el código.


Abordaremos más adelante la migración de datos en la sección Paso 3: Integración de datos.

Requisitos técnicos
Los siguientes son los requisitos técnicos que debe llevar a cabo antes de migrar su almacén
de datos SQL a un grupo de SQL dedicado:

1. Crear un espacio de trabajo de Synapse.


2. Crear un grupo de SQL en su espacio de trabajo de Synapse.

Después de crear el espacio de trabajo de Synapse y el grupo de SQL, el primer paso es la


migración de metadatos, que puede realizarse con la herramienta Microsoft Azure Synapse
Pathway. A continuación, tenemos que hacer algunos cambios en el código aptos para el
motor MPP y, por último, pero no menos importante, migraremos nuestros datos utilizando las
canalizaciones de Synapse. Por lo tanto, vamos a seguir todos estos pasos para iniciar nuestro
viaje de migración.
Cinco pasos para simplificar su solución de data mart y BI 11

Migración de metadatos con Azure Synapse Pathway


Para la mayoría de las organizaciones, la migración de sus data marts a una nueva solución de
análisis puede ser complicada. La integración de datos en silos en todas las unidades de negocio
para la migración conlleva muchos desafíos, ya que la lógica empresarial y otros objetos de la base
de datos tienen que disociarse cuando esos datos se trasladan. Una de las tareas de migración más
complejas es la traducción del código SQL. La conversión de cientos de líneas de código heredado
en los objetos de la base de datos requiere que los equipos de datos reescriban de forma manual
el código existente o contraten integradores de sistemas (SIS) para completar la tarea.

Las organizaciones tienen sprints que requieren miles de horas de trabajo intensivo y transferencia
de conocimientos, que son propensos a los errores humanos e incurren en grandes costos. Sin
embargo, Azure Synapse introdujo Azure Synapse Pathway, que puede usarse para traducir todo
el código SQL automáticamente. El proceso tradicional de conversión manual del código puede
ahora automatizarse en una fracción de tiempo; todo ello a la vez que se eliminan los errores y se
reduce el costo total de la migración.

La mayoría de los scripts pueden ejecutarse en Synapse SQL sin ninguna modificación. Sin
embargo, Synapse SQL no admite determinadas palabras clave. Podría ser una tarea difícil
identificar todos los scripts que necesitan modificación y comenzar a hacer los cambios necesarios
uno tras otro. Sin embargo, puede descargar Azure Synapse Pathway para migrar todos sus objetos
directamente a Synapse SQL.

Es posible que reciba algunos mensajes de error para algunos de los scripts en los que podría
ser necesaria la intervención manual, pero esta herramienta reduce el esfuerzo manual en gran
medida.

Siga los siguientes pasos para migrar todos los esquemas y objetos de un almacén de datos local
a Azure Synapse:

1. Descargue Azure Synapse Pathway.


2. Siga las instrucciones para instalar esta herramienta en su máquina.
3. Antes de empezar a utilizar esta herramienta, tenemos que generar scripts para todos los
objetos de la base de datos del almacén de datos local. Conéctese a su almacén de datos
a través de la herramienta SQL Server Management Studio.
Cinco pasos para simplificar su solución de data mart y BI 12

4. Haga clic con el botón secundario en su almacén de datos y haga clic en Tasks > Generate
Scripts… (Tareas > Generar scripts…):

Figura 3: Generación de scripts para los objetos de la base de datos

5. Revise los detalles proporcionados en la página Introduction (Introducción) y haga clic en


Next (Siguiente).
6. En la siguiente pantalla, puede seleccionar el botón de radio Script entire database and all
database objects (Generar script de toda la base de datos y de todos sus objetos) o puede
hacer clic en otro botón de radio para Select specific database objects (Seleccionar objetos
de base de datos específicos). En este ejemplo, vamos a seleccionar el primer botón de radio
para seleccionar todos los objetos de la base de datos:

Figura 4: Seleccionar los objetos de base de datos para generar scripts


Cinco pasos para simplificar su solución de data mart y BI 13

7. En la siguiente pantalla, seleccione el botón de radio Save as script file (Guardar como archivo
de script) y proporcione una ruta de archivo adecuada para guardar los scripts generados:

Figura 5: Proporcionar el nombre de archivo para guardar el script SQL generado

8. Haga clic en Next (Siguiente) para revisar sus selecciones y nuevamente en Next después
de revisar todos los detalles.
9. En un par de minutos, su nuevo archivo de script se generará y se guardará en la ubicación
requerida. Haga clic en Finish (Finalizar) para cerrar la ventana Generate scripts (Generar
scripts).
10. Ahora, abra la herramienta Azure Synapse Pathway en su máquina y seleccione Microsoft
SQL Server en la lista desplegable Translation type (Tipo de traducción).
11. Haga clic en el botón Browse… (Examinar…) para seleccionar el directorio de entrada donde
guardó el archivo de script de la base de datos generado en el paso 9.
Cinco pasos para simplificar su solución de data mart y BI 14

12. Luego, haga clic en el botón Browse… para seleccionar el directorio de salida donde desea
almacenar el script convertido y haga clic en Translate (Traducir):

Figura 6: Aprovisionar la configuración para Azure Synapse Pathway

13. El proceso de migración puede demorar un par de minutos en completarse. Puede ver el
informe de migración en la herramienta Azure Synapse Pathway una vez completada la
migración:

Figura 7: Una instantánea del informe de migración generado por Azure Synapse Pathway
Cinco pasos para simplificar su solución de data mart y BI 15

14. Haga clic en View Results (Ver resultados) para ir al directorio de salida que se especificó
en el paso anterior y verá los archivos de script traducidos según su estructura de directorio
de entrada:

Figura 8: Una instantánea de la carpeta de tablas y la hoja de resultados de Excel generada en el directorio de salida

Ahora que hemos migrado con éxito todos los objetos de la base de datos, vamos a ver si
tenemos que hacer algún diseño de tabla o cambios en el código.

Diseño de tablas y cambios en el código


Ya que aprendimos anteriormente en este capítulo que los grupos de SQL aprovechan los
motores basados en MPP, sería una decisión inteligente rediseñar sus tablas para tener un
tipo de distribución correcto para su tabla. La distribución correcta lo ayudará a conseguir un
rendimiento optimizado en los grupos de SQL. Puede consultar la documentación para obtener
orientación para diseñar tablas distribuidas con un grupo de SQL dedicado.

Después de realizar todos los cambios necesarios en los diseños de las tablas, tenemos que
abordar los mensajes de error que arroja la herramienta Azure Synapse Pathway. Algunos
códigos pueden no ser compatibles con los grupos de SQL de Synapse, por lo que tenemos
que realizar los cambios necesarios para que el código sea compatible con los grupos de SQL.
Cinco pasos para simplificar su solución de data mart y BI 16

En la figura 9 se muestra uno de los mensajes de error que tienen que abordarse antes de
ejecutarlo en un grupo de SQL:

Figura 9: Una instantánea de uno de los mensajes de error en Azure Synapse Pathway

Aunque un grupo de SQL admite la mayoría de los aspectos de los procedimientos almacenados
de T-SQL, algunos aspectos no están implementados en un grupo de SQL dedicado. Puede
encontrar la lista aquí.

Hay algunas recomendaciones de desarrollo y técnicas de codificación que debe tener en cuenta
al migrar los objetos de los data marts de SQL locales.

Al igual que un procedimiento almacenado, tiene que considerar ciertas recomendaciones


antes de crear tablas en Azure Synapse. Un grupo de SQL almacena y opera en tablas a través
de distribuciones. En Azure Synapse, tiene tres métodos para distribuir los datos: distribución
equilibrada (predeterminada), hash y replicado. Los usuarios pueden decidir qué método de
distribución será adecuado para cualquier tabla específica de acuerdo con las directrices que
se proporcionan aquí.
Cinco pasos para simplificar su solución de data mart y BI 17

Paso 3: Integración de datos


Azure Synapse cuenta con capacidades de integración de datos para modernizar sus procesos
ETL/ELT. Necesitamos crear servicios vinculados para establecer la conexión con el origen y el
destino antes de agregar cualquier actividad a la canalización. Los usuarios pueden agregar
diferentes tipos de actividades a la canalización para la ingeniería de datos y, posteriormente,
estas canalizaciones pueden programarse para que se ejecuten a intervalos periódicos.

Vamos a aprender en este capítulo sobre el uso de la actividad COPY con canalizaciones para
llevar los datos a Azure Synapse. Sin embargo, puede explorar las canalizaciones de Azure
Synapse con mucho más detalle si revisa la documentación Integración con las canalizaciones.

Azure Synapse ha facilitado a los usuarios llevar sus cargas de trabajo de integración de datos
desde en entorno local dentro de Synapse Studio a Azure Synapse mediante la integración de
canalizaciones dentro de Synapse Studio. Sus trabajos de ETL/ELT pueden realizarse mediante
una interfaz de arrastrar y soltar, de código bajo, tan pronto como se aprovisione su espacio
de trabajo de Azure Synapse.

Importante: Azure Synapse no admite actualmente SSIS Integration Runtime. Sin embargo,
puede crear canalizaciones de integración de datos dentro de Azure Synapse para replicar las
funcionalidades de su paquete SSIS. Esta función está disponible en Azure Data Factory y puede
obtener más información al respecto en Crear Azure-SSIS Integration Runtime en Azure Data
Factory.

Puede ir al hub Integrate (Integrar) en Synapse Studio para crear o editar una canalización, como
se ve en la figura 10. También puede navegar por la galería para empezar a jugar con las plantillas
de canalización. Ahora, vamos a seguir los próximos pasos para copiar los datos de un almacén
de datos SQL local al grupo de SQL dedicado en Azure:
Cinco pasos para simplificar su solución de data mart y BI 18

1. Vaya al hub Integrate (Integrar) de Synapse Studio, haga clic en + y seleccione la


herramienta Copy Data (Copiar datos), como se muestra en la figura 10:

Figura 10: Una instantánea del hub Integrate (Integrar) de Synapse Studio

2. Proporcione un nombre apropiado en el campo correspondiente, deje el valor


predeterminado para Task cadence o task schedule (Cadencia de la tarea o Programa
de la tarea) y, a continuación, haga clic en Next (Siguiente):

Figura 11: Configurar las propiedades de la herramienta Copy Data (Copiar datos) en Synapse Studio

3. A continuación, debemos configurar una conexión para el almacén de datos SQL local. Por lo
tanto, proporcione un nombre apropiado para esta conexión.
Cinco pasos para simplificar su solución de data mart y BI 19

4. A continuación, tenemos que crear un entorno de ejecución de integración autohospedado


para establecer una conexión entre el entorno local y Azure. Por lo tanto, haga clic en +
New (+Nuevo) que aparece en la lista desplegable para Connect via integration runtime
(Conectar a través del entorno de ejecución de integración):

Figura 12: Crear una nueva conexión para el origen de datos

5. En la siguiente pantalla, tenemos que seleccionar Self-Hosted (Autohospedado) y hacer clic


en Continue (Continuar) (puede revisar Entorno de ejecución de integración en Azure Data
Factory si desea explorar los entornos de ejecución de integración con más detalle):

Figura 13: Seleccionar el entorno de red para la configuración del entorno de ejecución de integración
Cinco pasos para simplificar su solución de data mart y BI 20

6. Rellene los campos Name (Name) y Description (Descripción) para el entorno de ejecución
de integración y luego haga clic en Create (Crear):

Figura 14: Proporcionar el nombre para el entorno de ejecución de integración

7. Ahora haga clic en el vínculo directamente debajo de la opción 1 para iniciar la configuración
rápida del entorno de ejecución de integración autohospedado. Como alternativa, también
puede realizar una configuración manual si sigue los pasos que se indican en la opción 2:

Figura 15: Configurar el entorno de ejecución de integración en la máquina


Cinco pasos para simplificar su solución de data mart y BI 21

8. Una vez completada la configuración, puede cerrar esta ventana y seleccionar el nuevo
entorno de ejecución de la integración que acaba de crear desde la lista desplegable
Connect via integration runtime (Conectar a través del entorno de ejecución de
integración).
9. Complete los campos Server name (Nombre del servidor) y Database name (Nombre
de la base de datos).
10. Seleccione Windows authentication (Autenticación de Windows) para Authentication
type (Tipo de autenticación). Como alternativa, también puede seleccionar SQL
authentication (Autenticación de SQL).
11. Complete los campos User name (Nombre de usuario) y Password (Contraseña), haga clic
en Test connection (Probar conexión) y, a continuación, en Create (Crear):

Figura 16: Crear la conexión para un almacén de datos de SQL local


Cinco pasos para simplificar su solución de data mart y BI 22

12. Ahora, haga clic en Next (Siguiente) para seleccionar una tabla específica de la que
necesitamos copiar los datos. Por ahora, seleccionemos DimAccount, previsualicemos
los registros y, a continuación, hagamos clic en Next (Siguiente):

Figura 17: Una instantánea de la vista previa de los registros de la tabla seleccionada

13. Entonces, tenemos que definir el origen de datos de destino. Para ello, haga clic en +
Create new connection (+ Crear nueva conexión).
Cinco pasos para simplificar su solución de data mart y BI 23

14. Seleccione Azure Synapse Analytics en la lista de todos los orígenes de datos disponibles
y haga clic en Continue (Continuar):

Figura 18: Seleccionar Azure Synapse Analytics para crear un nuevo servicio vinculado

15. Seleccione el nombre del servidor para su grupo de SQL, que no es otra cosa que el nombre
de su espacio de trabajo Synapse, y luego seleccione el nombre de la base de datos, que es su
grupo de SQL.
Cinco pasos para simplificar su solución de data mart y BI 24

16. Seleccione SQL authentication (Autenticación de SQL) para el Authentication type


(Tipo de autenticación) y complete los campos User name (Nombre de usuario) y Password
(Contraseña) para crear la conexión:

Figura 19: Proporcionar los detalles para crear una nueva conexión para el grupo de SQL dedicado
Cinco pasos para simplificar su solución de data mart y BI 25

17. Y finalmente, seleccione la tabla de destino de la lista desplegable de todas las tablas
Destination (Destino) que se asignarán con la tabla Source (Origen) correspondiente.
En este caso, tiene que ser [Link]:

Figura 20: Una instantánea de la asignación de tablas entre las conexiones de origen y de destino

18. Haga clic en Next (Siguiente) y revise la Column mapping (Asignación de columnas) para las
tablas Source (Origen) y Target (Destino) seleccionadas. Puede cambiar o modificar algunas
asignaciones según sus requisitos empresariales:

Figura 21: Asignar columnas para las tablas de origen y destino seleccionadas
Cinco pasos para simplificar su solución de data mart y BI 26

19. En la página Settings (Configuración), marque la casilla de verificación junto a Enable staging
(Habilitar almacenamiento provisional), proporcione una Storage Path (Ruta de almacenamien-
to) al seleccionar el botón Browse (Examinar) que se encuentra junto y seleccione PolyBase
para Copy method (Método de copia). También puede utilizar otros métodos de copia:

Figura 22: Una instantánea de la configuración de rendimiento en la herramienta Copy Data (Copiar datos)

20. Deje los valores predeterminados para el resto de la configuración. Haga clic en Next
(Siguiente) para revisar la pantalla Summary (Resumen) y vuelva a hacer clic en Next para
completar la canalización. Puede hacer clic en Monitor (Supervisar) una vez que todos los
pasos de implementación se hayan completado correctamente:

Figura 23: Una instantánea de la implementación de canalización completada


Cinco pasos para simplificar su solución de data mart y BI 27

Del mismo modo, puede utilizar diferentes herramientas y servicios para copiar los datos de un
almacén de datos SQL local a un grupo de SQL dedicado de Azure Synapse:

• Grupo de Synapse Spark: Synapse Spark también se puede usar para crear cuadernos
de Spark para operaciones de ETL. Puede utilizar conectores SQL para Apache Spark
para acceder a los datos de sus data marts de SQL locales. Consulte Conector de Azure
SQL Database y SQL Server para Apache Spark para obtener todos los detalles sobre este
conector.

• Paquetes SSIS: un paquete SSIS (SQL Server Integration Service) es una colección de
diversos componentes necesarios para ejecutar una tarea ETL específica. Los usuarios pueden
conectarse a varios orígenes de datos y realizar transformaciones empresariales antes de
introducir esos datos en el almacenamiento de datos de destino. También puede crear estos
paquetes para copiar los datos de su almacén de datos SQL local a los grupos de Synapse
SQL. En el siguiente vínculo se ofrecen directrices paso a paso: Cargar datos en Azure Synapse
Analytics con SQL Server Integration Services (SSIS): SQL Server Integration Services (SSIS) |
Microsoft Docs.

Después de crear su nuevo almacén de datos, tiene que decidir qué quiere hacer con él. Con
Azure Synapse, dispone de amplias opciones para utilizar los datos en una dirección adecuada
para su negocio. Aprendamos algunas de estas opciones en la siguiente sección.
Cinco pasos para simplificar su solución de data mart y BI 28

Paso 4: Optimización de las cargas


de trabajo del almacén de datos para
el BI y la elaboración de informes
Al igual que su almacén de datos tradicional, puede crear un modelo tabular sobre sus datos en
un grupo de SQL. Sin embargo, ahora se puede conseguir la misma solución creando modelos
de datos en Power BI. También puede crear su esquema en estrella en un modelo de Power BI
en lugar de crear un modelo multidimensional en SQL Server Analysis Services (local) y crear
informes sobre estos datos. Para explorar esto con más detalle, consulte Comprender el esquema
de estrella y la importancia de Power BI.

Power BI Desktop puede conectarse a un grupo de Synapse SQL mediante el punto de conexión
público que encontrará en la página Overview (Descripción general) de su espacio de trabajo
de Synapse en Azure Portal, como se destaca en la figura 24:

Figura 24: Una instantánea de la página Overview (Descripción general) del espacio de trabajo de Synapse en Azure Portal
Cinco pasos para simplificar su solución de data mart y BI 29

Puede seguir los siguientes pasos para conectar su escritorio de Power BI al grupo de
Synapse SQL:

1. Abra la herramienta Power BI Desktop en su equipo y haga clic en Get data (Obtener
datos), como se destaca en la figura 25:

Figura 25: Una instantánea de Power BI Desktop


Cinco pasos para simplificar su solución de data mart y BI 30

2. Haga clic en More… (Más…) en la parte inferior de esta lista desplegable para obtener la lista
de todos los orígenes de datos admitidos, seleccione Azure Synapse Analytics (SQL DW) y,
a continuación, haga clic en Connect (Conectar):

Figura 26: Seleccionar el origen de datos para llevar los datos a Power BI
Cinco pasos para simplificar su solución de data mart y BI 31

3. Copie el campo Dedicated SQL endpoint (Punto de conexión dedicado de SQL) en la


página Overview (Descripción general) del espacio de trabajo de Synapse y péguelo
en el campo Server (Servidor) en Power BI Desktop.
4. Seleccione DirectQuery para el Data Connectivity mode (Modo Conectividad de datos)
y luego haga clic en OK (Aceptar):

Figura 27: Proporcionar los detalles del servidor para el grupo de SQL en Power BI

5. Complete los campos User name (Nombre de usuario) y Password (Contraseña) para la
autenticación de su Database (Base de datos) y haga clic en OK (Aceptar).
Cinco pasos para simplificar su solución de data mart y BI 32

6. Seleccione el almacén de datos y la tabla necesaria que desea cargar en el modelo de datos
de Power BI y luego haga clic en Load (Cargar):

Figura 28: Cargar los datos de diferentes tablas en Power BI


Cinco pasos para simplificar su solución de data mart y BI 33

7. Ahora, todas las tablas y las columnas correspondientes se pueden ver bajo el panel Fields
(Campos) al lado derecho de la herramienta Power BI. Seleccione Stacked bar chart
(Gráfico de barras apiladas) en la lista de todas las visualizaciones disponibles en el panel
Visualizations (Visualizaciones) y seleccione AccountType para el campo Axis (Eje)
y AccountKey para el campo Values (Valores) para la tabla:

Figura 29: Generar informes sobre Power BI

8. De la misma manera, puede agregar muchas visualizaciones a su Power BI Desktop. Una vez
que haya terminado con todos los informes, puede hacer clic en el botón Publish (Publicar)
en la esquina superior derecha de Power BI para publicar el panel en el servicio de Power BI.

Se puede acceder a estos informes directamente en su Synapse Studio creando un servicio


vinculado para Power BI. También puede crear nuevos informes en Synapse Studio. Vaya a
Vincular un espacio de trabajo de Power BI a un espacio de trabajo de Synapse para obtener más
información sobre esta característica.

Para obtener información sobre cómo modelar los datos en Power BI, consulte Datos del modelo
en Power BI.
Cinco pasos para simplificar su solución de data mart y BI 34

Paso 5: Machine learning a escala


de la nube para análisis
Ahora que sabe cómo optimizar las cargas de trabajo de su almacén de datos, es el momento
de utilizar los servicios de machine learning para realizar operaciones de análisis en los datos.

Los usuarios pueden crear aplicaciones eficaces de machine learning basadas en la nube
utilizando los servicios de Azure Machine Learning y ahora puede utilizar este servicio junto con
Azure Synapse. En esta sección, realizaremos análisis de datos operativos con Azure Synapse Link
y exploraremos las nuevas funciones de Azure Synapse para integrar las capacidades de análisis
predictivo.

Macrodatos y análisis operativos


En esta sección, cubriremos algunos conceptos breves en torno al grupo de Apache Spark
y cómo puede realizar análisis sobre datos operativos con Azure Synapse Link.

Grupo de Spark

Un grupo de Spark es la implementación de Microsoft del motor de Apache Spark en la


nube. Permite utilizar el motor Spark sin preocuparse de la sobrecarga de la infraestructura de
administración del nodo Spark. Se puede utilizar un grupo de Spark para procesar datos en
Azure Storage y en Azure Data Lake Gen2 Storage. Un grupo de Spark viene con muchas
bibliotecas creadas sobre Spark que pueden utilizarse para el procesamiento de datos y la
conectividad. Consulte Analizar con Apache Spark para obtener más información sobre el grupo
de Synapse Spark.
Cinco pasos para simplificar su solución de data mart y BI 35

Vínculo de Synapse para Cosmos DB

Una capacidad de procesamiento transaccional y de análisis híbrido (HTAP) le permite


ejecutar análisis casi en tiempo real sobre los datos operativos en Cosmos DB. Utiliza dos capas
de almacenamiento diferentes de Cosmos DB, un almacén transaccional y un almacén
analítico. Los usuarios tienen que habilitar el almacén analítico mientras crean un nuevo
contenedor en Cosmos DB. Ambos almacenes se mantienen sincronizadas automáticamente.
Azure Synapse se integra con el almacén analítico de Cosmos DB a través del vínculo de Synapse:

Figura 30: Componentes de Azure Synapse Link para Cosmos DB

Puede usar la sintaxis OPENROWSET para analizar los datos en el almacén analítico del contenedor
de Azure Cosmos DB:

OPENROWSET(
‘CosmosDB’,
‘<Azure Cosmos DB connection string>’,
<Container name>
) [ < with clause > ]

Puede obtener más información sobre Azure Synapse Link para Cosmos DB en la siguiente
documentación: ¿Qué es Azure Synapse Link para Azure Cosmos DB?
Cinco pasos para simplificar su solución de data mart y BI 36

Ciencia de datos y análisis predictivo


En esta sección, descubriremos las nuevas características de Azure Synapse para integrar las
capacidades de análisis predictivo con Azure Synapse. Puede consultar los Requisitos previos
para usar Cognitive Services en Azure Synapse Analytics para obtener información sobre cómo
configurar Cognitive Services con Azure Synapse.

Azure Synapse le permite enriquecer fácilmente sus datos en Azure Synapse con modelos
existentes de Cognitive Services. En el momento de la redacción, puede ver dos modelos
existentes para enriquecer sus datos, análisis de sentimientos y Anomaly Detector.
Aprenderemos ambas estas opciones en las siguientes secciones.

Puede realizar análisis de sentimientos en sus datos de texto con los modelos existentes
disponibles en Azure Synapse. Pero primero, tiene que cargar los datos en una tabla de Spark.
Asegúrese de que su archivo se cargue en la cuenta de Azure Data Lake Gen2, que está
configurada como almacenamiento predeterminado para su espacio de trabajo de Azure
Synapse. Tiene que asegurarse de que cuenta con el permiso de nivel de colaborador en el
sistema de archivos de Azure Data Lake Gen2 donde residen sus datos:

1. Vaya a la pestaña Data (Datos) en Azure Synapse Studio y expanda la base de datos
predeterminada (Spark).
2. Haga clic con el botón secundario en la tabla de Spark, seleccione Machine Learning en
la lista desplegable y haga clic en Enrich with existing model (Enriquecer con el modelo
existente):

Figura 31: Una instantánea del enriquecimiento de sus datos en una tabla de Spark
Cinco pasos para simplificar su solución de data mart y BI 37

3. Seleccione Text Analytics - Sentiment Analysis (Text Analytics - Análisis de sentimiento)


en la lista de modelos existentes y haga clic en Continue (Continuar). También puede
seleccionar Anomaly Detector según sus requisitos empresariales:

Figura 32: Seleccionar Text Analytics - Sentiment Analysis (Text Analytics - Análisis de sentimiento)
para enriquecer datos en Azure Synapse

4. Proporcione los detalles de la cuenta de Azure Cognitive Services y el servicio vinculado


de Azure Key Vault:

Figura 33: Proporcionar la configuración para sus Cognitive Services


Cinco pasos para simplificar su solución de data mart y BI 38

5. A continuación, solo tenemos que seleccionar las columnas Language (Idioma) y Text
(Texto) que se utilizarán para el análisis de sentimiento y hacer clic en Open notebook
(Abrir cuaderno).
6. Ahora, haga clic en Run All (Ejecutar todo) para ejecutar todas las celdas en el cuaderno
y ver el resultado.

Ahora hemos aprendido cómo podemos utilizar los modelos de machine learning existentes para
enriquecer nuestros datos con solo unos pocos pasos. No es posible cubrir todos los temas en
relación con los servicios de Azure ML y su integración con Azure Synapse en este eBook, pero
hemos cubierto la mayoría de los temas importantes que le ayudarán a explorar los beneficios
y el uso de la integración de los servicios de Azure ML con Azure Synapse.

Puede consultar los siguientes vínculos para obtener más información sobre la implementación
de Apache Spark ML con Azure Synapse:

• Machine learning con Apache Spark


• Crear una aplicación de machine learning con Apache Spark MLlib y Azure Synapse Analytics

Ahora está bien equipado para modernizar su almacén de datos utilizando las herramientas
y técnicas mencionadas en este libro. Azure Synapse también entrega algunas características
adicionales que puede aprovechar para obtener lo mejor de Azure Synapse.
Cinco pasos para simplificar su solución de data mart y BI 39

Integración de los análisis y la


gobernanza de datos
Después de la migración a Azure Synapse, es importante seguir gobernando y administrando su
patrimonio de datos para permitir mejor el descubrimiento de datos y cumplir con una lista cada
vez mayor de requisitos reglamentarios. Azure Purview, como solución unificada de gobierno
de datos, le ayuda a responder a preguntas importantes como ¿qué datos tengo? ¿De dónde
provienen esos datos? ¿Puedo confiar en esos datos?

A través de la integración inmediata de Azure Purview con Azure Synapse, puede vincular fácil
y rápidamente su cuenta de Azure Purview a un espacio de trabajo de Azure Synapse. Esta
conexión le permite descubrir activos de datos de Azure Purview desde la barra de búsqueda
de Azure Synapse, conectar esos datos a su espacio de trabajo de Azure Synapse con servicios
vinculados o conjuntos de datos de integración, analizar esos conjuntos de datos con Azure
Synapse Apache Spark, Azure Synapse SQL y Data Flows; ejecutar canalizaciones e insertar
información de linaje en Azure Purview.

Su viaje de migración termina con la posibilidad de analizar, inventariar y comentar los activos
que aterrizaron en Azure Synapse, al tiempo que se valida el linaje de la transferencia de datos.

Para obtener más información sobre cómo conectar una cuenta de Azure Purview a un espacio
de trabajo de Azure Synapse, consulte el siguiente vínculo: Conectar un espacio de trabajo
de Synapse a Azure Purview: Azure Synapse Analytics | Microsoft Docs
Cinco pasos para simplificar su solución de data mart y BI 40

Recursos adicionales
Si bien ha aprendido lo suficiente para modernizar su almacén de datos, siempre es mejor echar
un vistazo a algunos de los recursos y funciones adicionales que ofrece Azure Synapse.

Control de código fuente


Azure Synapse le permite configurar el control de código fuente en Synapse Studio con el fin de
colaborar con otros miembros del equipo. Synapse Studio incluye compatibilidad integrada para
Azure DevOps Git y GitHub para configurar el repositorio para su código:

Figura 34: Configurar un repositorio en Azure Synapse

Puede consultar Control de código fuente en Synapse Studio si desea explorar esta característica.
Cinco pasos para simplificar su solución de data mart y BI 41

Administración de costos
La administración de costos es una de las principales razones por las que alguien decide trasladar
su carga de trabajo a la nube. Azure Synapse le ofrece varias formas de optimizar sus costos
de almacenamiento y operacionales. Cuando se ejecuta el almacén de datos de forma local, es
necesario pagar por el proceso incluso cuando no está en uso. Si necesita capacidades de Spark,
tiene que adquirir una máquina para configurar Spark para que pueda usarse siempre que sea
necesario.

Sin embargo, Azure Synapse le permite pausar o reanudar su motor de procesamiento según los
requisitos del negocio sin afectar al almacenamiento:

Figura 35: Configurar un repositorio en Azure Synapse

Del mismo modo, puede habilitar Automatic pausing (Pausa automática) para su grupo
de Spark dentro del hub Manage (Administrar) de Synapse Studio:

Figura 36: Habilitar la pausa automática para el grupo de Spark


Cinco pasos para simplificar su solución de data mart y BI 42

Aunque estas son las características básicas de la administración de costos, puede conocer más
opciones para administrar sus costos en Azure Synapse consultando Planificar y administrar los
costos de Azure Synapse Analytics.

Procedimientos recomendados
Los usuarios tienen que seguir las directrices de los procedimientos recomendados para obtener
lo mejor de cualquier producto. Azure Synapse también cuenta con su propio conjunto de
procedimientos recomendados que permitirán a los usuarios alcanzar los mejores resultados
para su procesamiento analítico.

Puede consultar los siguientes vínculos para profundizar en las directrices de los procedimientos
recomendados correspondientes que ofrece Azure Synapse:

• Procedimientos recomendados para el grupo de SQL sin servidor en Azure Synapse Analytics
• Procedimientos recomendados para los grupos de SQL dedicados en Azure Synapse
Analytics
• Procedimientos recomendados para cargar datos en un grupo de SQL dedicado en Azure
Synapse Analytics
• Procedimientos recomendados de desarrollo para Synapse SQL
• Optimización de trabajos de Apache Spark en Azure Synapse Analytics
Cinco pasos para simplificar su solución de data mart y BI 43

Empiece hoy mismo


Regístrese en la serie de capacitación práctica gratuita de seis partes para Azure Synapse
Analytics.

Automatice la traducción de código y la migración de datos de los data marts de SQL


Server a Azure Synapse:
– Kit de herramientas del acelerador: GitHub – microsoft/
AzureSynapseScriptsAndAccelerators

– Video de capacitación del kit de herramientas del acelerador: Introducción a la


migración de SQL Server a Azure Synapse Analytics – YouTube

Empiece su viaje de migración hoy mismo al acceder a Azure Synapse Pathway desde
el Centro de descargas de Microsoft.

¿Es usted un profesional de SQL Server? Aprenda cómo extender sus conjuntos
de habilidades de SQL Server en Azure Synapse.

Comuníquese con un especialista en Azure para obtener más información sobre cómo
implementar el análisis en Azure en su organización.

© 2021 Microsoft Corporation. Todos los derechos reservados.


Este documento se entrega "tal cual". La información y las opiniones expresadas en este documento, incluidas las direcciones URL y otras referencias a sitios web
de Internet, están sujetas a cambios sin previo aviso. Usted asume el riesgo de usarlo. Este documento no le otorga derecho legal alguno a ningún aspecto
de propiedad intelectual de ninguno de los productos de Microsoft. Puede copiar y usar este documento para uso interno como referencia.

También podría gustarte