Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis ilimitado
con Azure Synapse
3/ 14 /
Introducción a Azure Synapse Ciencia de datos y análisis predictivo
4/ 15 /
Introducción a su primer proyecto Modernice las cargas de trabajo
de Azure Synapse del almacén de datos con Synapse
y Power BI
5/ 21 /
Ingeniería de datos Solución de gobernanza de datos
con Azure Purview
7/ 23 /
Macrodatos Funciones avanzadas de seguridad
y privacidad
9/ 27 /
Exploración de lago de datos Ahorre en costos con Azure Synapse
sin servidor
12 / 28 /
Análisis operativo Conclusión
Análisis ilimitado con Azure Synapse | 3
Antes de profundizar en las diversas características ofrecidas por Azure Synapse, vamos a intentar
obtener más información sobre Synapse Workspace y Synapse Studio en la siguiente sección.
Análisis ilimitado con Azure Synapse | 4
1
Introducción a su primer proyecto
de Azure Synapse
Para empezar a trabajar con Azure Synapse, necesitamos crear un espacio de trabajo
de Synapse. Un espacio de trabajo de Synapse proporciona una consola integrada para
administrar, supervisar y administrar todos los componentes y servicios de Azure Synapse.
Consulte Inicio rápido: crear un espacio de trabajo de Synapse para crear su primer espacio
de trabajo de Synapse.
Puede conectarse a su espacio de trabajo mediante Synapse Studio. Synapse Studio es una
herramienta web gratuita proporcionada por Azure Synapse para todos los ingenieros de datos,
científicos de datos y desarrolladores de informes. Synapse Studio también le permite administrar
y supervisar todos los recursos creados en su espacio de trabajo de Synapse.
Si es nuevo en Azure Synapse, le recomendamos encarecidamente que explore todos los recursos
disponibles en el centro de conocimiento de Synapse Studio. Vaya a Explorar la galería
en el centro de conocimiento y revise las plantillas disponibles, los conjuntos de datos, los
cuadernos, los scripts de SQL y las canalizaciones para familiarizarse con Azure Synapse. Para
obtener más información sobre el Centro de conocimientos, visite la documentación sobre
Explore el centro de conocimientos de Synapse.
Exploremos el concentrador de integración, que se utiliza para ingresar y orquestar datos, antes
de continuar con otras capacidades.
Análisis ilimitado con Azure Synapse | 5
2
Ingeniería de datos
Azure Synapse le permite crear nuevas canalizaciones de datos para realizar una ingesta de datos
programada o de una sola vez desde más de cien orígenes de datos diferentes.
El concentrador de integración le ofrece múltiples opciones para llevar sus datos a Azure
Synapse y organizar sus canalizaciones de datos. La herramienta Copy Data es una herramienta
de integración sin código que se puede utilizar para copiar datos de un origen a Synapse.
También tiene la opción de usar la herramienta de integración Code-First para agregar una
o varias transformaciones a sus datos mediante la creación de canalizaciones. Se puede
crear una canalización de Synapse mediante el uso de una o más actividades, que se pueden
conectar entre sí por puntos de conexión de dependencia. De forma predeterminada, obtiene
un punto de conexión Exitoso, pero puede cambiarlo por Error, Finalización u Omitido
si es necesario, como puede ver en la Figura 2:
Figura 2: creación de puntos de conexión de dependencia para dos actividades en una canalización de Synapse
Análisis ilimitado con Azure Synapse | 6
También puede recorrer cualquier actividad moviendo esa actividad dentro de una actividad
de iteración, como las actividades ForEach o Until.
Para obtener más información sobre las canalizaciones de Synapse y las actividades
de transformación admitidas de forma nativa, lea las canalizaciones y actividades
en la documentación de Azure Data Factory y Azure Synapse Analytics.
En la siguiente sección, Macrodatos, vamos a aprender a usar Azure Synapse para macrodatos.
Análisis ilimitado con Azure Synapse | 7
3
Macrodatos
Ahora puede crear y optimizar los grupos de Apache Spark
en Azure Synapse con características de escalado automático
y optimización de consultas.
Apache Spark es un motor de análisis unificado muy rápido para macrodatos y machine
learning. El grupo de Synapse Spark es una de las implementación de Microsoft de Apache Spark
en Azure. Synapse Analytics Workspace cuenta con un motor de Spark integrado, junto con el
soporte de portátiles. Dado que Synapse Spark es compatible con C#, podemos escribir Spark .NET
directamente en el portátil. También puede escribir el código en Python, Scala, C# y SQL.
Varios usuarios pueden acceder a un grupo de Spark, pero para cada usuario, se creará una nueva
instancia de Spark. Una instancia de Spark también depende de la capacidad de la agrupación de
Spark: si hay suficiente capacidad en el grupo para ejecutar varias consultas, la instancia existente
podrá procesar el trabajo; de lo contrario, se creará una nueva instancia para procesar el trabajo.
Revise el Inicio rápido: crear un grupo de Apache Spark sin servidor con Synapse Studio para
crear su primer grupo de Spark en Azure Synapse.
SQL sin servidor es una de las mejores características de Azure Synapse, que se puede utilizar
para explorar los datos directamente desde diversos orígenes y no copiarlos en ninguna base
de datos relacional, por lo que vamos a obtener más información sobre esta característica
en la siguiente sección.
Análisis ilimitado con Azure Synapse | 9
4
Exploración de lago de datos sin servidor
El grupo SQL sin servidor es un sistema de procesamiento de datos distribuido sin servidor que
le permite analizar sus macrodatos más rápido. No es necesario aprovisionar ningún proceso ni
mantener la escalabilidad. En el proceso de SQL sin servidor, el escalado acomoda automáticamente
los requisitos de recursos para cualquier consulta. La arquitectura SQL sin servidor también tiene
un nodo de control y nodos de proceso, pero no tiene un motor de procesamiento paralelo
masivo (MPP); en su lugar, utiliza un motor de procesamiento de consultas distribuidas (DQP).
Hay muchas ventajas del uso de SQL sin servidor. Puede ver algunas de ellas aquí:
● Fácil de descubrir y explorar los datos en varios formatos (Delta, Parquet, valores
separados por comas (CSV) y notación de objetos JavaScript (JSON)) directamente
desde su lago de datos.
● Capacidad de consultar el almacenamiento analítico de su cosmos DB sin afectar el almacén
transaccional mediante Synapse Link para Cosmos DB.
● Ahorre dinero mediante el uso de la informática solo cuando sea necesario.
● No hay necesidad de preocuparse por la infraestructura y la administración de clústeres.
● Explore y transforme fácilmente los datos de una manera simple, escalable y de alto
rendimiento con T-SQL, y vuelva a guardar los resultados en un lago de datos para que
se visualice aún más a través de los informes de Power BI.
● Cree almacenes de datos lógicos al proporcionarle una abstracción relacional de los datos
sin procesar y no migrarlo a ninguna parte. Esto ahorra la sobrecarga de pasos adicionales
de ingesta de datos y el costo de usar los recursos de Azure o cualquier otra herramienta
para el movimiento de datos. Sin embargo, lo que es más importante, ahorra mucho
tiempo al evitar el movimiento de datos y tratar de mantenerlo actualizado.
El grupo de SQL sin servidor funciona en el modelo de pago por consulta y, dentro del centro
de administración de Synapse Studio, puede hacer clic en el hipervínculo de control
de costos integrado para administrar el costo de SQL sin servidor.
Azure Synapse SQL sin servidor puede ser la mejor opción para el tipo de carga de trabajo
de procesamiento transaccional y analítico híbrido (HTAP) en la que puede realizar
operaciones analíticas sobre los datos no afectando a los datos altamente transaccionales.
Análisis ilimitado con Azure Synapse | 11
La función OPENROWSET se utiliza en SQL sin servidor para consultar un origen de datos externo.
Esta función se puede utilizar para leer diferentes tipos de archivos, incluidos delta, CSV, JSON
y Parquet. El siguiente es uno de los ejemplos de OPENROWSET. Puede consultar Cómo usar
OPENROWSET utilizando el grupo de SQL sin servidor en Azure Synapse Analytics para
obtener más información sobre el uso de la función OPENROWSET con diferentes tipos de archivos:
select top 10 *
from OPENROWSET(
bulk ‘https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/
latest/ecdc_cases.parquet’,
format = ‘parquet’) as rows
SQL sin servidor usa la sintaxis de OPENROWSET para analizar los datos en el almacén analítico
de un contenedor de Cosmos DB, como puede ver en el siguiente bloque de código:
OPENROWSET(
‘CosmosDB’,
‘<Azure Cosmos DB connection string>’,
<Container name>
) [ < with clause > ]
En la siguiente sección, aprenderemos a usar Azure Synapse Link para realizar análisis
de streaming en datos operativos.
Análisis ilimitado con Azure Synapse | 12
5
Análisis operativo
Azure Synapse Link le permite realizar análisis de datos operativos. Azure Synapse Link es
una nueva característica agregada para crear un vínculo entre Azure Cosmos DB y Azure
Synapse. Le permite ejecutar análisis casi en tiempo real sobre los datos que residen en
el almacén analítico de su cuenta de Cosmos DB. El almacén analítico y transaccional se
mantienen sincronizados en una cuenta de Cosmos DB. El almacén transaccional en cosmos
DB está optimizado para las lecturas y escrituras transaccionales, mientras que el almacén
analítico está optimizado para consultas analíticas. Synapse Link crea una integración entre
Cosmos DB y Synapse Analytics.
El almacén analítico de Cosmos DB se puede utilizar para derivar análisis sobre datos altamente
transaccionales. La siguiente arquitectura es un ejemplo de realización de análisis en tiempo real
con Azure Synapse Link:
Figura 5: arquitectura para el análisis en tiempo real en Azure mediante el uso de Azure Synapse Link
Análisis ilimitado con Azure Synapse | 13
Existen varios casos de uso para el análisis en tiempo real, entre los que se incluyen los siguientes:
6
Ciencia de datos y análisis predictivo
Machine learning (ML) se ha convertido en una parte integral del ecosistema de datos ahora y Azure
le permite crear poderosas aplicaciones de Ml basadas en la nube mediante el servicio Azure Machine
Learning. Azure ML le ofrece opciones para crear modelos de ML supervisados o no supervisados,
y su integración con Azure Synapse ha abierto un amplio océano para los científicos de datos.
Los modelos que se han entrenado en Azure Synapse o fuera de Azure Synapse se pueden usar
fácilmente para la puntuación por lotes. Actualmente, en Synapse, hay dos formas en las que
puede ejecutar la puntuación por lotes:
● P
uede utilizar la función de predicción tsql en los grupos de SQL de Synapse para ejecutar
sus predicciones justo donde residen sus datos. Esta función eficaz y escalable le permite
enriquecer sus datos sin mover ningún dato de su almacén de datos. Una nueva experiencia
de modelo de ML guiada (Tutorial: Asistente para la puntuación del modelo de machine
learning (versión preliminar) para grupos de SQL dedicados) en Synapse Studio se
introdujo donde puede implementar un modelo de ONNX desde el registro del modelo
de Azure Machine Learning en los grupos de SQL de Synapse para la puntuación por lotes
mediante predict
● Otra opción para los modelos de ML de puntuación por lotes en Azure Synapse es
aprovechar los grupos de Apache Spark para Azure Synapse. En función de las bibliotecas
que se utilizan para entrenar los modelos, puede usar una experiencia de código para
ejecutar la puntuación por lotes.
Para explorar todas las demás capacidades de ML, consulte las capacidades de machine learning
en Azure Synapse Analytics.
Análisis ilimitado con Azure Synapse | 15
7
Modernice las cargas de trabajo
del almacén de datos con Synapse
y Power BI
Azure Synapse le permite crear su almacén de datos utilizando los grupos de SQL en la nube. Los
grupos de SQL se pueden utilizar para almacenar datos relacionales para ejecutar consultas analíticas
en los datos a escala.
Los grupos de SQL utilizan una arquitectura basada en nodos de escalabilidad horizontal con un nodo
de control y varios nodos de proceso para el procesamiento computacional distribuido. Los nodos
de control son un único punto de contacto para que los usuarios finales interactúen con todos los
nodos de proceso. El nodo de control ejecuta el motor MPP, que pasa una operación a varios nodos
de proceso para hacer su trabajo en paralelo. Las bases de datos MPP están optimizadas para cargas
de trabajo analíticas, como la agregación y el procesamiento de grandes conjuntos de datos. En este
tipo de arquitectura, cada nodo de proceso (también conocido como una unidad de procesamiento)
funciona de forma independiente, con su propio sistema operativo y memoria dedicada.
Análisis ilimitado con Azure Synapse | 16
La Figura 6 representa cómo todos los componentes están ligados juntos en el grupo de Azure
Synapse SQL:
Puede utilizar la siguiente consulta para obtener un recuento de los nodos de control y de cálculo
disponibles para su grupo de Synapse SQL:
Figura 7: una captura de pantalla de Azure Data Studio, que muestra los resultados de una consulta
También puede migrar su almacén de datos SQL local a Synapse SQL mediante Synapse Pathway.
Puede obtener más detalles sobre Synapse Pathway en el resumen general de Azure Synapse
Pathway.
Power BI le permite crear modelos directamente desde el grupo de SQL sin necesidad de crear
un modelo tabular/multidimensional. También puede crear informes directamente dentro
de Synapse Studio después de conectar su área de trabajo de Power BI con un espacio de trabajo
de Synapse. Los informes se pueden publicar y compartir con otros miembros del equipo para
crear un entorno colaborativo.
Realizaremos los siguientes pasos para conectar nuestro espacio de trabajo de Synapse al área
de trabajo de Power BI:
1. Vaya a su espacio de trabajo de Synapse y haga clic en el vínculo Abrir Synapse Studio,
como se resalta en la Figura 8:
Figura 8: una captura de pantalla del espacio de trabajo de Synapse de Azure que resalta el vínculo para abrir Synapse Studio
Análisis ilimitado con Azure Synapse | 19
Figura 9: una captura de pantalla de Synapse Studio que resalta el vínculo Visualizar
3. Proporcione un nombre y una descripción apropiados para el área de trabajo de Power BI.
Este nombre puede ser diferente del nombre real del área de trabajo de Power BI.
4. Seleccione Inquilino y nombre del Espacio de trabajo en las listas desplegables
y luego haga clic en Crear.
5. Haga clic en la pestaña Desarrollar para comprobar si puede ver el área de trabajo de
Power BI en la sección Power BI. Debería poder ver los conjuntos de datos de Power BI
y los informes de Power BI asociados con su área de trabajo de Power BI.
Figura 11: una captura de pantalla de un área de trabajo de Power BI dentro de Synapse Studio
Ahora que ha conectado su espacio de trabajo de Synapse al área de trabajo de Power BI, puede
crear algunos informes valiosos en el centro de desarrollo de Synapse Studio para visualizar
sus datos.
Análisis ilimitado con Azure Synapse | 21
8
Solución de gobernanza de datos
con Azure Purview
Azure Purview es una solución de gobernanza de datos unificada para administrar datos locales,
de varias nubes y de software como servicio. Azure Purview puede ayudar con la administración
de datos y la gobernanza durante su viaje de modernización del almacenamiento de datos.
La base de Azure Purview es la Plataforma Purview. En la parte superior del mapa de datos hay
un conjunto de aplicaciones de gobernanza de datos especialmente diseñadas, como el catálogo
de datos (con glosario empresarial integrado) y la información sobre el patrimonio de datos.
Purview Data Map es un servicio PaaS nativo de la nube que captura los metadatos de los datos
empresariales presentes en los sistemas de análisis y operativos, tanto locales como en la nube.
Purview Data Map se mantiene actualizado automáticamente con un sistema automatizado
de análisis y clasificación incorporado. El mapa de datos Purview impulsa el catálogo de datos
Purview y Purview Data Insights como experiencias unificadas dentro de Purview Studio.
Consulte el mapa de su estado de datos con Azure Purview para obtener más información
sobre el mapa de datos Purview.
Con el catálogo de datos de Purview, los usuarios empresariales y técnicos pueden encontrar
de manera rápida y fácil datos relevantes mediante una experiencia de búsqueda con filtros
basados en diversos objetivos, incluidos los términos del glosario, las clasificaciones, las etiquetas
de confidencialidad y mucho más. Los consumidores y productores de datos también pueden
rastrear visualmente el linaje de los activos de datos a partir de los sistemas operativos locales
hasta el consumo en un sistema de análisis como Power BI.
Análisis ilimitado con Azure Synapse | 22
● Buscar y examinar: habilite el descubrimiento de datos sin esfuerzo por parte de los
consumidores de datos técnicos y empresariales con Azure Purview.
● Linaje de datos: realice un seguimiento del linaje de los datos de su organización con
Azure Purview.
● Glosario: liberarse de los silos operativos con un glosario empresarial coherente.
Con Purview Data Estate Insights, los oficiales de datos y los oficiales de seguridad pueden
obtener una vista panorámica de qué datos se analizan activamente, dónde están los datos
confidenciales y cómo se mueven los datos a través de los sistemas.
Consulte la información general de su estado de datos con Azure Purview Data Insights para
obtener más información sobre el mapa de datos Purview.
Figura 12: una instantánea del centro de administración para administrar una cuenta de Azure Purview en Azure Synapse
9
Funciones avanzadas de seguridad
y privacidad
La figura 13 representa las diferentes capas de seguridad de nivel empresarial en Synapse. La
comprensión de todas estas capas de seguridad en detalle nos ayudará a conocer la importancia
de las medidas de seguridad y cómo podemos implementarlas en nuestro entorno de Synapse.
Seguridad de red
Azure Synapse le ofrece la opción de habilitar una red virtual de espacio de trabajo administrada
mientras crea su espacio de trabajo de Synapse. Garantiza que el espacio de trabajo esté aislado
de otro espacio de trabajo. Si ha habilitado una red virtual de espacio de trabajo administrada
en el espacio de trabajo de Synapse, entonces los recursos de integración de datos y Spark
también se implementan en la misma red virtual; sin embargo, los grupos de SQL (dedicados
o sin servidor) residen fuera de esta red virtual administrada.
Análisis ilimitado con Azure Synapse | 24
Las reglas de Firewall IP le permiten acceder a grupos de SQL desde las direcciones IP que
se encuentran en la lista de permitidos de las reglas del firewall IP.
Administración de acceso
Azure Synapse proporciona un sistema de control de acceso completo y minucioso que integra:
Los roles de Synapse de Azure proporcionan conjuntos de permisos que se pueden aplicar
a diferentes extensiones. Esta granularidad facilita la concesión de acceso adecuado a los
administradores, desarrolladores, personal de seguridad y operadores para calcular recursos
y datos.
El control de acceso se puede simplificar mediante el uso de grupos de seguridad que se alinean
con los roles de trabajo de las personas. Solo necesita agregar y eliminar usuarios de los grupos
de seguridad apropiados para administrar el acceso.
Análisis ilimitado con Azure Synapse | 25
Es importante proteger nuestros datos de cualquier actividad anómala que pueda ser un
intento potencialmente perjudicial de explotar nuestras bases de datos. Synapse le ofrece dos
formas de proteger sus datos contra cualquier amenaza. La primera es la auditoría de SQL, que
captura las actividades relacionadas con todos los cambios en la seguridad, el acceso a las tablas
y muchas más actividades, además, para proteger sus datos. La segunda es Azure Defender, que
comprueba la vulnerabilidad de sus grupos de SQL y proporciona seguridad de datos avanzada
para sus datos.
La auditoría de Azure SQL captura todos los eventos de un grupo de Synapse SQL y los escribe
en un registro de auditoría en su cuenta de Azure Storage. Estos registros de auditoría se pueden
utilizar para analizar actividades anómalas o comportamientos inesperados en el grupo de SQL.
Protección de la información
En la Figura 14 se muestra cómo habilitar el cifrado de datos para sus grupos de Synapse SQL:
Figura 14: habilitar TDE para un grupo de SQL dedicado en Azure Synapse
10
Ahorre en costos con Azure Synapse
Siempre hay una ventaja en términos de costo cuando se pasa de un entorno local a una PaaS.
Puede aprovechar algunas de las opciones de ahorro de costos que se enumeran a continuación
para su espacio de trabajo de Synapse:
● Use SQL sin servidor para usar el proceso según los requisitos en lugar de tener un proceso
persistente.
● Configure la configuración de pausa automática de un grupo de Spark para pausar
un clúster automáticamente si no está en uso.
● Use la herramienta integrada de administración y supervisión basada en web que
se proporciona dentro de Synapse Studio.
● Ahorre costos para los cargos de Azure Synapse Analytics con la capacidad reservada.
Análisis ilimitado con Azure Synapse | 28
Conclusión
Azure Synapse es una plataforma integral para administrar su carga de trabajo analítica a escala.
Le proporciona un conjunto de servicios relacionados con datos bajo una experiencia unificada
que hace que sea muy fácil y conveniente administrar su carga de trabajo analítica sin ningún
contratipo. Azure Synapse Pathway prepara una ruta más fácil para que pueda migrar sus objetos
de almacén de datos locales a Azure Synapse con solo un par de clics. Además de la carga de
trabajo de SQL, también puede ejecutar su script de R o Python en los datos almacenados
en su lago de datos sin mover los datos a ninguna parte.