Documentos de Académico
Documentos de Profesional
Documentos de Cultura
● Se entregan 4 archivos .parquet los cuales deben ser cargados manualmente en una carpeta del storage.
○ https://drive.google.com/drive/folders/1WjqYd7Bu2DYhit80145WWyL1yjttcNHj?usp=sharing
● Se deben crear dos Linked Service y dos Datasets.
● Se debe crear un pipeline que cargue esos 4 archivos en su correspondiente tabla en una base de datos relacional.
Seleccionamos el tipo de dataset a crear, en este caso Azure Data Lake Storage Gen2
Seleccionamos el tipo de archivo a trabajar (parquet) con ese dataset:
En el paso siguiente solo damos un nombre apropiado para el dataset tipo parquet, seleccionamos el Linked Service a usar (en
este caso se usa el Linked Service de tipo Parquet creado anteriormente) y guardamos el dataset
El siguiente paso en la creación y configuración del dataset tipo parquet, es crear dos parámetros (para eso nos dirigimos a la
pestaña Parameters dentro del Dataset), en este caso se nombran SistemaDeArchivos y RutaDeArchivos, se establecen en tipo
String y sin valores por defecto.
Luego nos dirigimos a la pestaña Connection para usar los parámetros creados en el paso anterior para definir las casillas de
FileSystem y Directory, tal como se muestra en la imagen:
Nótese que en este caso no tenemos un parámetro para File name, por lo que lo dejamos vacío.
Creando Dataset ASQL Database
Configuramos el siguiente dataset, para eso buscamos Nuevo dataset o New dataset y buscamos en el listado en este caso Azure
SQL Database. Damos en continuar.
Luego, debemos poner un nombre apropiado para el dataset para ASQL y seleccionar el Linked Service a usar (en este caso el
linked service creado anteriormente para Azure SQL Database).
Dejamos el resto como está y damos en OK.
Ya tenemos creado el dataset para Azure SQL Database, el siguiente paso es configurarlo.
Nos dirigimos a la pestaña Parameters
Creamos 2 parámetros, en este caso se nombran Tabla y Esquema
Finalmente, con los dos parámetros creados en el paso anterior nos dirigimos a la pestaña Connection.
Primero habilitamos la casilla de verificación Edit (ésto para que nos habilite los dos campos, para el esquema y la tabla)
Luego, se configura en este caso el parámetro Esquema en la primera casilla y el parámetro Tabla en la segunda casilla
Carga inicial de los archivos a Data Lake
Ahora necesitamos subir los archivos parquet a nuestro almacenamiento.
Para esto vamos a nuestra cuenta de almacenamiento y creamos una nueva carpeta.
1. Buscamos Storage browser (preview) o Explorador de almacenamiento (versión preliminar)
2. Luego bajo Blob containers buscamos nuestro Filesystem, en este caso container-name.
3. Creamos una nueva carpeta usando el botón Add Directory.
4. Damos nombre a la carpeta y guardamos
Dentro de la carpeta creada cargamos los archivos parquet.
1. Usamos el Botón Upload y se abre un menú a la derecha.
2. En el menú desplegado podemos arrastrar los archivos o usar el vínculo Browse for files para buscar los archivos en el
sistema.
3. Una vez seleccionados los archivos los cargamos usando el botón Upload
Creando el pipeline
Hasta el momento hemos creado 2 Linked Service los cuales se encargan de la autenticación.
Tenemos 2 Datasets los cuales se encargan de la ubicación de los archivos o tablas.
Ahora vamos a crear un pipeline nuevo para realizar el movimiento de datos desde archivos parque a tabla en database.
● Creamos el pipeline, usamos el icono resaltado en la imagen (desde aquí también podemos crear datasets o dataflows),
luego seleccionamos pipeline y luego pipeline nuevamente, se crea con el nombre pipeline# siendo # el número disponible
iniciando desde 1.
Get Metadata Activity
Buscamos la actividad Get Metadata (en la sección General) y la añadimos al área de trabajo del nuevo pipeline creado.
Por defecto siempre que se añade o arrastra una actividad, despliega un menú en la parte inferior con diferentes opciones o
pestañas que varían con cada actividad.
Siempre la primera de esas pestañas es General, donde podemos:
● Ajustar el nombre
● Añadir una descripción
● Ajustar el timeout de la actividad, por defecto 7 días.
● Añadir número de reintentos (por defecto 0) y su intervalo en segundos (por defecto 30)
● Establecer entrada y salida segura de los datos.
Luego nos movemos hacia la pestaña Settings (entre las opciones o pestañas de la actividad) para configurar las opciones de Get
Metadata
Posicionados en la pestaña Settings, tenemos todas las configuraciones para la actividad Get Metadata:
1. Seleccionamos el dataset, en este caso se selecciona el dataset para parquet configurado anteriormente con dos
parámetros.
2. Configuramos los parámetros del dataset, en el parámetro SistemaDeArchivos en este caso container-name y en
RutaDeArchivos ponemos el nombre de la carpeta creada, donde se cargaron los archivos parquet.
3. Para el campo Field list, añadimos un argumento con el símbolo resaltado y en la lista desplegable seleccionamos Child
items
4. Con esta configuración completa ya se puede ejecutar para validar la correcta configuración de la actividad, para eso use el
botón Debug.
Nota: Para que la opción Child items aparezca en la lista, el dataset no debe tener configurado el File Name.
Ejecutando el pipeline
Una vez ejecutada la actividad, podemos ver (entre las opciones o pestañas del pipeline) en la opción Output, cada actividad
ejecutada, duración, status, entre otros.
Es importante notar que frente al nombre de cada actividad tendremos dos botones correspondientes al Input y el Output (o salida)
de la actividad.
Recordar que para ver las opciones o pestañas del pipeline es necesario no seleccionar cualquier actividad, de esa manera
podemos ver las opciones Parameters, Variables, Settings y Output correspondientes al pipeline.
El Output o Salida de la actividad Get Metadata, es importante por que se necesita usar como entrada de la siguiente actividad.
Usamos el botón Copy to clipboard para copiar toda la salida y analizarla en un editor de código.
Creamos la relación entre Get Metadata Activity y ForEach Activity dando click sostenido sobre el elemento resaltado y soltandolo
sobre la actividad a relacionar, en este caso ForEach.
Luego en el campo Ítems nos posicionamos y se habilita la opción Add dynamic content, damos click ahí
Se nos abre una ventana a la derecha para trabajar el contenido
dinámico.
En esta ventana tenemos:
1. Un espacio para el ingreso de texto
2. Texto de ayuda con vínculos útiles
3. Cuadro de búsqueda de variables y funciones
4. Lista de salidas de actividades
@activity('Get Metadata1').output.childItems.