Está en la página 1de 6

Curso:

Diseño e Ingeniería de
Datos

Programa Ejecutivo en
Data Science 2023-3

Profesor:
Mauro León Payano

Horas académicas: 21
Fecha de inicio:
28-marzo -2023

SILABO
I. Descripción del curso

Conocer el valor exponencial de los datos y cómo establecer mecanismos de tratamiento de datos
eficientes que permitan maximizar su uso en la organización a través de modelos analíticos, reportes
de negocio o aplicaciones de negocio.

En este curso aprenderá los conceptos relacionados a la metodología de implementación de un


Lakehouse Corporativo para ayudar a los Data Engineer, Data Scientist y Business Analyst a diseñar,
modelar, crear y disponibilizar datos de calidad, precisos y eficientes.

● Fundamentos de Lakehouse
● Componentes de una solución Lakehouse
● Proceso de implementación de una solución Lakehouse
● Solución de Lakehouse
o Diseño de Pipeline de Datos
o Desarrollo de Componentes
o Despliegue de Pipeline de Datos
o Monitoreo de Pipeline de Datos
o Diseño e implementación de Reporte de Negocio

II. Objetivos del curso

a) Objetivo General (OG):

Comprender los conceptos más importantes de la metodología para habilitar una plataforma
de datos basado en una arquitectura Lakehouse, el equipo y los servicios necesarios para su
construcción. Conocer a detalle el flujo de trabajo y los roles involucrados en la construcción
de una plataforma de datos.

b) Objetivos Específicos (OE):

OE1: Liderar, organizar, diseñar e implementar una plataforma de datos de una manera
ordenada, rápida y eficiente; usando la metodología de implementación de una
solución Lakehouse.
OE2: Comprender los roles requeridos para la implementación y soporte adecuado de una
solución Lakehouse.
OE3: Identificar los componentes importantes de una solución de datos y los procesos de
negocio involucrados en una organización.
OE4: Comprender los servicios de infraestructura Cloud involucrados en una solución
Lakehouse, asegurando su implementación y escalamiento.
OE5: Ser interlocutor entre los equipos técnicos de Data Engineer, Business Analyst y
Data Scientist; durante los ciclos de desarrollo de una solución Lakehouse.
OE6: Comprender los aspectos técnicos del almacenamiento de datos, flujos de tratamiento
de datos, modelado de datos y visualización de datos, aplicando en los entornos de
trabajo.
III. Contenidos
Sesión 1: Fundamentos de Ingeniería de Datos

● Evolución del rol en soluciones de datos


● Adopción de solución de datos en la computación en la nube
● Metodología de implementación
● Roles y responsabilidades de equipo de implementación

Sesión 2: Diseño de solución de datos

● Tipos de soluciones de datos


● Proceso de desarrollo de solución Data Lakehouse
● Planificación de actividades de implementación
● Artefactos de solución de datos
● Evaluación práctica: sesión 1,2

Sesión 3: Solución Data Lakehouse: Ingesta de Datos

● Introducción a Azure Data Factory


● Estrategia de integración de fuentes de datos
● Estructura de almacenamiento de datos en Azure Data Lake Storage
● Formato de almacenamiento de datos (Parquet, Avro, JSON, CSV)
● Importación de datos con Azure Data Factory
● Caso práctico: Ingesta de datos

Sesión 4: Solución Data Lakehouse: Procesamiento de Datos

● Introducción a Azure Synapse Analytics


● Estructura de datos con Synapse SQL (Managed, External, View)
● Transformación de datos con Synapse Notebook - Script SQL
● Estrategia de poblado de modelo analítico (Reporting)
● Caso práctico: Poblado de modelo de datos

Sesión 5: Solución Data Lakehouse: Consumo de Datos

● Introducción a Power BI Service


● Integración de Power BI con Azure Synapse SQL
● Creación de reportes y fuente de datos
● Caso práctico: Creación de reportes de negocio

Sesión 6: Solución Lakehouse: Gobierno de gestión de datos

● Gestión de activos con Azure Purview


● Creación de glosario de datos con Azure Purview
● Revisión de linaje de datos – Cloud Storage, Synapse SQL
● Aplicación de políticas de datos con Azure Purview
● Evaluación práctica: sesión 3, 4, 5, 6

Sesión 7: Proyecto Final

● Presentación del Proyecto Final del curso


IV. Metodología de enseñanza
El curso se enfocará en la aplicación de los conceptos enseñados mediante la realización de
tareas y ejecución de un proyecto realizado durante la clase.

V. Sistema de evaluación
PONDERACIÓN
OBJETIVOS
PRODUCTO A EVALUAR SOBRE LA NOTA
ESPECÍFICOS
FINAL
OE1 al OE6 Participación en clase (Individual) 10%
OE1 al OE6 Evaluaciones individuales 30%
OE1 al OE6 Avance de desarrollo de proyecto 20%
OE1 al OE6 Trabajo Final 40%

Participación en Clase:
Se considera que una participación es de valor cuando enriquece el contenido de la clase.
La definición de qué intervención es o no de valor queda a decisión del profesor.

Evaluaciones Individuales:

Se realizarán tres evaluaciones individuales a lo largo del curso sobre los contenidos dictados.
Estas evaluaciones se dejarán en clase para ser resueltas por los alumnos fuerade la clase.
La calificación es de 0 a 20. La falta de envío de una evaluación se calificarácon 0, quedando
a criterio del docente si acepta la evaluación en otra fecha.

Avance de desarrollo de proyecto:

Se resolverá un proyecto individual o grupal, si en grupo máximo es de 2 personas. Estos


casos se resolverán durante la clase. La calificación es de 0 a 20. La falta de envío del avance
del proyecto se calificará con 0, quedando a criterio del docente si acepta la recepción en
otra fecha.

Trabajo Final:

Se resolverá un trabajo final sobre los temas vistos en clase. Los grupos serán de máximo 5
personas. Este trabajo se realizará fuera de clase y será presentado en la última sesión. La
calificación es de 0 a 20. La falta de envío del trabajo final se calificará con 0, quedando a
criterio del docente si acepta la recepción en otra fecha.
VI. Cronograma de actividades del curso:

Actividades
Sesión Contenido Material
en el aula

FUNDAMENTOS DE INGENIERÍA DE DATOS


- Evolución del rol en soluciones de datos - Exposición del docente
Sesión 1 - Adopción de solución de datos en la - Discusión sobre - Presentación
28/3/2023 computación en la nube. conceptos y marco
- Metodología de implementación teórico
- Roles y responsabilidades de equipo de
implementación

DISEÑO DE SOLUCIÓN DE DATOS


- Tipos de soluciones de datos - Exposición del docente
- Discusión sobre
Sesión 2 - Proceso de desarrollo de solución Data - Presentación
Lakehouse conceptos y marco - Evaluación 1
30/3/2023
teórico
- Planificación de actividades de
- Evaluación de aprendizaje
implementación
- Artefactos de solución de datos

SOLUCIÓN DATA LAKEHOUSE: INGESTA DE


DATOS
- Exposición del docente
- Introducción a Azure Data Factory - Discusión sobre - Presentación
Sesión 3
- Estrategia de integración de fuentes de datos conceptos y marco - Manual práctico
11/4/2023
- Estructura de almacenamiento de datos en teórico
ADLS - Caso práctico
- Formato de almacenamiento de datos
- Importación de datos con Azure Data Factory

SOLUCIÓN DATA LAKEHOUSE:


PROCESAMIENTO DE DATOS
- Exposición del docente
- Introducción a Azure Synapse Analytics - Discusión sobre
Sesión 4 - Presentación
- Estructura de datos con Synapse SQL conceptos y marco
13/4/2023 - Manual práctico
- Transformación de datos con Synapse teórico
Notebook - Script SQL - Caso práctico
- Estrategia de poblado de modelo analítico

SOLUCIÓN DATA LAKEHOUSE: CONSUMO DE


DATOS
- Exposición del docente
- Introducción a Power BI Service - Discusión sobre - Presentación
Sesión 5
- Integración de Power BI con Azure Synapse conceptos y marco - Manual práctico
18/4/2023
SQL teórico
- Creación de reportes y fuentes de datos - Caso práctico

SOLUCIÓN DATA LAKEHOUSE: GOBIERNO DE


DATOS
- Gestión de activos con Azure Purview
- Creación de glosario de datos con Azure - Presentación
Sesión 6 Purview - Exposición del docente - Manual práctico
20/4/2023 - Revisión de linaje de datos – Cloud - Evaluación de aprendizaje - Evaluación 2
Storage, Synapse SQL
- Aplicación de políticas de datos con Azure
Purview
PRESENTACIÓN DE - Presentación de trabajo
Sesión 7
TRABAJO FINAL final Presentación
25/4/2023
- Preguntas del docente
- Presentación de trabajos finales

VII. Bibliografía y otras referencias recomendadas

a) Obligatorias:
L1: Data Lakehouse in Action: Architecting a modern and scalable data analytics platform.
Autor: Pradeep Menon.

L2: Data Modeling for Azure Data Services: Implement professional data design and
structure in Azure. Capítulos 07, 09, 10, 11. Autor: Peter ter Braake.

L3: Azure Data Data Engineering Cookbook: Design and implement batch and streaming
analytics using Azure Cloud Services. Autor: Ahmad Osama

b) Complementarias:
L1: Building a Scalable Data Warehouse with Data Vault 2.0. Autor: Daniel Linstedt, Michael
Olschimke.

VIII. Datos de docente

MAURO LEÓN PAYANO

Corporate Data Architect en Intercorp. Experiencia liderando equipos en proyectos de


software y datos. Con más de 11 años en la industria de software, los últimos 5 años dedicado
en proyectos de datos y analítica. Anteriormente, trabajó como Arquitecto BigData en
una de las empresas de consultoría tecnológica más importantes del Perú, implementando
proyecto de datos usando tecnología Big Data, Lakehouse, Microservicios y Cloud Computing
(AWS, Azure, Google). Máster en Informática con Mención en Ciencias de la Computación en
la Pontificia Universidad Católica del Perú. Ingeniero de Sistemas por la Universidad Nacional
Mayor de San Marcos.

Teléfono: 992190957
Correo electrónico: mauroleonpayano@gmail.com
Linkedin: https://www.linkedin.com/in/mauroleonpayano

También podría gustarte