BIGDATA
ACADEMY
Programa de Especialización en
Big Data & Machine
Learning Multi-Cloud
ACERCA DEL
CURSO Aprende a implementar soluciones de Big Data &
Machine Learning de manera profesional e
integrar tus soluciones en las principales nubes
disponibles (Azure, AWS y GCP), desde la ingesta
hasta su explotación analítica sobre arquitecturas
batch y en tiempo real para procesamiento
estructurado, semi-estructurado y no
estructurado, sobre un clúster real de Big Data y
aprendiendo los patrones y arquetipos existentes
Arquitectura, Infraestructura, Datalake y Gobierno
sobre Big Data.
Clases:
• 12 Sesiones (50 horas académicas)
• Sábado y Domingo 8 am - 11 am
Modalidad
• Online con profesor en vivo
Inicio de Clases:
• Sábado 06 de Noviembre del 2021
Fin de Clases:
• Domingo 12 de Diciembre del 2021
Egresados con doble certificación:
• Big Data Engineer Professional
• Big Data Architect Professional
Perfil del Docente:
Ingeniero de Sistemas de la UNMSM, con
especialización en Business Intelligence y Big Data
Analytics en ESAN. Con más de 8 años de
experiencia nacional e internacional como líder de
proyectos, arquitecto de sistemas y big data
aplicado a sectores de la banca, Telcos y Gobierno.
Conferencista recurrente en ponencias de Big Data.
Desempeño como docente universitario de
Alonso Melgarejo algorítmica y análisis de sistemas en la UNMSM.
•Big Data Architect Senior
•Big Data Architect
•Ing. De Sistemas - UNMSM Actualmente es responsable de dirigir la estrategia
alonsoraulmgs@gmail.com tecnológica de los proyectos de Big Data y Analytics
alonsoraulmgs en Everis con el rol de Big Data Architect. Interesado
en impulsar la formación profesional en temas que
marquen la tendencia tecnológica como el Big
data, Blockchain, IoT, IA y Analítica avanzada.
Programa de Especialización en Big Data & Machine Learning Multi-Cloud
1
MÓDULO 1 CURRÍCULA DEL
4
ARQUITECTURA Y PATRONES
DE DISEÑO SOBRE BIG DATA
PROGRAMA
MÓDULO 4
• Conceptos de Big Data.
• Objetivo fundamental
• La filosofia de Big Data: Las 5V
• Big Data como marco de trabajo IMPLEMENTACIÓN DE UN DATALAKE
• Clúster computacional
• Paralelización y distribución de carga de trabajo
• Arquetipo de una arquitectura Big Data genérica
• Escalabilidad y elasticidad
• Definición de un Datalake Productivo
• Alta disponibilidad
• Datalake como técnica de gobierno de procesos
• Seguridad y Gobierno
• Patrones de diseño ...de Big Data
• Capas conceptuales • Flujos de ETL sobre un Datalake
• Arquitectura conceptual • Soluciones de Reporting sobre un Datalake
2
• Componentes tecnológicos disponibles • Soluciones de Programación sobre un Datalake
• Arquitectura tecnológica y de implementación • Soluciones de Semi-Estructuradas y no
...estructuradas sobre un Datalake
MÓDULO 2
• Soluciones de Real-Time sobre un Datalake
• Soluciones de Machine Learning sobre un Datalake
• Soluciones de Deep Learning sobre un Datalake
HADOOP Y ALMACENAMIENTO • Capa Landing Tmp para captura de datos
DISTRIBUIDO EN CLÚSTERS • Capa Landing para binarización flexible y
...actualizaciones en metadatos
• Tecnlogías batch sobre Big Data • Capa Universal para modelamiento y catálogo
• Hadoop como ecosistema de almacenamiento ...de datos
• Trabajando de manera distribuida sobre un clúster • Capa Smart para implementación de soluciones
• Hadoop como estándar en el mundo del Big Data • Datamesh para modelamiento según unidades
5
• HDFS como motor de almacenamiento ...de negocio
• YARN como gestor de recursos • Deltalake para actualizaciones continuas
• MapReduce como motor de procesamiento
MÓDULO 5
• Replicación controlada de datos
• Asegurando el tamaño de bloque
3
• Capacidad física de un clúster
• Administración de archivos y recursos sobre Hadoop SPARK PARA PROGRAMACIÓN
DISTRIBUIDA
MÓDULO 3 • Tecnologías in-memory sobre Big Data
PROCESAMIENTO • Conociendo Spark
DISTRIBUIDO CON HIVE • Spark vs Hadoop
• Hive on Spark
• Hive como infraestructura de almacenamiento • Uso intensivo de memoria con Spark
• SQL sobre MapReduce
• Módulos de Spark
• Archivos de HDFS como tablas Hive
• Spark Core
• Particionamiento estático y dinámico
• Formatos binarios de archivos: Parquet, ORC y Avro • Trabajando con Dataframes
• Compresión optimizada de datos • Transformations y actions sobre Dataframes
• Configuración y tuneo de procesos en Hive • Escritura a disco duro de datos in-memory
• Sqoop como motor de ingesta de datos • Spark SQL para procesamiento estructurado
• Importando datos a Hadoop a bases de datos relacionales • PySpark para programación y procesamiento funcional
• Arquetipo de ingesta de datos batch
• Creación de funciones personalizadas con UDFs
• Arquetipo de modelamiento de datos
• Patrón de diseño checkpoint
• Arquetipo de procesamiento de datos
• Hue como interfaz gráfica para los procesos • Patrón de diseño caché
• Creando consultas ad hoc con Impala • Tuning sobre executors
• Tuning de código • Evitando el colapso de memoria RAM
Tuning de paralelización: MapReduce vs Tez vs Spark
Programa de Especialización en Big Data & Machine Learning Multi-Cloud
6
MÓDULO 6 CURRÍCULA DEL
8
PROCESAMIENTO
SEMI-ESTRUCTURADO PROGRAMA
MÓDULO 10
• Fuentes y datos semi-estructutados
• Spark y dataframes semi-estructurados
• Esquemas flexibles
PROCESAMIENTO REAL-TIME
• Lectura de fuentes semi-estructuradas
• Campos complejos SOBRE BIG DATA
• Navegación sobre campos complejos
• Procesamiento de datos real time
• Modelamiento y almacenamiento de fuentes
7
• ¿Streaming, real time, near real time o micro batch?
iiisemi-estructuradas
• Arquitectura general para proyectos real time
• Procesamiento in-memory con Spark
• Captura de datos desde fuentes real time:
...tormenta de datos
MÓDULO 7 • La elasticidad en la capa de captura y procesamiento
• La importancia de la paralelización elástica
BIG DATA ON AZURE • Evitando el colapso de CPU
•Kafka como repositorio temporal de baja latencia
• Servicios de Big Data disponibles en Azure • Tópico, producers y consumers
• Arquitectura de Big Data sobre Azure • Tuning de tópicos
• Procesamiento real time con Spark Streaming
• Ingesta y almacenamiento de datos sobre el Blob Storage
11
• Arquetipo de procesamiento real time
• Interfaz SQL de Azure con Synapse Analytics
• Arquetipo enriquecimiento real time
• Implementación de flujos ETL con Dataflow • Limitaciones y cómo superarlas
• Infraestructura para clústers de Big Data con HDInsight
8
• Implementación de soluciones con Spark para HDInsight
• Despliegues y workflows con Data Factory MÓDULO 11
MACHINE LEARNING SOBRE
MÓDULO 8 BIG DATA
• Analítica en el mundo empresarial
BIG DATA ON AWS • Analítica exploratoria
• Compartiendo la metadata del clúster entre herramientas
• Servicios de Big Data disponibles en AWS • Métodos descriptivos sobre Big data
• Arquitectura de Big Data sobre AWS
• Algoritmos descriptivos disponibles sobre Spark MLlib
• Ingesta y almacenamiento de datos sobre el S3
• Implementación de KMeans con Spark
• Interfaz SQL de AWS con Athena
• Implementación de flujos ETL con Glue • Métodos predictivos sobre Big Data
• Infraestructura para clústers de Big Data con EMR • Implementación de un modelo predictivo
9
• Implementación de soluciones con Spark para EMR • Algoritmos predictivos disponibles sobre Spark MLlib
12
• Despliegues y workflows con Wokflows for Glue • Árboles de decisión y Random Forests
• Support Vector Machines como métodos predictivos
MÓDULO 9 MÓDULO 12
BIG DATA ON GCP
DEEP LEARNING & REDES
• Servicios de Big Data disponibles en GCP NEURONALES SOBRE BIG DATA
• Arquitectura de Big Data sobre GCP • Neuronas y Perceptrones
• Ingesta y almacenamiento de datos sobre el Cloud • Keras y Tensorflow
• Deep Learning & Inteligencia Artificial
...Storage
• Redes Neuronales para predicción numérica
• Interfaz SQL de GCP con Big Query
• Funciones de activación
• Implementación de flujos ETL con Data Fusion • Redes Neuronales para predicción categórica
• Infraestructura para clústers de Big Data con Dataproc • Procesamiento de procesos matriciales
• Implementación de soluciones con Spark para ...Dataproc • Extendiendo los recursos computacionales del
• Despliegues y workflows con Cloud Composer ....clúster: La GPU
• Tensorización para procesamiento de datos no
....estructurados
Programa de Especialización en Big Data & Machine Learning Multi-Cloud
• Más de 30 laboratorios de casos reales.
BENEFICIOS • Acceso a un clúster real de Big Data al cual
podrás acceder 24x7 dentro y fuera de las horas
DEL CURSO de clase
• Implementación de los patrones, arquitecturas
y arquetipos de código que son estándar
empresarial actualmente
• Al terminar la clase el profesor enviará la
grabación de video para que puedas repasar
• Somos partner de Certiprof, accede a
descuentos de hasta el 50% en el precio de
exámenes internacionales
• Conocimientos básicos en SQL.
REQUISITOS • Portar una laptop personal para las clases de
mínimo 1 GB de RAM para el uso de un clúster
de 128 GB en la nube.
MATRÍCULA Y PROCESOS DE PAGO
1 Matrícula automática por la Web 2 Depósito / Transferencia a BCP
Ingresa a www.bigdataacademy.org y haz clic en la BIG DATA ACADEMY PERU SAC
página de “cursos”. Selecciona el Programa de Ruc: 20603117655
especialización de preferencia e inglresa tus datos. Cta Ahorros BCP Soles: Nº 193-2514329-0-61
Realiza el pago con cualquier tarjeta de crédito/ débito. Cta Interbancaria BCP Soles: Nº
00219300251432906114
Al finalizar recibirás un correo de confirmación.
3 Envío de comprobante Confirmación
Enviar comprobante de pago a info@bigdataacademy.org Confirmaremos su inscripción a la brevedad por
indicando datos del alumno. el mismo medio o vía telefónica.
Asunto: “Matrícula Big Data”.
Nombres y Apellidos: ..............................................................
Contacto
info@bigdataacademy.org
DNI: ..................................................................................................
Cel:943516891
Celular: ............................................................................................
f/bigdataacademyperu/
Correo Electrónico: ...................................................................
http://bigdataacademy.org
Puesto y lugar de trabajo: .....................................................
Programa de Especialización en Big Data & Machine Learning Multi-Cloud