Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentacion de BigData
Presentacion de BigData
Fundamentals
Correo: julio.morales@pucp.pe
https://www.linkedin.com/in/julio-morales-14621810/
1. Introducción a Data y a Google
Cloud Platform and its Big Data
Products.
¿POR QUÉ ES
IMPORTANTE LA
TECNOLOGÍA EN LAS
ORGANIZACIONES?
Situación de las Organizaciones
Diseño de base
Consulta de de datos /
Minería de datos
datos / SQL almacenamiento
de datos
Sistemas de
Visualización de
apoyo a la
datos / Tableros
decisión /
de instrumentos
simulaciones
• Transforma datos normalizados en un modelo
simple
Beneficios del
• Entrega consultas de alto performance
Modelo
Estrella
• Usa técnicas de modelamiento que son soportadas
por la mayoría de herramientas de BI
OLTP OLAP
• Orientado a lo operativo (procesos) • Orientado a temas
• Predomina la actualización
• Predomina la consultaDatos históricos
• Se accede a pocos registros • Procesos masivos, se accede a muchos
registros
• Datos altamente normalizados • Datos Denormalizados
• Estructura multidimensional
• Estructura relacional
Conocimiento
Incrementa
el valor
Información
Datos
Inteligencia de Negocios
¿POR QUÉ ES
IMPORTANTE LA
INFORMACIÓN EN
LAS
ORGANIZACIONES?
Caso De Uso
Ejemplo - Análisis de Ventas (Industriales)
Características :
Consideraciones :
Observemos que la compra del Producto 1, siempre está en relación con el Producto 2.
Entonces con esta información podemos establecer estrategias para poder incrementar las
ventas. Y además observar que días hay mayor demanda y que días no.
Trabajo en grupos
Ejecución
¡Poner en práctica los nuevos aprendizajes!
Caso: Uso Estratégico de la Información
Viajes Mercurio es una antigua agencia de viajes, de alto prestigio y con oficinas en todas las grandes ciudades del país, que ha
perdido su clientela de forma progresiva debido a la proliferación de empresas del mismo rubro y la competencia los departamentos
de viajes de grandes cadenas comerciales.
Muchos de los agentes conocen a sus clientes habituales, recuerdan sus intereses, su nivel económico y su disponibilidad de
tiempo. Pero esto no es suficiente. Cuando un agente no se encuentra, o bien cuando se incorporan nuevos agentes, se repiten las
situaciones en las que el cliente debe explicar que sus vacaciones son sólo de 15 días en agosto y que los 15 días restantes los
utilizará, como siempre, en navidad, para viajar a Chicago donde vive su hijo. En agosto desea tomar, como todos los años, un tour
a Sudamérica. Una vez mas deberá explicar que son 4 personas: su esposa, sus suegros y él. Y como ellos ya son personas
mayores, el tour no puede ser agotador.
Cuando la joven que le atiende empieza a detallar todos los destinos posibles, él deberá explicarle que hace mucho tiempo dejaron
de interesarles las ruinas, y que como ya ha dicho en otras ocasiones, ahora lo que desea es tomar el sol en una playa tranquila,
con vegetación exuberante y con la posibilidad de recorrer los pueblos y comprar artesanías típicas. Dicho esto, la agente
selecciona solo los tours que cumplen con esas características, pero él ya ha recorrido Brasil de norte a sur, también Ecuador,
México y Costa Rica. Las alternativas se reducen cada vez más hasta llegar a las dos últimas posibilidades, un tour a la Isla de
Pascua, pero las fechas de salida no coinciden con las de sus vacaciones, y un tour a Uruguay, donde sólo quedan cupos para dos
personas. Desilusionado, el cliente pregunta ahora por los pasajes a Chicago, ya que seguramente es hora de reservarlos, pero
¡sorpresa! Este año no se sabe que ha sucedido pero todos los vuelos están copados para esa fecha.
Caso: Inteligencia de Negocio
Preocupados por la situación los directivos de la agencia se embarcan en un proyecto de Inteligencia de Negocios y durante la fase de
análisis descubren que deben crear una base de datos donde registren, por un lado, la información de sus prestaciones (tours, venta y
reserva de billetes, hoteles, etc.) y por otro, la información de sus clientes: preferencias, exigencias, disponibilidades de tiempo y económicas,
predilecciones de líneas áreas y necesidades adicionales como asistencia en vuelos o viaje con animales de compañía. También la
composición familiar y la historia de los servicios utilizados.
Como resultado del proyecto, al año siguiente el cliente recibe por correo folletos con información de todos los tours a playas tropicales que él
no conoce y que se realizarán en las fechas en que él toma sus vacaciones. Y para su sorpresa, recibe también una carta indicándole que se
le han reservado dos billetes para viajar a Chicago en Navidad y que él sólo debe telefonear para confirmarlos. Adicionalmente la empresa se
da cuenta que existen segmentos de la población que no están incluidos en sus prestaciones como son el turismo aventura y lugares no
turísticos y puede así captar nuevos clientes.
Se pide:
1. ¿Para el segundo escenario expuesto, identifique tres beneficios que gana la agencia de viajes, con miras a su futura estrategia
comercial?. Explique.
2. ¿Qué carencias considera que tienen los negocios similares en nuestro país, para poder aprovechar al máximo la información de sus
Clientes?
Actividad 1
Duración: 17 minutos
Introducción a Data y a
Google Cloud Platform
and its Big Data
Products.
¿Qué es Big data?
Un mayor ámbito de información 18%
Fraudes Fraudes
¿Qué es el Data Science?
¿Qué es el Data Science?
Mayor sofisticación en el análisis de los datos genera ventaja competitiva, a medida que
se va optimizando los datos y entendiéndolos.
Optimizació
Más de 3 meses n de DATA
(+)
15 días – 3 meses
Análisis
prescriptivo
2 días – 15 días
Análisis
i sión os
predictivo e v em e u
2 horas - 2 días Pr pod ra q
é
u p a
¿Q cer se?
ha pa
ión ará?
Valor (Ventaja
Análisis
s
Competitiva)
diagnóstico i
V as p
ué
¿Q
Análisis a
Descriptivo c tiv ?
e ué
o sp or q
tr p
Re ué y
¿Q
(-)
Dificultad (Sofisticación de (+)
análisis)
Estrategia Empresarial de Datos
2020 2021
Data -
Data - Driven
• Generan
Data - Savvy descubrimientos
(Insights) a partir
Data - Guided • Analizan los datos
de los datos
estratégicamente
Aware • Analizan los datos • Generan • Capaces de
Data - • Aprenden de sus descubrimientos contestar a la
• Conscientes de
Resistant los datos
errores y mejoran (Insights) pregunta: ¿qué
procesos viene después?
• Resistentes al • No usan los
cambio datos
correctamente
Lo importante
PARTNERS
GARTNER
2019
Data Center a lo largo de la Historia
Data Center Clásicos
Virtualización – Camino Cloud Computing
DC Costos de operación
Cloud Computing
Características Cloud Computing
Modelos de Entrega de Servicios Cloud
Modelos de Entrega de Servicios Cloud
Características Cloud Computing
Desafíos en proyectos de datos
1011101
0100101
11010101
0111100
10001101
AI Platform
Cloud Pub/Sub Cloud Dataflow BigQuery
Data Transfer Service Cloud Dataproc Cloud Storage Google Data Studio
Cloud Sheets
Data Fusion
composer
Componentes Google Cloud Platform
Jerarquía de Recursos
Caso II: Diagrama Star Net o Estrella
A) Caso II-A: El área de tarjetas de crédito de un banco desea implementar un data mart. Se desea visualizar la información de créditos
concedidos y pagos hasta llegar a cada tarjeta. Las tarjetas pueden ser de dos tipos: “VISA” y “MASTERCARD”. También se desea
visualizar los créditos y pagos por cada vendedor y cada cliente. Cada cliente pertenece a un distrito, cada distrito a una provincia y
cada provincia a un departamento. Cada vendedor pertenece a una agencia, y cada agencia pertenece a un distrito, cada distrito a
una provincia y cada provincia a un departamento. Las métricas deben visualizarse como totalizados anuales, semestrales,
trimestrales y mensuales. Diseñe las dimensiones, las medidas y el modelo de datos.
B) Caso II-B: Una empresa de transportes desea implementar un data mart. Se desea visualizar la información de ventas hasta
llegar a cada boleto. Cada boleto pertenece a una ruta, por ejemplo: “Lima – Ica”, “Arequipa – Puno”, etc. También se desea
visualizar las ventas, costos y gastos asociados con cada bus, empleado y agencia. Cada bus ha sido producido por un
fabricante, por ejemplo, “Mercedes Benz”. Cada empleado puede ser “piloto”, “asistente de servicio en bus” o
“administrativo”. Cada agencia pertenece a una ciudad, y cada ciudad a un departamento. Las métricas deben visualizarse
como totalizados anuales, semestrales, trimestrales y mensuales. Diseñe las dimensiones, las medidas
Actividad 2
Duración: 17 minutos
Seguridad Accesos y Roles
Fundamentos of GCP
Compute and Storage
Árbol de decisión por tipo de
almacenamiento
Opciones de Almacenamiento
Cloud Storage
✓ Servicio de almacenamiento de objetos (Blobs)
✓ Edge Caching automático
✓ Diferentes clases de almacenamiento
- Multiregional
- Regional
- Nearline
- Coldline
✓ Ciclo vida Almacenamiento
Opciones de Almacenamiento
Cloud Sql
Servicio BD (PaaS)
✓ Postgres y Mysql Gestionados
✓ Escalable para la mayoría de las cargas de
trabajo OLTP
✓ Descuentos por uso sostenido
✓ Configuración de Runtime y Admin
Portafolio GCP - Compute
Compute Engine
Infraestructura como servicio (IaaS)
✓ Virtual machines = Instancias
✓ Es una versión virtual de un pc físico
− CPU/GPU - Memoria
− Espacio Disco - OS - Firewall etc
✓ Control completo y máxima flexibilidad pero
mayor carga Operacional
✓ Perfecto para compañías moviendo servers
actuales a la nube
Portafolio GCP - Compute
Compute Engine
IaaS PaaS
Virtual Machines
Tipo de vm predefinidas y custom
Opciones de optimización costes
Almacenamiento atachado o local
Grupos Instancias y autoescalado
Ejecución
¡Poner en práctica los nuevos aprendizajes!
Trabajo en conjunto
Duración: 30 minutos
Análisis de datos en la
nube con GCP
Componentes Big Data
Cloud
BigQuery
Datalab
Cloud Cloud
Dataflow Pub/Sub
(kafka)
Cloud Dataproc
Genomics
(hadoop)
Cloud Data
Dataprep Studio
Componentes Google Cloud Platform
Cloud Dataflow
● Es un servicio de tipo batch y streaming.
Cloud Pub/Sub
Pub / Sub es un servicio de mensajería asincrónica que desacopla los
servicios que producen eventos de los servicios que procesan eventos.
Cloud Dataproc
● Es un servicio administrado donde puedes
desplegar un cluster para procesamiento de
información
Cloud Composer
Es un servicio que utiliza apache airflow como núcleo para programar y ejecutar flujos de trabajo
Data Studio
Arquitectura Data Lake - DWH
Arquitectura por componentes
Matillion ELT
Dashboard - Data Studio
Escalamiento de Data
Analysis and Machine
Learning
Componentes Machine Learning
Cloud
Cloud
Natural
Machine
Language
Learning
API
Cloud
Cloud Vision Translation
API API
Cloud
Cloud Speech
Jobs
API
API
AI Platform - Notebooks
Componentes Machine Learning
AutoML Tables
Componentes Machine Learning
Componentes Machine Learning
Componentes Machine Learning
Video Intelligence
Componentes Machine Learning
Document AI
“23 años Comprometidos con la capacitación de
profesionales en el Perú”