Está en la página 1de 90

Big Data

Fundamentals

Google Cloud Platform


Docente Ing. Julio César Morales León

Correo: julio.morales@pucp.pe
https://www.linkedin.com/in/julio-morales-14621810/
1. Introducción a Data y a Google
Cloud Platform and its Big Data
Products.

2. Fundamentos of GCP Compute and


Agenda Storage.

3. Análisis de datos en la nube.

4. Escalamiento de Data Analysis and


Machine Learning
Inteligencia de Negocios

¿POR QUÉ ES
IMPORTANTE LA
TECNOLOGÍA EN LAS
ORGANIZACIONES?
Situación de las Organizaciones

Las organizaciones poseen El no tener información ocasiona


muchos datos, pero no no poder desarrollar
información concreta. conocimiento.

Algunas tendencias como


Muchas organizaciones se han
costos bajos de
preocupado en extremo de
almacenamiento, han
guardar la información pero no
producido solo se le de prioridad
de darle sentido.
a eso.
Inteligencia de Negocios
Definición
Una definición simple:

“Las aplicaciones, tecnologías y procesos que transforman los datos


empresariales en acción.”

La toma de decisiones basada en hechos generalmente involucra un


subconjunto de las siguientes habilidades / herramientas:

Diseño de base
Consulta de de datos /
Minería de datos
datos / SQL almacenamiento
de datos

Sistemas de
Visualización de
apoyo a la
datos / Tableros
decisión /
de instrumentos
simulaciones
• Transforma datos normalizados en un modelo
simple

Beneficios del
• Entrega consultas de alto performance
Modelo
Estrella
• Usa técnicas de modelamiento que son soportadas
por la mayoría de herramientas de BI

• Requiere bajo mantenimiento al ser parte del diseño


del DWH
• Describe las entidades de negocio
• Contienen atributos que proveen un contexto a
los datos numéricos
• Presentan los datos organizados en jerarquías
Tabla
Dimensiones
Tecnología OLAP vs OLTP

OLTP OLAP
• Orientado a lo operativo (procesos) • Orientado a temas
• Predomina la actualización
• Predomina la consultaDatos históricos
• Se accede a pocos registros • Procesos masivos, se accede a muchos
registros
• Datos altamente normalizados • Datos Denormalizados

• Estructura multidimensional
• Estructura relacional

• Rápidos tiempos de respuesta. • Respuesta masiva, no inmediata

• Estructura estática • Estructura dinámica, abundantes cambios


Inteligencia de Negocios
Objetivo

“Inteligencia de Negocios se trata de usar datos para ayudar a los


usuarios de las empresas a tomar mejores decisiones.”
Empresas que utilizan BI
Comunicaciones Auto motor Finanzas y Banca Productos Tecnología

Servicios Industrial Salud Farmacia Otros


Definición de Datos

“Datos: una colección de elementos de valor en bruto o hechos utilizados


para calcular, razonar o medir.”
Definición de Información
“Información: el resultado de recopilar y organizar datos de forma tal que
establece una relación entre los elementos de datos, esto nos permite
entender el contexto y significado.”
Definición de Conocimiento

“Conocimiento: el concepto de comprender información basada en


patrones reconocidos de una manera que proporciona el entendimiento
necesario para utilizar la información.”
Meta de la Inteligencia de Negocios
“Convertir los datos en conocimiento para la toma de decisiones de la
empresa.”

Conocimiento
Incrementa
el valor

Información

Datos
Inteligencia de Negocios

¿POR QUÉ ES
IMPORTANTE LA
INFORMACIÓN EN
LAS
ORGANIZACIONES?
Caso De Uso
Ejemplo - Análisis de Ventas (Industriales)
Características :

• Detalle de ventas en unidades monetarias y físicas

• Análisis de ventas Anual, mensual y semanal

• Evaluación de ventas por Empresa y países

• Niveles de detalle por Familia, línea y producto

• Detalle por cliente, identificando los clientes corporativos

• Detalle por Proceso de Producción

• Análisis de ventas por Vendedor

Consideraciones :

• Comparativo de ventas entre unidades de tiempo

• Análisis de ventas de uno o más años a la vez

• Suma acumulada de ventas


Participación porcentual de las variables de ventas
Modelamiento Star net
Cubos de Análisis
Modelo Estrella
Reporte sobre un archivo plano
Revisemos el siguiente cuadro de 2 productos
Análisis de la información

Observemos que la compra del Producto 1, siempre está en relación con el Producto 2.
Entonces con esta información podemos establecer estrategias para poder incrementar las
ventas. Y además observar que días hay mayor demanda y que días no.
Trabajo en grupos

Ejecución
¡Poner en práctica los nuevos aprendizajes!
Caso: Uso Estratégico de la Información
Viajes Mercurio es una antigua agencia de viajes, de alto prestigio y con oficinas en todas las grandes ciudades del país, que ha
perdido su clientela de forma progresiva debido a la proliferación de empresas del mismo rubro y la competencia los departamentos
de viajes de grandes cadenas comerciales.

Muchos de los agentes conocen a sus clientes habituales, recuerdan sus intereses, su nivel económico y su disponibilidad de
tiempo. Pero esto no es suficiente. Cuando un agente no se encuentra, o bien cuando se incorporan nuevos agentes, se repiten las
situaciones en las que el cliente debe explicar que sus vacaciones son sólo de 15 días en agosto y que los 15 días restantes los
utilizará, como siempre, en navidad, para viajar a Chicago donde vive su hijo. En agosto desea tomar, como todos los años, un tour
a Sudamérica. Una vez mas deberá explicar que son 4 personas: su esposa, sus suegros y él. Y como ellos ya son personas
mayores, el tour no puede ser agotador.

Cuando la joven que le atiende empieza a detallar todos los destinos posibles, él deberá explicarle que hace mucho tiempo dejaron
de interesarles las ruinas, y que como ya ha dicho en otras ocasiones, ahora lo que desea es tomar el sol en una playa tranquila,
con vegetación exuberante y con la posibilidad de recorrer los pueblos y comprar artesanías típicas. Dicho esto, la agente
selecciona solo los tours que cumplen con esas características, pero él ya ha recorrido Brasil de norte a sur, también Ecuador,
México y Costa Rica. Las alternativas se reducen cada vez más hasta llegar a las dos últimas posibilidades, un tour a la Isla de
Pascua, pero las fechas de salida no coinciden con las de sus vacaciones, y un tour a Uruguay, donde sólo quedan cupos para dos
personas. Desilusionado, el cliente pregunta ahora por los pasajes a Chicago, ya que seguramente es hora de reservarlos, pero
¡sorpresa! Este año no se sabe que ha sucedido pero todos los vuelos están copados para esa fecha.
Caso: Inteligencia de Negocio

Preocupados por la situación los directivos de la agencia se embarcan en un proyecto de Inteligencia de Negocios y durante la fase de
análisis descubren que deben crear una base de datos donde registren, por un lado, la información de sus prestaciones (tours, venta y
reserva de billetes, hoteles, etc.) y por otro, la información de sus clientes: preferencias, exigencias, disponibilidades de tiempo y económicas,
predilecciones de líneas áreas y necesidades adicionales como asistencia en vuelos o viaje con animales de compañía. También la
composición familiar y la historia de los servicios utilizados.

Como resultado del proyecto, al año siguiente el cliente recibe por correo folletos con información de todos los tours a playas tropicales que él
no conoce y que se realizarán en las fechas en que él toma sus vacaciones. Y para su sorpresa, recibe también una carta indicándole que se
le han reservado dos billetes para viajar a Chicago en Navidad y que él sólo debe telefonear para confirmarlos. Adicionalmente la empresa se
da cuenta que existen segmentos de la población que no están incluidos en sus prestaciones como son el turismo aventura y lugares no
turísticos y puede así captar nuevos clientes.

Se pide:

1. ¿Para el segundo escenario expuesto, identifique tres beneficios que gana la agencia de viajes, con miras a su futura estrategia
comercial?. Explique.

2. ¿Qué carencias considera que tienen los negocios similares en nuestro país, para poder aprovechar al máximo la información de sus
Clientes?
Actividad 1

Se formarán grupos (3 o 4 personas)


para resolver el caso planteado

Duración: 17 minutos
Introducción a Data y a
Google Cloud Platform
and its Big Data
Products.
¿Qué es Big data?
Un mayor ámbito de información 18%

Nuevos tipos de datos y análisis 16%

Información en tiempo Real 15%

Entrada de datos procedente de nuevas tecnologías 13%

Forma no tradicionales de soportes 13%

Grandes Volúmenes de datos 10%

La última palabra de moda 8%

Datos de redes Sociales 7%


¿Qué es Big Data?

Introducción Se refiere a un conjunto de datos tan grande y


al Big Data complejo, que resulta difícil de procesar usando
los sistemas de gestión de bases de datos
disponibles o las aplicaciones tradicionales de
procesamiento de datos.
Características del Big Data

• Volumen: La cantidad de datos más allá de RDBMS


tradicional
• Variedad: texto relacional, y / o tipos de datos
multimedia
• Velocidad: frecuencia de la generación de los datos
o de la entrega de datos Deshacer cambios
Estadísticas Datameer 2015
¿ Que es un Data Lake?
El flujo entrante representa
tablas base Gestión
DATA ESTRUCTURADA y múltiples archivos de datos
sin procesar que van
Tickets SP TP HP IK MF CAS de correos electrónicos, hojas
Efectivo, Saldos, Tarjetas de cálculo, contenido de social
Seguros, Clientes, media
Cronogramas de pagos
DATA NO
ESTRUCTURADA
Dispositivos Activos App
N° Usuarios App y Web
N° Logueos en el Mes
Frecuencia de visitas al mes
Canales Digitales
Social Media, Mail
El reservorio de agua es un set
de datos, en la cual Foh! Podrá
hacer Analítica de manera
performante con todos los
datos

La salida de agua es data


ANALIZADA A través de este proceso, Foh!
Es capaz, a través de todos los
datos, obtener rápidamente los
key business Insights
Business Intelligence & Business Analytics

Business Analytics Business Intelligence


Estadística Avanzada Estadística básica
Matemática Compleja Análisis histórico de datos
Simulación de Sistemas Análisis multidimensional
Robótica Análisis de tendencias
Sistemas Expertos Clustering
¿Qué es el Data Science?
• Modelo tablas únicas y tablas agregadas -> Equipo Gobierno Técnico • Acceso a Cubos en tableau
• Un solo esfuerzo una vez y todas las áreas de negocio reutilizan las • Crean sus propios reportes
tablas transformadas:

Transacciones únicas, Cliente, Producto

Data scientist Analistas de negocio


Acceso
Acceso Red Interna
Red Interna Acceso vía Internet
controlado Tickets Vea
Negocio Tickets Vea Negocio
Tickets
Tickets Oechsle
Oechsle
Tabla Tickets
Tabla Tabla Única
Tabla Tickets Agregada Promart
Agregada Única Promart
Tickets
Riesgos y Tickets
Riesgos y Farmacias
Cobranzas Farmacias Cobranzas MD files
MD files

Fraudes Fraudes
¿Qué es el Data Science?
¿Qué es el Data Science?

Mayor sofisticación en el análisis de los datos genera ventaja competitiva, a medida que
se va optimizando los datos y entendiéndolos.
Optimizació
Más de 3 meses n de DATA
(+)
15 días – 3 meses
Análisis
prescriptivo
2 días – 15 días
Análisis
i sión os
predictivo e v em e u
2 horas - 2 días Pr pod ra q
é
u p a
¿Q cer se?
ha pa
ión ará?
Valor (Ventaja

Análisis
s
Competitiva)

diagnóstico i
V as p

¿Q
Análisis a
Descriptivo c tiv ?
e ué
o sp or q
tr p
Re ué y
¿Q

(-)
Dificultad (Sofisticación de (+)
análisis)
Estrategia Empresarial de Datos

2020 2021

Data -
Data - Driven
• Generan
Data - Savvy descubrimientos
(Insights) a partir
Data - Guided • Analizan los datos
de los datos
estratégicamente
Aware • Analizan los datos • Generan • Capaces de
Data - • Aprenden de sus descubrimientos contestar a la
• Conscientes de
Resistant los datos
errores y mejoran (Insights) pregunta: ¿qué
procesos viene después?
• Resistentes al • No usan los
cambio datos
correctamente
Lo importante

¿Estamos haciendo las preguntas correctas?

¿Cómo nos mide nuestro jefe?

¿Cómo medimos a nuestros equipo?


Caso
Tecnologías

PARTNERS
GARTNER
2019
Data Center a lo largo de la Historia
Data Center Clásicos
Virtualización – Camino Cloud Computing
DC Costos de operación
Cloud Computing
Características Cloud Computing
Modelos de Entrega de Servicios Cloud
Modelos de Entrega de Servicios Cloud
Características Cloud Computing
Desafíos en proyectos de datos

Aplicaciones No se percibe el Difícil reclutamiento


legadas Silos de datos valor de los datos Entornos regularios de profesionales

1011101
0100101
11010101
0111100
10001101

Los datos no estructurados representan el 90% de los datos empresariales


Data Journey

Datos Transformar Visualizar


Multiples fuentes Exploración, limpieza y Cuente historias con
preparación sus datos

Recolectar Analizar Activar


Consolide y almacene Dele mejor sentido a Ejecute sus modelos
eficientemente sus datos de ML
Presencia a nivel de Data Centers
Plataforma de Datos

Ingesta de datos Data Warehousing Analítica Avanzada


Transmisión confiable Y Data Lake
pipeline

AI Platform
Cloud Pub/Sub Cloud Dataflow BigQuery

Data Transfer Service Cloud Dataproc Cloud Storage Google Data Studio

Cloud IoT Core Cloud Dataprep Tensorflow

Cloud Sheets
Data Fusion

composer
Componentes Google Cloud Platform
Jerarquía de Recursos
Caso II: Diagrama Star Net o Estrella

A) Caso II-A: El área de tarjetas de crédito de un banco desea implementar un data mart. Se desea visualizar la información de créditos
concedidos y pagos hasta llegar a cada tarjeta. Las tarjetas pueden ser de dos tipos: “VISA” y “MASTERCARD”. También se desea
visualizar los créditos y pagos por cada vendedor y cada cliente. Cada cliente pertenece a un distrito, cada distrito a una provincia y
cada provincia a un departamento. Cada vendedor pertenece a una agencia, y cada agencia pertenece a un distrito, cada distrito a
una provincia y cada provincia a un departamento. Las métricas deben visualizarse como totalizados anuales, semestrales,
trimestrales y mensuales. Diseñe las dimensiones, las medidas y el modelo de datos.

B) Caso II-B: Una empresa de transportes desea implementar un data mart. Se desea visualizar la información de ventas hasta
llegar a cada boleto. Cada boleto pertenece a una ruta, por ejemplo: “Lima – Ica”, “Arequipa – Puno”, etc. También se desea
visualizar las ventas, costos y gastos asociados con cada bus, empleado y agencia. Cada bus ha sido producido por un
fabricante, por ejemplo, “Mercedes Benz”. Cada empleado puede ser “piloto”, “asistente de servicio en bus” o
“administrativo”. Cada agencia pertenece a una ciudad, y cada ciudad a un departamento. Las métricas deben visualizarse
como totalizados anuales, semestrales, trimestrales y mensuales. Diseñe las dimensiones, las medidas
Actividad 2

Se formarán grupos (3 o 4 personas)


para resolver el caso planteado

Duración: 17 minutos
Seguridad Accesos y Roles
Fundamentos of GCP
Compute and Storage
Árbol de decisión por tipo de
almacenamiento
Opciones de Almacenamiento

Cloud Storage
✓ Servicio de almacenamiento de objetos (Blobs)
✓ Edge Caching automático
✓ Diferentes clases de almacenamiento
- Multiregional
- Regional
- Nearline
- Coldline
✓ Ciclo vida Almacenamiento
Opciones de Almacenamiento

Cloud Sql
Servicio BD (PaaS)
✓ Postgres y Mysql Gestionados
✓ Escalable para la mayoría de las cargas de
trabajo OLTP
✓ Descuentos por uso sostenido
✓ Configuración de Runtime y Admin
Portafolio GCP - Compute

Compute Engine
Infraestructura como servicio (IaaS)
✓ Virtual machines = Instancias
✓ Es una versión virtual de un pc físico
− CPU/GPU - Memoria
− Espacio Disco - OS - Firewall etc
✓ Control completo y máxima flexibilidad pero
mayor carga Operacional
✓ Perfecto para compañías moviendo servers
actuales a la nube
Portafolio GCP - Compute

Compute Engine
IaaS PaaS
Virtual Machines
Tipo de vm predefinidas y custom
Opciones de optimización costes
Almacenamiento atachado o local
Grupos Instancias y autoescalado

Computación - de Iaas a PaaS


Trabajo en conjunto

Ejecución
¡Poner en práctica los nuevos aprendizajes!
Trabajo en conjunto

Lab1- Cargar Archivos a la nube


Actividad

Se formarán grupos (3 o 4 personas) y


realizarán un ejemplo de análisis de
datos, en el cual muestra un caso que
sea importante utilizar la inteligencia de
negocios.

Duración: 30 minutos
Análisis de datos en la
nube con GCP
Componentes Big Data

Cloud
BigQuery
Datalab

Cloud Cloud
Dataflow Pub/Sub
(kafka)

Cloud Dataproc
Genomics
(hadoop)

Cloud Data
Dataprep Studio
Componentes Google Cloud Platform

Cloud Dataflow
● Es un servicio de tipo batch y streaming.

● Es un componente central para la construcción de pipelines que se


encargan de recopilar, transformar y generar datos.

● No requiere configuración de instancias o cluster, es un servicio sin


operaciones.

● Los pipelines de Cloud Dataflow se ejecutan dentro de una región.

● El trabajo consiste en codificar transformación en uno los


lenguajes compatibles con Apache Beam, que actualmente son
Java y Python.
Componentes Google Cloud Platform

Cloud Pub/Sub
Pub / Sub es un servicio de mensajería asincrónica que desacopla los
servicios que producen eventos de los servicios que procesan eventos.

● Topico: un recurso con nombre al que los editores envían mensajes.


● Suscripción : un recurso con nombre que representa el flujo de
mensajes de un tema único y específico, que se entregará a la
aplicación de suscripción. Para obtener más detalles sobre las
suscripciones y la semántica de entrega de mensajes, consulte la Guia
del suscriptor.
● Mensaje : la combinación de datos y atributos (opcionales) que un
editor envía a un tema y finalmente se entrega a los suscriptores.
● Atributo de mensaje : un par clave-valor que un editor puede definir
para un mensaje. Por ejemplo, se podrían agregar claves
iana.org/language_tagy valores ena los mensajes para marcarlos
como legibles por un suscriptor de habla inglesa.
Componentes Google Cloud Platform

Cloud Dataproc
● Es un servicio administrado donde puedes
desplegar un cluster para procesamiento de
información

● Entorno computacional con recursos que


pueden optimizar trabajos; tienen memoria,
disco de almacenamiento que sirven para el
procesamiento bajo un entorno de sistema

● Recomendado para la migración de


cloudera o hortonworks a la nube
con cluster de hadoop, spark, hive, pig
Componentes Google Cloud Platform

Cloud Composer
Es un servicio que utiliza apache airflow como núcleo para programar y ejecutar flujos de trabajo

Automatiza la programación y la supervisión


de flujos de trabajo

Cloud Composer se integra con los


servicios: BigQuery, Cloud Dataflow, Cloud
Dataproc, Cloud Datastore, Cloud Storage,
Cloud Pub / Sub y AI Platform.
Componentes Google Cloud Platform

Data Studio
Arquitectura Data Lake - DWH
Arquitectura por componentes
Matillion ELT
Dashboard - Data Studio
Escalamiento de Data
Analysis and Machine
Learning
Componentes Machine Learning

Cloud
Cloud
Natural
Machine
Language
Learning
API
Cloud
Cloud Vision Translation
API API

Cloud
Cloud Speech
Jobs
API
API

Cloud Video Advanced


Intelligence Solutions Lab
API
Componentes Machine Learning

AI Platform - Notebooks
Componentes Machine Learning

AutoML Tables
Componentes Machine Learning
Componentes Machine Learning
Componentes Machine Learning

Video Intelligence
Componentes Machine Learning

Document AI
“23 años Comprometidos con la capacitación de
profesionales en el Perú”

También podría gustarte