Está en la página 1de 45

CONECTA

EMPLEO
Programa de Formación Digital y Emprendimiento

BIG DATA ANALYTICS ON GCP

ENTORNO DE BIG DATA

Laren Well Osorio Toribio

980852065

losoriot@uni.pe
CONECTA
SYLLABUS EMPLEO
Programa de Formación Digital y Emprendimiento

1. SYLLABUS
Antecedentes
2. Factores de influencia en la toma de decisiones
1. Rapidez de respuesta
2. Herramientas tradicionales
3. Enfoque en las personas
4. Variedad de los datos
5. Crecimiento exponencial en el volumen de los datos
3. Entorno de Big Data
4. Definición de Big Data
5. Big Data como marco de trabajo
6. Conceptos asociados al Big Data
7. Tecnologías asociadas al Big Data
8. Soluciones asociadas al Big Data
9. Arquitectura Estándar de Big Data (Hadoop, AWS)
10. Iniciativas de Big Data
11. Importancia del Big Data
12. Adopción del Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

SYLLABUS

Antecedentes
CONECTA
EMPLEO

Antecedentes
SYLLABUS
Programa de Formación Digital y Emprendimiento
Toma de decisión
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

60%
Según McKinsey, el 60% de los CEOs dicen que las malas
decisiones son tan frecuentes como las buenas.

Fuente: McKinsey 2013, Survey Ceos


Factores de influencia
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Factores de influencia en el proceso de toma de decisiones

Rapidez de respuesta

Herramientas
Enfoque en las
tradicionales para
personas(*), usuarios
capturar, almacenar, TOMA DE DECISIONES
finales con el poder en
procesar, analizar y
gestionar datos sus manos

Crecimiento exponencial en
el volumen y la variedad de
los datos, impulsado por Transformación Digital
humanos y máquinas (M2M)

(*)Basado en “A theory of human motivation” de Maslow y Max-Neef - “Human Scale Development”


Volumen y Variedad

Megatendencias
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Papa Juan Pablo II Papa Francisco


1993 2018
Volumen y Variedad

Transformación digital
CONECTA
EMPLEO
¿Que hacemos en un viaje? ... Programa de Formación Digital y Emprendimiento
Volumen y Variedad

Impacto de la transformación digital


CONECTA
EMPLEO
… que están transformando la vida de las personas Programa de Formación Digital y Emprendimiento

España es el país más conectado de Europa


19% 81%
de los usuarios utiliza 5 o + de los españoles que se
dispositivos conectados conectan a la web lo hacen
(solo por detrás de EEUU) a través del móvil

España es el 5º país del mundo en mcommerce

6/10 x3 Compramos 3 veces


más desde apps que
Compran vía móvil desde navegadores
móviles

“Siempre conectados” Los millenials son


Internet of PEOPLE heavyusers de los
Digitalización de la Mira el móvil en dispositivos móviles
vida de las personas los 5 primeros 70%
3/10
minutos tras
levantarse, y lo Prefiere perder
1/2 usa mientras Consulta el móvil la cartera antes
está en el baño cada 10 minutos que el móvil
Volumen y Variedad

Vintage social networking


CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

https://twitter.com/StartGrowthHack
Volumen y Variedad

CONECTA
El surgimiento del Big Data está basado en el cambio
EMPLEO en la naturaleza de los datos
Programa de Formación Digital y Emprendimiento

SYLLABUS
TIPOS DE DATOS
Datos • Datos con un formato de dato
establecido y estructura.
Estructurados • Ejemplo: Datos transaccionales y
Datos OLAP.

operacionales
• Datos de texto con un patrón reconocible,
Datos el cual es apto para ser parseado
Datos (troceado).
Semi-Estructurados • Ejemplo: JSON, archivos XML que son
demográficos del definidos por un esquema XSD
cliente
• Datos que no tienen ninguna coherencia
Datos No ni patrón y usualmente están
almacenados en distintos tipos de
Tendencias Estructurados archivos
de mercado • Ejemplo: Archivos de texto, PDFs,
Imágenes, Videos..

TRADICIONALMENTE
ACTUALIDAD
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

SYLLABUS

¿Cuanto es un
Zettabyte?

1,180,591,620,717,410,000,000 Bytes (10 ^21 bytes)


Volumen y Variedad

Volumen: Proyección Zettabytes para 2025


CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Se pronostica que para el


año 2025 la generación de
datos ascenderá a un total
2017
25 ZB de 163 zettabytes (ZB)

2025

163
ZB

https://www.seagate.com/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf
Volumen y Variedad

Volumen
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

• Estudio realizado en el 2017 por IDC


patrocinado por Seagate, pronostica un
incremento en 10 veces del volumen de
datos mundial para el año 2025.

• Consumidores fueron los principales


creadores del mayor volumen de datos a
nivel mundial, estudio predice que la
tendencia cambiará, y que las empresas
pasarán a crear el 60% de la información
a nivel mundial para 2025

• Tomar conciencia y planificar nuevas


estrategias para una nueva era de datos

https://www.seagate.com/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf
http://techdatatsmex.blogspot.com/2017/07/
Tecnologías tradicionales

Herramientas tradicionales
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Alto tiempo de respuesta en el procesamiento de grandes cantidades de datos (PB).


El volumen excede la capacidad del recurso computacional disponible.
Alto costo de almacenamiento y mantenimiento

DATA WAREHOUSE vs. DATA LAKE

structured / semi - structured /


structured, processed DATA
unstructured, raw

schema-on-write PROCESSING schema - on - read

expensive for large data volumes STORAGE designer for low-cost storage

Highly agile, configure and


Less agile, fixed configuration AGILITY
reconfigure as needed

mature SECUTIRY maturing

Business professionals USERS data scientists et. al.


Esquema general de un Data Lake CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Se propone tres
capas donde se
refina la data y una
cuarta que contiene
datos sensibles.
Tecnologías tradicionales

Costos de Almacenamiento
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

¿Cuánto costaba almacenar 1 GB en 1992 vs lo que cuesta ahora en


2019?

1992 1 GB 202X
S/ 2400 S/ 0.12

X 20000
Tecnologías tradicionales

Otros tipos de costos


CONECTA
EMPLEO
¿Qué pasa con otros tipos de costos? Programa de Formación Digital y Emprendimiento
Rapidez de respuesta

Rapidez de respuesta
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Comercio de alta frecuencia, HTF: La mayoría de las transacciones de acciones


ejecutan algoritmos que cada vez más toman en cuenta las señales de redes sociales
y sitios web de noticias para hacer, comprar y vender acciones en fracciones de
segundo.
Enfoque en las personas

Enfoque en las personas


CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

El enfoque seguirá estando en las personas, en cómo empatizar con lo que piensan, sienten
y cómo y por qué actúan, en sus necesidades. En la búsqueda por satisfacer estas
necesidades, las personas se ven expuestas a diversos factores externos como las mega
tendencias y tendencias.

MT T MT
T
T T
T
MT T

T
T T MT

Necesidades

Megatendencias y
tendencias
Enfoque en las personas

Enfoque en las personas


CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Las personas al estar expuestas a las megatendencias y tendencias, crea nuevas


expectativas, dejando espacios en blanco para poder identificar oportunidades que estén
vinculadas a esas nuevas expectativas. Las diferentes industrias aprovechan estas ventanas
para generar innovaciones en nuevos productos, servicios o procesos.

MT T MT
T
T T
T
MT T

T
T T MT
E2
Expectativas, T
oportunidades e E3
innovaciones E1

Op
Megatendencias y
tendencias Op Op

Conceptos de
Innovación
Enfoque en las personas

Personalización
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

http://www.kpcb.com/internet-trends
BIG DATA

Nuevas interacciones
Nuevos tipos de datos
Nuevas tecnologías
Nuevos productos y servicios
Nuevos comportamientos
Nuevas oportunidades
Nuevos modelos de negocio
“No podemos
resolver nuevos
problemas con el
mismo pensamiento
que usamos cuando
los creamos”

Albert Einsten
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

SYLLABUS

Entorno de Big Data


Como conviven las 5 V’s

Contexto

Objetos Datos

Volumen (25%)
JSON data XML data
(5%)
Structured data

Valor

Variedad
Decisión
Algoritmos (Acción)

Images Files Video Redes Sociales Veracidad

Velocidad
(75%)
Textual data Audio

Fuente: Philippe Nieuwbourg, Big data & Internet de las cosas


¿Qué es Big Data? (1)
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Big Data es un concepto que hace referencia a un conjunto de procesos,


tecnologías y modelos basados en el almacenamiento masivo de datos,
procesamiento y transformación de los mismos en conocimiento, para analizar lo
que sucederá en un mundo complejo con muchas interacciones.
REDES SOCIALES
• Twitter • Pinterest • Blogs
• Facebook • Google + • Wikis
CLIENTES • Linkedin • Youtube • Yelp
SISTEMAS DE
• Tarjetas de
compra/clientes
CAPTURA DE LA
• Oferta / respuesta ORGANIZACIÓN CADENA DE SUMINISTRO
• SMS
• Clickstream • Órdenes de compra
• Comportamiento BILLONES DE • Envíos
en tienda INTERACCIONE • Devoluciones
• Ratings y S • Sensores
encuestas • Almacén
• Geolocalización • Recibos
• Foros webs MILLONES DE
• Transportistas
• Call centers TRANSACCIONES
IoT • Información de producto
• Sensores • Colocación en tienda
• Email • Inteligencia de mercado
• Beacons
• Smart mirrors
• Digital Signage MERCADO
• RFID • Situación
• Smart packaging • Comercio • Competencia
económica
• Smart price tags • Organización • Eventos
• Condiciones
• … • Demográfica • Noticias del sector
meteorológicas
¿Qué es Big Data? (2)
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento
Es un marco de trabajo (conceptos + tecnología) que permite
procesar grandes volúmenes de datos, de diferentes
estructuras que pueden variar en el tiempo, a grandes
velocidades para generar valor al negocio.
Big Data como marco de trabajo
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento
¿Por qué Big Data es un marco de trabajo?

CONCEPTOS MARCO DE
(MÉTODOS Y TECNOLOGÍAS
TÉCNICAS) TRABAJO

• Las 5V • Hadoop
• Paralelización • Hive
BIG DATA
• Escalabilidad • HBase
• Alta disponibilidad • Spark
• Gobierno • Kafka
• Métodos y Técnicas • Cassandra
• Lenguajes de
programación
Conceptos asociados al Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Cluster Computacional: Un clúster es una


agrupación de servidores (computadoras)
conectadas sobre una red generalmente LAN

Paralelización: Distribución de la carga de


trabajo para que pueda procesarse en un
clúster computacional

Escalabilidad: Crecimiento de la potencia


computacional en el tiempo

Alta Disponibilidad: Aseguramiento de la


continuidad del negocio
Tecnologías asociadas al Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Si quiero guardar grandes cantidades


de datos

Si quiero procesar gran cantidad de datos


de forma batch con una sintaxis SQL

Si quiero procesar los datos en tiempo real o


realizar procesos de aprendizaje de máquina
Tecnologías asociadas al Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Si quiero hacer consultas de baja


latencia utilizando una base NoSQL

Si quiero extraer datos de una base de


datos relacional y colocarlos en Hadoop

Si quiero extraer datos de otras fuentes


y/o en tiempo real
Tecnologías asociadas al Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Si quiero hacer minería de datos


en Big Data

Si quiero implementar sistemas


simples de enriquecimiento de datos

Si quiero implementar sistemas


complejos sobre Big Data
Soluciones de Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Real Time y Streaming: Son procesos en los cuales los datos son capturados, procesados y
almacenados en condiciones cercanas al tiempo real (NRT, near real time). El tiempo de
procesamiento de un sistema real time está en el orden de los milisegundos.

Batch: Dependiendo de la criticidad de los procesos, no todo serán necesariamente real time,
existirán muchos casos en los cuáles una solución batch (minutos, horas) o micro-batch
(segundos) sea más que suficiente

Big Data Analytics: Business Analytics involucra procesos en los cuales podemos extraer valor
de los datos empresariales. Ese valor puede reflejarse en forma de gráficos estadísticos,
patrones de comportamiento, modelos descriptivos, modelos predictivos y modelos
prescriptivos.

DataLake: Un datalake es un repositorio de almacenamiento que contienen una gran cantidad


de datos en bruto, independientemente de que estén estructurados o no, y que se mantienen
allí hasta que sea necesario. Estas fuentes pueden ser combinadas y procesadas utilizando Big
data, búsquedas y análisis que de otro modo hubieran sido imposibles.
Arquitectura conceptual de Big Data
Almacenamiento
Fuentes Ingesta Explotación

Almacenamiento Almacenamiento Almacenamiento Herramientas de


Datos Estructurados
Batch Real Time IN - MEMORY consola
ETL Tradicional
Datos Semi - Herramientas de
Estructurados visualización
ETL Big Data
Procesamiento
Datos No Procesamiento Procesamiento Herramientas de
Estructurados Batch Micro Batch analítica

Procesamiento Motores Procesamiento


Real Time De búsqueda Analítico

Gobierno y Seguridad

Administración de Orquestación de Administración de Seguridad de datos Seguridad de datos Seguridad de


Devops
clúster procesos accesos en descanso en vuelo acceso remoto

Arquitectura Estándar de Big Data. Alonso Melgarejo


Arquitectura tecnológica de Big Data
Components in the Hadoop Ecosystem

Almacenamiento
Fuentes Ingesta Explotación

Almacenamiento Almacenamiento Almacenamiento Herramientas de


Datos Estructurados
Batch Real Time IN - MEMORY consola
ETL Tradicional
Datos Semi - Herramientas de
Estructurados visualización
ETL Big Data
Procesamiento
Datos No Procesamiento Procesamiento Herramientas de
Estructurados Batch Micro Batch analítica

Procesamiento Motores Procesamiento


Real Time De búsqueda Analítico

Gobierno y Seguridad

Administración de Orquestación de Administración de Seguridad de datos Seguridad de datos Seguridad de


Devops
clúster procesos accesos en descanso en vuelo acceso remoto

Arquitectura Estándar de Big Data. Alonso Melgarejo


Arquitectura conceptual de Big Data
En el siguiente diagrama se definen los componentes lógicos y funcionales (Building Blocks)

AWS Hybrid Data Lake Architecture on Cloud


Arquitectura tecnológica de Big Data
Components in the AWS ecosystem

AWS Hybrid Data Lake Architecture on Cloud


Arquitectura tecnológica de Big Data
Components in the GCP ecosystem

https://cloud.google.com/solutions/build-a-data-lake-on-gcp?hl=es-419
Iniciativas de Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Según una encuesta realizada a nivel global por Forbes Insights patrocinada por Teradata en
asociación con McKinsey, el 59% de los 316 ejecutivos encuestados mencionaron considerar
el “Big data” y la analítica de datos como una de las cinco principales iniciativas - (38%) o la
manera más importante - (21%) para obtener una ventaja competitiva en la industria.

Betting on Big Data: How the right culture, strategy and investments can help you leapfrog the competition”, por Forbes
Insights patrocinada por Teradata en asociación con McKinsey, 2015 (360 Survey).
Importancia del Big Data
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

BARC Research: Las empresas que saben usar IDC: $ 430 mil millones adicionales en
bien este concepto experimentan una reducción del beneficios de productividad sobre sus pares
10% en sus costos y un aumento del 8% en sus menos orientados analíticamente.
beneficios.
“Massachusetts Institute of Technology” (MIT) [15], publicado en el “MIT Sloan Management Review”
en colaboración con “IBM Institute for Business Value” reveló que las organizaciones con mejor
rendimiento es porque utilizan “Analytics” o analítica de datos, en promedio cinco veces más.

Analytics: The New Path to Value” de S. Lavalle, M. Hopkins, E. Lesser, R. Shockley y N. Kruschwitz, 2010,
IBM Global Business Service. Copyright © Massachusetts Institute of Technology
Adopción del Big Data por industria
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

Por industria
Servicios Financieros
22%
Tecnología 18%
Telecomunicaciones
14%
Retail 9%
Government 7%
Cuidado de la salud 7%
Publicidad y
6% Grandes empresas PYMES
entretenimiento
Videojuegos 6% Adopción Adopción
Data Services 3%
Energía y utilidades 3%
80% 63%
IT Consulting 3% Gasto Gasto
Transporte marítimo 1%
Transporte (otros)
60% 40%
1%

Sources: Sciencedaily.com, thegovlab.org 2015


Adopción del Big Data en $
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

$130
This is a
sample
text.
$203
Insert your
billiondesired
text here.
billion
2020
2016
$151
billion
2017

Ratio de crecimiento anual del 11.7%

Sources IDC 2016, IDC 2017, Sciencedaily.com, Datameer 2015


CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

SYLLABUS
“Las organizaciones han comprendido el inmenso valor de
los datos y están creando aplicaciones basadas en datos en
busca de nuevas perspectivas y oportunidades de ingresos”
CONECTA
EMPLEO
Programa de Formación Digital y Emprendimiento

También podría gustarte