Workshop Big Data Hadoop - Aws - GCP PDF

BIG DATA & ANALYTICS
Introducción
2
La 4ta Revolución
1st Revolution 2nd Revolution 3rd Revolution 4th Revolution

Maquina de vapor y el Electricidad y la cadena Semiconductores, Información y tecnologia
desarrollo del de montaje, fabricas. ordenadores personales, Digitales
ferrocarril. internet.
1784 1870 1969 Ahora

Tiempo Historia de la Humanidad
La Revolución de los Datos
¿Que es Big Data?
¿Que es Big Data?
Opiniones de empresarios acerca Big Data
Fuente: IBM® Institute for Business Value

¿Que es Big Data?
"Big Data comprende altos Volumenes, Velocidad y

Variedad de información, los cuales demandan
formas innovadoras de procesamiento para
mejorar la comprensión y la toma de decisiones»
¿Que es Big Data?
Dimensiones del Big Data (3V)
¿Que es Big Data?
La actividad socio-económica deja una huella digital que puede ser
RASTREADA, CAPTURADA Y INTERPRETADA
Big Data & Analytics - Casos de uso
Es una multinacional de telecomunicaciones con presencia en Europa y
Estados Unidos
Objetivo : Reducir sustancialmente el numero de portabilidad a otros competidores en EEUU
Análisis :
▪ Cantidad de llamadas que realizan y las horas en las que tienen lugar
▪ Números favoritos
▪ Número de llamadas que se cortan por problemas de cobertura
▪ Interacciones de sus clientes en medios sociales.
Expectativas de portabilidad :
✓ Facturas
✓ Llamadas que se cortan debido a mala cobertura
✓ Conversaciones de los clientes: positivas, negativas o neutrales (Modelo de reputación )
Resultado :
‘Customer Lifetime Value‘, optimo el cual era transmitida en tiempo real a cada agente de la compañía para
presentar a los clientes ofertas personalizadas.
Logró reducir en un 50% la portabilidad de sus clientes
Netflix es un servicio de video streaming a través de internet por suscripción con una
cuota mensual , cuenta con más de 80 millones de suscriptores a nivel mundial
Objetivo : Predecir los gustos de sus suscriptores
Análisis :
▪ Cuándo haces pausa, rebobinas o avanzas rápidamente.
▪ Qué día ves contenido
▪ En qué fecha/s y horario/s lo has visto y en que lugar
▪ Qué dispositivo utilizas para ver
▪ Valoraciones/puntuaciones otorgadas (alrededor de 4 millones por día)
▪ Búsquedas (alrededor de 3 millones por día)
▪ Navegación y comportamiento de desplazamiento
Resultado :
Personalizar las recomendaciones, Generación de contenido. (House of Cards : Éxito Mundial)
Walmart es uno de las tiendas retail más importantes del mundo que cuenta
con más de 245 millones de clientes que visitan 10.900 tiendas y con
presencia en 10 países.
Objetivo : Identificar las pautas de compra de sus clientes cuando se acercaba un huracán.
Análisis :
▪ Datos de los sistemas transaccionales
▪ Redes sociales
▪ Alerta telediarios acerca los huracanes
Resultado :
Supermercado fue capaz de predecir con una exactitud desconocida hasta el momento el volumen de
aprovisionamiento que requería para poder hacer frente a la demanda de sus clientes por el huracán
Una anécdota es que este supermercado fue capaz de predecir el impacto del huracán y aprovisionarse
mejor que el propio gobierno estadounidense.
jetBlue Airways es una aerolínea estadounidense de bajo coste perteneciente a
la JetBlue Airways Corporation, se convirtió en una de las líneas aéreas más
populares del país, y actualmente tiene aproximadamente dos mil millones de
dólares en la capitalización de mercado
Objetivo : Mejorar el servicio al cliente con la finalidad de fidelizarlo y evitar que se vaya a al competencia
Análisis :
▪ Datos de los sistemas transaccionales
▪ Datos de los clientes
▪ Redes sociales
Resultado :
La calidad de servicio al cliente se elevo significativamente, por ejemplo cuando sus clientes se quejaban a
través de un red social con twitter acerca de un vuelo atrasado, la empresa tenia la capacidad de
responder en forma rápida debido a que se generaba en forma automática y en tiempo real alertas al área
del servicio al cliente para que puedan atender personalmente a cada cliente, esto generaba en cada
cliente confianza de que eran escuchados y atendidos.
Holanda
Objetivo : El objetivo principal que se trazo Holanda es organizar y agilizar el tráfico para reducir el tiempo
de espera para generar mejor calidad de vida a sus habitantes a través de Semáforos Inteligentes
Análisis :
▪ Videos/Imágenes de la circulación de los autos
▪ Georreferenciación de semáforos
Resultado :
Los semáforos inteligentes eran capaz de autogestionarse en tiempo real y conectarse con otros semáforos
para poder controlar el tiempo adecuado para ceder el paso en las diversas vías logrando optimizar los
tiempos de los vehículos detenidos agilizando el transporte generando bienestar a su población
Equipos, Roles y Fases
17
Equipos / Roles
Expert Data
1 Sponsor
Consultant Architect
Project Data Engineer Data Scientist

2 Manager Technical Lead Technical Lead
3 Data Engineers Data Visualizations Data Scientists

Fases
•En esta fase se realiza el levantamiento de los

Functional requerimientos y como estos generan valor al
requirements negocios así como también si se encuentra
alineado a la estrategia corporativa.
•En esta fase se realiza la revisión de las fuentes de

Design información y de la infraestructura tecnológica para
realizar el diseño lógico y físico del ecosistema
Architecture analítico que va a soportar el proyecto de Big Data.
•En esta fase se realiza el desarrollo de los procesos de

ingesta de información al Datalake a través de procesos
Development de carga automáticos siguiendo los lineamientos
arquitectónicas y de las mejores practicas de desarrollo.
•En esta fase se realiza el análisis de información

Analytics en sus diversas tipos y formas (Reportes,
Dashboard, Data Mining, Machine Learning, etc)
Fases y Roles
Functional Expert
Sponsor
requirements Consultant
Design Data Architect

Architecture
Development Data Engineer

Data Engineers
Technical Lead
Data Scientist
Analytics Technical Lead
Data Scientists Data Visualization
HADOOP
21
Conceptos e Historia de Hadoop
¿Cuáles fueron las primeras empresas que se

enfrentaron a problemas de Big data?
2003 - 2004
Doug Cutting : create an

open source project
called “Hadoop” - 2006
Otras compañias se unieron a la iniciativa
(Yahoo, Facebook, Linkedin, twitter, etc )
¿Que es Hadoop?
Hadoop es una tecnología de código La tecnología Hadoop tiene la Al utilizar Hadoop las organizaciones
abierto que permite almacenar y capacidad de escalar para analizar y pueden lidiar sin problemas con datos
procesar datos con diversos formatos, explorar información que se multi-estructurados y ser base de
caracteriza por su alto volumen, información para los sistemas analíticos.
variedad y velocidad.
¿Por qué usar Hadoop?
Cluster de Hadoop
Administra YARN y HDFS (files,

directories) así como también la
metadata de los bloques de datos
Servidor cliente que se
conecta al Cluster, no forma
parte del cluster hadoop
Encargados de procesar
y almacenar los datos
Componentes de Hadoop
Características de Hadoop
Framework Almacenamiento Procesamiento

Genérico Distribuido Distribuido
Cluster Tolerante a Fallos

Commodity Automáticamente
Framework
Genérico
Almacenamiento
Distribuido
Procesamiento
Distribuido
Cluster
Commodity
Tolerante a Fallos
Automáticamente
Distribuciones Hadoop
Hadoop on-Premise y on-Cloud
On-Cloud On-Premise
Apache Hive
Apache Hive ™ , desarrollado inicialmente por Facebook, facilita la
lectura, escritura y administración de grandes conjuntos de datos que
residen en el almacenamiento distribuido mediante SQL.
Apache Impala
Apache Impala es la base de datos analítica nativa de código abierto
desarrollado inicialmente por Cloudera para ejecutarse sobre la plataforma de
Apache Hadoop.
Apache Hbase & Phoenix
Apache HBase, desarrollada inicialmente por Powerset, es usado cuando se
necesite acceso a tablas muy grandes (miles de millones de filas X millones de
columnas). Apache HBase fue modelada a partir de Bigtable de Google
proporcionando capacidades similares pero sobre Hadoop y HDFS.
Apache Phoenix permite utilizar sintaxis SQL para poder ejecutarse sobre Hbase
utilizando el API proporcionado por Hbase de tal manera que facilita el acceso a
las grandes tablas de HBase
Apache Sqoop
Apache Sqoop es una herramienta diseñada para transferir eficientemente
datos en forma masiva entre Apache Hadoop y almacenes de datos
estructurados, como las bases de datos relacionales.
Apache Flume
Apache Flume es un servicio distribuido, confiable y disponible para recopilar,
agregar y mover de manera eficiente grandes cantidades de datos de registro
en tiempo real. Tiene una arquitectura simple y flexible basada en flujos de
datos de transmisión. Es robusto y tolerante a fallas con mecanismos de
recuperación de fallas.
Apache Kafka
Apache Kafka es un proyecto de intermediación de mensajes. El proyecto tiene
como objetivo proporcionar una plataforma de alto rendimiento y de baja latencia
para la manipulación en tiempo real de fuentes de datos. Puede verse como una
cola de mensajes, bajo el patrón publicación-suscripción, masivamente escalable.
Apache Storm
Apache Storm es un sistema de computación en tiempo real distribuido de
código abierto y gratuito. Storm facilita el procesamiento confiable de flujos de
datos ilimitados, haciendo para el procesamiento en tiempo real lo que Hadoop
hizo para el procesamiento batch.
Apache Spark
Apache Spark es un motor de procesamiento en memoria, contiene
varios módulos los cuales se ejecutan en modo multicluster
GRACIAS
ADVANCED ANALYTICS TECHNOLOGY
Lince - Lima, Perú

Correo: capacitacion@atc.pe
Teléfono: 960725975
Página web: https://atc.pe/
Linkedin: https://bit.ly/2xrdcom
Facebook: https://bit.ly/2MMxC0K

Workshop Big Data Hadoop - Aws - GCP PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Workshop Big Data Hadoop - Aws - GCP PDF

Cargado por

Copyright:

Formatos disponibles

BIG DATA & ANALYTICS

1st Revolution 2nd Revolution 3rd Revolution 4th Revolution

1784 1870 1969 Ahora

Fuente: IBM® Institute for Business Value

"Big Data comprende altos Volumenes, Velocidad y

Objetivo : Reducir sustancialmente el numero de portabilidad a otros competidores en EEUU

Objetivo : Predecir los gustos de sus suscriptores

Project Data Engineer Data Scientist

3 Data Engineers Data Visualizations Data Scientists

•En esta fase se realiza el levantamiento de los

•En esta fase se realiza la revisión de las fuentes de

•En esta fase se realiza el desarrollo de los procesos de

•En esta fase se realiza el análisis de información

Design Data Architect

Development Data Engineer

¿Cuáles fueron las primeras empresas que se

Doug Cutting : create an

Administra YARN y HDFS (files,

Framework Almacenamiento Procesamiento

Cluster Tolerante a Fallos

Lince - Lima, Perú

También podría gustarte