Está en la página 1de 24

ADB201

Construyendo y governando Data Lakes y


Data Warehouses modernos en AWS

Alejandro Flores
Arquitecto de Soluciones
AWS Mexico

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Muy Importante: Generar valor a partir de los datos

Crecimiento orgánico en Las organizaciones que generen valor


ganancias exitosamente a partir de sus datos
24%
superarán a las demás. De acuerdo a la
encuesta de Aberdeen, las organizaciones
15%
que implementaron un data lake superaron
a otras compañías similares en un 9% de
crecimiento orgánico en ganancias*

Líderes Seguidores
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Los datos están cambiando -> Los analíticos se están
adaptando

Capture y almacene
Nuevos tipos nuevos datos en
de analíticos
escalas de PB-EB
Realice nuevos tipos de
análisis, a bajo costo
• Machine Learning
• Procesamiento de Big Data
• Análisis en Tiempo Real
• Búsquedas Full-text

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Definición de un data lake
Un data lake es una arquitectura con un repositorio
de almacenamiento centralizado, virtualmente
ilimitado, capaz de categorizar, procesar, analizar y
poder consumir sets de datos de manera
heterogénea.

Atributos Clave de un data lake:


• Cómputo y almacenamiento desacoplado.

• Ingesta y transformación rápida.

• Seguridad en ambientes multitenant

• Query in place

• Schema on read

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Los data lakes permiten escalar eficientemente y a un bajo
costo Amazon
Amazon Athena
Amazon
Kinesis Amazon

Amazon
EMR Elasticsearch
Service
Almacenamiento en exabytes de datos
QuickSight

Amazon Datos staging y datos de consumo.


AI Services
Redshift

Amazon S3 Carga, Transformación y Catalogación simplificada

Acceso de información a traves de diferentes


herramientas

Innovación a través de diferentes formatos.

AWS Amazon Kinesis


Snowball Data Streams
AWS Amazon
Snowmobile Amazon Kinesis
Kinesis Data Firehose
SUMMIT Video Streams
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Cómo funciona un data lake en AWS?
Construcción de DL’s rápidos Seguridad Simplificada Habilita análisis self-service y combinados
• Identificación, crawl y catalogación de fuentes. • Encripción • Analistas interactúan con toda la información
• Ingesta y limpieza de datos. • Definición de políticas de acceso disponible para análisis desde un único catálogo
• Transformación de datos a formatos • Implementación de auditoría de datos.
optimizados. • Flexibilidad de multiples herramientas de análisis
sobre los mismos datos.

OLTP
IAM AWS KMS
AI Services
ERP

CRM

Amazon S3
Athena

LOB

Data
Catalog Amazon
Devices EMR

Sensors

S3 Amazon
Web Redshift

Kinesis
Social

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon
QuickSight
¿Porqué Amazon S3 para el data lake?

Disponible Alto Performance


Durable Seguro

Escalable y Costeable
Simple Flexible

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis—Tiempo Real
Almacena, procesa y analiza videos y datos en tiempo real

SQL

Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics

Captura, procesa y Construcción de Carga streams de Análisis de streams de


almacena streams de aplicación a la medida datos en almacenes datos usando SQL
video para análisis para análisis de de datos dentro de
streams AWS

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena—Análisis Interactivo
Servicio de análisis interactivo de datos en S3 usando SQL
Cero instalación y administración de infraestructura, cero carga de datos
Soporta multiple formatos y definición de esquema bajo demanda.

SQL al instante Pago por query Abierto Fácil

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
La preparación de los datos corresponde al 80% del
trabajo en un data lake

Construcción de sets de entrenamiento

Limpieza y Organización de datos

Recolección de sets de datos

Mining de datos

Redefinición de algoritmos

Otros

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue—Catalogación y ETL’s Serverless

Automáticamente descubre datos y descubre


ETL Job esquemas
Data Catalog
authoring
Genera código ETL
Datos disponibles para ETL’s
Descubre datos
e infiere el esquema personalizable en Spark
y Python Genera código automáticamente y que puede ser
personalizado

Calendariza y ejecuta ETL’s

Serverless

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
Construye, protege y administra Data Lakes en días.

Construcción de DL’s en Políticas de seguridad Múltiples estrategias de


días y no en meses entre diferentes análisis
servicios

Construye y despliega un data Seguridad, gobierno y auditoria de Incrementa la productividad de


usuarios y aplicaciones de manera usuarios finales y científicos de
lake con simples clicks
centralizada datos al permitirles el
descubrimiento y acceso seguro a
los datos desde un catálogo
centralizado

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tradicionalmente, los análisis eran de la siguiente manera:

Business intelligence • Datos relacionales

• Escalas de TBs–PBs

• Esquema definido previo a la carga de datos

• Reportes operacionales y a la medida


Data warehouse
• Alto capex + $10K–$50K/TB/año inicial

OLTP ERP CRM LOB

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Los data lakes extienden el enfoque tradicional

Procesamiento de Big Data,


Business intelligence tiempo real, machine learning

• Datos relacionales y no relacionales

• Escalas de TBs–EBs

• Diversos motores de análisis


Data warehouse Data lake
• Análisis y Almacenamiento a bajo costo

OLTP ERP CRM LOB Dispositivos Web Sensores Social

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data lake en AWS

• Mayor durabilidad y disponibilidad a escalas de EB’s


Machine • Mejores capacidades de seguridad, cumplimiento y
learning Análisis auditoría

• Control de acceso granular a nivel de objeto

Data Lake • Mayor desempeño a través de la extracción de


subconjuntos de datos
en AWS
• Mayores opciones para mover datos a la nube

• 2x integraciones con partners

• Mayor capacidad de análisis de datos con el


Movimiento de Movimiento de portafolio de servicios más amplio hasta el momento
datos locales datos en
SUMMIT
tiempo real
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Portafolio de servicios para data lakes, Análisis y IoT
Machine learning Análisis
Análisis interactivos
Servicio Administrado de ML
Hadoop & Spark
Imágenes de Deep Learning
Data Warehousing
Reconocimiento de Video e Imágenes
Búsquedas Full-text
Interfaces Conversacionales
Análisis en Tiempo Real
Video Cámara para Deep-Learning
Dashboards & Vistas
Procesamiento de Lenguaje Natural
Traducción de Lenguaje
Reconocimiento de Voz
Voz a Texto

Data lake
en AWS
Almacenamiento | Archiving | Catálogo de Datos

Mov. de datos DC’s locales Mov. de datos en tiempo real


Enlaces de red dedicados Conecte sus dispositivos a AWS
Dispositivos de seguridad Streams de Datos en Tiempo Real
Contenedor para Transportación de Datos Streams de Video en Tiempo Real
Migración de Bases de Datos

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Portafolio de servicios para data lakes, Análisis y IoT
Machine learning Análisis
Amazon Athena
Amazon SageMaker
Amazon EMR
AWS Deep Learning AMI
Amazon Redshift
Amazon Rekognition
Amazon Elasticsearch Service
Amazon Lex
Amazon Kinesis
AWS DeepLens
Amazon QuickSight
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly

Data lake
en AWS
Almacenamiento | Archiving | Catálogo de Datos

Mov. de datos DC’s locales Mov. de datos en tiempo real


AWS Direct Connect AWS IoT Core
AWS Snowball Amazon Kinesis Data Firehose
AWS Snowmobile Amazon Kinesis Data Streams
AWS Database Migration Service (AWS DMS) Amazon Kinesis Video Streams

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué significa la modernización de data warehouses?
Cualquier escala de Rapidéz en
datos, cargas y generación de
usuarios insights
Escalación dinámica para Desempeño consistente
garantizar el desempeño ante crecimiento
uniforma ante demanda concurrente de consultas
impredecible o crecimiento de y/o usuarios
datos.

Fácil de Extensión del


usar data lake
Tareas administrativas y Análisis de datos
de mantenimiento directamente en el data
simples. lake en diferentes
formatos.

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift
Rápido, simple y costo eficiente Análisis en diferentes formatos
datawarehouse que puede extender los queries hacia Parquet, ORC, y JSON, usando SQL
el data lake

Rápido Escalamiento Extiende el 1/10th


Ilimitado data lake de costo
Permite el análisis rápido de Dinámicamente escala para Análisis de datos en el data Comience con un costo de
cualquier tipo de carga y de garantizar el performance lake de S3, en cualquier $0.25 la hora, ahorre costos y
cualquier tipo de caso de aún ante situaciones formato y en combinación tiempo con la simplicidad de
uso. impredecibles de demanda con datos locales del las tareas de administración y
y volúmenes de datos Datawarehouse. mantenimiento, eliminando
el impacto al negocio debido
a downtimes.

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Gracias!
Alejandro Flores
falej@amazon.com

SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

También podría gustarte