Data Engineering Best Practices and Unified Analytics Platform

Cargado por

Y'Ariefin ILham

0% encontró este documento útil (0 votos)

12 vistas18 páginas

Test 12 File

Título original

Test 12 File

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Test 12 File

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

12 vistas18 páginas

Data Engineering Best Practices and Unified Analytics Platform

Cargado por

Y'Ariefin ILham

Test 12 File

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 18

Buscar dentro del documento

Data Engineering -

Best Practices
Suraj Acharya, Singh Garewal,
Director, Engineering Director, Marketing
Data Engineering Drivers

...
Advanced analytics / ML Industry-spanning Technology innovation:
coming of age adoption hardware, cloud and storage

Increased financial Role evolution: CDO,

scrutiny Data Curator
VISION Accelerate innovation by unifying data science,
engineering and business

SOLUTION Unified Analytics Platform

WHO WE • Original creators of , Databricks Delta &

ARE • 2000+ global companies use our platform across big
data & machine learning lifecycle
Apache Spark: The 1st Unified Analytics Engine
Uniquely combined Data & AI technologies

Runtime
Delta
Spark Core Engine

Big Data Processing Machine Learning

ETL + SQL +Streaming MLlib + SparkR
Databricks Delta
Adds data reliability and performance to data lakes

Databricks Delta
● Co-designed compute & storage

● Compatible with Spark API’s

Versioned
Parquet Files
Transactional
Log
Indexes &
Stats ● Built on open standards (Parquet)
Leverages your cloud blob storage
Data Engineering Playing Field
Orchestration
Sandbox CI/CD Data Quality
and Workflow

Compute: ETL, Dashboarding/

analytics, ML Reporting/ BI
Message Log
Data Catalog/
Lineage

Data Model

Storage
Data Model
What How
Data organization and relation of the • Audience segmentation
different top-level data sets to each • Table categorization
other. • Data types
• Modeling discipline
Data Catalog + Lineage
What How
Easy discovery of data sets • Explore data model
Policy enforcement • Search + suggestions
• Column and table annotations
and grouping
• Lineage tracking
• Automatic flagging of PII +
sensitive columns
Storage Architecture
What How
Where data is stored and using what • Columnar formats
formats. • Minimize metadata lookups
• Compaction
Message Log
What How
Source of streaming and batch data. • Read logs into “raw” tables with
minimal preprocessing
• Firehose
Sandbox
What How
Isolated environment for • Notebook collaboration
experimentation and exploration. • Tracking
• Management
• Source control
Compute / Data Processing
What How
Execution engine used to process • Multiple multiple frameworks and
data. language
Layer where “jobs” run. • SQL compatibility
• Connectors for your data-sources
• Less data scanned => faster job
execution
Orchestration and Workflow
What How
Scheduling and triggering jobs • “DAG” : Graphical view of job
Job Dependencies dependencies and status
• Describe dependencies in code
• Retry policies
• Backfill policies
Dashboarding/ Reporting/ BI
What How
Static reports and auto-updating • Static graphs + emailed reports
dashboards • Rollups + aggregations
Business facing • Data modelling + Data Analyst
• Real-time dashboards
Quality : Monitoring and Alerting
What How
Mechanisms for detecting and fixing • Monitor job failures
incorrect and stale data-sets • Prioritization and coalescing
Anomaly detection • Emit metrics during and after jobs
• Metrics database + Graphing
• Monitoring dashboards
• Define KPIs and create alerts
CI/CD
What How
Development tools and processes • Sandbox queries, job code and
workflows in source control.
• Deployment process : life of a PR
• Multiple environment support
• Test data sets : sampling,
obfuscation, randomized.
Check out Databricks Delta databricks.com/delta

Questions?
Thank you
Parting words or contact information go here

También podría gustarte

Ricoh 301 PARTS CATALOG
Documento68 páginas
Ricoh 301 PARTS CATALOG
befremden
Aún no hay calificaciones
Take Practical Decisions Using Data Analytics
Documento16 páginas
Take Practical Decisions Using Data Analytics
Sandhya Kuppala
100% (1)
Antwak Providence Proposal v3
Documento14 páginas
Antwak Providence Proposal v3
comalob706
Aún no hay calificaciones
Data Engineern - Bootcamp Brochure
Documento12 páginas
Data Engineern - Bootcamp Brochure
roopini8819
Aún no hay calificaciones
Power BI Training
Documento10 páginas
Power BI Training
shashank vishwakarma
Aún no hay calificaciones
Base SAS® vs. SAS® Data Integration Studio: Greg Nelson and Danny Grasse
Documento32 páginas
Base SAS® vs. SAS® Data Integration Studio: Greg Nelson and Danny Grasse
anji2211
Aún no hay calificaciones
ETL - Informatica Topics
Documento7 páginas
ETL - Informatica Topics
ggegopi_79
Aún no hay calificaciones
Enterprise Data Storage and Analysis On Spark
Documento34 páginas
Enterprise Data Storage and Analysis On Spark
Claudiu Purdel
Aún no hay calificaciones
Sap - Bi
Documento16 páginas
Sap - Bi
Shakun Bishnoi
Aún no hay calificaciones
DP 201
Documento108 páginas
DP 201
Kuldeep
Aún no hay calificaciones
Data Mining Process: Lecturer: Dr. Nguyen Thi Ngoc Anh
Documento31 páginas
Data Mining Process: Lecturer: Dr. Nguyen Thi Ngoc Anh
Thảo Nguyên Trần
Aún no hay calificaciones
Introduction To Data Engineering
Documento28 páginas
Introduction To Data Engineering
sibuaya495
Aún no hay calificaciones
Lecture 2 - Relational Databases
Documento32 páginas
Lecture 2 - Relational Databases
Bilal Ayub
Aún no hay calificaciones
Data Weekender DP500
Documento41 páginas
Data Weekender DP500
abdullah.m.m123
Aún no hay calificaciones
Lec 1 V 1
Documento43 páginas
Lec 1 V 1
Iffah Normizan
Aún no hay calificaciones
EPN Advanced PG Program in Data Science
Documento19 páginas
EPN Advanced PG Program in Data Science
544 vishwavijay Patil
Aún no hay calificaciones
Power Platform & Dynamics 365 CE CRM Syllabus
Documento4 páginas
Power Platform & Dynamics 365 CE CRM Syllabus
waseem tarique
Aún no hay calificaciones
Microsoft Modern Data Estate
Documento48 páginas
Microsoft Modern Data Estate
Shyam Sharma
Aún no hay calificaciones
Introduction To Data Mining: - Chapter 3
Documento39 páginas
Introduction To Data Mining: - Chapter 3
Maya Joshi
Aún no hay calificaciones
Go Bigwith Data Lake Architecture
Documento35 páginas
Go Bigwith Data Lake Architecture
Srikanth
Aún no hay calificaciones
What Is Data Mining?: Dama-Ncr
Documento36 páginas
What Is Data Mining?: Dama-Ncr
Gobi Gothandan
Aún no hay calificaciones
SAP BO Data Integrator and Data Services
Documento5 páginas
SAP BO Data Integrator and Data Services
shinyvasu
Aún no hay calificaciones
Complete Guide to Database Administration Practices
Documento52 páginas
Complete Guide to Database Administration Practices
Rinaldy Surya Amta
Aún no hay calificaciones
Planning SQL Server BI Infrastructure
Documento20 páginas
Planning SQL Server BI Infrastructure
Luis Alberto Cano Martinez
Aún no hay calificaciones
Analytics Cheat Sheet
Documento2 páginas
Analytics Cheat Sheet
Samsung m31
Aún no hay calificaciones
CH 01 Data Mining 2021
Documento36 páginas
CH 01 Data Mining 2021
PRIYA RATHORE
Aún no hay calificaciones
Oracle Data Integration - An Overview With Emphasis in DW App
Documento34 páginas
Oracle Data Integration - An Overview With Emphasis in DW App
kinan_kazuki104
Aún no hay calificaciones
c5 Data Resource Management
Documento33 páginas
c5 Data Resource Management
Warla Rahman Maha 2131503630
Aún no hay calificaciones
Collibra Staffing Skills Matrix
Documento6 páginas
Collibra Staffing Skills Matrix
Ahsan Farooqui
Aún no hay calificaciones
BIETL0096 BigDataAnalytics and Hadoop
Documento36 páginas
BIETL0096 BigDataAnalytics and Hadoop
enochanand
Aún no hay calificaciones
Lesson 04 Data Analytics Overview
Documento47 páginas
Lesson 04 Data Analytics Overview
Sumanta Sinhatal
Aún no hay calificaciones
2 Day Power Training Brochure 1
Documento7 páginas
2 Day Power Training Brochure 1
Chyfi Moscufa
Aún no hay calificaciones
Esri Production Mapping - An Introduction: Esri International User Conference
Documento47 páginas
Esri Production Mapping - An Introduction: Esri International User Conference
Ngát Trần
Aún no hay calificaciones
20467D 02
Documento20 páginas
20467D 02
douglas
Aún no hay calificaciones
Datamicron Big Data Analytics Solution
Documento23 páginas
Datamicron Big Data Analytics Solution
Abdul R Jabir
Aún no hay calificaciones
CS699 Introduction to Data Mining
Documento50 páginas
CS699 Introduction to Data Mining
t na
Aún no hay calificaciones
Software Construction - Lecture 1
Documento15 páginas
Software Construction - Lecture 1
Muqadas Hassan
Aún no hay calificaciones
Making Big Data Simple With Databricks
Documento25 páginas
Making Big Data Simple With Databricks
toddsawicki
Aún no hay calificaciones
10190-Move and Improve With Oracle Analytics Cloud-Presentation - 287
Documento69 páginas
10190-Move and Improve With Oracle Analytics Cloud-Presentation - 287
hunt4nothing
Aún no hay calificaciones
Data Mining
Documento36 páginas
Data Mining
mse231
100% (2)
Week 10
Documento37 páginas
Week 10
MahmoodAbdul-Rahman
Aún no hay calificaciones
New World Hadoop Architectures (& What Problems They Really Solve) For Dbas
Documento44 páginas
New World Hadoop Architectures (& What Problems They Really Solve) For Dbas
Anonymous VVSLkDOAC1
Aún no hay calificaciones
UT-AUSTIN Data-Analytics-Essentials-Online-Course
Documento16 páginas
UT-AUSTIN Data-Analytics-Essentials-Online-Course
Bakhtiar Khan
Aún no hay calificaciones
Designing A Modern Data Warehouse + Data Lake
Documento72 páginas
Designing A Modern Data Warehouse + Data Lake
Vladik
Aún no hay calificaciones
Data Warehouse
Documento33 páginas
Data Warehouse
Guillaume Osorio
Aún no hay calificaciones
01 - Intro To Big Data
Documento26 páginas
01 - Intro To Big Data
tamoghna ghosh
Aún no hay calificaciones
Data Warehousing & Data Mining: by Mandar Kulkarni PRN 10030141129 Mba-It Sicsr
Documento36 páginas
Data Warehousing & Data Mining: by Mandar Kulkarni PRN 10030141129 Mba-It Sicsr
Anuja Upadhye
Aún no hay calificaciones
Resume Toolkit Cantilever Labs
Documento9 páginas
Resume Toolkit Cantilever Labs
d n
Aún no hay calificaciones
Bda - M1
Documento64 páginas
Bda - M1
Chandan A H
Aún no hay calificaciones
Database Development Cycle & Planning For Database
Documento28 páginas
Database Development Cycle & Planning For Database
wayiran
Aún no hay calificaciones
OLAM and Data Mining: Concepts and Techniques
Documento13 páginas
OLAM and Data Mining: Concepts and Techniques
swabhi
Aún no hay calificaciones
Chapter3 BI
Documento59 páginas
Chapter3 BI
KIEU NGUYEN THI BICH
Aún no hay calificaciones
Lecture 01
Documento20 páginas
Lecture 01
Vasu Bhatia
Aún no hay calificaciones
DP-900 Cheatsheet
Documento24 páginas
DP-900 Cheatsheet
jyh83777
Aún no hay calificaciones
Ab Initio - V1.1
Documento26 páginas
Ab Initio - V1.1
Praveen Joshi
Aún no hay calificaciones
Decision Support, Data Warehousing, and OLAP
Documento48 páginas
Decision Support, Data Warehousing, and OLAP
Roger Webber
Aún no hay calificaciones
Bi 70
Documento2 páginas
Bi 70
vinny2smile
Aún no hay calificaciones
Unit 1
Documento36 páginas
Unit 1
ahojg
Aún no hay calificaciones
Full Stack Development - IIT ROORKE
Documento4 páginas
Full Stack Development - IIT ROORKE
alle manohar
Aún no hay calificaciones
Big Data Analytics
De Everand
Big Data Analytics
Venkat Ankam
Aún no hay calificaciones
Oracle Warehouse Builder 11g: Getting Started
De Everand
Oracle Warehouse Builder 11g: Getting Started
Bob Griesemer
Aún no hay calificaciones
GM300 SM
Documento46 páginas
GM300 SM
Srboljub Milosavljevic
100% (1)
c600 17lookinside
Documento6 páginas
c600 17lookinside
Иван Минчев
Aún no hay calificaciones
Standard For Safety UL A
Documento49 páginas
Standard For Safety UL A
Nhất Ngôn
Aún no hay calificaciones
Solve Process Problems Quickly with Simulation Training
Documento6 páginas
Solve Process Problems Quickly with Simulation Training
Anonymous qPt2MHzXT
Aún no hay calificaciones
Fontaine Quinta Rueda
Documento2 páginas
Fontaine Quinta Rueda
Hamilton Miranda
Aún no hay calificaciones
Chapter 15. Applications of Integration: Exercises 15.2
Documento2 páginas
Chapter 15. Applications of Integration: Exercises 15.2
Donghyun Ahn
Aún no hay calificaciones
Construction of Multistoried Boys Hostel by Kanwarjot Singh
Documento22 páginas
Construction of Multistoried Boys Hostel by Kanwarjot Singh
vipin
Aún no hay calificaciones
Maximum Power Tracking System for Solar Panels Using Automatic Control
Documento79 páginas
Maximum Power Tracking System for Solar Panels Using Automatic Control
Harish Varma
Aún no hay calificaciones
Linux Commands
Documento2 páginas
Linux Commands
Vishwas Beede
Aún no hay calificaciones
Pco2
Documento55 páginas
Pco2
camdentown
Aún no hay calificaciones
American English File Starter Ichecker - File 3
Documento3 páginas
American English File Starter Ichecker - File 3
Daniel Augusto
Aún no hay calificaciones
Pump Hydraulics
Documento5 páginas
Pump Hydraulics
Siddharth Kharat
100% (1)
Time Table Spring 2017 18
Documento10 páginas
Time Table Spring 2017 18
Suvam
Aún no hay calificaciones
Gas Sensors: Jiturvi Chokshi ENPM-808B
Documento27 páginas
Gas Sensors: Jiturvi Chokshi ENPM-808B
anon_44955929
Aún no hay calificaciones
Torque Specifications: Service Specifications - Ra60F Manual Transmission
Documento1 página
Torque Specifications: Service Specifications - Ra60F Manual Transmission
Pedro Javier Castro Sanchez
Aún no hay calificaciones
Manual Huawei Hg655b
Documento36 páginas
Manual Huawei Hg655b
Anonymous nJm0Ff8z0s
Aún no hay calificaciones
Dwarkadas J Sanghvi College of Engineering Provisional Merit List
Documento4 páginas
Dwarkadas J Sanghvi College of Engineering Provisional Merit List
Sharth Nair
Aún no hay calificaciones
Twice As Sharp Operators Manual
Documento34 páginas
Twice As Sharp Operators Manual
Leonardo CHTZ
Aún no hay calificaciones
LB2 UC30 Data Sheet enUS 80218564235
Documento5 páginas
LB2 UC30 Data Sheet enUS 80218564235
Ahmed Shawky
Aún no hay calificaciones
E Voting Requirement Engg
Documento7 páginas
E Voting Requirement Engg
Deepak Kulkarni
Aún no hay calificaciones
The Weka Guard and Protector - Weka Marine
Documento2 páginas
The Weka Guard and Protector - Weka Marine
Joko Susilo
Aún no hay calificaciones
1,3,3-Trinitroazetidine (TNAZ) - Part I. Syntheses and Properties
Documento23 páginas
1,3,3-Trinitroazetidine (TNAZ) - Part I. Syntheses and Properties
Thanh Xom
Aún no hay calificaciones
Zimbabwe Engineer ITDG Small Scale Production of Fired Clay Bricks
Documento8 páginas
Zimbabwe Engineer ITDG Small Scale Production of Fired Clay Bricks
dkatale
Aún no hay calificaciones
3M Cold Shrink Cable Joints MV HV 11kV 33kV 66kV Brochure
Documento4 páginas
3M Cold Shrink Cable Joints MV HV 11kV 33kV 66kV Brochure
Mohammed Mustafa
Aún no hay calificaciones
Wind Load Compututations
Documento31 páginas
Wind Load Compututations
kim suarez
Aún no hay calificaciones
Single and Multiphase CFD Simulations For Designing Cavitating Venturi
Documento12 páginas
Single and Multiphase CFD Simulations For Designing Cavitating Venturi
Carlos Gamarra
Aún no hay calificaciones
RTJ Dimension ASME B16.5/B16.47
Documento1 página
RTJ Dimension ASME B16.5/B16.47
parayilomer
0% (1)
Shiela S. Portillo Ang Specification 09112021
Documento9 páginas
Shiela S. Portillo Ang Specification 09112021
JR De Leon
Aún no hay calificaciones
Fire Drencher System - Base-Engineer PDF
Documento2 páginas
Fire Drencher System - Base-Engineer PDF
pequenita34
100% (1)