Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lesson 02 – DataBricks
Lesson 05 – Laboratorio
Apache Spark
• Databricks Workspace
• Databricks Workflows
• Databricks Runtime
• Databricks I/O (DBIO)
• Databricks Ser verless
• Databricks Enterprise Security (DBES)
• Atomicidad : cada declaración en una transacción (para leer, •Durabilidad : garantiza que los cambios en sus datos
escribir, actualizar o eliminar datos) se trata como una sola realizados por transacciones ejecutadas con éxito se
unidad. O se ejecuta toda la sentencia, o no se ejecuta guardarán, incluso en caso de falla del sistema.
nada. Esta propiedad evita que se produzcan daños y
pérdidas de datos si, por ejemplo, su fuente de datos de
transmisión falla a mitad de la transmisión.
•Coherencia : garantiza que las transacciones solo realicen •Aislamiento : cuando varios usuarios leen y escriben en la
cambios en las tablas de formas predefinidas y predecibles. La misma tabla a la vez, el aislamiento de sus transacciones
consistencia transaccional garantiza que la corrupción o los garantiza que las transacciones simultáneas no interfieran ni se
errores en sus datos no creen consecuencias no deseadas para afecten entre sí. Cada solicitud puede ocurrir como si
la integridad de su tabla. estuvieran ocurriendo una por una, aunque en realidad estén
ocurriendo simultáneamente.
ETLs con Databricks
Corrupt Record
Extraction Data Validation Transformation Loading Data
Handling
● With Transactions
● Using SparkAPI’s
Isthereabetterarchitecture?
λ-arch
1 λ-arch
Events 1 2 Validation
1 λ-arch Streamin 3 Reprocessing
g
Analytics 4 Updates GDPR...
2 Validation
Partitioned 5 Smal files
3 4 Scheduled to
Avoid
Modifications
5
Reprocessing
DataLake 4 UPDATE& AI&Reporting
MERGE
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
Ingestion Augmented Aggregates AI&Reporting
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
Ingestion Augmented Aggregates AI&Reporting
Quality
DeltaLakealowsyoutoimprovethequalityofyour
datauntil it is readyfor consumption.
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
Ingestion Augmented Aggregates AI&Reporting
Intermediatedatawith somecleanupapplied.
Schemaenforcement/evolution, dataexpectation
Cleandata,readyfor consumption.
ReadwithSpark,Presto,Glue*
*ComingSoon
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
Ingestion Augmented Aggregates AI&Reporting
• Ful ACIDTransactions
• Open Source (ApacheLicense)
• Powered by
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
Ingestion Augmented Aggregates AI&Reporting
Streamsmovedatathroughthe DeltaLake
• Low-latency ormanualy triggered
• Eliminates managementof schedulesandjobs
OVERWRITE
MERGE
INSERT DELETE
Bronze Silver Gold
Kinesis
Streamin
g
Analytics
CSV,
JSON,
T XT …
Dat a L ake Raw Filtered, Cleaned Business-level
UPDATE Ingestion Augmented Aggregates AI&Reporting
Easytorecomputewhenbusinesslogicchanges:
• Cleartables
• Restartstreams
How doIuse ?
GetStarted with Delta using SparkAPIs
Add SparkPackage Maven
pyspark --packages i o . d e l t a : d e l t a - c o r e _ 2 . 1 2 : 0 . 1 .0 <dependency>
<groupId>io.delta</groupId>
bin/ spark - shell --packages io. delta: delta - core_ 2 . 12 : 0 . 1 .0 <artifactId>delta-core_2.12</artifactId>
<version>0.1.0</version>
</dependency>
Add 1.parquet …
Checkpoint 0009.json
Add 2.parquet
0010.json
Remove 1.parquet checkpoint-1.parquet
Remove 2.parquet 0011.json
…
Add 3.parquet
Delta Lake ensures datareliability
Batch
Parquet Files
High Quality &Reliable Data
Streaming
always ready foranalytics
Updates/Deletes
Transactional
Log