Está en la página 1de 13

Capas de un DataLake

Se llaman capas a las distintas etapas por donde pasa dato el dato cada una con sus propias características

Capa
Capa Capa Raw Capa Golden
Landing Standard /Explotación
Primera capa interna del
Capa principal del datalake
datalake en la cual Capa donde los datos son
donde los datos ya se han
alamacenamos los datos tratados a nivel functional
Capa efímera la cual es validado mediante las reglas
tal cual los recogemos de aportando un valor de
considerada la entrada nuestro estimuladas y se ha hecho el
la capa anterior (landing) , negocio extra.
datalake, los datos se tratamiento para considerarlo
por lo tanto la podemos Esta capa puede estar fuera
mantienen en ella hasta que son un dato validado (cambio de
definer como una capa de en un repositorio como un
borrados por el proceso de formato, normalizacion…)
backup de los datos. Datawarehouse
ingesta.
Sirve de comunicación con otros
sistemas

Proceso de Ingesta
© 2021 DXC Technology Company. All rights reserved. 10/10/22 1
Arquitectura y diseño

© 2021 DXC Technology Company. All rights reserved. 10/10/22


Arquitectura y diseño
Azure

© 2021 DXC Technology Company. All rights reserved. 10/10/22 3


Arquitectura y diseño
AWS

© 2021 DXC Technology Company. All rights reserved. 10/10/22 4


Servicios implicados y
fucniones

© 2021 DXC Technology Company. All rights reserved. 10/10/22


Servicios y funcionalidades
Es importante apreciar que ambas arquitecturas son idénticas cambiando simplemente los iconos de los
servicios.
Esto es debido a que todas las nubes publicas nos ofrecen las mismas funcionalidades en distintos servicios
como por ejemplo un sitio donde dejar objetos con capacidad de encriptación, almacenamiento ilimitado,
versionado… en AWS seria S3 en Azure Blob Storage y en Google Cloud Storage.
Por lo tanto lo importante es identificar primero las necesidades y después elegir la nube que mas se ajuste a
nuestras necesidades basándonos en ciertos puntos:
• Disponibilidad del servicio en la region: no todos los servicios estan en todas las regiones de la nube y no
todos los proveedores tiene los mismos en cada region por lo que es importante saber que los servicios que
vamos a usar estan en la region que nos interesa.
• Costes: no todas las nubes tienen los mismos costes en los servicios ocmo la misma funcionalidad por lo
tanto debemos identificar nuestros servicios con mayor uso y elegir la opcion mas adecuada.
• Integracion con legacy: dependiendo como este nuestra organizacion una nube puede ser major opcion que
otra, por ejemplo si temenos nuestra organizacion en g-suite la integracion con google cloud es mas sencilla
y efectiva que con otra nube
• Otros factores: como pueden ser ofertas del proveedor, normativas asociadas, politica de la empresa,
pequeños capacidades que cambian de un servicio a otro…

© 2021 DXC Technology Company. All rights reserved. 10/10/22 6


Blob Storage/S3
- Sistema de almacenamiento de objetos en la nube.
- Posee políticas de ciclo de vida del dato las cuales hay que configurar para tener unos gastos óptimos.
- Distintos tipos de almacenamiento basados en la disponibilidad de los datos/coste.
- Usos en la arquitectura:
- Raw: Punto donde se copian los ficheros via talend y almacenamos la información tal y como se ha recogido
- Standard: Almacena la capa standard del datalake donde los datos han sido limpiados y normalizados además
de ello se han parquetizado para optimizar el espacio y rendimiento

© 2021 DXC Technology Company. All rights reserved. 10/10/22 7


Data Factory/GLUE
- Servicio de procesamiento de datos serverless escalable.
- Además de ello contienen el metadata de los ficheros origen y las tablas finales
- Sirven como proceso ETL en Cloud
- Usos en la Arquitectura:
- Permiten las transformaciones necesarias para validar el dato
- Normalización
- Calidad
- Parquetizacion
- Particionado

© 2021 DXC Technology Company. All rights reserved. 10/10/22 8


Event Hub/Kinesis Firehose
- Cola de mensajes autogestionada
- Escalable en tiempo real
- Funciones de autopurgado
- Usos en el Arquitectura:
- Almacenar los mensajes que nos llegan en tiempo real de distintas aplicaciones
- Integración con APIs externas

© 2021 DXC Technology Company. All rights reserved. 10/10/22 9


Stream Analitycs/Kinesis Analitycs
- Servicio de procesamiento nrt Serverless.
- Escalable tendiendo al infinito en tiempo real
- Integración con distintos storages
- Usos en el Arquitectura:
- Permiten os análisis del dato en tiempo real
- Permiten las transformaciones necesarias para validar el dato en tiempo real
- Normalización
- Calidad

© 2021 DXC Technology Company. All rights reserved. 10/10/22 10


Azure ML/Sagemaker y Forecast
- Permiten la ejecución de modelos
- Posibilidad de elegir la infraestructura de ejecución (incluso serverless)
- Permite ver las métricas del modelo mediante un cuadro mandos
- Despliegue y versionado de modelos automatico
- Usos en la Arquitectura:
- Creación y ejecución de modelos

© 2021 DXC Technology Company. All rights reserved. 10/10/22 11


Snowflake
- Servicio de Datawarehousing serverless y de pago por uso
- Permite la explotación de los datos
- Computo y almacenamiento por separado por lo que se podría decir que tenemos escalabilidad ilimitada
- Data Masking
- Data Sharing
- Usos en la Arquitectura:
- Almacenamiento central de los datos
- Securizacion de datos
- Comparticion de los datos

© 2021 DXC Technology Company. All rights reserved. 10/10/22 12


© 2021 DXC Technology Company. All rights reserved.

También podría gustarte