Está en la página 1de 4

¿Qué es Data Lake?

Data Lake es un repositorio de almacenamiento que permite almacenar grandes cantidades de


datos en su formato nativo, ya sea estructurado o no estructurado. A diferencia de un Data
Warehouse, no requiere que los datos se transformen antes de ser almacenados, lo que facilita la
inclusión de datos crudos y no procesados.

¿Cuáles son los beneficios de un Data Lake?

Algunos beneficios incluyen la capacidad para almacenar datos en su formato original, la


flexibilidad para manejar datos de diversas fuentes, el soporte para análisis avanzados y la
escalabilidad para manejar grandes volúmenes de datos.

¿Cuáles son las medidas de seguridad?

Las medidas de seguridad en un Data Lake incluyen el cifrado de datos, la autenticación de


usuarios, el control de acceso a los datos, la monitorización de actividades y la implementación de
políticas de seguridad para proteger la integridad y la privacidad de los datos.

Principales diferencias entre Data Lakes y Data Warehouses

Data Lakes permiten almacenar datos en su formato original, son más flexibles en términos de
tipos de datos y escalabilidad. Los Data Warehouses, en cambio, requieren una estructura definida
antes de almacenar los datos y están optimizados para el análisis de datos estructurados.

¿Qué tipo de datos soporta Data Lake VS Data warehouse?

Data Lake soporta una variedad de datos, incluyendo datos estructurados, no estructurados y
semi-estructurados. Los Data Warehouses están diseñados principalmente para datos
estructurados.

¿Cuál es el enfoque de Data Lake?

El enfoque de Data Lake es capturar y almacenar todos los datos posibles, sin importar su
estructura o formato, para luego procesarlos según sea necesario para su análisis.

¿Qué es "Schema on Read"?

"Schema on Read" es un enfoque en el que la estructura y el esquema de los datos se aplican


cuando se leen, en lugar de al almacenarlos. Esto permite una mayor flexibilidad en el manejo de
datos no estructurados en Data Lakes.
¿Qué es un KPI?

Un KPI (Key Performance Indicator) es un indicador clave de rendimiento que se utiliza para medir
el éxito o el rendimiento de una actividad o proceso en una organización.

¿Cuál es la estructura de Data Warehouse?

Los Data Warehouses tienen una estructura organizada con esquemas predefinidos, diseñados
para facilitar consultas y análisis rápidos de datos estructurados.

¿Por qué Data Lake se adapta fácilmente a los cambios?

Data Lake se adapta fácilmente a los cambios debido a su capacidad para almacenar datos en su
formato original y aplicar estructuras y esquemas cuando se leen (Schema on Read). Esto permite
la incorporación de nuevos tipos de datos y cambios en la estructura de los datos sin la necesidad
de modificar la estructura del almacenamiento.

¿Data Lake por qué método es más rápido que Data warehouse?

No es correcto afirmar que Data Lake es inherentemente más rápido que Data Warehouse. La
velocidad depende del tipo de consulta y procesamiento. Data Lake puede ser más rápido en el
acceso a datos no estructurados debido a la flexibilidad del "Schema on Read", pero Data
Warehouse está optimizado para consultas analíticas estructuradas.

Mencione 3 prácticas para sacar todo ventaja de datos en Data Lake y describa una.

Práctica: Metadatos efectivos - Mantener metadatos detallados que describan la estructura,


origen y significado de los datos. Esto facilita la búsqueda y comprensión de los datos, mejorando
su utilidad.

¿Qué es un "pain point"?

Un "pain point" se refiere a un problema o desafío específico que las personas o empresas
enfrentan. En el contexto de datos, podría referirse a dificultades específicas al manejar, procesar
o analizar datos.
¿Qué es gobierno de datos?

El gobierno de datos se refiere al conjunto de procesos, políticas, estándares y medidas de calidad


de datos que aseguran la disponibilidad, integridad, confidencialidad y uso adecuado de los datos
en una organización. Implica establecer reglas y controles para garantizar la gestión efectiva y ética
de los datos en toda la empresa.

Dibuje el Modelado de Datos de Data Lake.

¿Qué es un plan de operaciones, un plan de comunicaciones en Data Lake?

Un plan de operaciones en Data Lake se refiere a estrategias y procesos para administrar y


mantener eficientemente el entorno del Data Lake. Esto incluye la ingestión de datos, la gestión de
metadatos, la seguridad, la limpieza y transformación de datos, entre otros aspectos. Un plan de
comunicaciones se centra en cómo se compartirán y comunicarán los datos dentro de la
organización, estableciendo protocolos para la colaboración y el intercambio de información.

¿Cómo interviene la Machine Learning en Data Lake?

La Machine Learning en Data Lake puede utilizarse para descubrir patrones, realizar análisis
predictivos, mejorar la clasificación de datos, y automatizar procesos de limpieza y transformación.
Puede ayudar a identificar correlaciones y tendencias en grandes conjuntos de datos sin estructura
previa.
¿Qué desafío presenta la gran cantidad de datos que se maneja en la nube y cómo se le conoce?

El desafío se conoce como el "Big Data Challenge" o el desafío de gestionar y analizar grandes
cantidades de datos en la nube. Implica problemas de almacenamiento, procesamiento y gestión
de datos a gran escala, así como la necesidad de implementar medidas de seguridad y privacidad
adecuadas.

¿Cuáles son las características principales de Data Lake?

Algunas características clave de Data Lake incluyen la capacidad para almacenar datos en su
formato original, la flexibilidad para manejar diversos tipos de datos (estructurados, no
estructurados, semi-estructurados), escalabilidad para manejar grandes volúmenes de datos, y el
soporte para análisis avanzados.

¿Cómo analiza los datos Data Lake, a diferencia de Data Warehouse?

Data Lake permite un análisis más flexible al admitir datos en su formato original y aplicar
esquemas cuando se leen (Schema on Read). Esto permite una exploración más dinámica de los
datos. En contraste, en un Data Warehouse, los datos ya han sido estructurados (Schema on
Write), lo que puede limitar la flexibilidad de análisis y exploración.

Referencias bibliográficas

 AWS (Amazon Web Services). (2020). Mejores Prácticas para Construir un Data Lake
Moderno. Recuperado de https://d1.awsstatic.com/whitepapers/data-lake-on-aws-best-
practices.pdf

 Inmon, B. (2019). Data Lake Architecture: Diseñando el Data Lake y Evitando el Basurero
de Datos. Morgan Kaufmann.

 Linstedt, D. (2016). Construyendo un Almacén de Datos Escalable con Data Vault 2.0.
Morgan Kaufmann.

También podría gustarte