Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Data Lakes permiten almacenar datos en su formato original, son más flexibles en términos de
tipos de datos y escalabilidad. Los Data Warehouses, en cambio, requieren una estructura definida
antes de almacenar los datos y están optimizados para el análisis de datos estructurados.
Data Lake soporta una variedad de datos, incluyendo datos estructurados, no estructurados y
semi-estructurados. Los Data Warehouses están diseñados principalmente para datos
estructurados.
El enfoque de Data Lake es capturar y almacenar todos los datos posibles, sin importar su
estructura o formato, para luego procesarlos según sea necesario para su análisis.
Un KPI (Key Performance Indicator) es un indicador clave de rendimiento que se utiliza para medir
el éxito o el rendimiento de una actividad o proceso en una organización.
Los Data Warehouses tienen una estructura organizada con esquemas predefinidos, diseñados
para facilitar consultas y análisis rápidos de datos estructurados.
Data Lake se adapta fácilmente a los cambios debido a su capacidad para almacenar datos en su
formato original y aplicar estructuras y esquemas cuando se leen (Schema on Read). Esto permite
la incorporación de nuevos tipos de datos y cambios en la estructura de los datos sin la necesidad
de modificar la estructura del almacenamiento.
¿Data Lake por qué método es más rápido que Data warehouse?
No es correcto afirmar que Data Lake es inherentemente más rápido que Data Warehouse. La
velocidad depende del tipo de consulta y procesamiento. Data Lake puede ser más rápido en el
acceso a datos no estructurados debido a la flexibilidad del "Schema on Read", pero Data
Warehouse está optimizado para consultas analíticas estructuradas.
Mencione 3 prácticas para sacar todo ventaja de datos en Data Lake y describa una.
Un "pain point" se refiere a un problema o desafío específico que las personas o empresas
enfrentan. En el contexto de datos, podría referirse a dificultades específicas al manejar, procesar
o analizar datos.
¿Qué es gobierno de datos?
La Machine Learning en Data Lake puede utilizarse para descubrir patrones, realizar análisis
predictivos, mejorar la clasificación de datos, y automatizar procesos de limpieza y transformación.
Puede ayudar a identificar correlaciones y tendencias en grandes conjuntos de datos sin estructura
previa.
¿Qué desafío presenta la gran cantidad de datos que se maneja en la nube y cómo se le conoce?
El desafío se conoce como el "Big Data Challenge" o el desafío de gestionar y analizar grandes
cantidades de datos en la nube. Implica problemas de almacenamiento, procesamiento y gestión
de datos a gran escala, así como la necesidad de implementar medidas de seguridad y privacidad
adecuadas.
Algunas características clave de Data Lake incluyen la capacidad para almacenar datos en su
formato original, la flexibilidad para manejar diversos tipos de datos (estructurados, no
estructurados, semi-estructurados), escalabilidad para manejar grandes volúmenes de datos, y el
soporte para análisis avanzados.
Data Lake permite un análisis más flexible al admitir datos en su formato original y aplicar
esquemas cuando se leen (Schema on Read). Esto permite una exploración más dinámica de los
datos. En contraste, en un Data Warehouse, los datos ya han sido estructurados (Schema on
Write), lo que puede limitar la flexibilidad de análisis y exploración.
Referencias bibliográficas
AWS (Amazon Web Services). (2020). Mejores Prácticas para Construir un Data Lake
Moderno. Recuperado de https://d1.awsstatic.com/whitepapers/data-lake-on-aws-best-
practices.pdf
Inmon, B. (2019). Data Lake Architecture: Diseñando el Data Lake y Evitando el Basurero
de Datos. Morgan Kaufmann.
Linstedt, D. (2016). Construyendo un Almacén de Datos Escalable con Data Vault 2.0.
Morgan Kaufmann.