Está en la página 1de 3

LAGO Y ALMACEN DE VALLE GONZÁLEZ

CRISTIAN EDUATO T51

DATOS
BASE DE DATOS DISTRIBUIDA
Un lago de datos es un tipo de repositorio donde se almacenan conjuntos grandes y diversos de datos sin
procesar en su formato original, y permiten tener un panorama general de los datos. Se trata de una estrategia
de gestión cada vez más frecuente para las empresas que desean almacenar sus datos en un repositorio
extenso e integral.
Los datos sin procesar son aquellos que aún no se han analizado ni tratado con un propósito en particular. Los
datos que se encuentran en un lago de datos no se definen hasta que se consultan. Los analistas pueden
acceder a los datos sin procesar cuando lo necesiten utilizando herramientas analíticas más avanzadas o
modelos predictivos.
Se conservan todos los datos; no se elimina ni se filtra ninguno antes del almacenamiento, lo cual permite que
se analicen de inmediato, en el futuro o nunca. También pueden aplicarse varias veces para propósitos
diferentes. En cambio, cuando se procesan para un fin en particular, es difícil poder volver a utilizarlos de otra
forma.
James Dixon, director de tecnología de Pentaho, fue quien acuñó el término "lago de datos". Se usa el término
"lago" para describir al repositorio porque se almacenan conjuntos de datos en su formato original, como una
masa de agua que no se ha filtrado ni envasado, que provienen de varias fuentes. Los datos de un lago solo se
transforman cuando es necesario analizarlos; entonces se aplica un "esquema de lectura", que debe su nombre
al hecho de que los datos no se procesan hasta que estén listos para utilizarse.
Con este tipo de repositorio, los usuarios pueden acceder a los datos y analizarlos como deseen, sin tener que
trasladarlos a otro sistema. Por lo general, la información y los informes que se obtienen de un lago de datos se
generan según se requiera, en lugar de extraer un informe analítico de otra plataforma u otro tipo de repositorio
de datos de manera regular. Sin embargo, los usuarios podrían aplicar el esquema y la automatización para
posibilitar la duplicación de un informe, en caso de ser necesario.
Los lagos requieren control y mantenimiento constante para permitir el uso de los datos y el acceso a ellos. Sin
el mantenimiento, se corre el riesgo de que los datos se vuelvan inaccesibles, difíciles de manejar, costosos e
inútiles. Los lagos de datos a los que los usuarios no pueden acceder se denominan "pantanos de datos".
La diferencia entre el lago y el almacén de datos
Si bien ambos términos suelen confundirse, los lagos de datos y los almacenes de datos no son iguales y se
utilizan para distintos propósitos. La única similitud entre ambos es que son repositorios de almacenamiento de
datos para el big data. Muchas empresas utilizan ambas soluciones para satisfacer sus necesidades y objetivos
específicos.
La principal diferencia entre un almacén y un lago de datos es que el primero ofrece un modelo de datos
estructurados diseñado para generar informes; y el segundo almacena datos no estructurados y sin procesar,
sin un propósito definido.
Es necesario procesar los datos antes de colocarlos en un almacén, así que se debe decidir cuáles se incluirán,
lo que se conoce como "esquema de escritura".
Procesar los datos antes de colocarlos en un almacén puede ser difícil y requerir mucho tiempo. A veces, se
necesitan meses o incluso años, lo cual también impide su recopilación inmediata. En cambio con un lago puede
comenzar a recopilar datos de inmediato y decidir qué hacer con ellos en el futuro.
Los analistas de las empresas y las personas que utilizan los sistemas saben de antemano qué datos necesitan
para elaborar informes periódicos, así que utilizan los almacenes de datos con mayor frecuencia debido a su
estructura. En cambio, los analistas utilizan más el otro tipo de repositorio, ya que realizan investigaciones
utilizando los datos, y necesitan aplicarles filtros y análisis más avanzados para que puedan ser de utilidad.
Además, los lagos de datos y los almacenes de datos suelen utilizar diferentes sistemas de hardware para el
almacenamiento. Los almacenes de datos pueden ser costosos, mientras que los lagos de datos siguen siendo
económicos, pese a su gran tamaño, ya que generalmente utilizan un sistema de hardware básico.
La arquitectura del lago de datos
Un lago de datos tiene una arquitectura plana, ya que los datos pueden ser no estructurados, semiestructurados
o estructurados, y recopilarse de varias fuentes en toda la empresa. En cambio, en el almacén de datos se
guardan en archivos o carpetas. El lago de datos puede estar en las instalaciones o en la nube.
Debido a su arquitectura, los lagos de datos se pueden ampliar en gran medida hasta alcanzar los exabytes, lo
cual es importante porque cuando se crea uno de estos repositorios, generalmente no se sabe con antelación
el volumen de datos que deberá albergar. Los sistemas tradicionales de almacenamiento de datos no pueden
expandirse tanto.
Esta arquitectura representa un beneficio para los analistas, quienes pueden extraer y analizar los datos de toda
la empresa, además de compartirlos y realizar referencias cruzadas con ellos, y también los datos heterogéneos
pertenecientes a campos diferentes, para plantear preguntas y obtener información nueva. Además, pueden
aprovechar el aprendizaje automático y el análisis del big data para examinar los datos que se almacenan en
un lago.
A pesar de que los datos no tienen un esquema fijo antes de almacenarlos en un lago, es importante tener
control sobre ellos y etiquetarlos con metadatos al agregarlos, para garantizar que se pueda acceder a ellos
más adelante.
Gestión mejorada de las aplicaciones de IA/ML
En esta serie de webinars, conocerá la opinión de los especialistas sobre cómo simplificar la implementación y
la gestión del ciclo de vida de las aplicaciones de inteligencia artificial y aprendizaje automático (IA/ML), lo que
le permitirá diseñar, desarrollar en colaboración y compartir modelos de ML y aplicaciones de IA con mayor
rapidez.
¿Por qué conviene elegir Red Hat Data Services?
Las soluciones de almacenamiento abiertas y definidas por software de Red Hat le permiten trabajar más, crecer
más rápido y tener la tranquilidad de que sus datos se almacenan de forma segura, desde los documentos
financieros importantes hasta el contenido multimedia.
Gracias al almacenamiento definido por software, escalable y rentable, puede analizar grandes lagos de datos
para obtener una mejor visión de la empresa. Todas las soluciones de almacenamiento definido por software
de Red Hat se basan en la tecnología open source y aprovechan las innovaciones de la comunidad de
desarrolladores, partners y clientes. Gracias a ello, usted tendrá un control exacto sobre cómo se formatea y se
utiliza su almacenamiento según las cargas de trabajo, las necesidades y los entornos únicos de su empresa.

FUENTE: ¿Qué es un lago de datos? (s. f.). Recuperado 3 de octubre de 2022, de


https://www.redhat.com/es/topics/data-storage/what-is-a-data-
lake#:%7E:text=La%20diferencia%20entre%20el%20lago%20y%20el%20almac%C3%A9n%20de%20
datos,-
Si%20bien%20ambos&text=La%20principal%20diferencia%20entre%20un,procesar%2C%20sin%20u
n%20prop%C3%B3sito%20definido.
(¿Qué es un lago de datos?, s. f.)

También podría gustarte

  • PMBOK Cap 5
    PMBOK Cap 5
    Documento7 páginas
    PMBOK Cap 5
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • ITIC PW T51 201200048 Act7
    ITIC PW T51 201200048 Act7
    Documento11 páginas
    ITIC PW T51 201200048 Act7
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • ITIC PW T51 201200048 Act3
    ITIC PW T51 201200048 Act3
    Documento6 páginas
    ITIC PW T51 201200048 Act3
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • Reportes
    Reportes
    Documento1 página
    Reportes
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • EBOK 7 Unidad 1
    EBOK 7 Unidad 1
    Documento9 páginas
    EBOK 7 Unidad 1
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • Megaconstrucciones
    Megaconstrucciones
    Documento1 página
    Megaconstrucciones
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones
  • Análisis de Nodos.
    Análisis de Nodos.
    Documento4 páginas
    Análisis de Nodos.
    Cristian Edd Valle Gonzalez
    Aún no hay calificaciones