Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estructura de los datos: En un Data Warehouse, los datos se almacenan en una estructura
predefinida y organizada según un modelo de datos específico. En un Data Lake, los datos se
almacenan en su forma original, sin estructura ni organización predefinida.
Fuente de datos: Los Data Warehouse suelen contener datos provenientes de sistemas de
negocio, como transacciones financieras o registros de clientes. Los Data Lakes, en cambio,
pueden contener datos de cualquier fuente, incluyendo datos generados por sensores o
dispositivos IoT.
A cargo de administrar y analizar los datos corporativos, los equipos de analytics y big data
buscan fomentar negocios competitivos y “preparados para el futuro”. Para que esto suceda,
cuentan con tecnologías cada vez más sofisticadas para el almacenamiento y procesamiento
de datos. Los data warehouses y data lakes se encuentran entre las opciones más populares en
este sentido, cada uno con una arquitectura y un propósito específicos.
Antes de presentar los data warehouses y data lakes, debemos hablar sobre las categorías de
datos y ETL, el principal proceso de integración de datos digitales.
Tipos de Datos
Datos Estructurados
Ejemplos: hojas de cálculo y bases de datos (Excel, CSV, SQL, archivos JSON, entre otros).
Datos Semiestructurados
Como su nombre indica, se dan con cierta organización interna, pero no están del todo
estructurados.
Datos no Estructurados
Son datos sin una organización o jerarquía interna clara. Es la categoría más amplia y cubre la
mayor parte de los datos de la web.
Ejemplos: documentos de texto (archivos Word, PDF), archivos multimedia (imagen, audio y
video), correos electrónicos, mensajes de texto, datos de redes sociales, dispositivos móviles,
Internet de las cosas (IoT), entre otros.
ETL
ETL es el método más tradicional de integración de datos digitales, y cada término del
acrónimo designa un paso en el proceso. Mira la infografía y lee más a continuación:
Extracción (E): en esta fase, los datos se recolectan de diferentes sistemas organizacionales y
se llevan a un espacio temporal (staging area), donde se convierten al mismo formato para
transformación.
Transformación (T): los datos brutos se pulen y estandarizan según las necesidades de la
empresa. Al final de esta etapa, los datos están "limpios", estructurados y listos para el
almacenamiento.
Carga (L): los datos procesados se envían a un repositorio específico, donde se almacenarán de
forma segura y se activarán para consulta interna.
Desde finales de la década de 1970, cuando ETL se hizo popular, ha estructurado datos para su
almacenamiento en bancos como data warehouses. ¿Vamos a saber más sobre estos
repositorios?
Data Warehouse
Como literales "almacenes de datos", los data warehouses recopilan datos históricos para
clasificarlos en bloques semánticos, llamados relaciones. Por esta razón, el data warehouse es
una base de datos relacional, que contiene principalmente datos estructurados.
Los datos del data warehouse se distribuyen en subconjuntos denominados data marts
("mercados de datos"), que aceleran la recuperación y la entrega de datos a equipos
específicos. Una vez solicitados, los datos del data warehouse se ponen a disposición en modo
lectura, de acuerdo con la demanda de los analistas de big data y BI.
Unificados, libres de desviaciones e inconsistencias, los datos del data warehouse producen
análisis altamente precisos que, a su vez, generan información e insights estratégicos. En
resumen, por lo tanto: los data warehouses centralizan los datos relevantes para la empresa,
sistematizándolos de manera eficiente y apoyando la creación de estrategias comerciales
basadas en data-driven.
Con una cuidadosa planificación y ETL, los data warehouses agregan un enorme valor a las
decisiones organizacionales, siendo estructuras que permiten la optimización y aplicación
práctica de los datos almacenados.
Al tratar con datos de volumen, velocidad y una variedad sin precedentes (las 3 Vs del big
data), los gerentes de tecnología previeron el colapso de los sistemas tradicionales de gestión
de la información. La transformación de datos para uso corporativo se convirtió en una
operación muy costosa: primero, porque requería miles de terabytes de almacenamiento
(datos que no siempre eran relevantes). En segundo lugar, porque requiere cada vez más
tiempo de equipos dedicados, lo que requiere, por supuesto, mano de obra calificada.
Por lo tanto, hacer que la gestión de datos sea más eficiente, segura y económicamente
sostenible era un desafío urgente para las empresas. A principios de la década de 2000,
surgieron los primeros prototipos de una solución innovadora: el data lake.
Data Lake
¿Qué te viene a la mente cuando piensas en un lago? Quizás la idea de un gran tanque natural,
cuya agua se pueda filtrar para abastecer su entorno. Esta metáfora, creada por James Dixon,
uno de los fundadores de Pentaho, ayuda a comprender el concepto de data lake (“lago” o
depósito de datos).
A diferencia del data warehouse, el data lake es una base de datos no relacional. Es decir: es
un repositorio que no requiere
estructuración previa de datos, en el que
“fluye” en su formato original (estructurado,
semiestructurado o no estructurado).
Si el data lake es una estructura tan robusta, ¿cuál es la ventaja de mantenerlo? Almacenar los
datos en su totalidad y procesarlos bajo demanda, de forma escalable. El agua del lago, por
ejemplo, se puede filtrar para abastecer un camión de agua o botellas de 500 ml. Asimismo, los
datos del data lake (en gran parte no estructurados) son más flexibles, ya que no se han
enmarcado en esquemas predefinidos.
Los data lakes son manejados principalmente por ingenieros y científicos de datos,
responsables de diseñar la estructura, integrarla en el flujo de datos general y curar la gran
riqueza de datos derivados. En definitiva: es una solución que gestiona los datos de forma
económica y dinámica, alineando la empresa con las tendencias del mercado contemporáneo.
Para elegir la mejor opción para tu negocio, debes tener en cuenta criterios como el tamaño
de la empresa, los objetivos y las limitaciones de tus proyectos de big data. ¿Cuál es tu
prioridad en este momento: administrar los datos de manera más eficiente? ¿Obtener
información de inteligencia de mercado? ¿O fortalecer el área de innovación y soluciones
digitales?
Como regla general, los data lakes son adecuados para administrar datos no estructurados y
los data warehouses son esenciales para el análisis a gran escala. Sin embargo, conviene
recordar que los repositorios no son exclusivos. Al integrar el mismo flujo de administración de
datos, los data warehouses y data lakes combinan ventajas como una mayor productividad,
una mayor asertividad en el análisis y una mejor relación costo-beneficio.
Resolviendo este interrogante, podremos decidir el nivel de detalle y granularidad de los datos
a almacenar, provenientes de cada fuente.
¿Qué fuentes de información consultan? ¿En base a qué información arman sus reportes?
Muchas veces podemos encontrar fuentes de datos importantes en papeles, agendas, emails y
memos. El gran desafío será dilucidar cómo recopilar toda esa información.
De esta manera, determinaremos cómo tienen que relacionarse las distintas estructuras de
datos y podremos armar un modelo conceptual.
Una vez identificadas las fuentes de información necesarias, comienza el proceso de carga y
transformación de esos datos, para que se adapte al modelo y estructuras previamente
definidos.