Está en la página 1de 10

Luishiño Pericena Choque

Data Warehouse y Data Lake: ¿Cuáles son las diferencias?


Tanto los Data Warehouse como los Data Lake son tecnologías de almacenamiento de datos,
pero difieren en varios aspectos:

Estructura de los datos: En un Data Warehouse, los datos se almacenan en una estructura
predefinida y organizada según un modelo de datos específico. En un Data Lake, los datos se
almacenan en su forma original, sin estructura ni organización predefinida.

Fuente de datos: Los Data Warehouse suelen contener datos provenientes de sistemas de
negocio, como transacciones financieras o registros de clientes. Los Data Lakes, en cambio,
pueden contener datos de cualquier fuente, incluyendo datos generados por sensores o
dispositivos IoT.

Procesamiento de datos: En un Data Warehouse, los datos se procesan y transforman antes de


ser almacenados, lo que permite una mayor consistencia y calidad de los datos. En un Data
Lake, los datos se almacenan sin procesar, lo que permite una mayor flexibilidad para
analizarlos posteriormente.

Herramientas de análisis: Los Data Warehouse suelen utilizar herramientas de análisis


estructuradas, como SQL, para realizar consultas y análisis de datos. Los Data Lakes suelen
utilizar herramientas de análisis más flexibles, como lenguajes de programación como Python
o R.

En resumen, mientras que un Data Warehouse se enfoca en la consolidación de datos


estructurados y procesados, un Data Lake es un almacenamiento de datos sin procesar y no
estructurado que permite una mayor flexibilidad en el análisis de datos.
¿Cuáles son las diferencias?

En el contexto de la transformación digital en las empresas, la inteligencia analítica se ha


convertido en uno de los principales pilares de la gestión estratégica. Especialmente en la
última década, el análisis de big data se ha desarrollado para mantenerse al día con los rápidos
cambios del mercado – provocado, entre otros fenómenos, por el crecimiento de las redes
sociales, el e-commerce y la tecnología móvil.

A cargo de administrar y analizar los datos corporativos, los equipos de analytics y big data
buscan fomentar negocios competitivos y “preparados para el futuro”. Para que esto suceda,
cuentan con tecnologías cada vez más sofisticadas para el almacenamiento y procesamiento
de datos. Los data warehouses y data lakes se encuentran entre las opciones más populares en
este sentido, cada uno con una arquitectura y un propósito específicos.

Clasificación e Integración de Datos

Antes de presentar los data warehouses y data lakes, debemos hablar sobre las categorías de
datos y ETL, el principal proceso de integración de datos digitales.

Tipos de Datos

Datos Estructurados

Son datos formateados según


parámetros específicos, para
organización en esquemas
relacionales. Uno de los principales
formatos de datos estructurados son
las tablas, que se distribuyen en filas y
columnas con valores
predeterminados.

Ejemplos: hojas de cálculo y bases de datos (Excel, CSV, SQL, archivos JSON, entre otros).

Datos Semiestructurados

Como su nombre indica, se dan con cierta organización interna, pero no están del todo
estructurados.

Ejemplos: archivos web (HTML, XML, OWL, entre otros).

Datos no Estructurados

Son datos sin una organización o jerarquía interna clara. Es la categoría más amplia y cubre la
mayor parte de los datos de la web.
Ejemplos: documentos de texto (archivos Word, PDF), archivos multimedia (imagen, audio y
video), correos electrónicos, mensajes de texto, datos de redes sociales, dispositivos móviles,
Internet de las cosas (IoT), entre otros.

ETL

En inglés, ETL es un acrónimo de Extract (Extraer), Transform (Transformar) y Load (Cargar).

ETL es el método más tradicional de integración de datos digitales, y cada término del
acrónimo designa un paso en el proceso. Mira la infografía y lee más a continuación:

ETL: ¿Cómo funciona el proceso?

Extracción (E): en esta fase, los datos se recolectan de diferentes sistemas organizacionales y
se llevan a un espacio temporal (staging area), donde se convierten al mismo formato para
transformación.

Transformación (T): los datos brutos se pulen y estandarizan según las necesidades de la
empresa. Al final de esta etapa, los datos están "limpios", estructurados y listos para el
almacenamiento.

Carga (L): los datos procesados se envían a un repositorio específico, donde se almacenarán de
forma segura y se activarán para consulta interna.

Desde finales de la década de 1970, cuando ETL se hizo popular, ha estructurado datos para su
almacenamiento en bancos como data warehouses. ¿Vamos a saber más sobre estos
repositorios?

Data Warehouse

Como literales "almacenes de datos", los data warehouses recopilan datos históricos para
clasificarlos en bloques semánticos, llamados relaciones. Por esta razón, el data warehouse es
una base de datos relacional, que contiene principalmente datos estructurados.

Los datos del data warehouse se distribuyen en subconjuntos denominados data marts
("mercados de datos"), que aceleran la recuperación y la entrega de datos a equipos
específicos. Una vez solicitados, los datos del data warehouse se ponen a disposición en modo
lectura, de acuerdo con la demanda de los analistas de big data y BI.
Unificados, libres de desviaciones e inconsistencias, los datos del data warehouse producen
análisis altamente precisos que, a su vez, generan información e insights estratégicos. En
resumen, por lo tanto: los data warehouses centralizan los datos relevantes para la empresa,
sistematizándolos de manera eficiente y apoyando la creación de estrategias comerciales
basadas en data-driven.

Con una cuidadosa planificación y ETL, los data warehouses agregan un enorme valor a las
decisiones organizacionales, siendo estructuras que permiten la optimización y aplicación
práctica de los datos almacenados.

Big Data y la Revolución de los Datos

Desde la década de 1990, el uso comercial y doméstico de Internet ha despegado, acelerando


la generación de datos y el tráfico en la web. Este fenómeno dio lugar al concepto de big data,
revelando también las limitaciones del data warehouses y repositorios relacionados, como las
bases de datos (databases).

Al tratar con datos de volumen, velocidad y una variedad sin precedentes (las 3 Vs del big
data), los gerentes de tecnología previeron el colapso de los sistemas tradicionales de gestión
de la información. La transformación de datos para uso corporativo se convirtió en una
operación muy costosa: primero, porque requería miles de terabytes de almacenamiento
(datos que no siempre eran relevantes). En segundo lugar, porque requiere cada vez más
tiempo de equipos dedicados, lo que requiere, por supuesto, mano de obra calificada.

Por lo tanto, hacer que la gestión de datos sea más eficiente, segura y económicamente
sostenible era un desafío urgente para las empresas. A principios de la década de 2000,
surgieron los primeros prototipos de una solución innovadora: el data lake.
Data Lake

¿Qué te viene a la mente cuando piensas en un lago? Quizás la idea de un gran tanque natural,
cuya agua se pueda filtrar para abastecer su entorno. Esta metáfora, creada por James Dixon,
uno de los fundadores de Pentaho, ayuda a comprender el concepto de data lake (“lago” o
depósito de datos).

A diferencia del data warehouse, el data lake es una base de datos no relacional. Es decir: es
un repositorio que no requiere
estructuración previa de datos, en el que
“fluye” en su formato original (estructurado,
semiestructurado o no estructurado).

Una vez derivados de los sistemas y


aplicaciones corporativos, los datos se llevan
al data lake "saltando" la etapa T de ETL
(transformación). Sin este tratamiento, el repositorio almacena gigantescos volúmenes de
datos de cualquier tipo y escala, alcanzando cientos de petabytes (¡1 PB es más de mil
terabytes!).

Si el data lake es una estructura tan robusta, ¿cuál es la ventaja de mantenerlo? Almacenar los
datos en su totalidad y procesarlos bajo demanda, de forma escalable. El agua del lago, por
ejemplo, se puede filtrar para abastecer un camión de agua o botellas de 500 ml. Asimismo, los
datos del data lake (en gran parte no estructurados) son más flexibles, ya que no se han
enmarcado en esquemas predefinidos.

Además de ahorrar tiempo y costos de almacenamiento, el data lake facilita la automatización


de procesos y la innovación basada en datos, impulsando la transformación digital de las
empresas. Los datos se pueden "personalizar" para proyectos en todas las áreas, además de la
creación de algoritmos de deep learning. También se pueden estructurar para su asignación en
data warehouses, donde se utilizarán en análisis estratégicos.

Los data lakes son manejados principalmente por ingenieros y científicos de datos,
responsables de diseñar la estructura, integrarla en el flujo de datos general y curar la gran
riqueza de datos derivados. En definitiva: es una solución que gestiona los datos de forma
económica y dinámica, alineando la empresa con las tendencias del mercado contemporáneo.
Para elegir la mejor opción para tu negocio, debes tener en cuenta criterios como el tamaño
de la empresa, los objetivos y las limitaciones de tus proyectos de big data. ¿Cuál es tu
prioridad en este momento: administrar los datos de manera más eficiente? ¿Obtener
información de inteligencia de mercado? ¿O fortalecer el área de innovación y soluciones
digitales?

Como regla general, los data lakes son adecuados para administrar datos no estructurados y
los data warehouses son esenciales para el análisis a gran escala. Sin embargo, conviene
recordar que los repositorios no son exclusivos. Al integrar el mismo flujo de administración de
datos, los data warehouses y data lakes combinan ventajas como una mayor productividad,
una mayor asertividad en el análisis y una mejor relación costo-beneficio.

Finalmente, otro punto a evaluar es el modelo de almacenamiento: local (on-premises), en la


nube (cloud) o híbrido. El almacenamiento en la nube se ha vuelto popular por su escalabilidad
y bajo costo, ya que no requiere integración con sistemas locales. Los ingenieros de datos y
otros expertos pueden guiarte tú y a tu equipo para planificar el arreglo más seguro y funcional
para tu empresa.
Ventajas y desventajas de Data Lake
Beneficios:
No hay necesidad de descartar datos
Puede nutrir a diversos usuarios de una empresa
Se adapta fácilmente a los cambios
Al poder integrarse tipos de datos muy distintos, se puede realizar todo tipo de análisis
Permite fácilmente agregar nueva data
Desventajas:
No está pensado para acceder a los datos de manera performante
Cada vez que se requieren datos, hay que transformarlos y curarlos para el uso que se les
quiera dar
Demanda invertir en generar estándares de buenas prácticas a nivel organizacional
Data Warehouse: Ventajas y desventajas
Beneficios:
La data está lista para ser usada
Buena performance en el acceso a los datos
La mayoría de los usuarios de una empresa son operacionales, data warehouse es ideal para
ellos
Es muy adecuado para generar reportes y métricas
Desventajas:
Mayores costos de almacenamiento, lo que implica pensar bien qué data es realmente
necesaria
No es flexible a cambios
Demanda inversión de tiempo antes del almacenamiento para decidir esquemas, formatos y
casos de uso
¿Cómo se implementa el Data Warehouse?
1. Determinar los objetivos del negocio
Es importante conocer el fin que se le busca dar, ya que no es lo mismo si queremos, por
ejemplo, generar reportes o sacar métricas claves para la toma de decisiones en la startup.

¿Para qué queremos usar la data almacenada?

Resolviendo este interrogante, podremos decidir el nivel de detalle y granularidad de los datos
a almacenar, provenientes de cada fuente.

2. Recopilar y analizar información


Una vez que conocemos el para qué, es importante identificar con los colaboradores de
nuestra empresa qué uso se hará de la información:

¿Qué fuentes de información consultan? ¿En base a qué información arman sus reportes?

Muchas veces podemos encontrar fuentes de datos importantes en papeles, agendas, emails y
memos. El gran desafío será dilucidar cómo recopilar toda esa información.

Para lograr un total conocimiento de cómo acumular y procesar la información, es


fundamental una estrecha interacción con los usuarios que vayan a usar el Data Warehouse
dentro de la empresa.
3. Identificar procesos clave del negocio y modelado
En esta instancia, en la que ya sabemos qué uso se le darán a los datos y qué información es
relevante, debemos identificar las otras empresas que se relacionan con nuestra startup y
cómo son esos procesos de interrelación.

De esta manera, determinaremos cómo tienen que relacionarse las distintas estructuras de
datos y podremos armar un modelo conceptual.

4. Determinar fuentes y planificar transformaciones de los datos


Ahora que ya sabemos qué información necesitamos y qué estructura le daremos, sólo resta
obtener toda esa información.

Una vez identificadas las fuentes de información necesarias, comienza el proceso de carga y
transformación de esos datos, para que se adapte al modelo y estructuras previamente
definidos.

5. Determinar tiempo de vida de los datos


Finalmente queda decidir por cuánto tiempo los distintos datos estarán disponibles.

Como ya sabemos, guardar información en un data warehouse es costoso. Por lo tanto, al ir


agregando nueva información constantemente, debemos decidir la “fecha de caducidad” de la
información almacenad

También podría gustarte