Está en la página 1de 10

Asignatura: Data Warehouse

Especialización en Analítica de Datos

Guía de Desarrollo de un Data Warehouse


Simplificado
Introducción

En la era del Big Data, la capacidad de recolectar, almacenar y analizar datos se ha


vuelto fundamental para prácticamente todos los sectores empresariales. Los data
warehouses (almacenes de datos) desempeñan un papel central en este ecosistema,
sirviendo como el puente entre la gran cantidad de datos recolectados y los insights
valiosos que impulsan decisiones estratégicas.

Para un Gerente de Datos o un especialista en Analítica de Datos, comprender el


proceso detrás de un data warehouse no es solo una habilidad técnica, sino una
competencia crucial que afecta la integridad, accesibilidad y utilidad de los datos.

El proceso detrás de un data warehouse implica mucho más que simplemente


almacenar datos. Requiere una planificación meticulosa, una comprensión profunda de
los objetivos empresariales y una implementación técnica precisa. Aquí radica la
importancia de aprender técnicamente cómo funcionan los data warehouses. Si bien
las herramientas y plataformas pueden variar, los principios fundamentales, desde la
extracción y transformación hasta la carga y consulta de datos, se mantienen
consistentes. Al comprender estos principios desde una perspectiva técnica, un
profesional de datos está mejor equipado para garantizar que los datos sean precisos,
relevantes y estén listos para el análisis.

Aunque adoptamos un enfoque simplificado utilizando herramientas accesibles, la


esencia del proceso y los conceptos clave se mantienen intactos. Esta base servirá
como un trampolín hacia plataformas y procesos más avanzados en su viaje por el
mundo de la gestión de datos.
Disclaimer

Es importante destacar que esta guía tiene fines puramente educativos. En el mundo
real y profesional, un data warehouse no se construiría ni alojaría en una herramienta
como Excel o Google Sheets debido a cuestiones de escalabilidad, rendimiento,
seguridad, entre otros factores. Sin embargo, para propósitos de aprendizaje y para
tener una primera experiencia práctica, esta aproximación simplificada puede ser útil.
Stack tecnológico a utilizar

Proceso Herramienta Detalle

ETL KNIME KNIME es una plataforma de análisis,


informes e integración de datos de
código abierto que nos permite extraer
información de diversas fuentes de una
manera visual y sin la necesidad de
código.

Por su naturaleza de código abierto y


por su capacidad para manejar de
manera fluida el proceso ETL es ideal
para nuestra práctica.

El Data Google Sheets Leer el disclaimer anterior.


Warehouse
(Pueden utilizar el
google sheets de su
cuenta de estudiante de
la CUN)

Visualización y Looker Esta herramienta de visualización


Análisis permite a los usuarios explorar datos,
Esta herramienta la crear visualizaciones dinámicas y
pueden obtener grátis diseñar dashboards interactivos.
con la cuenta de
estudiante de la CUN Su enfoque en la visualización
dinámica y la facilidad de uso lo
convierten en una excelente opción
para aquellos que buscan obtener
insights rápidos y presentables de sus
datos.
Al Crear este Data Warehouse que aprenderé como
especialista en Análitica y Datos

Comprensión Holística:
● Lograr una comprensión completa y funcional del proceso end-to-end del data
warehouse, desde la extracción de datos hasta su visualización.

Manejo Práctico de Herramientas


● Familiarizarse con herramientas líderes en la industria como KNIME y Looker, y
comprender cómo se integran en un flujo de trabajo de gestión de datos.

Desarrollo de Habilidades Analíticas:


● Fortalecer la capacidad de tomar datos crudos, procesarlos y convertirlos en
insights accionables, una habilidad invaluable en cualquier rol gerencial.

Optimización de la Toma de Decisiones


● Entender cómo un data warehouse bien gestionado puede acelerar y mejorar la
toma de decisiones en cualquier negocio.

Colaboración
● Aprender a compartir y presentar insights de datos de manera efectiva,
utilizando plataformas colaborativas.

Calidad de los Datos


● Reconocer la importancia de la calidad y la integridad de los datos en un entorno
empresarial, y cómo impactan en los resultados y decisiones finales.
Paso a Paso

1. Contar con una base de datos inicial (Opcional: pueden utilizar tantas bases de
datos como deseen, mi recomendación es iniciar con una base de datos y luego
intenten utilizar otras adicionales), algunos ejemplos de formatos podrán ser:

a. Un Archivo CSV con datos


b. Un archivo txt (archivo plano) con datos
c. Un archivo de excel

2. Descargar e instalación de herramienta de ETL:

a. Descargue e instale KNIME desde su página oficial.


b. Asegúrese de tener acceso a Google Drive

3. Importando datos con KNIME:

a. Abra KNIME y cree un nuevo proyecto.


b. Busque y arrastre al área de trabajo el nodo "File Reader" para cargar su
archivo plano.
c. Configure el nodo con la ruta de su archivo y revise la vista previa para
asegurarse de que los datos se leen correctamente.
d. Ejecute el nodo para cargar los datos.

4. Transformación de Datos en KNIME:

a. Para filtrar los datos, busque y añada el nodo "Row Filter". Conéctelo al
nodo "File Reader".
b. Configure el nodo "Row Filter" según los filtros que desee aplicar a sus
datos.
c. Ejecute el nodo y verifique que los datos se han filtrado correctamente.

5. Cargando Datos en Google Sheets:

a. Antes de continuar en KNIME, crea un archivo de Google Sheets vacío en


tu Google Drive.
b. En KNIME, busque y añada el nodo "Google Sheets Writer". Conéctelo al
nodo "Row Filter" o al último nodo que haya utilizado.
c. Configure el nodo proporcionando las credenciales de su cuenta de
Google y seleccionando el archivo de Google Sheets previamente creado.
d. Ejecute el nodo. Esto escribirá los datos transformados en su archivo de
Google Sheets. Este archivo en google sheets se convertirá en nuestro
Data Warehouse.

6. Visualización con Looker:

a. Acceda a Looker y conecte su cuenta de Google Drive para acceder al


archivo de Google Sheets (El Data Warehouse).
b. Siga las instrucciones de Looker para cargar y visualizar los datos desde
Google Sheets.
c. Explore las diferentes visualizaciones y dashboards para obtener insights
de sus datos. Es importante que desarrolle el modelo de reporte que creó
en la primera entrega de su trabajo.
Aclaraciones Importantes

Aunque recomiendo Google Sheets como núcleo principal para el Data Warehouse en
este ejercicio, quiero enfatizar que cada uno tiene la libertad de elegir la herramienta
que más le convenga o con la que se sienta más cómodo. Algunas alternativas
incluyen:

● Excel
● Maria DB
● PostgreSQL
● MS Access
● Entre otras

KNIME ofrece la posibilidad de conectarse a diversos motores de bases de datos,


potencialmente más robustos. Sin embargo, es importante tener en cuenta que,
dependiendo de la herramienta seleccionada, se pueden necesitar habilidades técnicas
más avanzadas.

Si desean explorar diferentes combinaciones, aquí les dejo sugerencias:

Herramienta ETL Data Warehouse Visualización

PowerBI Excel/Google Sheets PowerBI

KNIME Maria DB Looker

Talend PostgreSQL PowerBI/looker/Tableau. etc

SSIS SQL Server PowerBI/looker/Tableau. etc

Recuerden, el objetivo es que se familiaricen con el proceso, así que elijan la


combinación que les permita aprender y desarrollarse de la mejor manera.
Que debe Incluir la segunda entrega(Checklist):

Para la siguiente entrega, deberán considerar los siguientes elementos y directrices


evaluativas:

El entregable consistirá en una versión avanzada del documento presentado en la


primera entrega. Esto implica:

● Incorporación de Retroalimentación: Integren las correcciones y comentarios


que les proporcioné anteriormente, con especial énfasis en:
Estrategias a seguir si la ETL falla y la relevancia estratégica de estas.
Establecimiento de la frecuencia con la que se ejecutará la ETL y por que
es estratégico.

● Workflow Integral: En sus casas, desarrollen y documenten un flujo de trabajo


inicial que abarque ETL, Data Warehouse y Visualización. Para esta entrega:

Incluyan capturas de pantalla de cada etapa del flujo que han


configurado.

● Desarrollo y Justificación del Proceso ETL:

En la fase de Transformación, detallen las validaciones implementadas y


justifiquen su inclusión. Espero ver un nivel de detalle más profundo que
en la entrega anterior.
Reflexionen y propongan pasos adicionales que podrían incorporar en la
Transformación para actualizar diariamente los datos generados por los
usuarios y cargarlos sin inconvenientes al Data Warehouse. Esta parte
requerirá de investigación previa, y solo se requerirá de argumentar más
no de reflejar en esta entrega en ETL práctico.

● Proceso de Carga en el Data Warehouse:


Analicen y expliquen las implicaciones y procedimientos en esta etapa.

● Visualización de Datos:
Documenten detalladamente el proceso llevado a cabo en esta etapa.
Incluyan capturas de pantalla del informe/reporte/dashboard ya
sincronizado con el Data Warehouse.
Justifiquen el diseño de su reporte, explicando qué información se
presenta al usuario, por qué se eligió esa información y con qué
frecuencia se prevé que los usuarios accedan a ella.
Recursos de referencia para su proyecto

● ETL con Knime:


https://www.youtube.com/watch?v=j3YhdEgu0Z0&t=85s&ab_channel=KNIMETV
● Knime y Postgres:
https://www.youtube.com/watch?v=yhCiWLkQZCY&ab_channel=AlexanderPati%
C3%B1o
● Introducción a Knime:
https://www.youtube.com/watch?v=QKqHl3qeoRQ&list=PLIGnb3JB-NKyMdX6fJ
wP1MW2DeVo-G3Cx&ab_channel=IQuartil
● Conectando Knime con una Base de Datos:
https://www.youtube.com/watch?v=1iph-I6ZoxM&ab_channel=UnInformaticoPeru
ano
● Recursos en Ingles sobre Knime y Google Sheets:
https://hub.knime.com/knime/extensions/org.knime.features.google.api/latest/org.
knime.google.api.sheets.nodes.connector.GoogleSheetsConnectorFactory

La vasta mayoría de la documentación de alta calidad en la web está en inglés. Si no


dominas el idioma, te sugiero usar el traductor automático de Google para facilitar tu
comprensión. En el caso de los videos, es aconsejable seguir el flujo presentado y
replicarlo conforme a las instrucciones proporcionadas.

También podría gustarte