Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MADERO
EQUIPO: 5
UNIDAD 4: PROYECTO
ÍNDICE
INTRODUCCIÓN .............................................................................................................................. 2
OBJETIVOS ...................................................................................................................................... 2
DATA WAREHOUSE ....................................................................................................................... 2
ARQUITECTURA ............................................................................................................................. 3
Staging ........................................................................................................................................... 3
Core ................................................................................................................................................ 4
Data Mart ....................................................................................................................................... 4
Access ............................................................................................................................................ 4
OPERACIONES ............................................................................................................................... 5
PROCESOS QUE LA CONFORMAN ........................................................................................... 6
Definición de los objetivos........................................................................................................... 8
Diseño y modelización ................................................................................................................. 8
Implementación............................................................................................................................. 9
Revisión ......................................................................................................................................... 9
HERRAMIENTAS DE DISEÑO .................................................................................................... 10
GLOSARIO ...................................................................................................................................... 12
CONCLUSIONES ........................................................................................................................... 12
BIBLIOGRAFÍA ............................................................................................................................... 12
1
INTRODUCCIÓN
OBJETIVOS
DATA WAREHOUSE
Según (IBM, IBM , 2021) Data warehouse es un sistema que agrega y combina
información de diferentes fuentes en un almacén de datos único y centralizado;
consistente para respaldar el análisis empresarial, la minería de datos, inteligencia
artificial (IA) y Machine Learning. Data warehouse permite a una organización o
empresa ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes)
de datos históricos de formas que una base de datos estándar simplemente no
puede.
Los data warehouses han sido parte de las soluciones de inteligencia empresarial
(BI) durante más de tres décadas, pero han evolucionado significativamente en los
últimos años. Tradicionalmente, un data warehouse tenía una implementación on-
2
premises, a menudo en un mainframe central, y su funcionalidad se centraba en
extraer datos de otras fuentes, limpiar y preparar la información, y cargar y mantener
los documentos en una base de datos relacional (Relational Database). Hoy en día,
un Data warehouse puede estar alojado en un dispositivo dedicado o en la nube, y
la mayoría de los data warehouses han agregado capacidades de análisis y
herramientas de visualización y presentación de datos. Todo lo anterior hace que
los reportes provenientes de este data warehouse se vean enriquecidos debido a la
diversidad de las fuentes. Un ejemplo, en lugar de solo tener información
proveniente de marketing, tendremos información proveniente de producción,
marketing, ventas, business Partners y más, haciendo posible la detección de
patrones, tendencias e insights que nos ayuden a tomar mejores decisiones de
negocio.
ARQUITECTURA
La arquitectura del Data Warehouse consta de tres capas, definidas como Data
Modeling & Design, más una de capa destinada al acceso de datos.
Staging
Consiste en una copia directa de los datos en bruto de los sistemas fuentes (Source
Systems) En esta capa no se aplica ningún tipo de transformación de datos ni reglas
de negocio. Cada sistema fuente se almacena en un esquema diferente dentro de
la capa de Staging.
3
Core
En esta capa se deben definir cuáles serán las Claves únicas de negocio para su
posterior relación entre conceptos (por ejemplo, identificador único de cliente o de
producto, transversal a toda la compañía). No se aplica ninguna regla de negocio,
únicamente se limpian, transforman e integran los datos para enriquecer a la
siguiente capa de áreas temáticas.
Data Mart
En esta capa se almacenan todos los cubos y dimensiones de las diferentes áreas
temáticas. Estos datos serán explotados posteriormente por el sistema de reporting.
Aquí es donde se aplican las reglas de negocio, ya que en función del área temática
éstas pueden variar.
La granularidad de los datos puede cambiar, ya que en esta capa se suelen realizar
los cálculos y agregaciones para que el sistema de reporting sea capaz de presentar
los datos de forma eficaz.
Access
Esta capa actúa como interfaz entre el Data Warehouse y el sistema de reporting u
otras aplicaciones externas de visualización y análisis de datos. Cada unidad de
negocio tendrá asociado un esquema que tendrá permisos para ver los datos
asociados de la unidad de negocio.
4
de procesos de carga (Data Storage & Operation). Esta parte nos permite
promocionar los cambios en el código a los diferentes entornos minimizando
errores.
Los procesos de carga deben ser monitorizados para asegurar que los datos han
sido actualizados correctamente. Los metadatos nos ayudarán a realizar estas
tareas de auditoria entre otras como detección de malos rendimientos en las cargas,
calidad del desarrollo, etc (Saldaña, 2017).
OPERACIONES
5
con las estructuras antes descritas gestionada con Postgresql. En ella se
almacenan los datos provenientes del sistema de cuestionarios de instituciones,
recursos humanos y proyectos de investigación, alimentados por la red de
instituciones de los países participantes en el proyecto. Mediante el procedimiento
de extraer, transformar y cargar se depuran y sintetizan los datos que son incluidos
en el data warehouse y se crean los metadatos. Finalmente se actualiza en forma
masiva el data warehouse, residente en un servidor UNIX, para ser consultada por
los usuarios finales. No está representado en estas operaciones el acceso a datos
externo debido a que, por el momento, este diseño no tiene prevista la integración
de datos provenientes de fuentes externas con los del sistema operacional
(Calderón, 2018).
"Un Data Warehouse no se puede comprar, se tiene que construir". Como hemos
mencionado con anterioridad, la construcción e implantación de un Data Warehouse
es un proceso evolutivo.
Este proceso se tiene que apoyar en una metodología específica para este tipo de
procesos, si bien es más importante que la elección de la mejor de las metodologías,
el realizar un control para asegurar el seguimiento de la misma.
6
En las fases que se establezcan en el alcance del proyecto es fundamental el incluir
una fase de formación en la herramienta utilizada para un máximo aprovechamiento
de la aplicación. El seguir los pasos de la metodología y el comenzar el Data
Warehouse por un área específica de la empresa, nos permitirá obtener resultados
tangibles en un corto espacio de tiempo.
7
Definición de los objetivos
Tal como sucede en todo tipo de proyectos, sobre todo si involucran técnicas
novedosas como son las relativas al Data Warehouse, es analizar las necesidades
y hacer comprender las ventajas que este sistema puede reportar.
Es por ello por lo que nos remitimos al apartado de esta guía de Análisis de las
necesidades del comprador. Será en este punto, en donde detallaremos los pasos
a seguir en un proyecto de este tipo, en donde el usuario va a jugar un papel tan
destacado.
Diseño y modelización
En esta fase se identificarán las fuentes de los datos (sistema operacional, fuentes
externas) y las transformaciones necesarias para, a partir de dichas fuentes, obtener
el modelo lógico de datos del Data Warehouse. Este modelo estará formado por
entidades y relaciones que permitirán resolver las necesidades de negocio de la
organización.
La mayor parte estas definiciones de los datos del Data Warehouse estarán
almacenadas en los metadatos y formarán parte del mismo.
8
Implementación
Revisión
La construcción del Data Warehouse no finaliza con la implantación del mismo, sino
que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo
de las experiencias anteriores.
9
Después de implantarse, debería realizarse una revisión del Data Warehouse
planteando preguntas que permitan, después de los seis o nueve meses posteriores
a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en
función de la utilización que se haga del nuevo sistema (IBM, Implementation Data
Warehouses, 2019).
HERRAMIENTAS DE DISEÑO
10
El software comercial de BI con cierto renombre suele distinguirse por una elevada
fiabilidad, una gama de funciones acorde con los Service Level Agreements (SLA)
y una atención al cliente de gran calidad, pero también por el coste de su adquisición
o de su utilización como servicio en la nube (Henz, 2018).
Ilustración 3: Tabla 1
11
GLOSARIO
CONCLUSIONES
El Data Warehouse significa una ventaja competitiva ya que aporta datos fiables y
de calidad, lo que se traducirá en mejores decisiones por parte de la empresa.
También unifica todas las bases de datos en un mismo lugar y crea unos estándares
para análisis posteriores.
BIBLIOGRAFÍA
12